Come Funziona L'intelligenza Artificiale: Riconoscimento Vocale - Visualizzazione Alternativa

Sommario:

Come Funziona L'intelligenza Artificiale: Riconoscimento Vocale - Visualizzazione Alternativa
Come Funziona L'intelligenza Artificiale: Riconoscimento Vocale - Visualizzazione Alternativa

Video: Come Funziona L'intelligenza Artificiale: Riconoscimento Vocale - Visualizzazione Alternativa

Video: Come Funziona L'intelligenza Artificiale: Riconoscimento Vocale - Visualizzazione Alternativa
Video: Riconoscimento vocale con DeepSpeech - Stefania Delprete 2024, Settembre
Anonim

Ognuno di noi si trova di fronte a un fenomeno così misterioso come l'intelligenza artificiale nella vita di tutti i giorni: è lui che consente agli assistenti vocali e ai motori di ricerca di riconoscere il linguaggio umano e indovinare i desideri degli utenti. Oggi parleremo esattamente di come è organizzata questa tecnologia e quali prospettive attendono quest'area di sviluppo nel prossimo futuro.

L'intelligenza artificiale è un termine molto ampio, nel cui quadro esistono già molti algoritmi e sono ancora in fase di sviluppo, progettati per eseguire una vasta gamma di compiti pratici. Ma di cosa sono effettivamente capaci i moderni programmi di intelligenza artificiale e su quali principi sono guidati durante il loro lavoro? Oggi parleremo di una delle caratteristiche chiave della mente macchina, che ognuno di noi incontra regolarmente nella vita di tutti i giorni: la capacità degli assistenti vocali di riconoscere il linguaggio umano.

Riconoscimento vocale

Per misurare la voce, il programma utilizza una serie di parametri del suono: la frequenza e la lunghezza dell'onda sonora in un determinato momento. Ad esempio, quando chatti con il popolare assistente vocale Alexa, il software divide la tua voce in diapositive da 25 millisecondi, quindi converte ciascuno dei segmenti in firme digitali. Dopodiché, i blocchi della firma vengono confrontati con il catalogo interno dei suoni del programma fino a quando il numero di corrispondenze è sufficientemente alto da consentire all'IA di "tradurre" i numeri in una query alfabetica che comprende.

Image
Image

Guarda lo schermo del tuo telefono mentre usi Siri o l'Assistente Google e vedrai che il vocabolario cambia mentre pronunci le parole. Ciò accade per il fatto che ad ogni "passaggio" successivo il software confronta anche il risultato ottenuto con il database interno e costruisce parole a seconda delle corrispondenze. Secondo Rohit Prasad, chief scientist della divisione Alexa di Amazon, "il modello linguistico impara molti miliardi di parole sotto forma di testo". Anche l'ordine delle parole gioca un ruolo importante: lo si può notare anche con l'aiuto del solito motore di ricerca di Google, che a volte fornisce dati diversi per query identiche, in cui sono state riorganizzate solo un paio di parole.

Video promozionale:

Prospettive del riconoscimento vocale

Alan Black del Carnegie Institute for Language Technology sostiene che per tutti i professionisti delle grandi aziende, la cosa più interessante è trovare il limite del proprio sistema. "Quando il programma dice:" Non posso farlo ", la situazione diventa davvero interessante", scherza. Tuttavia, questo è davvero il caso: rispondere a richieste imprevedibili degli utenti è anche uno dei compiti principali su cui stanno indagando le cerchie studentesche che competono per il Premio Alexa - e questo è fino a $ 2,5 milioni. Il loro compito è creare un chatbot progettato per comunicare con persone che pongono domande coerenti e significative. Le informazioni in questo caso vengono aggiornate ogni 20 minuti. Sembra un compito abbastanza facile anche per un programmatore medio,ma in pratica, la comunicazione del programma con persone reali è sempre associata a deviazioni dall'argomento del dialogo, frasi spontanee e altre violazioni. Un programma che impara a lavorare con loro così come con una persona reale rappresenterà un enorme passo avanti per l'intero settore dell'IA.

Vasily Makarov

Raccomandato: