Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Sommario:

Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa
Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Video: Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Video: Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa
Video: Intelligenza Emotiva per la Performance: il Neural Network Report 2024, Aprile
Anonim

L'anno scorso, la società di tecnologia di intelligenza artificiale DeepMind ha condiviso i dettagli sul suo nuovo progetto WaveNet, una rete neurale di apprendimento profondo utilizzata per sintetizzare il discorso umano realistico. Di recente è stata rilasciata una versione migliorata di questa tecnologia, che verrà utilizzata come base dell'assistente mobile digitale Google Assistant.

Un sistema di sintesi vocale (noto anche come funzione di sintesi vocale, TTS) è solitamente costruito attorno a uno dei due metodi di base. Il metodo concatenativo (o compilazione) prevede la costruzione di frasi raccogliendo singoli brani di parole registrate e parti precedentemente registrate con il coinvolgimento di un doppiatore. Lo svantaggio principale di questo metodo è la necessità di sostituire costantemente la libreria di suoni ogni volta che vengono effettuati aggiornamenti o modifiche.

Un altro metodo è chiamato TTS parametrico e la sua caratteristica è l'uso di set di parametri con i quali il computer genera la frase desiderata. Lo svantaggio del metodo è che molto spesso il risultato si manifesta sotto forma di suono non realistico o cosiddetto robotico.

WaveNet, d'altra parte, produce onde sonore da zero utilizzando un sistema di rete neurale convoluzionale in cui il suono viene generato in diversi strati. In primo luogo, per addestrare la piattaforma a sintetizzare il parlato "dal vivo", viene "alimentata" un'enorme quantità di campioni, notando quali segnali sonori suonano realistici e quali no. Ciò conferisce al sintetizzatore vocale la capacità di riprodurre intonazione naturalistica e persino dettagli come lo schiocco delle labbra. A seconda di quali campioni di parlato vengono eseguiti nel sistema, questo gli consente di sviluppare un "accento" unico, che a lungo andare può essere utilizzato per creare molte voci diverse.

Affilato sulla lingua

Forse il limite più grande del sistema WaveNet era che richiedeva un'enorme quantità di potenza di calcolo per funzionare, e anche quando questa condizione veniva soddisfatta, non differiva in velocità. Ad esempio, è stato necessario circa 1 secondo di tempo per generare 0,02 secondi di suono.

Dopo un anno di lavoro, gli ingegneri di DeepMind hanno ancora trovato un modo per migliorare e ottimizzare il sistema in modo che ora sia in grado di produrre un suono grezzo di un secondo in soli 50 millisecondi, che è 1000 volte più veloce delle sue capacità originali. Inoltre, gli specialisti sono riusciti ad aumentare la frequenza di campionamento audio da 8 bit a 16 bit, il che ha avuto un effetto positivo sui test che hanno coinvolto gli ascoltatori. Questi successi hanno spianato la strada all'integrazione di WaveNet in prodotti di consumo come Google Assistant.

Video promozionale:

Attualmente WaveNet può essere utilizzato per generare voci in inglese e giapponese tramite Google Assistant e tutte le piattaforme che utilizzano questo assistente digitale. Poiché il sistema può creare un tipo speciale di voci, a seconda del set di campioni che gli è stato fornito per l'addestramento, molto probabilmente nel prossimo futuro Google introdurrà il supporto per la sintesi vocale realistica in WaveNet in altre lingue, incluso il tenerne conto. dialetti locali.

Le interfacce vocali stanno diventando sempre più comuni su un'ampia varietà di piattaforme, ma la loro spiccata natura innaturale del suono spegne molti potenziali utenti. Gli sforzi di DeepMind per migliorare questa tecnologia contribuiranno sicuramente alla più ampia adozione di tali sistemi vocali, oltre a migliorare l'esperienza dell'utente derivante dal loro utilizzo.

Esempi di sintesi vocale in inglese e giapponese utilizzando la rete neurale WaveNet possono essere trovati seguendo questo collegamento.

Nikolay Khizhnyak

Raccomandato: