Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Video: Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Video: Intelligenza Emotiva per la Performance: il Neural Network Report 2024, Aprile

2024 Autore: Keith Bush | [email protected]. Ultima modifica: 2023-12-16 14:27

L'anno scorso, la società di tecnologia di intelligenza artificiale DeepMind ha condiviso i dettagli sul suo nuovo progetto WaveNet, una rete neurale di apprendimento profondo utilizzata per sintetizzare il discorso umano realistico. Di recente è stata rilasciata una versione migliorata di questa tecnologia, che verrà utilizzata come base dell'assistente mobile digitale Google Assistant.

Un sistema di sintesi vocale (noto anche come funzione di sintesi vocale, TTS) è solitamente costruito attorno a uno dei due metodi di base. Il metodo concatenativo (o compilazione) prevede la costruzione di frasi raccogliendo singoli brani di parole registrate e parti precedentemente registrate con il coinvolgimento di un doppiatore. Lo svantaggio principale di questo metodo è la necessità di sostituire costantemente la libreria di suoni ogni volta che vengono effettuati aggiornamenti o modifiche.

Un altro metodo è chiamato TTS parametrico e la sua caratteristica è l'uso di set di parametri con i quali il computer genera la frase desiderata. Lo svantaggio del metodo è che molto spesso il risultato si manifesta sotto forma di suono non realistico o cosiddetto robotico.

WaveNet, d'altra parte, produce onde sonore da zero utilizzando un sistema di rete neurale convoluzionale in cui il suono viene generato in diversi strati. In primo luogo, per addestrare la piattaforma a sintetizzare il parlato "dal vivo", viene "alimentata" un'enorme quantità di campioni, notando quali segnali sonori suonano realistici e quali no. Ciò conferisce al sintetizzatore vocale la capacità di riprodurre intonazione naturalistica e persino dettagli come lo schiocco delle labbra. A seconda di quali campioni di parlato vengono eseguiti nel sistema, questo gli consente di sviluppare un "accento" unico, che a lungo andare può essere utilizzato per creare molte voci diverse.

Affilato sulla lingua

Forse il limite più grande del sistema WaveNet era che richiedeva un'enorme quantità di potenza di calcolo per funzionare, e anche quando questa condizione veniva soddisfatta, non differiva in velocità. Ad esempio, è stato necessario circa 1 secondo di tempo per generare 0,02 secondi di suono.

Dopo un anno di lavoro, gli ingegneri di DeepMind hanno ancora trovato un modo per migliorare e ottimizzare il sistema in modo che ora sia in grado di produrre un suono grezzo di un secondo in soli 50 millisecondi, che è 1000 volte più veloce delle sue capacità originali. Inoltre, gli specialisti sono riusciti ad aumentare la frequenza di campionamento audio da 8 bit a 16 bit, il che ha avuto un effetto positivo sui test che hanno coinvolto gli ascoltatori. Questi successi hanno spianato la strada all'integrazione di WaveNet in prodotti di consumo come Google Assistant.

Video promozionale:

Attualmente WaveNet può essere utilizzato per generare voci in inglese e giapponese tramite Google Assistant e tutte le piattaforme che utilizzano questo assistente digitale. Poiché il sistema può creare un tipo speciale di voci, a seconda del set di campioni che gli è stato fornito per l'addestramento, molto probabilmente nel prossimo futuro Google introdurrà il supporto per la sintesi vocale realistica in WaveNet in altre lingue, incluso il tenerne conto. dialetti locali.

Le interfacce vocali stanno diventando sempre più comuni su un'ampia varietà di piattaforme, ma la loro spiccata natura innaturale del suono spegne molti potenziali utenti. Gli sforzi di DeepMind per migliorare questa tecnologia contribuiranno sicuramente alla più ampia adozione di tali sistemi vocali, oltre a migliorare l'esperienza dell'utente derivante dal loro utilizzo.

Esempi di sintesi vocale in inglese e giapponese utilizzando la rete neurale WaveNet possono essere trovati seguendo questo collegamento.

Nikolay Khizhnyak

Raccomandato:

"Mi Dicono:" Ho Insegnato A Mio Figlio A Leggere Dall'età Di 2 Anni ", - E Io Rispondo: &Ldquo; Che Stupido &Rdquo; ", - Tatiana Chernigovskaya. - Visualizza

Negli ultimi anni è stata tracciata la seguente tendenza: i bambini iniziano a imparare a scrivere e leggere quasi dalla culla. Molti genitori insegnano ai loro figli dall'età di due anni ciò che hanno imparato loro stessi all'età di 5 anni. Ma

I Suoi Tumori Pendevano Dal Suo Viso Come Borse "- Una Visione Alternativa

Un uomo di 60 anni ha vissuto la maggior parte della sua vita con grandi tumori che gli pendono dal viso. Il nepalese Krishna Prasad Bhattarai (Krishna Prasad Bhattarai) dall'età di 15 anni soffriva di neurofibromatosi, che ha causato la crescita di enormi tumori sul viso

Chi Costruisce Così ?! Chi Costruisce Così !!! "O L'enigma Di Una Casa Sepolta .. - Una Visione Alternativa

Riflessioni sul tema dei primi piani riempiti degli edifici.Così, per giorni, sono passato davanti a una casa famosa della nostra città.- Salik.bizOh! che bell'uomo! Che simmetria dei pavimenti!nQuesto miracolo fu eretto dall'architetto Afanasy Grigorievich Grigoriev - di seguito una citazione dal wiki - "Architetto principale dello stile dell'Impero di Mosca. N

Centrale A Onde Pelamis P-750 O "serpente Di Mare" Una Visione Alternativa

I giganti serpenti di metallo soggiogano l'energia dei mari e degli oceani con il permesso dell'uomo. Sembra una favola, vero? Le onde degli oceani e dei mari generano molta energia

"Chess Turk" Di Wolfgang Von Kempelen - Una Vista Alternativa

Nel 1770, il primo meccanismo di scacchi fu costruito dall'ingegnere ungherese Wolfgang von Kempelen. Il dispositivo a forma di turco seduto è diventato la macchina da scacchi più famosa nella storia dell'umanità.Com'era il "turco degli scacchi"? Co

Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Sommario:

Video: Alla Rete Neurale è Stato Insegnato A Copiare La Voce Umana Quasi Perfettamente - Visualizzazione Alternativa

Affilato sulla lingua

Raccomandato:

"Mi Dicono:" Ho Insegnato A Mio Figlio A Leggere Dall'età Di 2 Anni ", - E Io Rispondo: &Ldquo; Che Stupido &Rdquo; ", - Tatiana Chernigovskaya. - Visualizza

I Suoi Tumori Pendevano Dal Suo Viso Come Borse "- Una Visione Alternativa

Chi Costruisce Così ?! Chi Costruisce Così !!! "O L'enigma Di Una Casa Sepolta .. - Una Visione Alternativa

Centrale A Onde Pelamis P-750 O "serpente Di Mare" Una Visione Alternativa

"Chess Turk" Di Wolfgang Von Kempelen - Una Vista Alternativa

Valley Of The Headless - Visualizzazione Alternativa

Meteorite Di Tunguska. Il Mistero Dell'alieno Dallo Spazio - Visualizzazione Alternativa

Il Primo Esploratore Del Meteorite Di Tunguska - Visualizzazione Alternativa

Scomparso - Visualizzazione Alternativa

Luoghi Misteriosi Della Regione Di Tver. - Visualizzazione Alternativa

La Misteriosa Storia Dei Cerchi Nel Grano - Visualizzazione Alternativa

Come Viene Contaminata La Storia Sovietica Oggi - Visualizzazione Alternativa

La Falsificazione Della Nostra Storia è Fuori Dubbio - Visualizzazione Alternativa

"Il Mito Dei" Mongoli Dalla Mongolia In Russia "- Visualizzazione Alternativa

Sull'introduzione Di Un'immagine Falsa In Russia - Visualizzazione Alternativa

La "Bibbia" Di Himmler - Visualizzazione Alternativa

Biografia Di Enrico VII - Visualizzazione Alternativa

Mata Hari Di Leningrado - Visualizzazione Alternativa

Biografia Di Henrikh Grigorievich Yagoda - Visualizzazione Alternativa

Biografia Di Heinrich Il Navigatore - Visualizzazione Alternativa