Quando Inizierà L'intelligenza Artificiale A Dare Voce Alla Serie - Visualizzazione Alternativa

Sommario:

Quando Inizierà L'intelligenza Artificiale A Dare Voce Alla Serie - Visualizzazione Alternativa
Quando Inizierà L'intelligenza Artificiale A Dare Voce Alla Serie - Visualizzazione Alternativa

Video: Quando Inizierà L'intelligenza Artificiale A Dare Voce Alla Serie - Visualizzazione Alternativa

Video: Quando Inizierà L'intelligenza Artificiale A Dare Voce Alla Serie - Visualizzazione Alternativa
Video: Luminar AI: il TUTORIAL COMPLETO di base per abbandonare Lightroom! 2024, Aprile
Anonim

Gli editori russi stanno già sperimentando la registrazione automatica di audiolibri; in futuro, all'intelligenza artificiale potrà essere affidata la traduzione di periodici e il doppiaggio con le voci dei loro attori preferiti. Sulle caratteristiche di tali tecnologie e sul tempo necessario per crearle.

Il discorso orale diventa scritto

Su YouTube, i sottotitoli automatici per i video vengono creati dal riconoscimento vocale e dal software di traduzione vocale in testo. Si basa su reti neurali ad autoapprendimento. Questa opzione ha più di dieci anni, ma il risultato è ancora lontano dall'ideale. Il più delle volte, puoi solo cogliere il significato generale di ciò che è stato detto. Qual è la difficoltà?

Diciamo, spiega Andrey Filchenkov, capo del laboratorio di Machine Learning presso l'ITMO University, che stiamo costruendo un algoritmo per il riconoscimento vocale. Ciò richiede l'addestramento di una rete neurale su un ampio array di dati.

Ci vorranno centinaia, migliaia di ore di registrazioni vocali e il loro corretto confronto con i testi, inclusa la marcatura dell'inizio e della fine delle frasi, il cambio di interlocutori e così via. Questo è chiamato recinto. Più è grande, migliore è l'addestramento della rete neurale. Sono stati creati corpora davvero grandi per la lingua inglese, quindi il riconoscimento è molto migliore. Ma per il russo o, diciamo, lo spagnolo, ci sono molti meno dati e per molte altre lingue non ci sono dati.

"E il risultato è appropriato", conclude lo scienziato.

“Inoltre, valutiamo il significato di una parola, una frase in un film non solo dal suono, anche l'intonazione dell'attore e le sue espressioni facciali sono importanti. Come lo interpreti? - aggiunge Sergey Aksenov, professore associato del dipartimento di tecnologia dell'informazione dell'Università politecnica di Tomsk.

Video promozionale:

“Come gestire le caratteristiche di un discorso fluente? Articolazione sfocata, imprecisione, interiezioni, pause? Dopotutto, a seconda di questo, il significato cambia, come in "non si può essere perdonati". Come insegnare a una macchina a determinare dove l'oratore ha una virgola? E nella poesia? " - elenca Marina Bolsunovskaya, capo del laboratorio "Sistemi di elaborazione dati in streaming industriale" del Centro NTI SPbPU.

I progetti di maggior successo, secondo l'esperto, sono in aree ristrette. Ad esempio, un sistema per riconoscere il discorso professionale dei medici utilizzando termini medici, sviluppato dal gruppo di società RTC, aiuta i medici a tenere una storia medica.

“Qui puoi delineare chiaramente l'area tematica ed evidenziare le parole chiave nel discorso. Il medico sottolinea in modo specifico alcune sezioni con l'intonazione: reclami dei pazienti, diagnosi , chiarisce Bolsunovskaya.

Un altro problema è segnalato da Mikhail Burtsev, capo del laboratorio di sistemi neurali e deep learning al MIPT. Il fatto è che finora la macchina ha più successo nel riconoscere il testo quando una persona parla di più, come nei film.

Traduzione contestualizzata

Prendiamo un video in lingua inglese, ad esempio, un taglio della serie TV "Game of Thrones" e attiviamo i sottotitoli russi automatici. Quello che vediamo rischia di farci ridere.

Immagine da * Game of Thrones *
Immagine da * Game of Thrones *

Immagine da * Game of Thrones *.

Tuttavia, nella traduzione automatica, la tecnologia ha ottenuto un successo impressionante. Pertanto, Google Translate traduce i testi nelle lingue comuni in modo abbastanza tollerabile, spesso è richiesta solo una modifica minima.

Il fatto è che il traduttore di rete neurale è anche addestrato su una vasta gamma di dati iniziali, correttamente etichettati - un corpus parallelo, che mostra come dovrebbe apparire ogni frase nella lingua originale in russo.

“Costruire tali edifici è molto laborioso, costoso e richiede tempo, ci vogliono mesi e anni. Per addestrare una rete neurale, abbiamo bisogno di testi delle dimensioni della Biblioteca di Alessandria. I modelli sono universali, ma molto dipende dalla lingua. Se fornisci molti dati, ad esempio, in Avar, la traduzione sarà di alta qualità, ma per Avar semplicemente non esiste una tale quantità di dati , afferma Andrey Filchenkov.

"La traduzione è un prodotto separato che è correlato all'originale, ma non è uguale ad esso", afferma Ilya Mirin, direttrice della School of Digital Economy presso l'Università Federale dell'Estremo Oriente. - Un tipico esempio sono le traduzioni di film stranieri di Dmitry Puchkov (Goblin) negli anni '90. Solo dopo il suo lavoro è diventato chiaro cosa stava succedendo lì. Non siamo riusciti a trovare nulla di adeguato dalle versioni VHS. In alternativa, prova a tradurre in una lingua che conosci bene, qualcosa del Maestro e Margarita. Ad esempio, "in un mantello nero con una fodera insanguinata". La macchina non può farlo."

Le reti neurali imparano bene da molti esempi tipici, ma i film sono pieni di significati e connotazioni complesse, barzellette che non sono accessibili alla macchina - non può distinguerle.

“In ogni episodio della serie animata Futurama c'è un riferimento al cinema americano classico - Casablanca, Vacanze romane e così via. In questi momenti, per cogliere e riconfezionare il significato per coloro che non hanno visto questi film, il traduttore deve trovare un analogo stretto dal contesto russo. Una traduzione automatica errata può essere molto scoraggiante per lo spettatore , continua Mirin.

Secondo lui la qualità della traduzione automatica si avvicina all'80 per cento, il resto è specificità che va aggiunta manualmente, coinvolgendo esperti. "E se il 20-30 percento delle frasi richiede una correzione manuale, a che serve la traduzione automatica?" - dice il ricercatore.

"La traduzione è la fase più problematica", concorda Sergey Aksenov. - Tutto dipende dalla semantica e dal contesto. Gli strumenti disponibili possono essere utilizzati per la traduzione e la recitazione vocale automatica, ad esempio, cartoni animati per bambini con un vocabolario semplice. Ma con l'interpretazione di unità fraseologiche, nomi propri, parole che rimandano gli spettatori ad alcune realtà culturali, sorgono difficoltà ".

Nei film e nei video, il contesto è sempre visivo ed è spesso accompagnato da musica e rumore. Immaginiamo dall'immagine di cosa parla l'eroe. Il discorso trasformato in testo è privo di queste informazioni, quindi la traduzione è difficile. Questa è la situazione per i traduttori che lavorano con i sottotitoli di testo senza vedere il film. Spesso si sbagliano. La traduzione automatica è la stessa storia.

Discorso di voci AI

Per doppiare una serie tradotta in russo, è necessario un algoritmo per generare un discorso naturale dal testo: un sintetizzatore. Sono creati da molte società IT, tra cui Microsoft, Amazon, Yandex, e stanno andando abbastanza bene.

Secondo Andrey Filchenkov, un paio di anni fa un minuto di doppiaggio di un sintetizzatore vocale impiegava diverse ore, ora la velocità di elaborazione è notevolmente aumentata. Il compito della sintesi vocale per alcune aree in cui sono richiesti dialoghi neutri è risolto abbastanza bene.

Molti danno già per scontato una conversazione con un robot al telefono, l'esecuzione di comandi dal navigatore di un'auto, un dialogo con Alice in un'auto Yandex. Drive. Ma per il doppiaggio delle serie TV, queste tecnologie non sono ancora adeguate.

“Il problema sono le emozioni e la recitazione. Abbiamo imparato a rendere umana la voce della macchina, ma fare in modo che suoni ancora appropriata al contesto e ispiri fiducia è molto lontano. Una cattiva recitazione vocale può facilmente uccidere la percezione di un film , ha detto Filchenkov.

Secondo Mikhail Burtsev, la sintesi vocale è abbastanza reale. Tuttavia, questo richiede un calcolo intensivo e non può essere fatto in tempo reale a un prezzo ragionevole.

“Esistono algoritmi che sintetizzano un discorso simile a quello di un particolare attore. Questo è il timbro, il modo di parlare e molto altro ancora. Quindi qualsiasi attore straniero parlerà effettivamente russo”, prevede Burtsev. Si aspetta notevoli progressi nei prossimi anni.

Sergei Aksenov dedica dai cinque ai dieci anni per sviluppare strumenti per la traduzione e il doppiaggio di opere complesse dalle lingue più comuni come l'inglese. Lo scienziato cita l'esempio di Skype, che diversi anni fa ha dimostrato la possibilità di organizzare lezioni online per scolari che parlano lingue diverse. Ma anche allora, il sistema non sarà l'ideale, dovrà imparare costantemente: acquisire il vocabolario, tenere conto del contesto culturale.

Raccomandato: