Intelligenza Artificiale E Jeffrey Hinton: Il Padre Del Deep Learning - Visualizzazione Alternativa

Sommario:

Intelligenza Artificiale E Jeffrey Hinton: Il Padre Del Deep Learning - Visualizzazione Alternativa
Intelligenza Artificiale E Jeffrey Hinton: Il Padre Del Deep Learning - Visualizzazione Alternativa

Video: Intelligenza Artificiale E Jeffrey Hinton: Il Padre Del Deep Learning - Visualizzazione Alternativa

Video: Intelligenza Artificiale E Jeffrey Hinton: Il Padre Del Deep Learning - Visualizzazione Alternativa
Video: 4 Intelligenza Artificiale e Machine Learning nei Media applicazione e futuro 2024, Potrebbe
Anonim

Intelligenza artificiale. Quanto si è detto su di lui, ma non abbiamo ancora iniziato a parlare davvero. Quasi tutto ciò che senti sui progressi dell'intelligenza artificiale si basa su una svolta che ha trent'anni. Mantenere lo slancio del progresso richiederà l'elusione di vincoli severi e vincoli importanti. Successivamente, in prima persona - James Somers.

Mi trovo dove presto sarà il centro del mondo, o semplicemente in una grande stanza al settimo piano di una torre scintillante nel centro di Toronto - da che parte guardi. Sono accompagnato da Jordan Jacobs, co-fondatore di questo luogo: The Vector Institute, che aprirà i battenti questo autunno e promette di diventare l'epicentro globale dell'intelligenza artificiale.

Siamo a Toronto perché Jeffrey Hinton è a Toronto. E Jeffrey Hinton è il padre del "deep learning", la tecnica alla base del clamore dell'intelligenza artificiale. "Tra 30 anni, guarderemo indietro e diremo che Jeff è l'Einstein per l'intelligenza artificiale, l'apprendimento profondo, qualunque cosa chiamiamo intelligenza artificiale", afferma Jacobs. Di tutti i ricercatori di AI, Hinton viene citato più spesso dei tre che lo seguono messi insieme. I suoi studenti universitari e laureati vanno a lavorare nel laboratorio di intelligenza artificiale di Apple, Facebook e OpenAI; Lo stesso Hinton è lo scienziato capo del team di Google Brain AI. Quasi ogni progresso nell'IA negli ultimi dieci anni - nella traduzione, nel riconoscimento vocale, nel riconoscimento delle immagini e nei giochi - ha qualcosa a che fare con il lavoro di Hinton.

Il Vector Institute, un monumento all'ascesa delle idee di Hinton, è un centro di ricerca in cui aziende di tutti gli Stati Uniti e Canada - come Google, Uber e NVIDIA - stanno sponsorizzando gli sforzi per commercializzare le tecnologie AI. I soldi stanno arrivando più velocemente di quanto Jacobs possa chiedere; due dei suoi co-fondatori hanno intervistato aziende nell'area di Toronto e la domanda di esperti di intelligenza artificiale era 10 volte superiore alle forniture canadesi ogni anno. Il Vector Institute è, in un certo senso, un terreno vergine non sfruttato per cercare di mobilitare il mondo attorno al deep learning: investire, insegnare, affinare e applicare questa tecnica. Si stanno costruendo data center, i grattacieli sono pieni di startup e generazioni di studenti si stanno riversando nella regione.

Quando ti trovi sul pavimento del Vector, hai la sensazione di essere all'inizio di qualcosa. Ma l'apprendimento profondo è, in fondo, molto antico. L'articolo rivoluzionario di Hinton, scritto con David Rumelhart e Ronald Williams, è stato pubblicato nel 1986. Il lavoro ha descritto in dettaglio il metodo di backpropagation dell'errore (backpropagation), in breve. Backprop, secondo John Cohen, è "tutto ciò su cui si basa il deep learning - tutto".

Alla radice, l'IA oggi è il deep learning e il deep learning è backprop. Il che è sorprendente considerando che il backprop ha più di 30 anni. È semplicemente necessario capire come è successo: come ha potuto la tecnologia aspettare così a lungo e poi provocare un'esplosione? Perché una volta che conosci la storia del backprop, capirai cosa sta succedendo con l'intelligenza artificiale ora, e anche che potremmo non essere all'inizio della rivoluzione. Forse siamo alla fine di uno.

La passeggiata dal Vector Institute all'ufficio Google di Hinton, dove trascorre la maggior parte del suo tempo (ora è professore emerito all'Università di Toronto) è una sorta di pubblicità dal vivo per la città, almeno in estate. Diventa chiaro perché Hinton, originario del Regno Unito, si sia trasferito qui negli anni '80 dopo aver lavorato alla Carnegie Mellon University di Pittsburgh.

Video promozionale:

Forse non siamo proprio all'inizio della rivoluzione

Toronto è la quarta città più grande del Nord America (dopo Città del Messico, New York e Los Angeles) ed è sicuramente più diversificata: più della metà della popolazione è nata fuori dal Canada. E puoi vederlo quando cammini per la città. La folla è multinazionale. C'è assistenza sanitaria gratuita e buone scuole, le persone sono amichevoli, i politici sono relativamente di sinistra e stabili; tutto questo attrae persone come Hinton, che dice di aver lasciato gli Stati Uniti a causa dell'Irangate (l'Iran-Contra è un grande scandalo politico negli Stati Uniti nella seconda metà degli anni '80; poi si è saputo che alcuni membri dell'amministrazione statunitense organizzavano segreti fornitura di armi all'Iran, violando così l'embargo sulle armi contro quel paese). È qui che inizia la nostra conversazione prima di pranzo.

"Molti pensavano che gli Stati Uniti avrebbero potuto invadere il Nicaragua", dice. "Per qualche ragione credevano che il Nicaragua appartenga agli Stati Uniti". Dice di aver recentemente fatto un grande passo avanti nel progetto: "Un ottimo ingegnere giovane ha iniziato a lavorare con me", una donna di nome Sarah Sabour. Sabur è iraniano e gli è stato negato il visto per lavorare negli Stati Uniti. L'ufficio di Toronto di Google l'ha tirato fuori.

Hinton ha 69 anni. Ha una faccia inglese affilata e sottile con una bocca sottile, orecchie grandi e un naso orgoglioso. È nato a Wimbledon e in conversazione ricorda al narratore un libro per bambini sulla scienza: curioso, allettante, che cerca di spiegare tutto. È divertente e suona un po 'per il pubblico. Gli fa male sedersi a causa di problemi alla schiena, quindi non può volare, e in studio dentistico si sdraia su un dispositivo che assomiglia a una tavola da surf.

Image
Image

Negli anni '80, Hinton era, come lo è ora, un esperto di reti neurali, un modello notevolmente semplificato della rete di neuroni e sinapsi nel nostro cervello. Tuttavia, all'epoca, era fermamente concordato che le reti neurali erano un vicolo cieco nella ricerca sull'IA. Sebbene la primissima rete neurale, Perceptron, sia stata sviluppata negli anni '60 e sia stata considerata il primo passo verso l'intelligenza artificiale a livello umano, nel 1969 Marvin Minsky e Seymour Papert hanno dimostrato matematicamente che tali reti possono eseguire solo le funzioni più semplici. Queste reti avevano solo due livelli di neuroni: uno di input e uno di output. Le reti con un gran numero di strati tra i neuroni di input e output potrebbero, in teoria, risolvere un'ampia varietà di problemi, ma nessuno sapeva come addestrarli, quindi in pratica erano inutili. A causa dei Perceptrons, quasi tutti hanno abbandonato l'idea di reti neurali con poche eccezioni.compreso Hinton.

La svolta di Hinton nel 1986 è stata quella di dimostrare che la backpropagation può addestrare una rete neurale profonda con più di due o tre strati. Ma ci sono voluti altri 26 anni prima che la potenza di calcolo aumentasse. In un articolo del 2012, Hinton e due dei suoi studenti di Toronto hanno dimostrato che le reti neurali profonde, addestrate con backprop, hanno superato i migliori sistemi di riconoscimento delle immagini. Il deep learning ha iniziato a guadagnare terreno. Il mondo ha deciso dall'oggi al domani che l'intelligenza artificiale avrebbe preso il sopravvento al mattino. Per Hinton, questa è stata una vittoria gradita.

Campo di distorsione della realtà

Una rete neurale è solitamente rappresentata come un sandwich, i cui strati sono sovrapposti l'uno sull'altro. Questi strati contengono neuroni artificiali, che sono essenzialmente piccole unità computazionali che si attivano - come un vero neurone - e trasmettono questa eccitazione agli altri neuroni a cui sono collegati. L'eccitazione di un neurone è rappresentata da un numero, diciamo 0,13 o 32,39, che determina il grado di eccitazione del neurone. E c'è un altro numero importante, su ciascuna delle connessioni tra i due neuroni, che determina quanta eccitazione deve essere trasferita dall'uno all'altro. Questo numero modella la forza delle sinapsi tra i neuroni nel cervello. Più alto è il numero, più forte è la connessione, il che significa che più eccitazione fluisce dall'uno all'altro.

Una delle applicazioni di maggior successo delle reti neurali profonde è stata nel riconoscimento delle immagini. Oggi ci sono programmi in grado di riconoscere se c'è un hot dog nella foto. Una decina di anni fa erano impossibili. Per farli funzionare, devi prima scattare una foto. Per semplicità, supponiamo che questa sia un'immagine in bianco e nero di 100 x 100 pixel. Lo inserisci nella rete neurale impostando l'attivazione di ogni neurone simulato nel livello di input in modo che sia uguale alla luminosità di ogni pixel. Questo è lo strato inferiore del sandwich: 10.000 neuroni (100 x 100) che rappresentano la luminosità di ogni pixel dell'immagine.

Quindi colleghi questo grande strato di neuroni a un altro grande strato di neuroni, già più alto, diciamo, di diverse migliaia, e questi, a loro volta, a un altro strato di diverse migliaia di neuroni, ma meno, e così via. Infine, lo strato superiore del sandwich, lo strato di output, sarà composto da due neuroni, uno che rappresenta l'hot dog e l'altro non l'hot dog. L'idea è di addestrare la rete neurale ad attivare solo il primo di questi neuroni se c'è un hot dog nella foto e il secondo in caso contrario. Backprop, la tecnica di backpropagation su cui Hinton ha costruito la sua carriera, fa proprio questo.

Image
Image

Backprop è estremamente semplice, sebbene funzioni meglio con enormi quantità di dati. Questo è il motivo per cui i big data sono così importanti per l'IA: perché Facebook e Google ne sono così appassionati e perché il Vector Institute ha deciso di connettersi con i quattro più grandi ospedali del Canada e condividere i dati.

In questo caso, i dati assumono la forma di milioni di immagini, alcune con hot dog, altre senza; il trucco è contrassegnare queste immagini come aventi hot dog. Quando crei per la prima volta una rete neurale, le connessioni tra i neuroni hanno pesi casuali, numeri casuali che dicono quanta eccitazione viene trasmessa attraverso ciascuna connessione. Come se le sinapsi del cervello non fossero ancora sintonizzate. Lo scopo del backprop è quello di modificare questi pesi in modo che la rete funzioni: in modo che quando si alimenta l'immagine dell'hot dog al livello più in basso, il neurone hot-dog nel livello più in alto si attiva.

Supponiamo che tu abbia scattato la prima foto del tutorial per pianoforte. Stai convertendo le intensità dei pixel di un'immagine 100 x 100 in 10.000 numeri, uno per ogni neurone nello strato inferiore della rete. Man mano che l'eccitazione si diffonde attraverso la rete in base alla forza della connessione dei neuroni negli strati adiacenti, tutto arriva gradualmente all'ultimo strato, uno dei due neuroni che determinano se c'è un hot dog nell'immagine. Poiché questa è l'immagine di un pianoforte, il neurone hot dog dovrebbe mostrare zero e il neurone non hot dog dovrebbe mostrare un numero più alto. Diciamo che le cose non funzionano così. Diciamo che la rete si è sbagliata sull'immagine. Backprop è una procedura per rafforzare la forza di ciascuna connessione nella rete, consentendo di correggere l'errore nell'esempio di addestramento fornito.

Come funziona? Inizi con gli ultimi due neuroni e scopri quanto sono sbagliati: qual è la differenza tra il loro numero di colpi e quello che dovrebbe essere veramente. Quindi guardi ogni connessione che porta a questi neuroni - scendendo negli strati - e determini il loro contributo all'errore. Continui a farlo finché non arrivi alla prima serie di connessioni nella parte inferiore della rete. A questo punto, sai come la singola connessione contribuisce all'errore complessivo. Infine, si modificano tutti i pesi per ridurre la possibilità complessiva di errore. Questa cosiddetta "tecnica di propagazione degli errori" consiste nel far scorrere gli errori indietro attraverso la rete, iniziando dal retro, verso l'esterno.

L'incredibile inizia a succedere quando lo fai con milioni o miliardi di immagini: la rete inizia a capire bene se un'immagine è un hot dog o meno. E ciò che è ancora più notevole è che i singoli strati di queste reti di riconoscimento delle immagini iniziano a "vedere" le immagini nello stesso modo in cui fa il nostro sistema visivo. Cioè, il primo strato rileva i contorni: i neuroni vengono attivati quando ci sono contorni e non vengono attivati quando non lo sono; il livello successivo definisce set di tracciati, come gli angoli; lo strato successivo inizia a distinguere le forme; il livello successivo trova tutti i tipi di elementi come "panino aperto" o "panino chiuso" perché i neuroni corrispondenti sono attivati. La rete si organizza in livelli gerarchici senza nemmeno essere programmata in questo modo.

La vera intelligenza non è confusa quando il problema cambia leggermente.

Questo è ciò che ha stupito tutti così tanto. Non è tanto che le reti neurali siano brave a classificare le immagini degli hot dog: costruiscono rappresentazioni di idee. Con il testo, questo diventa ancora più ovvio. Puoi alimentare il testo di Wikipedia, molti miliardi di parole, a una semplice rete neurale, insegnandogli a dotare ogni parola di numeri corrispondenti alle eccitazioni di ciascun neurone nel livello. Se pensi a tutti questi numeri come coordinate in uno spazio complesso, trovi un punto, noto in questo contesto come vettore, per ogni parola in quello spazio. Quindi alleni la rete in modo che le parole che appaiono una accanto all'altra sulle pagine di Wikipedia siano dotate di coordinate simili - e voilà, succede qualcosa di strano: parole con significati simili appariranno fianco a fianco in questo spazio. Ci saranno "Mad" e "upset"; "Tre" e anche "sette". Inoltre,l'aritmetica vettoriale permette di sottrarre il vettore "Francia" da "Parigi", aggiungerlo a "Italia" e trovare "Roma" nelle vicinanze. Nessuno ha detto alla rete neurale che Roma è per l'Italia come Parigi è per la Francia.

"È incredibile", dice Hinton. "È scioccante." Le reti neurali possono essere viste come un tentativo di prendere cose - immagini, parole, registrazioni di conversazioni, dati medici - e inserirle, come dicono i matematici, in uno spazio vettoriale multidimensionale in cui la vicinanza o la lontananza delle cose rifletterà gli aspetti più importanti del mondo reale. Hinton crede che questo sia ciò che fa il cervello. “Se vuoi sapere cos'è un pensiero”, dice, “posso trasmetterlo a te in una serie di parole. Posso dire "John ha pensato" oops ". Ma se chiedi: cosa si pensa? Cosa significa per Giovanni avere questo pensiero? Dopo tutto, nella sua testa non ci sono virgolette di apertura, "oops", virgolette di chiusura, in generale, non esiste una cosa del genere. Qualche attività neurale è in corso nella sua testa ". Grandi immagini dell'attività neurale, se sei un matematico, possono essere catturate nello spazio vettoriale,dove l'attività di ogni neurone corrisponderà a un numero e ogni numero corrisponderà alla coordinata di un vettore molto grande. Per Hinton, il pensiero è una danza di vettori.

Ora è chiaro perché il Vector Institute si chiamava così?

Hinton crea una sorta di campo di distorsione della realtà, ti viene trasmessa una sensazione di fiducia ed entusiasmo, instillando la convinzione che nulla sia impossibile per i vettori. Dopotutto, hanno già creato auto a guida autonoma, computer che rilevano il cancro, traduttori di lingue parlate istantaneamente.

È solo quando esci dalla stanza che ti ricordi che questi sistemi di apprendimento profondo sono ancora piuttosto stupidi nonostante il loro potere di pensiero dimostrativo. Un computer che vede una pila di ciambelle su un tavolo e la etichetta automaticamente come "una pila di ciambelle sul tavolo" sembra capire il mondo; ma quando lo stesso programma vede una ragazza che si lava i denti e dice di essere "un ragazzo con una mazza da baseball", ti rendi conto di quanto sia sfuggente questa comprensione.

Le reti neurali sono solo insensati e vaghi riconoscitori di pattern, e quanto utili possano essere tali riconoscitori di pattern, poiché cercano di integrarli in qualsiasi software, sono nella migliore delle ipotesi una razza limitata di intelligenza che può essere facilmente ingannata. Una rete neurale profonda che riconosce le immagini può essere completamente confusa se si modifica un pixel o si aggiunge un rumore visivo invisibile agli esseri umani. Quasi tutte le volte che troviamo nuovi modi per utilizzare il deep learning, ci troviamo spesso di fronte ai suoi limiti. Le auto a guida autonoma non possono guidare in condizioni mai viste prima. Le macchine non possono analizzare frasi che richiedono buon senso e una comprensione di come funziona il mondo.

Image
Image

Il Deep Learning imita ciò che sta accadendo nel cervello umano in un modo, ma in modo superficiale, il che forse spiega perché la sua intelligenza a volte è così superficiale. Backprop non è stato scoperto durante l'immersione cerebrale, cercando di decifrare il pensiero stesso; è nato da modelli di apprendimento animale per tentativi ed errori in esperimenti antiquati. E la maggior parte dei passi importanti che sono stati fatti sin dal suo inizio non includevano nulla di nuovo sulle neuroscienze; si trattava di miglioramenti tecnici meritati da anni di lavoro di matematici e ingegneri. Quello che sappiamo sull'intelligenza non è niente in confronto a ciò che ancora non sappiamo al riguardo.

David Duvenaud, assistente professore nello stesso dipartimento di Hinton presso l'Università di Toronto, afferma che l'apprendimento profondo è simile all'ingegneria prima dell'introduzione della fisica. “Qualcuno scrive un'opera e dice: 'Ho fatto questo ponte, e ne vale la pena!' Un altro scrive: "Ho costruito questo ponte ed è crollato, ma ho aggiunto dei supporti e sta in piedi". E tutti impazziscono per i supporti. Qualcuno aggiunge un arco - e tutti sono così: gli archi sono fantastici! Con la fisica, puoi effettivamente capire cosa funzionerà e perché. Solo di recente abbiamo iniziato a muoverci verso almeno una certa comprensione dell'intelligenza artificiale ".

E lo stesso Hinton dice: "La maggior parte delle conferenze parla di fare piccoli cambiamenti invece di pensare intensamente e fare domande:" Perché quello che stiamo facendo ora non funziona? Qual è la ragione di ciò? Concentriamoci su questo."

È difficile avere una prospettiva esterna quando tutto ciò che vedi è avanzamento dopo avanzamento. Ma gli ultimi progressi nell'intelligenza artificiale sono stati meno scientifici e più ingegneristici. Sebbene abbiamo una migliore comprensione di quali cambiamenti miglioreranno i sistemi di apprendimento profondo, abbiamo ancora una vaga idea di come funzionano questi sistemi e se potranno mai unirsi in qualcosa di potente come la mente umana.

È importante capire se siamo stati in grado di estrarre tutto ciò che possiamo dal backprop. In tal caso, avremo un plateau nello sviluppo dell'intelligenza artificiale.

Pazienza

Se vuoi vedere la prossima svolta, qualcosa come un framework per macchine con un'intelligenza molto più flessibile, dovresti, in teoria, rivolgerti a una ricerca simile alla ricerca backprop negli anni '80: quando le persone intelligenti rinunciavano perché le loro idee non funzionavano ancora. …

Qualche mese fa, ho visitato il Center for Minds, Brains and Machines, un'istituzione polivalente di stanza al MIT, per vedere il mio amico Eyal Dechter difendere la sua tesi di laurea in scienze cognitive. Prima dell'inizio dello spettacolo, sua moglie Amy, il suo cane Ruby e sua figlia Suzanne lo hanno sostenuto e gli hanno augurato buona fortuna.

Eyal ha iniziato il suo intervento con una domanda affascinante: come è successo che Suzanne, che ha solo due anni, abbia imparato a parlare, suonare, seguire le storie? Cosa c'è nel cervello umano che gli permette di studiare così bene? Un computer imparerà mai a imparare così velocemente e senza intoppi?

Comprendiamo nuovi fenomeni in termini di cose che già comprendiamo. Dividiamo il dominio in blocchi e lo esaminiamo pezzo per pezzo. Eyal è un matematico e programmatore, pensa ai compiti - come fare un soufflé - come programmi per computer complessi. Ma non impari a fare un soufflé memorizzando centinaia di minuti di istruzioni del programma come "gira il gomito di 30 gradi, poi guarda il piano del tavolo, poi allunga il dito, poi …". Se dovessi farlo in ogni nuovo caso, l'apprendimento diventerebbe insopportabile e smetteresti di svilupparti. Invece, vediamo passaggi di alto livello come "battere i bianchi" nel programma, che a loro volta sono costituiti da subroutine come "rompi le uova" e "separa i bianchi dai tuorli".

I computer non lo fanno e quindi sembrano stupidi. Affinché l'apprendimento profondo riconosca un hot dog, devi dargli 40 milioni di immagini di hot dog. Quello che Suzanne ha riconosciuto è l'hot dog, mostrale l'hot dog. E molto prima, avrà una comprensione della lingua, che va molto più in profondità del riconoscimento dell'aspetto di parole separate insieme. A differenza di un computer, la sua testa ha un'idea di come funziona il mondo. "Mi sorprende che le persone abbiano paura che i computer si tolgano il lavoro", afferma Eyal. “I computer non saranno in grado di sostituire gli avvocati perché gli avvocati stanno facendo qualcosa di difficile. Ma perché gli avvocati ascoltano e parlano alle persone. In questo senso siamo molto lontani da tutto questo ".

La vera intelligenza non verrà confusa se si modificano leggermente i requisiti per risolvere il problema. E la tesi chiave di Eyal era dimostrare esattamente questo, in linea di principio, come far funzionare un computer in questo modo: applicare rapidamente tutto ciò che già sa per risolvere nuovi problemi, cogliere rapidamente al volo, diventare un esperto in un campo completamente nuovo.

In sostanza, questo è ciò che chiama algoritmo di compressione dell'esplorazione. Assegna al computer la funzione di programmatore, costruendo una libreria di componenti modulari riutilizzabili in modo che possano essere creati programmi più complessi. Non sapendo nulla del nuovo dominio, il computer cerca di strutturare la conoscenza su di esso, semplicemente studiandolo, consolidando ciò che ha scoperto e studiandolo ulteriormente, come un bambino.

Il suo consulente, Joshua Tenenbaum, è uno dei ricercatori di intelligenza artificiale più citati. Il nome di Tenenbaum è emerso nella metà delle conversazioni che ho avuto con altri scienziati. Alcune delle persone chiave di DeepMind, il team di sviluppo di AlphaGo che nel 2016 ha battuto il leggendario World Go Champion, hanno lavorato con lui. È coinvolto in una startup che sta cercando di dare alle auto a guida autonoma una comprensione intuitiva della fisica sottostante e delle intenzioni degli altri piloti, in modo che possano anticipare meglio ciò che sta accadendo in situazioni che non hanno incontrato prima.

La tesi di Eyal non è stata ancora applicata nella pratica, non è stata nemmeno introdotta nei programmi. "I problemi su cui sta lavorando Eyal sono molto, molto difficili", afferma Tenenbaum. "Ci vogliono molte generazioni per passare".

Quando ci siamo seduti per una tazza di caffè, Tenenbaum ha detto che stava cercando ispirazione nella storia del backprop. Per decenni, il backprop è stato una forma di matematica interessante, la maggior parte non capace di nulla. Poiché i computer sono diventati più veloci e la tecnologia è diventata più difficile, le cose sono cambiate. Spera che qualcosa di simile accada al suo lavoro e al lavoro dei suoi studenti, ma "potrebbero volerci un altro paio di decenni".

Per Hinton, è convinto che superare i limiti dell'AI significhi creare un "ponte tra informatica e biologia". Backprop, da questo punto di vista, è stato un trionfo dell'informatica di ispirazione biologica; l'idea originariamente non proveniva dall'ingegneria, ma dalla psicologia. Quindi ora Hinton sta cercando di ripetere questo trucco.

Oggi le reti neurali sono costituite da grandi strati piatti, ma nella neocorteccia umana i neuroni reali si allineano non solo orizzontalmente, ma anche verticalmente, in colonne. Hinton indovina a cosa servono queste colonne: in visione, ad esempio, ti consentono di riconoscere gli oggetti anche quando cambi punto di vista. Quindi crea una versione artificiale - e le chiama "capsule" - per testare questa teoria. Finora non viene fuori nulla: le capsule non hanno migliorato di molto le prestazioni delle sue reti. Ma 30 anni fa era lo stesso con backprop.

"Dovrebbe funzionare", dice della teoria delle capsule, ridendo della propria spavalderia. "E ciò che non funziona ancora è solo un'irritazione temporanea."

Basato sui materiali di Medium.com

Ilya Khel

Raccomandato: