I ricercatori di IBM, MIT, Harvard e DeepMind hanno presentato alla conferenza ICLR 2020 il 17 maggio l'intelligenza artificiale ibrida (di seguito denominata AI) e un nuovo set di dati e benchmark per valutare le capacità degli algoritmi di intelligenza artificiale nel ragionamento sulle azioni contenute nelle informazioni video.
Il nuovo set di dati e l'ambiente di ricerca presentato all'ICLR 2020 si chiama CoLision Events for Video REpresentation and Reasoning o CLEVRER. Si basano su CLEVR, un set di domande e risposte visive sviluppato alla Stanford University nel 2017. CLEVR è un insieme di attività che rappresentano immagini fisse di oggetti solidi. L'agente AI deve essere in grado di analizzare la scena e rispondere a diverse domande sul numero di oggetti, i loro attributi e le loro relazioni spaziali.
Come soluzione a un compito difficile per l'IA classica, i ricercatori hanno presentato un modello di pensiero dinamico neuro-simbolico, una combinazione di reti neurali e intelligenza artificiale simbolica.
I risultati hanno mostrato che l'incorporazione di reti neurali e programmi simbolici in un modello di intelligenza artificiale può combinare i loro punti di forza e superare i loro punti deboli. "La rappresentazione simbolica fornisce un potente quadro comune per la visione, il linguaggio, le dinamiche e la causalità", notano gli autori, aggiungendo che i programmi simbolici consentono al modello di "catturare chiaramente la composizionalità alla base della struttura causale del video e la logica della domanda".
I vantaggi di tali sistemi sono limitati da svantaggi incondizionati. I dati utilizzati per addestrare il modello richiedono annotazioni aggiuntive, che possono essere troppo assetate di energia e costose nelle applicazioni del mondo reale.