Attacchi Contraddittori: Perché Una Rete Neurale è Facile Da Ingannare? - Visualizzazione Alternativa

Sommario:

Attacchi Contraddittori: Perché Una Rete Neurale è Facile Da Ingannare? - Visualizzazione Alternativa
Attacchi Contraddittori: Perché Una Rete Neurale è Facile Da Ingannare? - Visualizzazione Alternativa

Video: Attacchi Contraddittori: Perché Una Rete Neurale è Facile Da Ingannare? - Visualizzazione Alternativa

Video: Attacchi Contraddittori: Perché Una Rete Neurale è Facile Da Ingannare? - Visualizzazione Alternativa
Video: Cos'è una rete neurale e primi esempi 2024, Potrebbe
Anonim

Negli ultimi anni, con la diffusione dei sistemi di deep learning, gli scienziati hanno dimostrato come i modelli contraddittori possano influenzare qualsiasi cosa, da un semplice classificatore di immagini ai sistemi diagnostici del cancro, e persino creare una situazione pericolosa per la vita. Nonostante tutto il loro pericolo, tuttavia, gli esempi del contraddittorio sono poco conosciuti. E gli scienziati erano preoccupati: questo problema può essere risolto?

Cos'è un attacco del contraddittorio? Questo è un modo per indurre una rete neurale a produrre un risultato errato. Sono utilizzati principalmente nella ricerca scientifica per testare la robustezza dei modelli rispetto a dati non standard. Ma nella vita reale, ad esempio, puoi cambiare alcuni pixel in un'immagine di un panda in modo che la rete neurale sia sicura che l'immagine sia un gibbone. Anche se gli scienziati aggiungono solo "rumore" all'immagine.

Attacco contraddittorio: come ingannare una rete neurale?

Un nuovo lavoro del Massachusetts Institute of Technology indica un possibile modo per superare questo problema. Risolvendolo, potremmo creare modelli di deep learning molto più affidabili che sarebbero molto più difficili da manipolare in modi dannosi. Ma diamo prima un'occhiata alle basi dei modelli contraddittori.

Come sapete, il potere dell'apprendimento profondo deriva dalla sua capacità superiore di riconoscere modelli (modelli, modelli, diagrammi, modelli) nei dati. Alimenta la rete neurale con decine di migliaia di foto di animali contrassegnate e apprende quali modelli sono associati a un panda e quali sono associati a una scimmia. Può quindi utilizzare questi modelli per riconoscere nuove immagini di animali che non ha mai visto prima.

Ma i modelli di deep learning sono anche molto fragili. Poiché il sistema di riconoscimento delle immagini si basa solo su modelli di pixel e non su una comprensione più concettuale di ciò che vede, è facile indurlo a vedere qualcosa di completamente diverso, semplicemente rompendo i modelli in un certo modo. Esempio classico: aggiungi un po 'di rumore a un'immagine di un panda e il sistema lo classifica come un gibbone con una certezza quasi del 100%. Questo rumore sarà l'attacco del contraddittorio.

Image
Image

Video promozionale:

Per diversi anni, gli scienziati hanno osservato questo fenomeno, soprattutto nei sistemi di visione artificiale, senza sapere davvero come sbarazzarsi di tali vulnerabilità. In effetti, il lavoro presentato la scorsa settimana a un'importante conferenza sulla ricerca sull'intelligenza artificiale - ICLR - mette in discussione l'inevitabilità degli attacchi avversari. Potrebbe sembrare che non importa quante immagini di panda fornisci al classificatore di immagini, ci sarà sempre una sorta di indignazione con cui rompi il sistema.

Ma un nuovo lavoro del MIT dimostra che stavamo pensando in modo sbagliato agli attacchi del contraddittorio. Invece di trovare modi per raccogliere più dati di qualità che alimentano il sistema, dobbiamo ripensare radicalmente il nostro approccio alla formazione.

Il lavoro lo dimostra rivelando una proprietà piuttosto interessante di esempi contraddittori che ci aiuta a capire perché sono efficaci. Qual è il trucco: rumore apparentemente casuale o adesivi che confondono la rete neurale, infatti, utilizzano schemi puntuali e sottili che il sistema di visualizzazione ha imparato ad associare fortemente a oggetti specifici. In altre parole, la macchina non si blocca quando vediamo un gibbone dove vediamo un panda. In effetti, vede una disposizione regolare di pixel, invisibile agli umani, che è apparsa molto più spesso nelle immagini con i gibboni che nelle immagini con i panda durante l'allenamento.

Gli scienziati lo hanno dimostrato sperimentalmente: hanno creato un set di dati di immagini di cani, che sono stati tutti alterati in modo tale che il classificatore di immagini standard li identifichi erroneamente come gatti. Hanno quindi etichettato queste immagini con "gatti" e le hanno utilizzate per addestrare una nuova rete neurale da zero. Dopo l'addestramento, hanno mostrato alla rete neurale immagini reali di gatti e lei li ha identificati correttamente come gatti.

I ricercatori hanno ipotizzato che ci siano due tipi di correlazioni in ogni set di dati: modelli che sono effettivamente correlati al significato dei dati, come i baffi nelle immagini dei gatti o la colorazione della pelliccia nelle immagini dei panda, e modelli che esistono nei dati di addestramento ma non vengono propagati. ad altri contesti. Queste ultime correlazioni "fuorvianti", chiamiamole così, sono usate negli attacchi del contraddittorio. Un sistema di riconoscimento, addestrato a riconoscere schemi "fuorvianti", li trova e pensa di vedere una scimmia.

Questo ci dice che se vogliamo eliminare il rischio di un attacco avversario, dobbiamo cambiare il modo in cui addestriamo i nostri modelli. Attualmente stiamo consentendo alla rete neurale di selezionare le correlazioni che desidera utilizzare per identificare gli oggetti nell'immagine. Di conseguenza, non abbiamo alcun controllo sulle correlazioni che trova, siano esse reali o fuorvianti. Se, invece, addestrassimo i nostri modelli a ricordare solo schemi reali - che sono legati a pixel significativi - in teoria sarebbe possibile produrre sistemi di apprendimento profondo che non possono essere confusi.

Quando gli scienziati hanno testato questa idea, utilizzando solo correlazioni reali per addestrare il loro modello, hanno effettivamente ridotto la sua vulnerabilità: è stata manipolata solo il 50% delle volte, mentre un modello addestrato su correlazioni reali e false è stato manipolato il 95% delle volte.

In breve, puoi difenderti dagli attacchi avversari. Ma abbiamo bisogno di ulteriori ricerche per eliminarli completamente.

Ilya Khel

Raccomandato: