Ataques Adversarios: ¿por Qué Una Red Neuronal Es Fácil De Engañar? - Vista Alternativa

Tabla de contenido:

Ataques Adversarios: ¿por Qué Una Red Neuronal Es Fácil De Engañar? - Vista Alternativa
Ataques Adversarios: ¿por Qué Una Red Neuronal Es Fácil De Engañar? - Vista Alternativa

Vídeo: Ataques Adversarios: ¿por Qué Una Red Neuronal Es Fácil De Engañar? - Vista Alternativa

Vídeo: Ataques Adversarios: ¿por Qué Una Red Neuronal Es Fácil De Engañar? - Vista Alternativa
Vídeo: IA NOTEBOOK #2 | Ataques adversarios, cómo romper una RED NEURONAL | Programando IA 2024, Mayo
Anonim

En los últimos años, a medida que los sistemas de aprendizaje profundo se vuelven más frecuentes, los científicos han demostrado cómo los patrones adversarios pueden afectar cualquier cosa, desde un simple clasificador de imágenes hasta sistemas de diagnóstico de cáncer, e incluso crear una situación potencialmente mortal. Sin embargo, a pesar de todo su peligro, los ejemplos contradictorios son poco conocidos. Y los científicos estaban preocupados: ¿se puede resolver este problema?

¿Qué es un ataque adverso? Esta es una forma de engañar a una red neuronal para que produzca un resultado incorrecto. Se utilizan principalmente en la investigación científica para probar la solidez de los modelos frente a datos no estándar. Pero en la vida real, como ejemplo, puede cambiar algunos píxeles en la imagen de un panda para que la red neuronal esté segura de que hay un gibón en la imagen. Aunque los científicos solo agregan "ruido" a la imagen.

Ataque adversario: ¿cómo engañar a una red neuronal?

norte

Un nuevo trabajo del Instituto de Tecnología de Massachusetts apunta a una posible forma de superar este problema. Al resolverlo, podríamos crear modelos de aprendizaje profundo mucho más confiables que serían mucho más difíciles de manipular de manera maliciosa. Pero veamos primero los conceptos básicos de los patrones adversarios.

Como sabe, el poder del aprendizaje profundo proviene de su capacidad superior para reconocer patrones (patrones, patrones, diagramas, patrones) en los datos. Alimente la red neuronal de decenas de miles de fotos de animales etiquetadas y aprende qué patrones están asociados con un panda y cuáles están asociados con un mono. Luego, puede usar estos patrones para reconocer nuevas imágenes de animales que nunca antes había visto.

Pero los modelos de aprendizaje profundo también son muy frágiles. Dado que el sistema de reconocimiento de imágenes se basa solo en patrones de píxeles y no en una comprensión más conceptual de lo que ve, es fácil engañarlo para que vea algo completamente diferente, simplemente rompiendo los patrones de cierta manera. Ejemplo clásico: agregue algo de ruido a la imagen de un panda y el sistema lo clasificará como un gibón con casi un 100 por ciento de certeza. Este ruido será el ataque adversario.

Image
Image

Video promocional:

Durante varios años, los científicos han estado observando este fenómeno, especialmente en los sistemas de visión por computadora, sin saber realmente cómo deshacerse de tales vulnerabilidades. De hecho, el trabajo presentado la semana pasada en una importante conferencia sobre investigación en inteligencia artificial, ICLR, pone en duda la inevitabilidad de los ataques adversarios. Puede parecer que no importa cuántas imágenes de panda alimente al clasificador de imágenes, siempre habrá algún tipo de indignación con la que rompa el sistema.

Pero un nuevo trabajo del MIT demuestra que estábamos pensando erróneamente sobre los ataques adversarios. En lugar de encontrar formas de recopilar más datos de calidad que alimentan el sistema, debemos repensar fundamentalmente nuestro enfoque para entrenarlo.

norte

El trabajo demuestra esto al revelar una propiedad bastante interesante de los ejemplos contradictorios que nos ayuda a comprender por qué son efectivos. Cuál es el truco: ruido aparentemente aleatorio o pegatinas que confunden la red neuronal, de hecho, usan patrones sutiles y muy puntuales que el sistema de visualización ha aprendido a asociar fuertemente con objetos específicos. En otras palabras, la máquina no se bloquea cuando vemos un gibón donde vemos un panda. De hecho, ve una disposición regular de píxeles, invisible para los humanos, que aparece con mucha más frecuencia en imágenes con gibones que en imágenes con pandas durante el entrenamiento.

Los científicos lo han demostrado mediante experimentos: crearon un conjunto de datos de imágenes de perros, que fueron alterados de tal manera que el clasificador de imágenes estándar los identificó erróneamente como gatos. Luego etiquetaron estas imágenes con "gatos" y las usaron para entrenar una nueva red neuronal desde cero. Después del entrenamiento, mostraron a la red neuronal imágenes reales de gatos, y ella los identificó correctamente a todos como gatos.

Los investigadores plantearon la hipótesis de que hay dos tipos de correlaciones en cada conjunto de datos: patrones que realmente se correlacionan con el significado de los datos, como los bigotes en las imágenes de gatos o la coloración del pelaje en las imágenes de pandas, y patrones que existen en los datos de entrenamiento pero que no se propagan. a otros contextos. Estas últimas correlaciones "engañosas", llamémoslas así, se utilizan en ataques adversarios. Un sistema de reconocimiento, entrenado para reconocer patrones "engañosos", los encuentra y cree que ve un mono.

Esto nos dice que si queremos eliminar el riesgo de un ataque adverso, debemos cambiar la forma en que entrenamos nuestros modelos. Actualmente estamos permitiendo que la red neuronal seleccione las correlaciones que quiere usar para identificar objetos en la imagen. Como resultado, no tenemos control sobre las correlaciones que encuentra, ya sean reales o engañosas. Si, en cambio, entrenamos nuestros modelos para recordar solo patrones reales, que están vinculados a píxeles significativos, en teoría sería posible producir sistemas de aprendizaje profundo que no se puedan confundir.

Cuando los científicos probaron esta idea, utilizando solo correlaciones reales para entrenar su modelo, en realidad redujeron su vulnerabilidad: se manipuló solo el 50% del tiempo, mientras que un modelo entrenado en correlaciones reales y falsas se manipuló el 95% del tiempo.

En resumen, puede defenderse de los ataques adversarios. Pero necesitamos más investigación para eliminarlos por completo.

Ilya Khel

Recomendado: