Inteligencia Artificial Y Jeffrey Hinton: El Padre Del Aprendizaje Profundo - Vista Alternativa

Tabla de contenido:

Inteligencia Artificial Y Jeffrey Hinton: El Padre Del Aprendizaje Profundo - Vista Alternativa
Inteligencia Artificial Y Jeffrey Hinton: El Padre Del Aprendizaje Profundo - Vista Alternativa

Vídeo: Inteligencia Artificial Y Jeffrey Hinton: El Padre Del Aprendizaje Profundo - Vista Alternativa

Vídeo: Inteligencia Artificial Y Jeffrey Hinton: El Padre Del Aprendizaje Profundo - Vista Alternativa
Vídeo: Geoffrey Hinton, padre de la inteligencia artificial moderna 2024, Mayo
Anonim

Inteligencia artificial. Cuánto se ha hablado de él, pero aún no hemos empezado a hablar. Casi todo lo que escuchas sobre el progreso de la inteligencia artificial se basa en un avance que tiene treinta años. Mantener el impulso del progreso requerirá eludir graves limitaciones y limitaciones importantes. A continuación, en primera persona: James Somers.

Estoy de pie donde pronto estará el centro del mundo, o simplemente en una gran habitación en el séptimo piso de una torre brillante en el centro de Toronto, de qué lado miras. Me acompaña Jordan Jacobs, cofundador de este lugar: The Vector Institute, que abre sus puertas este otoño y promete ser el epicentro mundial de la inteligencia artificial.

Estamos en Toronto porque Jeffrey Hinton está en Toronto. Y Jeffrey Hinton es el padre del "aprendizaje profundo", la técnica detrás del bombo de la IA. “En 30 años, miraremos hacia atrás y diremos que Jeff es el Einstein de la IA, el aprendizaje profundo, como sea que llamemos inteligencia artificial”, dice Jacobs. De todos los investigadores de IA, Hinton es citado con más frecuencia que los tres que lo siguieron juntos. Sus estudiantes de pregrado y posgrado van a trabajar en el laboratorio de IA en Apple, Facebook y OpenAI; El propio Hinton es el científico principal del equipo de inteligencia artificial de Google Brain. Casi todos los avances en IA durante la última década (en traducción, reconocimiento de voz, reconocimiento de imágenes y juegos) tienen algo que ver con el trabajo de Hinton.

El Vector Institute, un monumento al surgimiento de las ideas de Hinton, es un centro de investigación donde empresas de EE. UU. Y Canadá, como Google, Uber y NVIDIA, patrocinan esfuerzos para comercializar tecnologías de inteligencia artificial. El dinero llega más rápido de lo que Jacobs puede pedir; dos de sus cofundadores encuestaron empresas en el área de Toronto, y la demanda de expertos en inteligencia artificial fue 10 veces mayor que la oferta de Canadá cada año. El Vector Institute es, en cierto sentido, una tierra virgen sin explotar para tratar de movilizar al mundo en torno al aprendizaje profundo: para invertir, enseñar, perfeccionar y aplicar esta técnica. Se están construyendo centros de datos, los rascacielos están llenos de nuevas empresas y generaciones de estudiantes están llegando a la región.

norte

Cuando te paras en el suelo del Vector, tienes la sensación de que estás al principio de algo. Pero el aprendizaje profundo es, en esencia, muy antiguo. El artículo revolucionario de Hinton, escrito con David Rumelhart y Ronald Williams, se publicó en 1986. El trabajo describió en detalle el método de retropropagación del error (retropropagación), en resumen. Backprop, según John Cohen, es "todo en lo que se basa el aprendizaje profundo, todo".

En su raíz, la IA hoy en día es aprendizaje profundo, y el aprendizaje profundo es un respaldo. Lo cual es asombroso considerando que el backprop tiene más de 30 años. Simplemente es necesario comprender cómo sucedió esto: ¿cómo pudo la tecnología esperar tanto tiempo y luego causar una explosión? Porque una vez que conozca la historia de backprop, comprenderá lo que está sucediendo con la IA ahora, y también que es posible que no estemos al comienzo de la revolución. Quizás estemos al final de uno.

La caminata desde el Vector Institute hasta la oficina de Google de Hinton, donde pasa la mayor parte de su tiempo (ahora es profesor emérito en la Universidad de Toronto) es una especie de publicidad en vivo de la ciudad, al menos en el verano. Queda claro por qué Hinton, quien es originario del Reino Unido, se mudó aquí en la década de 1980 después de trabajar en la Universidad Carnegie Mellon en Pittsburgh.

Video promocional:

Tal vez no estemos al comienzo de la revolución

Toronto es la cuarta ciudad más grande de Norteamérica (después de Ciudad de México, Nueva York y Los Ángeles) y ciertamente es más diversa: más de la mitad de la población nació fuera de Canadá. Y puedes verlo cuando caminas por la ciudad. La multitud es multinacional. Hay atención médica gratuita y buenas escuelas, la gente es amigable, los políticos son relativamente izquierdistas y estables; todo esto atrae a gente como Hinton, quien dice que dejó los Estados Unidos por el Irangate (Irán-Contra es un gran escándalo político en los Estados Unidos en la segunda mitad de la década de 1980; luego se supo que ciertos miembros de la administración estadounidense organizaron suministro de armas a Irán, violando así el embargo de armas contra ese país). Aquí es donde comienza nuestra conversación antes del almuerzo.

“Muchos pensaron que Estados Unidos podría invadir Nicaragua”, dice. "Por alguna razón creyeron que Nicaragua es de Estados Unidos". Dice que recientemente logró un gran avance en el proyecto: “Un ingeniero junior muy bueno comenzó a trabajar conmigo”, una mujer llamada Sarah Sabour. Sabur es iraní y se le ha negado una visa para trabajar en Estados Unidos. La oficina de Google en Toronto lo sacó.

Hinton tiene 69 años. Tiene un rostro inglés afilado y delgado con una boca fina, orejas grandes y una nariz orgullosa. Nació en Wimbledon y en la conversación le recuerda al narrador un libro infantil sobre ciencia: curioso, tentador, tratando de explicarlo todo. Es divertido y juega un poco con la audiencia. Le duele sentarse por problemas de espalda, por lo que no puede volar, y en el consultorio del dentista se acuesta sobre un dispositivo que se parece a una tabla de surf.

Image
Image

En la década de 1980, Hinton era, como lo es ahora, un experto en redes neuronales, un modelo enormemente simplificado de la red de neuronas y sinapsis de nuestro cerebro. Sin embargo, en ese momento, se acordó firmemente que las redes neuronales eran un callejón sin salida en la investigación de la IA. Aunque la primera red neuronal, Perceptron, se desarrolló en la década de 1960 y se consideró el primer paso hacia la inteligencia de la máquina a nivel humano, en 1969 Marvin Minsky y Seymour Papert demostraron matemáticamente que tales redes solo pueden realizar las funciones más simples. Estas redes tenían solo dos capas de neuronas: una capa de entrada y una capa de salida. Las redes con una gran cantidad de capas entre las neuronas de entrada y salida podían, en teoría, resolver una gran variedad de problemas, pero nadie sabía cómo entrenarlas, por lo que en la práctica eran inútiles. Debido a los Perceptrons, casi todo el mundo ha abandonado la idea de las redes neuronales con algunas excepciones.incluido Hinton.

El avance de Hinton en 1986 fue mostrar que la propagación hacia atrás puede entrenar una red neuronal profunda con más de dos o tres capas. Pero pasaron otros 26 años antes de que aumentara la potencia informática. En un artículo de 2012, Hinton y dos estudiantes de Toronto demostraron que las redes neuronales profundas, entrenadas con backprop, superaban a los mejores sistemas de reconocimiento de imágenes. El aprendizaje profundo ha comenzado a ganar terreno. El mundo decidió de la noche a la mañana que la IA se haría cargo por la mañana. Para Hinton, esta fue una victoria bienvenida.

Campo de distorsión de la realidad

Una red neuronal generalmente se representa como un sándwich, cuyas capas se superponen entre sí. Estas capas contienen neuronas artificiales, que son esencialmente pequeñas unidades computacionales que se disparan, como se dispara una neurona real, y transmiten esta emoción a otras neuronas a las que están conectadas. La excitación de una neurona está representada por un número, digamos 0,13 o 32,39, que determina el grado de excitación de la neurona. Y hay otro número importante, en cada una de las conexiones entre las dos neuronas, que determina cuánta excitación debe transferirse de una a la otra. Este número modela la fuerza de las sinapsis entre las neuronas del cerebro. Cuanto mayor sea el número, más fuerte será la conexión, lo que significa que fluye más emoción de uno a otro.

Una de las aplicaciones más exitosas de las redes neuronales profundas ha sido el reconocimiento de imágenes. Hoy en día existen programas que pueden reconocer si hay un hot dog en la imagen. Hace unos diez años eran imposibles. Para que funcionen, primero debe tomar una foto. En aras de la simplicidad, digamos que se trata de una imagen en blanco y negro de 100 x 100 píxeles. Lo alimenta a la red neuronal configurando el disparo de cada neurona simulada en la capa de entrada para que sea igual al brillo de cada píxel. Esta es la capa inferior del sándwich: 10,000 neuronas (100 x 100) que representan el brillo de cada píxel en la imagen.

Luego, conecta esta gran capa de neuronas a otra gran capa de neuronas, ya más alta, digamos, varios miles, y ellas, a su vez, a otra capa de varios miles de neuronas, pero menos, y así sucesivamente. Finalmente, la capa superior del sándwich, la capa de salida, constará de dos neuronas, una que representa el perrito caliente y la otra no el perrito caliente. La idea es entrenar la red neuronal para que active solo la primera de estas neuronas si hay un hot dog en la imagen y la segunda si no. Backprop, la técnica de retropropagación en la que Hinton ha construido su carrera, hace precisamente eso.

Image
Image

Backprop es extremadamente simple, aunque funciona mejor con grandes cantidades de datos. Esta es la razón por la que los macrodatos son tan importantes para la inteligencia artificial: por qué Facebook y Google son tan apasionados por él y por qué el Vector Institute decidió conectarse con los cuatro hospitales más grandes de Canadá y compartir datos.

En este caso, los datos toman la forma de millones de imágenes, algunas con perritos calientes, otras sin; el truco consiste en marcar estas imágenes como si fueran perros calientes. Cuando crea una red neuronal por primera vez, las conexiones entre las neuronas tienen pesos aleatorios, números aleatorios que indican cuánta excitación se transmite a través de cada conexión. Como si las sinapsis del cerebro aún no estuvieran sintonizadas. El propósito del backprop es cambiar estos pesos para que la red funcione: de modo que cuando alimente la imagen del perrito caliente a la capa más inferior, la neurona del perrito caliente en la capa más superior se active.

Digamos que tomas la primera foto del tutorial de piano. Está convirtiendo las intensidades de píxeles de una imagen de 100 x 100 en 10,000 números, uno para cada neurona en la capa inferior de la red. A medida que la excitación se propaga a través de la red de acuerdo con la fuerza de la conexión de las neuronas en las capas adyacentes, todo llega gradualmente a la última capa, una de las dos neuronas que determinan si hay un perrito caliente en la imagen. Dado que esta es una imagen de un piano, la neurona del perrito caliente debe mostrar cero y la neurona que no es del perrito caliente debe mostrar un número más alto. Digamos que las cosas no funcionan así. Digamos que la red se equivocó con la imagen. Backprop es un procedimiento para fortalecer la fuerza de cada conexión en la red, lo que le permite corregir el error en el ejemplo de entrenamiento dado.

¿Cómo funciona? Empiece con las dos últimas neuronas y averigüe qué tan equivocadas están: cuál es la diferencia entre sus números de activación y cuál debería ser realmente. Luego, observa cada conexión que conduce a estas neuronas, bajando las capas, y determina su contribución al error. Siga haciendo esto hasta que llegue al primer conjunto de conexiones en la parte inferior de la red. En este punto, sabe cómo contribuye la conexión individual al error general. Finalmente, cambia todos los pesos para reducir la posibilidad general de error. Esta llamada "técnica de propagación de errores" consiste en ejecutar errores a través de la red, comenzando en el otro extremo, en la salida.

Lo increíble comienza a suceder cuando lo haces con millones o miles de millones de imágenes: la red comienza a determinar bien si una imagen es un hot dog o no. Y lo que es aún más notable es que las capas individuales de estas redes de reconocimiento de imágenes comienzan a "ver" imágenes de la misma manera que lo hace nuestro propio sistema visual. Es decir, la primera capa detecta contornos: las neuronas se activan cuando hay contornos y no se activan cuando no lo son; la siguiente capa define conjuntos de caminos, como esquinas; la siguiente capa comienza a distinguir formas; la siguiente capa encuentra todo tipo de elementos como "bollo abierto" o "bollo cerrado" porque se activan las neuronas correspondientes. La red se organiza en capas jerárquicas sin siquiera estar programada de esta manera.

norte

La verdadera inteligencia no se confunde cuando el problema cambia ligeramente.

Esto es lo que asombró tanto a todos. No es tanto que las redes neuronales sean buenas para clasificar imágenes de perros calientes: construyen representaciones de ideas. Con el texto, esto se vuelve aún más obvio. Puede alimentar el texto de Wikipedia, muchos miles de millones de palabras, a una simple red neuronal, enseñándole a dotar a cada palabra de números correspondientes a las excitaciones de cada neurona en la capa. Si piensa en todos estos números como coordenadas en un espacio complejo, encontrará un punto, conocido en este contexto como vector, para cada palabra en ese espacio. Luego entrena a la red para que las palabras que aparecen una al lado de la otra en las páginas de Wikipedia estén dotadas de coordenadas similares, y listo, sucede algo extraño: palabras con significados similares aparecerán una al lado de la otra en este espacio. "Loco" y "molesto" estarán allí; "Tres" y "siete" también. Además,la aritmética vectorial le permite restar el vector "Francia" de "París", agregarlo a "Italia" y encontrar "Roma" cerca. Nadie le dijo a la red neuronal que Roma es para Italia lo mismo que París es para Francia.

“Es asombroso”, dice Hinton. "Es impactante". Las redes neuronales pueden verse como un intento de tomar cosas (imágenes, palabras, grabaciones de conversaciones, datos médicos) y colocarlas, como dicen los matemáticos, en un espacio vectorial multidimensional en el que la proximidad o lejanía de las cosas reflejará los aspectos más importantes del mundo real. Hinton cree que esto es lo que hace el cerebro. “Si quieres saber qué es un pensamiento”, dice, “puedo transmitírtelo en una serie de palabras. Puedo decir: "John pensó 'Ups'. Pero si preguntas: ¿qué es el pensamiento? ¿Qué significa para John tener este pensamiento? Después de todo, en su cabeza no hay comillas iniciales, "oops", comillas finales, en general, no existe tal cosa. Alguna actividad neuronal está ocurriendo en su cabeza ". Grandes imágenes de la actividad neuronal, si eres un matemático, se pueden capturar en el espacio vectorial,donde la actividad de cada neurona corresponderá a un número, y cada número corresponderá a la coordenada de un vector muy grande. Para Hinton, el pensamiento es una danza de vectores.

Ahora está claro por qué el Instituto de Vector se llamó así

Hinton crea una especie de campo de distorsión de la realidad, se te transmite un sentimiento de confianza y entusiasmo, inculcando la creencia de que nada es imposible para los vectores. Después de todo, ya han creado automóviles autónomos, computadoras que detectan el cáncer y traductores instantáneos de idiomas hablados.

Solo cuando sales de la habitación recuerdas que estos sistemas de aprendizaje profundo siguen siendo bastante tontos a pesar de su poder demostrativo de pensamiento. Una computadora que ve una pila de donas en una mesa y la etiqueta automáticamente como “una pila de donas en la mesa” parece entender el mundo; pero cuando el mismo programa ve a una niña cepillándose los dientes y dice que es un “niño con un bate de béisbol”, uno se da cuenta de lo difícil que es este entendimiento, si es que lo hay.

Las redes neuronales son simplemente reconocedores de patrones vagos y sin sentido, y cuán útiles pueden ser tales reconocedores de patrones (después de todo, buscan integrarlos en cualquier software), en el mejor de los casos, son una clase limitada de inteligencia que se engaña fácilmente. Una red neuronal profunda que reconoce imágenes puede confundirse por completo si cambia un píxel o agrega ruido visual que es invisible para los humanos. Casi siempre que encontramos nuevas formas de utilizar el aprendizaje profundo, a menudo nos enfrentamos a sus limitaciones. Los vehículos autónomos no pueden conducir en condiciones que no se han visto antes. Las máquinas no pueden analizar oraciones que requieren sentido común y una comprensión de cómo funciona el mundo.

Image
Image

El aprendizaje profundo imita lo que está sucediendo en el cerebro humano de alguna manera, pero de manera superficial, lo que quizás explique por qué su inteligencia es tan superficial a veces. Backprop no se descubrió durante la inmersión cerebral, tratando de descifrar el pensamiento en sí; surgió de modelos de aprendizaje animal por prueba y error en experimentos anticuados. Y la mayoría de los pasos importantes que se han dado desde sus inicios no incluyeron nada nuevo sobre neurociencia; se trataba de mejoras técnicas merecidas por años de trabajo de matemáticos e ingenieros. Lo que sabemos sobre la inteligencia no es nada comparado con lo que todavía no sabemos sobre ella.

David Duvenaud, profesor asistente en el mismo departamento que Hinton en la Universidad de Toronto, dice que el aprendizaje profundo es similar a la ingeniería antes de la introducción de la física. “Alguien escribe una obra y dice: '¡Hice este puente y vale la pena!' Otro escribe: "Hice este puente y se derrumbó, pero agregué soportes y se mantiene". Y todo el mundo se vuelve loco por los apoyos. Alguien agrega un arco, y todos son así: ¡los arcos son geniales! Con la física, puedes averiguar qué funcionará y por qué. Solo recientemente hemos comenzado a avanzar hacia al menos cierta comprensión de la inteligencia artificial ".

Y el propio Hinton dice: “La mayoría de las conferencias hablan de hacer pequeños cambios en lugar de pensar mucho y hacer preguntas:“¿Por qué lo que estamos haciendo ahora no está funcionando? ¿Cuál es la razón para esto? Centrémonos en esto.

Es difícil tener una perspectiva externa cuando todo lo que ves es un avance tras otro. Pero los últimos avances en IA han sido menos científicos y más de ingeniería. Si bien comprendemos mejor qué cambios mejorarán los sistemas de aprendizaje profundo, todavía tenemos una vaga idea de cómo funcionan estos sistemas y si alguna vez pueden unirse en algo tan poderoso como la mente humana.

Es importante comprender si pudimos extraer todo lo que podamos del backprop. Si es así, entonces tendremos una meseta en el desarrollo de la inteligencia artificial.

Paciencia

Si desea ver el próximo avance, algo así como un marco para máquinas con una inteligencia mucho más flexible, debería, en teoría, recurrir a una investigación similar a la investigación de backprop en los años 80: cuando las personas inteligentes se rindieron porque sus ideas aún no funcionaban. …

Hace unos meses visité el Center for Minds, Brains and Machines, una institución polivalente con sede en el MIT, para ver a mi amigo Eyal Dechter defender su disertación en ciencia cognitiva. Antes del inicio de la actuación, su esposa Amy, su perra Ruby y su hija Suzanne lo apoyaron y le desearon suerte.

Eyal comenzó su discurso con una pregunta fascinante: ¿cómo sucedió que Suzanne, que solo tiene dos años, aprendió a hablar, jugar, seguir historias? ¿Qué hay en el cerebro humano que le permite estudiar tan bien? ¿Aprenderá alguna vez una computadora a aprender tan rápido y sin problemas?

Entendemos los nuevos fenómenos en términos de cosas que ya comprendemos. Dividimos el dominio en trozos y lo examinamos pieza por pieza. Eyal es matemático y programador, piensa en las tareas, como hacer un soufflé, como programas informáticos complejos. Pero no aprendes a hacer un soufflé memorizando cientos de instrucciones de programas de minutos como "gira el codo 30 grados, luego mira la mesa, luego extiende el dedo, luego …". Si tuvieras que hacer esto en cada caso nuevo, el aprendizaje se volvería insoportable y dejarías de desarrollarte. En cambio, vemos pasos de alto nivel como "batir las claras" en el programa, que a su vez se componen de subrutinas como "romper los huevos" y "separar las claras de las yemas".

Las computadoras no hacen esto y por lo tanto parecen estúpidas. Para que el aprendizaje profundo reconozca un hot dog, debe alimentarlo con 40 millones de imágenes de hot dog. Lo que Suzanne reconoció es el perrito caliente, solo enséñele el perrito caliente. Y mucho antes de eso, tendrá una comprensión del idioma, que va mucho más allá del reconocimiento de la aparición de palabras separadas juntas. A diferencia de una computadora, su cabeza tiene una idea de cómo funciona el mundo. “Me sorprende que la gente tenga miedo de que las computadoras les quiten el trabajo”, dice Eyal. “Las computadoras no podrán reemplazar a los abogados porque los abogados están haciendo algo difícil. Pero porque los abogados escuchan y hablan con la gente. En este sentido, estamos muy lejos de todo esto”.

La verdadera inteligencia no se confundirá si cambia ligeramente los requisitos para resolver el problema. Y la tesis clave de Eyal fue demostrar exactamente esto, en principio, cómo hacer que una computadora funcione de esta manera: aplicar con vivacidad todo lo que ya sabe para resolver nuevos problemas, comprender rápidamente sobre la marcha, convertirse en un experto en un campo completamente nuevo.

Esencialmente, esto es lo que él llama algoritmo de exploración-compresión. Le da a la computadora la función de un programador, construyendo una biblioteca de componentes modulares reutilizables para que se puedan crear programas más complejos. Sin saber nada sobre el nuevo dominio, la computadora intenta estructurar el conocimiento sobre él, simplemente estudiándolo, consolidando lo que ha descubierto y estudiándolo más a fondo, como un niño.

Su asesor, Joshua Tenenbaum, es uno de los investigadores de IA más citados. El nombre de Tenenbaum apareció en la mitad de las conversaciones que tuve con otros científicos. Algunas de las personas clave de DeepMind, el equipo de desarrollo de AlphaGo que derrotó al campeón mundial de Go en 2016, han trabajado con él. Está involucrado en una startup que intenta brindar a los autos autónomos una comprensión intuitiva de la física subyacente y las intenciones de otros conductores, para que puedan anticipar mejor lo que está sucediendo en situaciones que no se han encontrado antes.

La tesis de Eyal aún no se ha aplicado en la práctica, ni siquiera se ha introducido en los programas. “Los problemas en los que está trabajando Eyal son muy, muy difíciles”, dice Tenenbaum. "Se necesitan muchas generaciones para pasar".

Cuando nos sentamos a tomar una taza de café, Tenenbaum dijo que estaba investigando la historia del backprop en busca de inspiración. Durante décadas, backprop ha sido una forma de matemática genial, la mayor parte de ella no es capaz de nada. A medida que las computadoras se hicieron más rápidas y la tecnología más difícil, las cosas cambiaron. Espera que suceda algo similar con su propio trabajo y el trabajo de sus alumnos, pero "puede que tarde un par de décadas más".

Para Hinton, está convencido de que superar las limitaciones de la IA se trata de crear un "puente entre la informática y la biología". Backprop, desde este punto de vista, fue un triunfo de la informática de inspiración biológica; la idea originalmente no vino de la ingeniería, sino de la psicología. Así que ahora Hinton está intentando repetir este truco.

Hoy en día, las redes neuronales están formadas por grandes capas planas, pero en el neocórtex humano, las neuronas reales se alinean no solo horizontalmente, sino también verticalmente, en columnas. Hinton adivina para qué sirven estas columnas: en la visión, por ejemplo, le permiten reconocer objetos incluso cuando cambia su punto de vista. Así que crea una versión artificial - y las llama "cápsulas" - para probar esta teoría. Hasta el momento, no sale nada: las cápsulas no han mejorado mucho el rendimiento de sus redes. Pero hace 30 años pasaba lo mismo con el backprop.

“Debería funcionar”, dice sobre la teoría de la cápsula, riéndose de su propia valentía. "Y lo que todavía no funciona es sólo una irritación temporal".

Basado en materiales de Medium.com

Ilya Khel

Recomendado: