Los Científicos Han Creado Una IA De Autoaprendizaje Capaz De Jugar A Todos Los Juegos - Vista Alternativa

Tabla de contenido:

Los Científicos Han Creado Una IA De Autoaprendizaje Capaz De Jugar A Todos Los Juegos - Vista Alternativa
Los Científicos Han Creado Una IA De Autoaprendizaje Capaz De Jugar A Todos Los Juegos - Vista Alternativa

Vídeo: Los Científicos Han Creado Una IA De Autoaprendizaje Capaz De Jugar A Todos Los Juegos - Vista Alternativa

Vídeo: Los Científicos Han Creado Una IA De Autoaprendizaje Capaz De Jugar A Todos Los Juegos - Vista Alternativa
Vídeo: El ambicioso nuevo juego que costó 8 MILLONES de DOLARES desarrollar y terminó en ESTAFA 2024, Abril
Anonim

Los desarrolladores del revolucionario sistema de inteligencia artificial de autoaprendizaje AlphaGo Zero han anunciado la creación de una nueva versión de esta máquina, que puede aprender de forma independiente a jugar cualquier juego de mesa y vencer a una persona. Su descripción fue presentada en la revista Science.

Profundidades de la mente

El sistema AlphaGo AI fue desarrollado por David Silver y sus colegas a fines de 2014, y su trabajo fue "probado" en el campeón europeo Fan Hui, quien perdió los cinco partidos contra la máquina. En marzo de 2016, AlphaGo derrotó al campeón mundial de Go Lee Sedol en una serie de cinco partidos, de los cuales solo uno terminó con una victoria humana.

norte

Silver y sus colegas pudieron lograr estos éxitos construyendo su IA sobre la base no de una, sino de dos redes neuronales a la vez: algoritmos especiales que imitan el trabajo de las cadenas de neuronas en el cerebro humano. Uno de ellos se encarga de evaluar la posición actual en el tablero, y el segundo utiliza los resultados del análisis elaborado por la primera red para elegir el siguiente paso.

El siguiente paso lógico en el desarrollo de AlphaGo fue la eliminación del principal inconveniente de todas las redes neuronales y sistemas de inteligencia artificial existentes: la necesidad de enseñarles lo que deben hacer utilizando enormes archivos de datos procesados manualmente por una persona, o con la participación directa de una persona, como sucedió en las primeras etapas. desarrollo de AlphaGo.

Silver y su equipo resolvieron este problema creando una red neuronal fundamentalmente nueva basada en los llamados algoritmos de aprendizaje por refuerzo. Esta red neuronal, a diferencia de su predecesora estelar, que originalmente se entrenó en juegos con voluntarios y tenía algunas estrategias de juego primitivas incorporadas, comenzó su trabajo como un principiante absoluto con una base de conocimiento cero.

En otras palabras, ella solo conocía las reglas del juego de Go, las condiciones iniciales y las condiciones de victoria, y luego la computadora aprendió de forma independiente a jugar esta antigua estrategia china, jugando consigo misma y actuando por ensayo y error. La única limitación en su trabajo fue el tiempo máximo para pensar en la mudanza: fue de aproximadamente 0,4 segundos.

Video promocional:

Después de cada uno de esos juegos, el sistema de inteligencia artificial analizó todos sus movimientos y recordó aquellos que acercaron una de sus "mitades" a la victoria, y entró en una especie de "lista negra" los pasos que francamente estaban perdiendo. Con estos datos, la red neuronal se reconstruyó, alcanzando gradualmente el nivel que alcanzó la primera versión de AlphaGo antes de la serie de juegos con Lee Sedol.

El paso a los algoritmos de autoaprendizaje no solo permitió a AlphaGo Zero superar a su predecesor y vencerlo 100-0, sino que también mejoró muchos otros aspectos de su trabajo. En particular, el proceso de su entrenamiento tomó solo tres días y cerca de cinco millones de juegos, lo que fue un orden de magnitud menor que las solicitudes de la primera versión de IA.

El camino hacia la excelencia

La finalización exitosa de los experimentos con AlphaGo Zero llevó a Silver y su equipo a considerar si se podría usar una red neuronal similar para ganar la corona del campeón en otros tipos de estrategia y juegos de mesa.

Para ello, los científicos incorporaron otro elemento nuevo en AlphaGo Zero: algoritmos heurísticos para la búsqueda aleatoria de soluciones, así como un código que tuvo en cuenta la existencia de un empate en algunos juegos. Además, la nueva versión del alfa mejoraba continuamente su estructura, en lugar de actualizarse en etapas como su predecesor.

Estos cambios relativamente simples, como demostraron otros experimentos, aumentaron significativamente la velocidad de autoaprendizaje de este sistema de inteligencia artificial y lo convirtieron en una máquina universal capaz de reproducir todo tipo de estrategias de mesa.

Los científicos han probado su trabajo en tres tipos de juegos: go, ajedrez ordinario y su variedad japonesa, shogi. En los tres casos, la nueva creación de Silver alcanzó el nivel de un gran maestro en menos de un millón de partidas, logrando una selectividad casi humana en la elección de posibles movimientos en tan solo 9-12 horas de entrenamiento para el ajedrez y 13 días para jugar.

Anteriormente, venció a los programas de computadora más sofisticados que juegan estos juegos: el algoritmo de Stockfish se rindió en la cuarta hora de entrenamiento AlphaZero, mientras que Elmo, el actual campeón en shogi, solo duró dos horas. Finalmente, la primera versión de AlphaGo empezó a ceder ante su "nieto" a las 30 horas de su entrenamiento.

Las próximas "víctimas" de AlphaZero, como señalaron los científicos, pueden ser juegos de computadora "reales", como Starcraft II y Dota 2. En su opinión, ganar el campeonato en tales disciplinas de deportes electrónicos abrirá el camino para que la IA de autoaprendizaje penetre en áreas menos formalizadas de la ciencia y la cultura. y Tecnología.

Recomendado: