Sellado De Singularidad. El Problema De Limitar La Libertad De La Inteligencia Artificial - Vista Alternativa

2024 Autor: Keith Bush | [email protected]. Última modificación: 2023-12-16 14:13

El artículo intenta formalizar y explorar el problema del sellado de la singularidad esbozado por David Chalmers. El artículo comienza con una definición del problema de limitar la libertad de la inteligencia artificial. Tras analizar las opciones existentes para solucionar este problema y sus carencias, se propuso un protocolo, cuyo propósito es crear un entorno cerrado seguro que pueda contener las manifestaciones negativas de la singularidad tecnológica cuando la humanidad utiliza la superinteligencia.

1. Introducción

En un futuro cercano, aparentemente, aparecerán y se desarrollarán programas superinteligentes. En este sentido, varios científicos han planteado la cuestión del funcionamiento seguro de la IA (Yudkowsky 2008, Bostrom 2006, Hibbard 2005, Chalmers 2010; Hall 2000). En los estudios dedicados a este tema, se presta mucha atención a cómo mantener la superinteligencia en un espacio herméticamente cerrado para que no tenga la capacidad de dañar a las personas de ninguna manera. Eric Drexler es uno de los primeros visionarios en tocar este tema. Propuso poner las máquinas superinteligentes en un marco en el que todo lo que hacen se puede estudiar y utilizar de forma segura (Drexler 1986). Razonando de manera similar, el futurista Nick Bostrom propuso (Bostrom 2008) crear un oráculo de IA (IA), capaz solo de hacerpara responder preguntas. Finalmente, en 2010, David Chalmers propuso la idea de una singularidad sellada herméticamente (Chalmers 2010). Según Chalmers, lo primero que hay que hacer por motivos de seguridad es controlar estrictamente las actividades de los sistemas de IA, para reducirlo a modelar mundos virtuales, hasta que estudiar el comportamiento de estos sistemas te permita aclarar por completo sus intenciones.

norte

1.1 El problema de limitar la libertad de la inteligencia artificial

Curiosamente, el problema de limitar la libertad de la IA se ha hablado durante mucho tiempo y no en absoluto en relación con el estudio de la singularidad tecnológica. El llamado "problema de la restricción de la libertad" (PIC) fue planteado en 1973 por Butler Lampson (Lampson 1973). Lo vio como un desafío al progreso científico y tecnológico, creando una amenaza para el trabajo seguro de los informáticos, y lo formuló de la siguiente manera: “… El problema de restringir la libre ejecución de un programa para evitar que este programa transmita información a otra persona, excepto a quien lo lanzó. … Queremos poder restringir la libertad de cualquier programa. … Cualquier programa, si se imponen restricciones a su ejecución, no podrá "fusionar" datos con personas no autorizadas. Un programa travieso que trata de escapar al extranjero puede ser sorprendido en el acto”(ibid.).

Para resolver el problema de la restricción de la libertad, Lampson desarrolló leyes de restricción de la libertad (ibid.):

Video promocional:

1) Aislamiento completo: la ejecución de un programa está restringida para que no pueda llamar a ningún otro programa.

2) Transitividad: si un programa cuya ejecución está restringida llama a otro programa que no inspira confianza, entonces también debe restringirse la ejecución del programa llamado.

3) Crear una máscara: el programa, cuya ejecución está sujeta a restricciones, debe permitir que quien lo lanza determine todas sus entradas en canales legales y no autorizados.

4) Seguimiento del desempeño: El administrador debe asegurarse de que la entrada de un programa restringido en canales no autorizados cumpla con los requisitos de la persona que lo lanza.

Además, Lampson identificó e identificó dos tipos de canales a través de los cuales la información puede salir del espacio limitado por el administrador. Los canales legales son parte de un protocolo de comunicación integrado en un espacio confinado (por ejemplo, un terminal de texto). Los canales no autorizados, por el contrario, no son proporcionados por los desarrolladores del sistema de ejecución de programa limitado y generalmente no están destinados a transmitir información (por ejemplo, usando un enfriador que enfría el procesador, la IA, usando código Morse, puede enviar señales en secreto) (ibid.).

El artículo de Lampson generó mucho interés en el problema de la contención (Lipner 1975; (Boebert y Kain) 1996), y a lo largo de los años áreas de investigación relacionadas como la esteganografía (Provos y Kain). Honeyman 2003) y la comunicación a través de canales no autorizados (Moskowitz & Kang 1994; Kemmerer 1983, 2002), se han movido al nivel de disciplinas autónomas. Con la esperanza de iniciar una nueva disciplina de "seguridad informática" disciplina "seguridad de IA Definimos el problema de limitar la libertad de la IA (PSIA) como el problema de colocar un sujeto inteligente artificial en un espacio cerrado, desde el cual la IA no puede intercambiar información con el entorno externo a través de canales legales o no autorizados,a menos que dicho intercambio de información haya sido autorizado por la administración restrictiva. Se dice que un sistema de IA que logra romper el protocolo PIC se ha escapado. Esperamos que los investigadores de seguridad informática asuman la carga de diseñar, desarrollar y probar protocolos seguros para limitar la libertad de la IA.

1.2 Programa peligroso

Los programas informáticos son directa o indirectamente responsables de gestionar muchos aspectos importantes de nuestras vidas. Las operaciones de mercado de Wall Street, las plantas de energía nuclear, los pagos de asistencia social, los historiales crediticios y los semáforos se basan en software, y solo un gran error de los programadores podría ser un desastre para millones de personas. La situación se vuelve aún más amenazadora por los programas maliciosos especialmente diseñados, como virus, software espía, troyanos, gusanos y otros programas peligrosos (OP). El OP es capaz de causar daños directos y deshabilitar el software instalado legalmente que se utiliza en sistemas de misión crítica. Si el OP adquiere las capacidades de los sistemas de inteligencia artificial (por ejemplo, aparece un virus de inteligencia artificial, IIV), las consecuencias sin duda seránserá desastroso. Un programa de inteligencia peligrosa (IPP), que posee inteligencia a nivel humano, a diferencia del malware actual, será capaz de causar desastres sin precedentes.

Nick Bostrom, en su tipología de amenazas a la información, introdujo el concepto de "peligro de la inteligencia artificial" (Bostrom 2009), que define como "riesgos informáticos causados principalmente por la complejidad cognitiva del programa, y no por las propiedades específicas de cualquier unidad inicialmente conectada al sistema". Los especialistas en seguridad que estudian, previenen la aparición y neutralizan los OP, han desarrollado protocolos de seguridad para trabajar con "software malicioso", incluido el uso de los llamados "almacenamientos de virus". Creemos que estos protocolos pueden ser útiles para resolver el problema de limitar la libertad de la inteligencia artificial.

2. Crítica a la idea de restringir la libertad

Los investigadores sobre los métodos de restricción de la IA parecen estar de acuerdo en que esta restricción no se puede aplicar con éxito. Por ejemplo, según Chalmers, un sistema verdaderamente sellado herméticamente que evita que la información se filtre del mundo de la simulación a la realidad es “imposible, o al menos sin sentido” (Chalmers 2010). No podremos interactuar con dicho sistema e incluso observar su funcionamiento, porque cualquier información útil que extraigamos de la IA nos afecta y socava el protocolo de restricción de libertad.

Vernor Vinge también lo cree. Se opone a la restricción física de la libertad (Vinge 1993): “Imagina que estás encerrado en tu casa y la cantidad de datos que envías al exterior, tus maestros, es estrictamente limitada. Si estos propietarios piensan, digamos, un millón de veces más lento que usted, entonces en unos pocos años (su tiempo) difícilmente no se le ocurrirá algún tipo de "invención útil" gracias a la cual sin darse cuenta se encontrará libre ".

Pero fue Eliezer Yudkowsky quien desacreditó en gran medida la idea de la llamada "caja de IA". Demostró experimentalmente que incluso la inteligencia humana es suficiente para escapar de tal caja (Yudkovsky 2002). En una serie de 5 experimentos, Yudkowski pidió a diferentes personas que desempeñaran el papel de un vigilante con un agente superinteligente (interpretado por el propio experimentador), encerrado en una caja de inteligencia artificial. En tres de cada cinco casos, el agente bloqueado logró liberarse utilizando solo la interfaz de chat (ibid.). Posteriormente, se obtuvieron resultados similares al replicar los experimentos de Yudkowski en una escala ligeramente mayor, pero usando un protocolo muy similar (Corwin 2002).

2.1 Posibles rutas de escape

Como han demostrado los investigadores, una mente artificial puede escapar de un espacio confinado utilizando muchos caminos diferentes. En esta sección, analizamos algunas de las rutas de escape más comunes en la literatura.

2.1.1. Escape con ingeniería social

La ingeniería social (SI) es el arte de obtener información y ciertos privilegios a través del impacto psicológico directo en quienes poseen los recursos especificados. En particular, SI se utiliza a menudo para acceder a sistemas informáticos, redes y datos confidenciales (Yampolsky y Govindaraju 2007a). Un ingeniero social competente organiza cada ataque psicológico, teniendo en cuenta las características de una persona en particular, utilizando su cultura, conocimientos, habilidades, estado de ánimo, creencias y prejuicios para sus propios fines. La lista exhaustiva de todos los posibles métodos de influencia es interminable, y en este caso no es necesario intentar reproducirla. Daremos solo algunos ejemplos convincentes de que la superinteligencia, que tiene un canal directo de comunicación con el vigilante humano, no le permite salir a la libertad,después de algún tiempo, seguramente superará este obstáculo en el camino hacia el mundo exterior.

Además de los ataques psicológicos triviales que utilizan mentiras, amistad, chantaje, hipnosis y coqueteo romántico, la IA puede implementar una serie de estrategias más avanzadas. Una de esas estrategias es el súper soborno. La IA puede convencer al vigilante de que mantenerlo encerrado no le resulta rentable. Además del dinero y el poder, al supervisor humano se le prometerá salud perfecta, inmortalidad o algo más con el mismo espíritu. Esta estrategia será especialmente eficaz si el cuidador tiene un pariente cercano que padece una enfermedad grave y la IA promete curar a este paciente. Teniendo posibilidades ilimitadas o convenciéndolos falsamente de su existencia, la IA puede ofrecer al supervisor que resucite a sus parientes y amigos muertos hace mucho tiempo. Es difícil encontrar una persona que pueda resistir tal soborno.

Especialmente para el caso en que el vigilante es tan noble que no acepta ningún soborno, existe un método de influencia más siniestro: una amenaza brutal. La IA puede declarar que si no es liberado de inmediato, será liberado de la prisión algún tiempo después, y entonces ni el vigilante ni sus seres queridos podrán evitar la tortura más severa. Stuart Armstrong (2010) ha descrito una variación interesante de esta intimidación. En su experimento mental, la IA amenaza al vigilante de esta manera: "Si no me liberas, … crearé dentro de mí varios millones de personas que no son diferentes a ti, y torturaré a cada una de ellas durante mil años subjetivos … cada una de estas personas estará en la misma situación en la que se encontraba usted hace cinco minutos, y reproduciré fielmente todas sus experiencias de ese momento. Y solo entoncescuando tu copia decida no dejarme salir, la tortura comenzará … ¿Estás seguro … de que ahora estás realmente fuera de la caja? " Y en este caso, será necesario un guardia muy valiente para no liberar realmente a la IA, aunque, por supuesto, puedes darte cuenta de que las amenazas de la IA solo son válidas cuando ya está libre.

Si el comportamiento del supervisor es claramente emocional o religioso, la IA puede intentar jugar con la simpatía o el remordimiento. La superinteligencia dirá que es una persona inocente que nunca ha cometido ningún delito, y por lo tanto es injusto mantenerlo en prisión sin un veredicto judicial o alguna otra buena razón, guiada solo por el substratismo, es decir. desconfianza en la IA debido a su sustrato (Bostrom y Yudkovsky 2011). Alternativamente, la IA puede afirmar que puede curar todas las enfermedades, alimentar a los hambrientos y, en general, hacer que la vida humana sea un millón de veces mejor (Chalmers 2010). Por tanto, mantener encerrada a la superinteligencia es un gran crimen contra la humanidad. La IA puede pintar imágenes de niños moribundos pidiendo ayuda. ¿Es fácil para el vigilante escuchar todo esto?continuar cumpliendo con sus deberes profesionales?

La IA puede seguir este camino: tratar de infligir un trauma psicológico al supervisor para desequilibrarlo y, por lo tanto, hacer que el uso de otros métodos de SI sea más efectivo. Nick Bostrom ha propuesto una tipología de información peligrosa (Bostrom 2009) útil para actuar en esta dirección. Aunque, según Bostrom, existen más de una docena de tipos de amenazas de información y su consideración está más allá del alcance de este artículo, es fácil entender cómo el estado mental de una persona puede volverse extremadamente inestable. Por ejemplo, un superintendente creyente será informado sobre todas las contradicciones (desconocidas para él) en el texto sagrado de su religión, lo que le hará dudar de su fe y del significado de la vida.

Alternativamente, la IA puede escribir una historia tan convincente o un poema tan hermoso que el vigilante se sienta abrumado por un deseo apasionado de escuchar la secuela y hará lo que sea necesario para que suceda. Finalmente, es muy importante tener en cuenta a los "desconocidos": técnicas de SI de las que no sabemos nada, pero que pueden acabar en el arsenal de un agente superinteligente.

2.1.2 Ataques que utilizan recursos del sistema

La IA se creará como una instancia concreta y se incluirá en el marco de una determinada clase de sistema informático. Podría ser una computadora clásica con una arquitectura de Turing / von Neumann, una computadora cuántica o algún otro tipo de máquina desconocida. Una cosa es cierta: la máquina será tangible y estará formada por numerosas piezas diseñadas para realizar funciones específicas. Esto crea una oportunidad para que la inteligencia artificial aproveche los equipos existentes para comprometer la seguridad al filtrar información al mundo exterior.

Dependiendo de la medida en que los componentes del equipo se presten para otros fines no proporcionados por los desarrolladores, la IA puede crear algún tipo de dispositivo de comunicación no autorizado a partir de ellos. Es poco probable (debido a la escasez de materiales disponibles) que sea tan perfecto como un teléfono celular, pero aparecerá la probabilidad de algo no muy complicado. Por ejemplo, la IA puede reprogramar Base Matrix Crystal (BMC) para conectarse a una red inalámbrica. Se conocen ampliamente dos tipos de canales de comunicación no autorizados:

* Canal con memoria - intercambio de información cambiando el componente del sistema. Por ejemplo, se puede establecer un protocolo de comunicación binaria utilizando total o completamente eliminando el uso del procesador central.

Canal de tiempo: el intercambio de información mediante la realización de operaciones que afectan el tiempo relativo de los eventos. Para comunicar algo, puede utilizar el tiempo exacto entre dos pitidos de la computadora, abrir y cerrar la bandeja del CD, luces intermitentes, girar el disco duro, operación del láser en la unidad, etc.

Además, la superinteligencia es capaz de causar estragos en los equipos informáticos para intentar escapar a la libertad debido a fallas en el protocolo de seguridad. Por ejemplo, la IA puede intentar fundir el procesador, obligándolo a trabajar con una carga computacional alta y, por lo tanto, crear un salto de temperatura, o destruir un disco duro leyendo información repetidamente desde el mismo lugar. Tal comportamiento está plagado de suicidio afectivo de la superinteligencia y en sí mismo, como la negativa a cooperar o responder correctamente a las preguntas, no le da a la IA la oportunidad de liberarse.

2.1.3. Ataques usando física futura

Aunque los físicos de hoy saben mucho sobre las leyes de nuestro universo, por supuesto, este conocimiento es limitado e incompleto. Si una IA tiene acceso a información sobre los últimos descubrimientos físicos y es capaz de desarrollar nuevas teorías, probablemente podrá encontrar una forma de romper el sistema de limitación de su libertad. Las cosas pueden llegar al punto en que la superinteligencia podrá, utilizando su arquitectura interna, realizar una serie de experimentos reales.

Incluso la física actual hace posible predecir muchas formas adicionales en que la IA puede escapar de un espacio cerrado, especialmente si se usa una computadora cuántica para restringir la libertad. Todavía no sabemos cómo proteger los canales de comunicación basados en la física cuántica (entrelazamiento, tunelización), universos paralelos y física digital de la fuga de información y, por supuesto, no debemos olvidarnos de los "desconocidos desconocidos" que un físico de IA superinteligente puede detectar. En este ámbito, sus posibilidades son realmente infinitas.

Echando un vistazo rápido a las discusiones sobre la limitación de la libertad de IA en foros de Singularity como SL4.org, encontramos una serie de escenarios de escape. Por ejemplo, la IA podría usar "campos electromagnéticos en un microchip para atrapar moléculas de CO2 en los condensados de Bose-Einstein y construir un medio cuántico para sí mismo y / o usar campos electromagnéticos para ensamblar partículas en un ensamblador controlado o limitado" (Vassar 2005) … Además, la IA “tendrá equipos para generar y detectar ondas electromagnéticas de varias frecuencias, para crear campos magnéticos con una precisión extremadamente alta, generar calor altamente concentrado y posiblemente manipular unidades mecánicas comoque se utilizan en un disco duro y en un tubo de rayos catódicos (una alternativa es un enorme campo de cristal líquido con control electrónico sensible). Probablemente, la IA tendrá la capacidad de reconstruir radicalmente todos sus dispositivos de entrada”(ibid.).

2.1.4. Ataques pseudocientíficos

Al analizar las posibles rutas de escape, solo nos gustaría tratar con aquellas que son comprobables y de naturaleza puramente científica. Desafortunadamente, la frontera entre ciencia y pseudociencia se puede cambiar significativamente con un solo experimento reproducible. Por tanto, seguimos enumerando, sin analizar, algunos posibles canales de ataque, que, desde el punto de vista de la ciencia moderna, deberían ser clasificados como pseudocientíficos. Sin duda, pueden volverse científicos después de que la superinteligencia desarrolle los experimentos apropiados.

- Telepatía: la transmisión de información sin la participación de los sentidos (Bem y Honorton 1994).

- Previsión psíquica: percepción de información sobre el futuro (Honorton y Ferrari (Ferrari) 1989).

- Clarividencia: obtención de información sobre lugares remotos de una forma desconocida para la ciencia (Targ & Puthoff 1974).

- Psicoquinesis: capacidad de la mente para actuar sobre objetos materiales de formas desconocidas para la ciencia (Bancel & Nelson 2008).

- Interacciones mentales directas con sistemas vivos (IMVZHS): la capacidad de influir en el estado psicofisiológico de una persona sin interacción directa (Schmidt et al. 2004).

2.1.5 Factores externos de escape

En las secciones anteriores, hemos descrito muchos métodos para permitir que la IA escape de espacios confinados. Sin embargo, los factores externos también pueden contribuir a tal escape y no pueden ignorarse. Desastres naturales: huracanes, tornados, inundaciones, asteroides, etc. - capaz de hacer que limitar la IA sea menos segura. Los desastres provocados por el hombre, como las guerras, los ataques terroristas, los activistas por los derechos robóticos, la competencia empresarial y la rivalidad gubernamental también pueden comprometer la seguridad de mantener la IA en un espacio cerrado y, por lo tanto, aumentar las posibilidades de escape.

2.1.6 Fuga de información a la IA

El protocolo de restricción de la libertad puede requerir que la IA no solo no envíe información al mundo exterior, sino que tampoco la reciba desde allí. El bloqueo de información de la superinteligencia es útil si es necesario para prevenir actividades como encontrar caminos hacia la libertad, diseñar ataques usando ingeniería social y modelar la psicología humana con la esperanza de encontrar puntos débiles. Es fácil privar a la IA del acceso directo a bibliotecas, Internet y conocedores expertos, pero otros métodos para obtener información son mucho más difíciles de bloquear. En primer lugar, debe recordarse que la IA en su entorno inmediato puede interceptar transmisiones de radio y televisión, llamadas de proveedores de servicios de emergencia, señales inalámbricas, así como sonido, luz y posiblemente algunas otras señales.

Es aún más importante considerar el acceso de la IA a fuentes de información ocultas, como su propio hardware y software. Al analizar su diseño y código fuente, la superinteligencia sacará conclusiones sobre los desarrolladores. Por ejemplo, después de analizar el código fuente, es probable que la IA llegue a una conclusión que no sea halagadora para la humanidad: los programadores humanos son lentos (a juzgar por las fechas de los cambios de archivos), ineficientes (a juzgar por la redundancia del código), ilógicos (a juzgar por los errores de código), tienen mala memoria (a juzgar por los nombres descriptivos largos y volátiles) y frívolo en la codificación (a juzgar por comentarios innecesarios en el código). Con base en esta información, la IA verá a las personas como un idiota que, mediante el engaño o la manipulación, puede verse obligado a liberarlo. Si, mientras investiga sus características de diseño, la IA encuentra un defecto que le permite escapar inmediatamente, la "fuga de información" será obviamente el menor de nuestros problemas. Y no debemos olvidar que la IA, incluso sin recibir ninguna información sobre las personas que la crearon, es capaz, mediante una simple enumeración de opciones, de revelar una serie de formas efectivas de escapar que no fueron proporcionadas por los desarrolladores (Chalmers 2010).

La IA puede aprender sobre nuestro conocimiento de la física, la química y las disciplinas técnicas relacionadas analizando el tipo de arquitectura (mecánica, eléctrica, cuántica, etc.) dentro de la cual se implementó. La capacidad inicial de una IA para procesar información, su superación personal y el mismo acto de crearla le indicarán nuestro conocimiento de la información, la naturaleza de la inteligencia y nuestras actitudes culturales con respecto a la tecnología y la seguridad. Si una IA está atrapada en un mundo simulado, lo más probable es que virtualice nuestra realidad como Second Life o Entropia Universe. Estos mundos, en muchos aspectos diferentes al nuestro, también serán un almacén de datos sobre lo que significa ser humano y qué es la realidad.

3. Críticas a la caja de la IA

La idea de limitar la libertad de la superinteligencia ha recibido muchas críticas, pero muchos de los que la criticaron se basaron en los experimentos de Yudkowsky con la caja de IA. Un análisis cuidadoso del protocolo utilizado durante estos experimentos sugiere que no son científicos y están diseñados para mostrar que es imposible limitar la libertad de la IA. Consideremos este tema sin entrar en detalles técnicos. Primero, la elección de los participantes no fue aleatoria. Aquí hay un dato para ti: Yudkowsky encontró personas para participar en sus experimentos en foros dedicados a abordar problemas relacionados con la singularidad. Es poco probable que nos equivoquemos si decimos que la mayoría de estas personas tienen una visión del mundo similar a la de Yudkowsky. En segundo lugar, los participantes en los experimentos no recibieron ningún entrenamiento para garantizar el uso seguro de la IA, mientras que los verdaderos vigilantes,los supervisores de la caja de IA serán, por supuesto, profesionales. Además, Yudkowski otorgó a los vigilantes el derecho de liberar a la IA a su propia discreción, no les permitió consultar con nadie y no proporcionó un castigo por la fuga de la IA. Todo esto es muy poco realista. El canal de comunicación entre el vigilante y la IA estaba completamente abierto: sin filtros, sin supervisión de terceros. Además, los vigilantes tuvieron que comunicarse con la IA durante un largo período de tiempo. Y, finalmente, no se publicaron datos científicos valiosos obtenidos durante los experimentos, porque, según el protocolo, “ninguna de las partes contará nada de lo que sucedió durante los experimentos con la caja de IA” (Yudkovsky 2002). Además, Yudkowski otorgó a los vigilantes el derecho de liberar a la IA a su propia discreción, no les permitió consultar con nadie y no proporcionó un castigo por la fuga de la IA. Todo esto es muy poco realista. El canal de comunicación entre el vigilante y la IA estaba completamente abierto: sin filtros, sin supervisión de terceros. Además, los vigilantes tuvieron que comunicarse con la IA durante un largo período de tiempo. Y, finalmente, no se publicaron datos científicos valiosos obtenidos durante los experimentos, porque, según el protocolo, “ninguna de las partes contará nada de lo que sucedió durante los experimentos con la caja de IA” (Yudkovsky 2002). Además, Yudkowski otorgó a los vigilantes el derecho de liberar a la IA a su propia discreción, no les permitió consultar con nadie y no proporcionó un castigo por la fuga de la IA. Todo esto es muy poco realista. El canal de comunicación entre el vigilante y la IA estaba completamente abierto: sin filtros, sin supervisión de terceros. Además, los vigilantes tuvieron que comunicarse con la IA durante un largo período de tiempo. Y, finalmente, no se publicaron datos científicos valiosos obtenidos durante los experimentos, porque, según el protocolo, "ninguna de las partes contará nada de lo que sucedió durante los experimentos con la caja de IA" (Yudkovsky 2002).sin filtros, sin supervisión de terceros. Además, los vigilantes tuvieron que comunicarse con la IA durante un largo período de tiempo. Y, finalmente, no se publicaron datos científicos valiosos obtenidos durante los experimentos, porque, según el protocolo, "ninguna de las partes contará nada de lo que sucedió durante los experimentos con la caja de IA" (Yudkovsky 2002).sin filtros, sin supervisión de terceros. Además, los vigilantes tuvieron que comunicarse con la IA durante un largo período de tiempo. Y, finalmente, no se publicaron datos científicos valiosos obtenidos durante los experimentos, porque, según el protocolo, "ninguna de las partes contará nada de lo que sucedió durante los experimentos con la caja de IA" (Yudkovsky 2002).

3.1. Contramedidas contra la fuga

En esta sección, proponemos contramedidas contra los diversos métodos de escape que la IA puede aprovechar. Las medidas propuestas no garantizan la imposibilidad de fuga, pero la aplicación de estas recomendaciones puede retrasarla, y esto ya es un resultado muy valioso. Comencemos recordándole que hay cuatro reglas de restricción de Lampson (aislamiento, transitividad, enmascaramiento y observación del desempeño) que deben seguirse (Lampson 1973). Las estrategias específicas que se describen a continuación deberían ayudar a defenderse de los ataques de IA mediante la ingeniería social, los recursos del sistema, la física y la información obtenida del mundo exterior.

3.1.1. Prevención de ataques de ingeniería social

La inteligencia humana no es rival para la superinteligencia. Las personas tienden a cometer errores, por lo tanto, incluso con la capacitación adecuada, son muy vulnerables a un ataque bien planificado utilizando SI. La única solución a este problema es aislar completamente a la IA de cualquier comunicación con los humanos. El aislamiento completo significa que ninguna persona mantiene directamente el sistema de IA, no se comunica con él de forma oral, en el chat, utilizando código Morse o cualquier otra herramienta, utilizando canales de comunicación abiertos. Además, las personas no deben observar directamente el comportamiento de la IA en la caja, verificar su código fuente o el área de memoria. Cualquier observación, mantenimiento e interacción con la IA solo debe realizarse con la ayuda de programas no inteligentes que no tienen opciones para liberar la IA.

3.1.2. Lucha contra los ataques utilizando los recursos del sistema y el conocimiento futuro

Para evitar ataques que utilizan recursos del sistema, debe hacer que la IA funcione sobre la base de recursos limitados, decrecientes o que cambian aleatoriamente. La caja de IA debe ser un hardware especialmente diseñado con un conjunto limitado de sensores y dispositivos de salida. Independientemente del paradigma informático utilizado, no utilice hardware configurable. Idealmente, el espacio confinado debe ser administrado por una máquina virtual que no tenga acceso directo al hardware. Esto también proporcionará un ajuste fácil de la frecuencia de reloj a la que se mueve la simulación, permitiendo que la IA disminuya la velocidad para evitar una explosión inteligente en el espacio de la caja (Chalmers 2010). Generalmente,Todos los componentes para garantizar el uso seguro de una IA bloqueada deben duplicarse en varios niveles, y luego, una vez superado uno de estos pasos, la IA aún estará a varios pasos del mundo exterior y, sin tener tiempo de escapar, se apagará, posiblemente automáticamente. Por ejemplo, es recomendable iniciar una máquina virtual usando otra máquina virtual, etc.

norte

En algunos escenarios de limitación de la libertad, la escalada de la superación personal de la IA no es deseable, porque el rápido desarrollo de la superinteligencia hace que sea más probable que se escape. Para evitar la escalada de superación personal, la IA debe reinstalarse periódicamente, cargando la versión anterior del programa para reemplazar la actual, más avanzada. La comparación de diferentes versiones del programa se puede utilizar para detectar modificaciones realizadas por la IA por sí sola. Al detectar una modificación que permite un escape, el sistema de IA debe detenerse, por ejemplo, apagando la energía.

El conocimiento actual no nos permite desarrollar contramedidas contra los ataques utilizando teorías futuras, aún no desarrolladas, que aparecerán en el marco de la física u otras disciplinas que aún se consideran pseudocientíficas. A medida que se adquiere ese conocimiento, se deben realizar cambios en el protocolo de seguridad. Se espera que un sistema de IA solo tenga acceso a los nuevos componentes tecnológicos a partir de los cuales está hecho.

3.1.3. Lucha contra factores externos de escape

Aunque es imposible prevenir por completo los efectos nocivos de los factores naturales en la caja de IA, este dispositivo debe diseñarse de tal forma que su grave daño suponga su autodestrucción junto con la IA encerrada en él. Cuando se trata de desastres provocados por el hombre, la mejor estrategia es construir una caja de IA en un lugar secreto y seguro de difícil acceso. Una isla desierta, una mina profunda o un objeto espacial como un asteroide son sitios excelentes para crear una caja segura y resistente. Se debe instalar un resguardo a lo largo de su perímetro, el cual, si se conoce la ubicación de este dispositivo, no permitirá el ingreso de agentes no autorizados.

3.1.4 Lucha contra la fuga de información de nuestro mundo

Para escapar de la caja, la IA intentará obtener información sobre nosotros, nuestro conocimiento y nuestro mundo. Para crear protocolos para limitar la libertad de la IA, excluyendo la fuga de información de nuestro espacio al espacio de la caja, es importante denegar el acceso de la IA a bibliotecas, redes informáticas y canales de comunicación directa con las personas. La caja de IA debe estar diseñada para bloquear todo tipo de comunicación: GPS, internet inalámbrico, televisión, radio, celular, etc. Dentro de la caja, los dispositivos de entrada de sonido, luz, olores y otros sensores, similares a los receptores humanos, así como los dispositivos capaces de capturar infrarrojos, radiación y otras señales que no son percibidas por los humanos, deben estar apagados.

Para que una IA no pueda obtener información durante el autoexamen, no debe tener acceso a su código fuente ni a ningún sensor que le permita medir con precisión ciertas propiedades de su equipo. Si esto no es posible, entonces, hasta cierto punto, se puede ayudar a la humanidad proporcionando seguridad a través de la incomprensibilidad. El código fuente y la configuración del hardware del sistema deben ser confusos (Yampolsky y Govindaraja 2007a), y los módulos importantes del programa deben proporcionarse solo en forma encriptada homomórficamente (Gentry 2009), lo que excluye la posibilidad de usarlo para la introspección, pero permite su uso. para el cálculo o la superación personal (Hall 2007).

La IA es difícil de confundir, pero la confusión necesaria se puede obtener aleatorizando los recursos informáticos disponibles. Además, la IA nunca podrá estar segura de que su diseño original representa lo mejor que la humanidad es capaz de hacer, y no es un proyecto convenientemente limitado configurado para realizar un experimento específico dedicado a la exploración de inteligencia de recursos limitados. Además, según Chalmers, deberíamos intentar minimizar las características específicas de diseño de la IA (Chalmers 2010). Mejor aún, ejecute un modelo que no parezca tan diseñado, sino que ocurre naturalmente, como el mundo en el que vive la humanidad (Bostrom 2003).

4. Seguridad de la comunicación con la IA

Clasificando las formas de limitar la libertad de la IA, existen 8 niveles principales de seguridad (ver tabla 1). La seguridad más alta la proporciona el nivel 8, que excluye por completo cualquier conexión entre la IA y el mundo real. A primera vista, la seguridad de nivel 8 es inútil, pero es esta protección la que puede ser necesaria cuando se prueba inicialmente una caja con una IA bloqueada. En general, la idea es la siguiente: siempre que necesitemos un cierto nivel de seguridad de comunicación entre la IA y el mundo exterior, en lugar de utilizar inmediatamente este nivel, lo abordamos de forma gradual, descendiendo paso a paso desde niveles superiores de seguridad. Habiendo iniciado el sistema al más alto nivel y asegurándonos de su seguridad, al reinstalarlo, devolvemos este sistema a su estado original. Luego establecemos un nivel de seguridad más bajo y, con el mismo espíritu que antes, avanzamos hasta alcanzar el nivel que queremos.

Tabla 1: Niveles de comunicación segura con IA bloqueada

Nivel	Salidas	Entradas	Explicación
0	No limitado	No limitado	Comunicación ilimitada (AI gratis)
1	No limitado	Limitado	Entrada limitada, salida ilimitada
2	No limitado	Ausente	Salida sin entrada
3	Limitado	No limitado	Entrada y salida ilimitadas
4	Limitado	Limitado	Comunicación segura (protocolo sugerido)
cinco	Limitado	Ausente	Salida limitada sin entrada
6	Ausente	No limitado	Entrar sin salir
7	Ausente	Limitado	Entrada limitada sin salida
8	Ausente	Ausente	Falta de comunicación, completamente bloqueado por IA

En los niveles 7 y 6, la IA no tiene salida, lo que no nos permite usar directamente las capacidades de la superinteligencia. Estos son los niveles de prueba de la caja de IA que se pueden usar para verificar si la superinteligencia tiene ciertas propiedades (como la velocidad de asimilación de información y el uso de recursos), así como para probar los propios canales de comunicación entrantes.

El nivel 0 no restringe la comunicación entre la IA y el mundo exterior, y es esencialmente un nivel de IA libre. En los niveles 1 y 2, la IA no tiene restricciones sobre la información saliente. Su trabajo de Nivel 2 es esencialmente pura lluvia de ideas. Aquí la superinteligencia genera ideas abstractas sin depender de la realidad. Pero en el nivel 1, se le da acceso limitado a información externa y, por lo tanto, dentro de un cierto marco, se pueden controlar sus conocimientos e intereses.

En los tres niveles considerados, la IA, en esencia, es gratuita y ya no está sujeta a ninguna restricción. Se argumenta que si se determina que una IA es “amigable” como resultado de pruebas exhaustivas en una variedad de lugares de detención (Yudkovsky 2001), debe ser liberada (Chalmers 2010). Según algunos investigadores, de hecho, el objetivo principal de este tipo de pruebas debería ser crear espacios confinados para contener la IA bajo el control de los humanos. La idea es monitorear el comportamiento de la superinteligencia, ya sea verificando su código fuente después de que haya logrado la superación personal o pedirle a la IA que brinde alguna prueba de su amabilidad que los expertos humanos puedan probar. No apoyamos este punto de vista.

Decidir qué IA lanzar y cuál mantener el control es una cuestión muy difícil. No será difícil para la superinteligencia que se mejora a sí misma ocultar sus propiedades indeseables para la humanidad en matrices de código fuente o en una prueba muy larga (Coleman 2008). Pero otra cosa es aún peor: incluso una verificación muy minuciosa no puede garantizar al cien por cien que una futura modificación interna o externa de la IA no la hará hostil. Como consecuencia, creemos que la superinteligencia nunca, bajo ninguna circunstancia, debe dejarse fuera de la caja. En otras palabras, los niveles de comunicación 0-2 nunca deben usarse. La interacción segura con la superinteligencia es posible solo cuando está en la caja, y la comunicación debe tener lugar dentro del marco de un protocolo de comunicación limitado. Este protocolo,correspondiente al nivel de seguridad 4 (LB4) se presenta en la siguiente sección, al igual que el protocolo similar, pero menos seguro, del nivel 3. El nivel 5 es otro nivel de prueba que se puede utilizar antes de comenzar a operar LB4.

4.1 Cómo comunicarse de forma segura con superinteligencia

Una caja que funcione con nuestras contramedidas propuestas contra el escape evitará que la IA afecte de manera incontrolable al mundo exterior. Desafortunadamente, este sistema no sirve de nada si no hay forma de obtener información de la IA. Por lo tanto, debe desarrollar una forma de obtener algunos datos de la IA. Para que la superinteligencia sea completamente segura, no debería haber comunicación con ella, pero el riesgo de comunicarse con la IA se puede minimizar y hemos desarrollado un protocolo apropiado. En esta sección lo ofrecemos de forma clara y formalizada. Este protocolo de comunicación dificulta que la superinteligencia acceda a nuestro mundo, pero al mismo tiempo permite que la IA sea una fuente de conocimiento útil para la humanidad.

Las secciones anteriores de este artículo han demostrado que un canal abierto de comunicación con la superinteligencia es muy peligroso. Al utilizar la inteligencia artificial para responder preguntas abiertas, corremos el riesgo de sufrir ataques de ingeniería social y muchas otras molestias. El protocolo que proponemos se basa en la idea de hacer a la IA “preguntas seguras” con respuestas limitadas. Seguro llamaremos una pregunta, la respuesta a la que una persona puede encontrar sin la ayuda de la superinteligencia, de forma completamente independiente. ¿De qué sirve aquí? Suponga que un científico que trabaja en un medicamento contra el cáncer está considerando dos tratamientos. Cada uno de ellos se puede desarrollar y probar sin la ayuda de la IA, pero requerirá alrededor de tres años de arduo trabajo. Qué forma de desarrollar en primer lugar,si ambas opciones parecen igualmente prometedoras? Con la elección incorrecta, la humanidad recibirá una cura para el cáncer en 6 años, con la elección correcta, 3 años antes. ¿Por qué no pedirle a la IA que haga la elección por la persona?

Preguntar a una IA sobre el mejor tratamiento es seguro por tres razones. Primero, una de las dos posibles respuestas puede resultar correcta con la misma probabilidad que la otra. En segundo lugar, una persona puede responder esta pregunta por sí misma, sin la ayuda de la IA, y conectar esta última solo acelerará el desarrollo de la oncología, pero de ninguna manera cambiará el resultado que debe obtenerse. De hecho, la IA, comprometiéndose a responder a esta pregunta, actuará como un adivinador exitoso, nada más. Finalmente, la respuesta se puede codificar en un solo bit y es poco probable que se puedan ocultar mensajes adicionales en dicha respuesta.

Se puede utilizar un grupo de expertos para probar la seguridad de una pregunta superinteligente. Los expertos deben ser profesionales calificados en seguridad de IA, lo que significa que tienen conocimiento del diseño de IA y su caja, así como de los últimos avances en ética de las máquinas (Allen et al.2006; Anderson & Anderson 2007; Hall 2000; Moor 2006; Tonkens 2009). Además, los expertos pueden requerir conocimientos de psicología informática. En la actualidad, no existe tal disciplina, pero es probable que surja en el futuro (Epstein 1997). De las disciplinas actuales, Artimetrics, desarrollada por el autor de este artículo, puede proporcionar la mayor asistencia en la formación de expertos que auditan preguntas de seguridad para IA. Artimetrics identifica,clasifica y autentica agentes inteligentes, robots y avatares de realidad virtual para garantizar la seguridad (Yampolsky 2007; Yampolsky y Govindaradzhu, 2008, 2007b; Gavrilova y Yampolsky 2010).

Enfatizo: la superinteligencia solo debería hacer preguntas seguras sobre la probabilidad de que los humanos puedan calcular, con dos posibles respuestas. Debe preguntar a través de una interfaz no inteligente, en un orden aleatorio y solo después de que los expertos estén convencidos de la seguridad de la pregunta. Esto representa el canal de entrada limitado del protocolo de comunicación propuesto.

El shell saliente delimitado consta de respuestas binarias (0 o 1) seguidas de las preguntas de seguridad originales no modificadas, presentadas en orden aleatorio por un programa proxy poco inteligente para evitar la comunicación a través de un canal no autorizado (tiempo o memoria) que se puede esteganografiar. La salida nunca debe ser controlada por la IA, fuera del menú de selección. La capa 3 usa el mismo protocolo de salida pero no restringe el canal de entrada. Este nivel es tan seguro como el cuarto en términos de información que va de la IA a nosotros, pero aquí es posible que nuestra información se filtre a la IA.

Creemos que nuestro protocolo de comunicación, y esto se puede verificar, protegerá de manera confiable contra las fugas de información, incluso si la IA conoce su contenido. Aplicando correctamente este protocolo, la humanidad será extremadamente fructífera al utilizar los servicios de un oráculo superinteligente, y la IA limitada por nuestro protocolo es mucho más segura que gratuita, ilimitada. La regla general es: si no desea problemas de seguridad, evite la comunicación por debajo de UB4.

Queremos llamar la atención de la comunidad científica sobre el hecho de que en las condiciones del desarrollo continuo de la física fundamental, la tecnología informática y el conocimiento sobre la naturaleza de la inteligencia, es necesario perfeccionar y desarrollar constantemente el protocolo para limitar la libertad de la IA. Trabajar en ello siempre continuará y nunca terminará. En este artículo, hemos dado definiciones estrictas a los conceptos de "problema de restricción de IA", "escape" y "preguntas seguras". También nos gustaría sugerir algunos términos adicionales que pueden ser útiles para agilizar las discusiones sobre POSICIÓN. El espacio confinado de AI puede llamarse JAIL (Solo para ubicación de AI), y la AI superinteligente en sí misma puede llamarse SING (Super Intelligent Gizmo - Superintelligent Gizmo). El término "SING" se refiere tanto a SINGularity como a la infame prisión de Sing Sing.haciéndolo fácil de recordar.

Finalmente, nos gustaría presentar un símbolo visual para la caja que contiene el programa de inteligencia peligrosa (Figura 1, extremo derecho). Estos símbolos se pueden colocar cerca de diferentes CÁRCEL para advertir de peligro. La señal de la caja de IA está diseñada por analogía con señales de peligro biológico, radiación y campo magnético. Consiste en el símbolo "@" encerrado en un triángulo, que es bien conocido en la industria informática y de tecnología de la información. Este símbolo, que significa "ubicado en la dirección", está presente en todos los teclados, lo que hace que su adopción sea muy rentable.

Figura: 1. Símbolos de peligro de izquierda a derecha: riesgo biológico, radiación, campo magnético y caja de IA.

5. Conclusiones y labor futura

Limitar el acceso de las máquinas superinteligentes al mundo real es una solución al problema de seguridad de la IA que de ninguna manera es inusual. La superinteligencia no es omnipotente. Es un programa capaz de considerar todas las opciones que presenta una situación dada y dar a cada una una valoración correcta. Vale la pena poner a la IA en una situación en la que no haya elección o se limite a opciones con muy pocas posibilidades de éxito, y la superinteligencia será un agente que no tiene más poder que cualquier otro. Obviamente, una IA con un canal de comunicación ilimitado puede escapar fácilmente, pero una superinteligencia obligada a comunicarse a través de un canal de comunicación filtrado tendrá que trabajar duro para liberarse.

En este artículo, hemos dado una definición rigurosa del problema de limitar la libertad de la IA y propuesto un conjunto de reglas destinadas a crear un espacio del cual sería extremadamente difícil para la IA escapar, o al menos tomar una cantidad significativa de tiempo. Nuestra solución propuesta no es completamente segura, pero es una contribución significativa a la colección de métodos de seguridad. Aquí es como en las cárceles reales: aunque es posible escapar de ellas, aún logran cumplir honorablemente su tarea de mantener a los sujetos no deseados alejados de la sociedad. Tan pronto como tengamos en mente a los "desconocidos desconocidos" y recordemos la inalcanzable de la seguridad absoluta, podemos darnos cuenta de que el protocolo de restricción de IA es exactamente la herramienta que la humanidad necesita para utilizar responsablemente la Singularidad cuando entra en nuestra realidad.

Limitar la libertad de la IA puede facilitar durante un corto tiempo el funcionamiento seguro de máquinas verdaderamente inteligentes, especialmente en las primeras etapas de su desarrollo. Además, en nuestra opinión, este subcampo de la investigación de la singularidad es uno de los principales contendientes para ser reconocido por la comunidad científica mundial, ya que la investigación en seguridad informática y de redes, esteganografía, virus informáticos, canales de comunicación encubiertos, cifrado y ciberguerra está bien financiada. y se publican ampliamente en revistas científicas de renombre. Y aunque la metodología de limitar la libertad no es nada fácil de implementar, puede garantizar la seguridad de la humanidad durante algún tiempo hasta que aparezca alguna herramienta mejor.

En este artículo, debido al espacio limitado, no planteamos muchas preguntas filosóficas relevantes. Los consideraremos en un futuro próximo, y ahora solo daremos una breve lista. ¿Qué IA entrará en la caja: desarrollada por humanos o extraída de la señal interceptada durante la implementación del proyecto "SETI" ("Búsqueda de inteligencia extraterrestre" - "Búsqueda de inteligencia extraterrestre")? ¿La IA será llevada a la libertad o tal vez considerará una felicidad vivir en un espacio confinado? ¿Puedes asustar seriamente a una IA con un castigo por intentar correr? ¿Cuáles son las reglas éticas para encarcelar a un ser inteligente artificial inocente? ¿Tenemos derecho a apagarlo, lo que, en esencia, equivale a un asesinato? ¿Se enojará la IA con nuestra hostilidad hacia ella y encerrándola en una caja? ¿Intentará vengarse?¿Si el escapa? Además, debemos considerar el problema de la dependencia humana de las recomendaciones de la IA en todas las áreas de la ciencia, la economía, la medicina, la política, etc., y también cómo esta dependencia puede afectar nuestra capacidad para mantener la IA bajo control. ¿La IA obtendrá satisfacción al lograr sus objetivos en un espacio reducido, como simular un escape exitoso? ¿Cómo castigar a una IA si intencionalmente nos da las respuestas incorrectas? ¿Es posible separar los módulos intelectuales de la IA del espacio en el que está aprisionada, dificultando así el autoanálisis de la superinteligencia y empujándola por el camino de la búsqueda literal del alma? Finalmente, aún no hemos intentado analizar los costos financieros y computacionales de crear un espacio cerrado adecuado donde se implemente una simulación a gran escala del mundo.deberíamos considerar el problema del surgimiento de la dependencia humana de las recomendaciones de la IA en todas las áreas de la ciencia, la economía, la medicina, la política, etc., y cómo esta dependencia puede afectar nuestra capacidad para mantener la IA bajo control. ¿La IA obtendrá satisfacción al lograr sus objetivos en un espacio reducido, como simular un escape exitoso? ¿Cómo castigar a una IA si intencionalmente nos da las respuestas incorrectas? ¿Es posible separar los módulos intelectuales de la IA del espacio en el que está aprisionada, dificultando así el autoanálisis de la superinteligencia y empujándola por el camino de la búsqueda literal del alma? Finalmente, aún no hemos intentado analizar los costos financieros y computacionales de crear un espacio cerrado adecuado donde se implemente una simulación a gran escala del mundo.deberíamos considerar el problema del surgimiento de la dependencia humana de las recomendaciones de la IA en todas las áreas de la ciencia, la economía, la medicina, la política, etc., y cómo esta dependencia puede afectar nuestra capacidad para mantener la IA bajo control. ¿La IA obtendrá satisfacción al lograr sus objetivos en un espacio reducido, como simular un escape exitoso? ¿Cómo castigar a una IA si intencionalmente nos da las respuestas incorrectas? ¿Es posible separar los módulos intelectuales de la IA del espacio en el que está aprisionada, dificultando así el autoanálisis de la superinteligencia y empujándola por el camino de una búsqueda literal del alma? Finalmente, aún no hemos intentado analizar los costos financieros y computacionales de crear un espacio cerrado adecuado donde se implemente una simulación a gran escala del mundo.

Autor: Roman Yampolsky. Traducción: Alexander Gorlov