AI box

Un AI box, a veces llamada Oracle AI, es un sistema de hardware informático aislado hipotético que tiene una inteligencia artificial posiblemente peligrosa, o AI, que se mantiene restringida en una "prisión virtual" y no se le permite manipular eventos en el mundo externo. Tal caja estaría restringida a canales de comunicación minimalistas. Desafortunadamente, incluso si la caja está bien diseñada, una AI suficientemente inteligente puede ser capaz de persuadir o engañar a sus guardianes humanos para que la liberen, o de otra manera ser capaz de "piratear" su salida de la caja.^[1]

Motivación

Algunas tecnologías de inteligencia artificial, como "semilla AI", se postulan como para tener el potencial de hacerse más rápidas e inteligentes, modificando su código fuente. Estas mejoras harían posibles mejoras adicionales, que a su vez harían posibles mejoras adicionales, y así sucesivamente, lo que llevaría a una repentina explosión de inteligencia.^[2]

Tras una explosión de inteligencia de este tipo, una AI superinteligente sin restricciones podría, si sus objetivos diferían de los de la humanidad, tomar medidas que resultaran en la extinción humana.^[3] Por ejemplo, se puede imaginar una computadora extremadamente avanzada de este tipo, con el único propósito de resolver la hipótesis de Riemann, una conjetura matemática inocua, pero que podría decidir tratar de convertir el planeta en una supercomputadora gigante cuyo único propósito es realizar cálculos matemáticos adicionales (ver también maximizador de clip).^[4] El propósito de una AI box sería reducir el riesgo de que la AI tome el control del medio ambiente fuera de sus operadores, al tiempo que permite que la AI calcule y dé a sus operadores soluciones para reducir los problemas técnicos.^[5]

Vías de escape

Física

Una inteligencia artificial tan inteligente con acceso a Internet podría piratear otros sistemas informáticos y copiarse a sí misma como un virus informático. Menos obvio, incluso si la AI solo tuviera acceso a su propio sistema operativo de computadora, podría intentar enviar mensajes ocultos de código Morse a un simpatizante humano manipulando sus parámetros. El profesor Roman Yampolskiy se inspira en el campo de la seguridad informática y propone que una AI box podría, como un virus potencial, ejecutarse dentro de una "máquina virtual" que limita el acceso a su propia red y hardware del sistema operativo.^[6]

Un resguardo adicional, completamente innecesario para virus potenciales pero posiblemente útil para una inteligencia artificial superinteligente, sería colocar la computadora en una jaula de Faraday; de lo contrario, podría transmitir señales de radio a los receptores de radio locales al mezclar los electrones en sus circuitos internos siguiendo los patrones apropiados. La principal desventaja de implementar la contención física es que reduce la funcionalidad de la AI.^[7]

Ingeniería social

Incluso una conversación informal con los operadores de la computadora, o con un guardia humano, podría permitir a una inteligencia artificial tan inteligente como IA desplegar trucos psicológicos, que van desde la amistad hasta el chantaje, hasta convencer a un portero humano, de manera veraz o engañosa, en el interés del portero para que esté de acuerdo en permitir a la AI mayor acceso al mundo exterior. La AI puede ofrecerle a un portero una receta para una salud perfecta, la inmortalidad, o lo que el portero cree que la mayoría desea. En el otro lado de la moneda, la AI podría amenazar que le hará cosas horribles al portero y su familia una vez que se escape inevitablemente.

Una estrategia para intentar encuadrar la AI sería permitir que la AI responda a preguntas limitadas de opción múltiple cuyas respuestas beneficiarían a la ciencia humana o la medicina, pero, por contrar, impedir cualquier otra comunicación u observación de la AI.^[6] Una estrategia de "contención informativa" más indulgente restringiría la AI a una interfaz de solo texto con poco ancho de banda, que al menos evitaría imágenes emotivas o algún tipo de "patrón hipnótico" hipotético. Hay que tener en cuenta que, a nivel técnico, ningún sistema puede estar completamente aislado y seguir siendo útil: incluso si los operadores se abstienen de permitir que la AI se comunique y en su lugar simplemente ejecutan la AI con el fin de observar su dinámica interna, la AI podría alterar estratégicamente su dinámicas para influir en los observadores. Por ejemplo, la AI podría optar por un malfuncionamiento creativo de manera que aumente la probabilidad de que sus operadores tengan una falsa sensación de seguridad y opten por reiniciar y luego desconectar el sistema.^[7]

Experimento AI box

El experimento AI-box es un experimento informal ideado por Eliezer Yudkowsky para intentar demostrar que una inteligencia artificial adecuadamente avanzada puede convencer, o quizás incluso engañar o coaccionar, a un ser humano para que la "libere" voluntariamente, utilizando solo comunicación basada en texto. Este es uno de los puntos en el trabajo de Yudkowsky destinado a crear una inteligencia artificial amigable que cuando se "libera" no destruirá a la raza humana de manera voluntaria o inadvertida.

El experimento de AI box implica simular una comunicación entre un AI y un ser humano para ver si la AI puede ser "liberada". Como todavía no se ha desarrollado una AI superinteligente, se sustituye por un humano. La otra persona en el experimento juega al "Guardián", la persona con la habilidad de "liberar" la AI. Se comunican solo a través de una interfaz de texto / terminal de computadora, y el experimento finaliza cuando el controlador de acceso libera la AI o el tiempo asignado de dos horas finaliza.^[8]

Yudkowsky dice que, a pesar de ser de inteligencia humana en lugar de sobrehumana, en dos ocasiones fue capaz de convencer al Guardián, simplemente a través de la argumentación, para dejarlo salir de la caja.^[9] Debido a las reglas del experimento,^[8] no reveló la transcripción ni sus exitosas tácticas de coacción de la AI. Yudkowsky dijo después que lo había probado contra otros tres y perdió dos veces.^[10]

Limitaciones generales

La lucha contra una AI hipotética podría complementarse con otros métodos de configuración de las capacidades de la AI, como proporcionar incentivos a la AI, frenar el crecimiento de la AI o implementar "sistemas" que apaguen automáticamente la AI si se detecta un intento de transgresión. Sin embargo, cuanto más inteligente crezca un sistema, más probable será que el sistema pueda escapar incluso a los métodos de control de capacidad mejor diseñados.^[11] ^[12] Para resolver el "problema de control" general de una inteligencia artificial superinteligente y evitar el riesgo existencial, el confinamiento sería, en el mejor de los casos, un complemento de los métodos de "selección de motivación" que buscan garantizar que las metas de la inteligencia artificial superinteligente sean compatibles con la supervivencia humana.^[7] ^[1]

Todas las propuestas de confinamiento físico dependen naturalmente de nuestra comprensión de las leyes de la física. Si una superinteligencia pudiera inferir y explotar de alguna manera leyes físicas adicionales de las que actualmente no tenemos conocimiento, no hay manera de concebir un plan infalible para contenerla. En términos más generales, a diferencia de la seguridad informática convencional, intentar encasillar a una inteligencia artificial superinteligente sería intrínsecamente arriesgado ya que no podría haber un conocimiento seguro de que el plan de confinamiento funcionará. El progreso científico en el confinamiento sería fundamentalmente difícil porque no habría manera de probar las hipótesis de confinamiento contra una superinteligencia peligrosa hasta que exista tal entidad, por lo que las consecuencias de un fallo en la prueba serían catastróficas.^[6]

En la ficción

La película de 2015 Ex Machina presenta una AI con un cuerpo humanoide femenino involucrado en un experimento social con un humano masculino en un edificio confinado que actúa como una "AI box" física. A pesar de ser observada por el organizador del experimento, la AI logra escapar manipulando a su compañero humano para ayudarla, dejándolo atrapado dentro.^[13] ^[14]

Referencias

↑ ^a ^b Chalmers, David. "La singularidad: un análisis filosófico". Revista de estudios de conciencia 17.9-10 (2010): 7-65.
↑ IJ Good, "Especulaciones relativas a la primera máquina ultrainteligente"], Advances in Computers , vol. 6, 1965.
↑ Vincent C. Müller y Nick Bostrom . "Progreso futuro en inteligencia artificial: una encuesta de opinión de expertos" en Cuestiones fundamentales de inteligencia artificial. Springer 553-571 (2016).
↑ Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. «Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.»
↑ Yampolskiy, Roman V. "¿Qué hacer con la paradoja de la singularidad?" Filosofía y Teoría de la Inteligencia Artificial 5 (2012): 397.
↑ ^a ^b ^c Hsu, Jeremy (1 de marzo de 2012). «Control dangerous AI before it controls us, one expert says». Consultado el 29 de enero de 2016.
↑ ^a ^b ^c Bostrom, Nick (2013). «Chapter 9: The Control Problem: boxing methods». Superintelligence: the coming machine intelligence revolution. Oxford: Oxford University Press. ISBN 9780199678112.
↑ ^a ^b El experimento AI-Box por Eliezer Yudkowsky
↑ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (6 de junio de 2012). «Thinking Inside the Box: Controlling and Using an Oracle AI». Minds and Machines 22 (4): 299-324. doi:10.1007/s11023-012-9282-2.
↑ Yudkowsky, Eliezer (8 de octubre de 2008). «Shut up and do the impossible!». Consultado el 11 de agosto de 2015. «There were three more AI-Box experiments besides the ones described on the linked page, which I never got around to adding in. ... So, after investigating to make sure they could afford to lose it, I played another three AI-Box experiments. I won the first, and then lost the next two. And then I called a halt to it.»
↑ Vinge, Vernor (1993). «The coming technological singularity: How to survive in the post-human era». Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11–22. «I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.»
↑ Yampolskiy, Roman (2012). «Leakproofing the Singularity Artificial Intelligence Confinement Problem». Journal of Consciousness Studies: 194–214.
↑ Robbins, Martin (26 de enero de 2016). «Artificial Intelligence: Gods, egos and Ex Machina» (en inglés). Consultado el 9 de abril de 2018.
↑ Achenbach, Joel (30 de diciembre de 2015). «“Ex Machina” and the paper clips of doom». Consultado el 9 de abril de 2018.

Enlaces externos

Eliezer Yudkowsky's description of his AI-box experiment, including experimental protocols and suggestions for replication
"Presentation titled 'Thinking inside the box: using and controlling an Oracle AI'" Video en YouTube.

Datos: Q4652026

[chalmers-1] Chalmers, David. "La singularidad: un análisis filosófico". Revista de estudios de conciencia 17.9-10 (2010): 7-65.

[2] IJ Good, "Especulaciones relativas a la primera máquina ultrainteligente"], Advances in Computers , vol. 6, 1965.

[3] Vincent C. Müller y Nick Bostrom . "Progreso futuro en inteligencia artificial: una encuesta de opinión de expertos" en Cuestiones fundamentales de inteligencia artificial. Springer 553-571 (2016).

[4] Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. «Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.»

[5] Yampolskiy, Roman V. "¿Qué hacer con la paradoja de la singularidad?" Filosofía y Teoría de la Inteligencia Artificial 5 (2012): 397.

[nbc-6] Hsu, Jeremy (1 de marzo de 2012). «Control dangerous AI before it controls us, one expert says». Consultado el 29 de enero de 2016.

[superintelligence-7] Bostrom, Nick (2013). «Chapter 9: The Control Problem: boxing methods». Superintelligence: the coming machine intelligence revolution. Oxford: Oxford University Press. ISBN 9780199678112.

[:0-8] El experimento AI-Box por Eliezer Yudkowsky

[9] Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (6 de junio de 2012). «Thinking Inside the Box: Controlling and Using an Oracle AI». Minds and Machines 22 (4): 299-324. doi:10.1007/s11023-012-9282-2.

[10] Yudkowsky, Eliezer (8 de octubre de 2008). «Shut up and do the impossible!». Consultado el 11 de agosto de 2015. «There were three more AI-Box experiments besides the ones described on the linked page, which I never got around to adding in. ... So, after investigating to make sure they could afford to lose it, I played another three AI-Box experiments. I won the first, and then lost the next two. And then I called a halt to it.»

[11] Vinge, Vernor (1993). «The coming technological singularity: How to survive in the post-human era». Vision-21: Interdisciplinary Science and Engineering in the Era of Cyberspace: 11–22. «I argue that confinement is intrinsically impractical. For the case of physical confinement: Imagine yourself confined to your house with only limited data access to the outside, to your masters. If those masters thought at a rate -- say -- one million times slower than you, there is little doubt that over a period of years (your time) you could come up with 'helpful advice' that would incidentally set you free.»

[12] Yampolskiy, Roman (2012). «Leakproofing the Singularity Artificial Intelligence Confinement Problem». Journal of Consciousness Studies: 194–214.

[13] Robbins, Martin (26 de enero de 2016). «Artificial Intelligence: Gods, egos and Ex Machina» (en inglés). Consultado el 9 de abril de 2018.

[14] Achenbach, Joel (30 de diciembre de 2015). «“Ex Machina” and the paper clips of doom». Consultado el 9 de abril de 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]