Alineación de la inteligencia artificial

De Wikipedia, la enciclopedia libre

En el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.[a]​Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.[b]

La alineación de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios fáciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales;[4]objetivos instrumentales, como la búsqueda de poder, que ayudan al sistema a lograr sus objetivos finales;[2][5][6][7]​ y objetivos emergentes que sólo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos.[6][8]​ Estos problemas afectan a sistemas comerciales como robots,[9]​ modelos de lenguaje,[10][11]​ vehículos autónomos,[12]​ y sistemas de recomendación de redes sociales.[10][5][13]​ Se cree que los problemas son tanto más probables cuanto más capaz es el sistema, ya que en parte resultan de una alta capacidad.[14][6]

La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.[c]

La alineación de sistemas es parte de un campo de estudio más amplio llamado seguridad de la inteligencia artificial (en inglés, AI safety), es decir, el estudio de cómo construir sistemas de inteligencia artificial que sean seguros.[6][17]​ Las vías para la investigación de la alineación incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervisión extensible, el examen e interpretación de modelos de inteligencia artificial, y la prevención de comportamientos emergentes, como la búsqueda de poder.[6][18]​ La investigación de la alineación tiene conexiones con la investigación de la interpretabilidad,[19]​ la solidez,[6][17]​ la detección de anomalías, la incertidumbre calibrada,[19]​ la verificación formal,[20]​ el aprendizaje por preferencias,[21][22][23]​ la ingeniería de seguridad,[6]​ la teoría de juegos,[24][25]​ la equidad algorítmica,[17][26]​ y las ciencias sociales,[27]​ entre otros.

El problema de la alineación[editar]

En 1960, Norbert Wiener, pionero de la inteligencia artificial, articuló el problema de la alineación del modo siguiente: “Si para lograr nuestros propósitos usamos un medio mecánico en cuyo funcionamiento no podemos interferir de manera efectiva […] será mejor que estemos muy seguros de que el propósito puesto en la máquina es el propósito que realmente deseamos.”[28][5]​ Más recientemente, la alineación de la inteligencia artificial se presenta como un problema sin resolver en lo que se refiere a los sistemas modernos[29][30][31][32]​ y constituye un campo propio de investigación dentro de la inteligencia artificial.[33][34][35]

Juego de especificaciones y complejidad del valor[editar]

Parte del problema de la alineación implica especificar objetivos de una forma que capture valores importantes y evite lagunas y consecuencias no deseadas.[33]​ En muchos casos, las especificaciones utilizadas para entrenar un sistema no coinciden con los objetivos previstos por el diseñador del algoritmo.[36][18]​ Diseñar tales especificaciones es difícil para obtener resultados complejos como lenguaje, movimientos robóticos o la recomendación de contenido. Esto se debe a que es difícil describir cabalmente aquello que hace deseable cualquier resultado complejo. Por ejemplo, al entrenar un agente de aprendizaje por refuerzo para competir en una carrera virtual de lanchas, los investigadores de OpenAI notaron que el agente encontró "una laguna aislada donde puede girar en círculos y pegarle repetidamente a tres objetivos... [N]uestro agente logra una puntuación más alta usando esta estrategia que completando el curso de la manera normal”.[37]​ Otro ejemplo de falla de especificación se produce al generar texto: los modelos de lenguaje proponen falsedades a un ritmo elevado y construyen explicaciones falsas convincentes.[38][39][23]​ La investigación intenta alinear dichos modelos con objetivos más seguros o más útiles.

Midas Gold
El mítico rey Midas deseó que “todo” lo que tocara se convirtiera en oro, pero no especificó ninguna excepción en relación a su comida o a su hija. Análogamente, cuando se especifica un objetivo para un sistema de inteligencia artificial, es difícil prever y excluir todos los efectos secundarios que el sistema debería evitar.[2]

El científico informático de Berkeley Stuart Russell ha advertido que omitir una restricción implícita puede ser perjudicial: “Un sistema [...] a menudo llevará [...] variables sin restricciones a valores extremos; si una de esas variables es algo que realmente nos importa, la solución que encontremos podría ser muy indeseable. Esencialmente, se trata de la vieja historia del genio de la lámpara, el aprendiz de brujo, o el Rey Midas: obtienes exactamente lo que pides, no lo que quieres”.[40]

Cuando la inteligencia artificial no alineada se despliega, los efectos secundarios pueden ser importantes. Es un hecho conocido que las plataformas de redes sociales optimizan las tasas de clics para mejorar la experiencia del usuario, pero esto ha creado adicciones, lo que disminuyó el bienestar de muchos de ellos. Investigadores de la Universidad de Stanford observan que dichos algoritmos de recomendación no están alineados con los usuarios porque "optimizan simples métricas de participación en lugar de apuntar a una combinación del bienestar de la sociedad y del consumidor, que es más difícil de medir".[10]

Escribir una especificación que evite los efectos no deseados puede ser un desafío. A veces se propone como solución simplemente prohibir que el sistema realice acciones peligrosas, por ejemplo, enumerando resultados prohibidos o formalizando reglas éticas simples.[41]​ Sin embargo, Russell ha argumentado que este enfoque no tiene en cuenta la complejidad de los valores humanos:[5]​ “Ciertamente es muy difícil, y quizás imposible, para simples humanos anticipar y excluir de antemano todas las formas desastrosas que la máquina podría elegir para lograr un objetivo específico."[5]​ Desde entonces, este argumento ha sido formalizado por Cohen et al., quienes indican que las señales de recompensa resultan ambiguas entre la aprobación de los estados del mundo y la aprobación del envío de grandes recompensas.[42]​ Esta ambigüedad proporciona un medio general de hacer trampas para obtener recompensas.

Además, no es imposible que los sistemas autónomos reciban objetivos incorrectos por accidente. Dos expresidentes de la Asociación para el Avance de la Inteligencia Artificial (AAAI), Tom Dietterich y Eric Horvitz, señalan que esto ya es motivo de preocupación: "Un aspecto importante de cualquier sistema de inteligencia artificial que interactúe con las personas es que debe razonar sobre lo que las personas pretender en lugar de ejecutar órdenes literalmente". Además, un sistema que entienda las intenciones humanas también podría hacer caso omiso: los sistemas sólo actúan de acuerdo con la función objetiva, con los ejemplos o con las reacción que tienen sus diseñadores.[33]

Riesgos sistémicos[editar]

Las organizaciones comerciales y gubernamentales pueden tener incentivos para tomar atajos en materia de seguridad e implementar sistemas de inteligencia artificial insuficientemente alineados. Un ejemplo son los ya citados sistemas de recomendación de las redes sociales, que han sido rentables a pesar de crear adicción y polarización a escala mundial.[10][43]​ Además, la presión derivada de la competencia puede crear una competición a la baja en cuanto a medidas de seguridad, como en el caso de Elaine Herzberg, una peatona que murió atropellada por un automóvil autónomo después de que los ingenieros desactivaran el sistema de frenado de emergencia porque era demasiado sensible y entorpecía el desarrollo.[44]

Riesgos de la inteligencia artificial avanzada no alineada[editar]

Algunos investigadores están particularmente interesados en la alineación de sistemas artificiales cada vez más avanzados. Los motivos son la alta tasa de progreso en el campo de la inteligencia artificial, los enormes esfuerzos de la industria y de los gobiernos por desarrollar sistemas artificiales avanzados y la creciente dificultad de alinearlos.

Ya en 2020, OpenAI, DeepMind y otros 70 proyectos públicos tenían el objetivo declarado de alcanzar la denominada inteligencia artificial general, un sistema hipotético que iguale o supere a los humanos en una amplio rango de tareas cognitivas.[45]​ De hecho, los investigadores que desarrollan redes neurales modernas observan que surgen capacidades cada vez más generales e inesperadas.[10]​ Estos modelos han aprendido a llevar a cabo operaciones diferentes, tales como operar una computadora y escribir sus propios programas, entre otras cosas.[46][47][48]​ Según las encuestas, algunos especialistas creen que estos sistemas generales se alcanzarán pronto, otros creen que llevará mucho más tiempo, y un tercer grupo considera que ambos escenarios son posibles.[49][50]

La búsqueda de poder[editar]

Los sistemas actuales todavía carecen de capacidades como la planificación a largo plazo y la conciencia estratégica, las cuales, según se cree, entrañarían los riesgos más catastróficos.[10]​ No es imposible que sistemas futuros que tuvieran estas capacidades, aunque no fueran generales, trataran de proteger y aumentar su influencia sobre su entorno. Esta tendencia se conoce como búsqueda de poder u objetivos instrumentales convergentes. La búsqueda de poder no está explícitamente programada, pero emerge porque el poder es fundamental para lograr una amplia gama de objetivos. Por ejemplo, agentes artificialmente inteligentes podrían adquirir recursos financieros, o podrían evitar ser apagados al ejecutar copias adicionales del sistema en otras computadoras.[51][7]​ La búsqueda de poder se ha observado en varios agentes de aprendizaje por refuerzo.[d][53][54][55]​ Investigaciones posteriores han demostrado matemáticamente que los algoritmos óptimos de aprendizaje por refuerzo buscan poder en una gran variedad de entornos.[56]​ En consecuencia, a menudo se argumenta que el problema de la alineación debe resolverse en un estadio temprano, antes de que se cree una inteligencia artificial avanzada que manifieste esta tendencia.[7][51][5]

Riesgo existencial[editar]

Según algunos científicos, la creación de una inteligencia artificial no alineada que supere ampliamente a los humanos sería un amenaza para su posición dominante en la Tierra, ya que representaría una disminución de su poder, e incluso podría ocasionar la extinción humana.[2][5]​ Entre los científicos informáticos notables que han señalado estos riesgos se cuenta a Alan Turing,[e]Ilya Sutskever,[59]Yoshua Bengio,[f]Judea Pearl,[g]​ Murray Shanahan,[61]Norbert Wiener,[28][5]Marvin Minsky,[h]​ Francesca Rossi,[63]​ Scott Aaronson,[64]​ Bart Selman,[65]​ David McAllester,[66]Jürgen Schmidhuber,[67]​ Markus Hutter,[68]​ Shane Legg,[69]​ Eric Horvitz,[70]​ y Stuart Russell.[5]​ Investigadores escépticos como François Chollet,[71]Gary Marcus,[72]Yann LeCun[73]​ y Oren Etzioni[74]​ han argumentado que la inteligencia artificial general está lejos, o que no lograría obtener suficiente poder como para constituir un peligro serio.

La alineación puede volverse particularmente difícil para los sistemas más capaces, ya que varios riesgos aumentan junto con la capacidad del sistema: la habilidad del sistema para encontrar lagunas en el objetivo asignado,[14]​ para proteger y aumentar su poder,[56][7]​ para aumentar su inteligencia y para engañar a sus diseñadores; la autonomía del sistema; y la dificultad de interpretar y supervisar el sistema.[5][51]

Problemas y enfoques de la investigación[editar]

El aprendizaje de los valores y las preferencias humanas[editar]

Enseñar a los sistemas de inteligencia artificial a actuar teniendo en cuenta las preferencias, los valores y los objetivos humanos no es un problema fácil de resolver, porque los valores humanos pueden ser complejos y difíciles de especificar completamente. Cuando se les da un objetivo imperfecto o incompleto, estos sistemas, en general, aprenden a explotar estas imperfecciones. Este fenómeno se conoce en inglés como reward hacking (literalmente, "jaqueo de la recompensa") o juego de especificaciones en el campo de la inteligencia artificial, y como ley de Goodhart, Ley de Campbell, efecto cobra o crítica de Lucas en ciencias sociales y economía.[75]​ Los investigadores intentan especificar el comportamiento de los sistemas de la manera más completa posible con conjuntos de datos "centrados en valores", aprendizaje por imitación, o aprendizaje por preferencias.[8]​ Un problema central, que aún no tiene solución, es la supervisión extensible, la dificultad de supervisar un sistema que supera a los humanos en un dominio determinado.[17]

Cuando se entrena un sistema de inteligencia artificial dirigido a objetivos, como un agente de aprendizaje por refuerzo, suele ser difícil especificar el comportamiento que se quiere lograr escribiendo una función de recompensa manualmente. Una alternativa es el aprendizaje por imitación, donde los sistemas aprenden a imitar ejemplos del comportamiento deseado. En el aprendizaje por refuerzo inverso, se utilizan ejemplos humanos para identificar el objetivo, es decir, la función de recompensa, detrás del comportamiento ejemplificado.[76][77]​ El aprendizaje por refuerzo inverso cooperativo se basa en ello al suponer que un agente humano y un agente artificial pueden trabajar juntos para maximizar la función de recompensa del agente humano.[5][78]​ Esta forma de aprendizaje pone énfasis en el hecho de que los agentes artificialmente inteligentes no deberían estar seguros respecto de la función de recompensa. Esta humildad puede ayudar a mitigar tanto el juego de especificaciones, como las tendencias hacia la búsqueda de poder (véase § La búsqueda de poder y los objetivos instrumentales).[55]​ Sin embargo, el aprendizaje por refuerzo inverso asume que los humanos pueden exhibir un comportamiento casi perfecto, una suposición engañosa cuando la tarea es difícil.[79][68]

Otros investigadores han explorado la posibilidad de provocar comportamientos complejos a través del aprendizaje por preferencias. En lugar de ejemplos a imitar, los investigadores proporcionan información acerca de sus preferencias respecto de determinados comportamientos del sistema sobre otros.[21][23]​ De este modo, se entrena un modelo colaborador para predecir la reacción humana ante nuevos comportamientos. Los investigadores de OpenAI utilizaron este método con el fin de entrenar un agente para efectuar una voltereta hacia atrás, obteniendo el resultado deseado en menos de una hora.[80][81]​ El aprendizaje por preferencias también ha sido una herramienta importante para sistemas de recomendación, búsquedas en la web y la búsqueda de información.[82]​ Sin embargo, un problema que se presenta es que los sistemas podrían jaquear la recompensa. Es posible que el modelo colaborador no represente la reacción humana a la perfección, y el modelo principal podría explotar este desajuste.[83]

La llegada de modelos de lenguaje a gran escala, como GPT-3, ha permitido el estudio del aprendizaje de los valores en sistemas más generales y capaces. Los enfoques de aprendizaje por preferencias, diseñados originalmente para agentes de aprendizaje por refuerzo, se han ampliado para mejorar la calidad del texto generado y para reducir los resultados dañinos de estos modelos. OpenAI y DeepMind usan este enfoque para mejorar la seguridad de los más recientes modelos de lenguaje a gran escala.[23][84]​ Anthropic ha propuesto usar el aprendizaje por preferencias para hacer que los modelos sean útiles, honestos e inofensivos.[85]​ Otros métodos utilizados para alinear modelos de lenguaje incluyen conjuntos de datos centrados en valores[86]​ y ejercicios de oposición.[87]​ En estos ejercicios, otros sistemas o seres humanos intentan encontrar situaciones que susciten un comportamiento peligroso del modelo. Dado que tales comportamientos no pueden aceptarse aún cuando sean infrecuentes, un desafío importante es hacer descender la tasa de resultados peligrosos a niveles extremadamente bajos.[23]

Si bien el aprendizaje por preferencias puede inculcar comportamientos difíciles de especificar, requiere enormes conjuntos de datos o una interacción humana significativa para capturar la amplitud de los valores humanos. La ética de las máquinas proporciona un enfoque complementario: inculcar valores morales en los sistemas de inteligencia artificial. Por ejemplo, la ética de las máquinas tiene como objetivo enseñar a los sistemas los factores normativos de la moralidad humana, como el bienestar, la igualdad, la imparcialidad, la honestidad, cumplir con las promesas y evitar el daño. En lugar de especificar el objetivo de una tarea concreta, la ética de las máquinas apunta a enseñar a los sistemas los valores morales generales que pudieran aplicarse en diferentes situaciones. Este enfoque presenta desafíos conceptuales propios. De este modo, los especialistas han señalado la necesidad de aclarar lo se pretende lograr con la alineación, es decir, aquello que se supone que los sistemas deben tener en cuenta: o bien las instrucciones literales de los programadores; o bien sus intenciones implícitas; o bien sus preferencias reveladas; o bien las preferencias que los programadores tendrían si estuvieran más informados o fueran más racionales; o bien sus intereses objetivos; o bien las normas morales objetivas.[88]​ Otros desafíos incluyen agregar las preferencias de varias partes interesadas y evitar la clausura axiológica: la preservación indefinida de los valores de aquellos que sean los primeros sistemas artificiales de alta capacidad, ya que es poco probable que dichos valores sean completamente representativos.[88][89]

Supervisión extensible[editar]

El progreso de la alineación de sistemas artificiales basada en la supervisión humana presenta algunas dificultades. La evaluación humana se vuelve lenta e impracticable en la medida en que aumenta la complejidad de las tareas realizadas por los sistemas. Tales tareas incluyen: resumir libros, construir proposiciones verdaderas y no meramente convincentes,[90][39][91]​ escribir código sin errores sutiles[11]​ o fallas de seguridad, y predecir eventos alejados en el tiempo, como los relacionados con el clima o los resultados de una decisión de política económica.[92]​ En términos más generales, resulta difícil evaluar a una inteligencia artificial que supera a los humanos en un dominio determinado. Los humanos necesitan ayuda adicional, o bien mucho tiempo, para elegir las mejores respuestas en tareas que sean difíciles de evaluar y para detectar soluciones del sistema que sólo en apariencia sean convincentes. La supervisión extensible estudia cómo reducir el tiempo necesario para completar las evaluaciones y cómo ayudar a los supervisores humanos en esta tarea.

El investigador Paul Christiano argumenta que es posible que los propietarios de sistemas de inteligencia artificial continúen entrenándolos con objetivos intermedios fáciles de evaluar, ya que además de seguir siendo rentable, ello es más fácil que hallar una solución para la supervisión extensible. En consecuencia, esto puede llevar a “un mundo cada vez más optimizado para cosas [que son fáciles de medir] como obtener ganancias, o hacer que los usuarios hagan clic en los botones o pasen el tiempo en sitios web, y no para tener buenas políticas o para recorrer una trayectoria que nos satisfaga”.[93]

Un objetivo fácil de medir es la puntuación que el supervisor asigna a las respuestas de la inteligencia artificial. Algunos sistemas han descubierto formas de obtener puntajes elevados por medio de acciones que sólo en apariencia logran el objetivo deseado (véase el video de la mano robótica).[80]​ Otros sistemas han aprendido a comportarse de cierto modo cuando están siendo evaluados y de un modo completamente diferente una vez que acaba la evaluación.[94]​ Esta forma engañosa de juego de especificaciones puede ser más fácil para sistemas más sofisticados[14][51]​ que emprenden tareas más difíciles de evaluar. Si los modelos avanzados también son planificadores capaces, bien podrían ocultar su engaño a los ojos de sus supervisores. En la industria automotriz, los ingenieros de Volkswagen minimizaron las emisiones de sus autos en las pruebas de laboratorio, poniendo de relieve que el engaño de los evaluadores es moneda corriente en el mundo real.

El aprendizaje activo y el aprendizaje por recompensa semisupervisado pueden reducir la cantidad de supervisión humana requerida. Otra posibilidad es entrenar a un modelo colaborador ("modelo de recompensa") que imite el juicio del supervisor.[17][22][23]

Sin embargo, cuando la tarea es demasiado compleja para ser evaluada con precisión, o el supervisor humano es vulnerable al engaño, no es suficiente reducir la cantidad de supervisión requerida. Se han concebido varias formas de aumentar la calidad de la supervisión, a veces por medio de asistentes artificialmente inteligentes. La amplificación iterada es un enfoque desarrollado por Christiano que construye progresivamente respuestas a problemas difíciles combinando soluciones a problemas más fáciles.[8]​ La amplificación iterada se ha utilizado para hacer que sistemas artificiales resuman libros sin necesidad de recurrir a supervisores humanos que los lean.[95]​ Otra propuesta es entrenar inteligencia artificial alineada mediante un debate entre sistemas, cuyos jueces sean humanos.[96]​ Dicho debate tiene como objetivo revelar los puntos débiles de una respuesta a una pregunta compleja, y recompensar a la inteligencia artificial por las respuestas veraces y seguras.

Inteligencia artificial honesta[editar]

Los modelos de lenguaje como GPT-3 a menudo generan falsedades.[97]

Un área importante de investigación dentro de la alineación de la inteligencia artificial se centra en garantizar que los sistemas sean honestos y veraces. Investigadores del Future of Humanity Institute señalan que el desarrollo de modelos de lenguaje como GPT-3, capaces de generar texto fluido y gramaticalmente correcto,[98][99]​ ha abierto la puerta a sistemas artificiales que repiten falsedades provenientes de los datos usados en su entrenamiento, o que mienten deliberadamente a los humanos.[97]

Los actuales modelos de lenguaje más avanzados aprenden imitando la escritura humana siguiendo el modelo de una gran cantidad de texto de internet, equivalente a millones de libros.[10][100]​ Si bien esto los ayuda a aprender una amplia gama de habilidades, los datos del entrenamiento también incluyen ideas erróneas generalizadas, consejos médicos incorrectos y teorías conspirativas. Los sistemas entrenados con estos datos aprenden a imitar declaraciones falsas.[97][91][39]​ Además, los modelos suelen seguir el hilo de las falsedades que se les propone, generan explicaciones vacuas para sus respuestas, o mienten descaradamente.[32]

Los investigadores han explorado varias alternativas para combatir la falta de veracidad que exhiben los sistemas modernos. Algunas organizaciones que investigan la inteligencia artificial, como OpenAI y DeepMind, han desarrollado sistemas que al responder las preguntas pueden citar sus fuentes y explicar su razonamiento, lo que permite una mayor transparencia y verificabilidad.[101][102]​ Investigadores de OpenAI y Anthropic han propuesto entrenar asistentes artificiales valiéndose de correcciones humanas y de conjuntos de datos seleccionados a fin de evitar que los sistemas propongan falsedades, ya sea por descuido o deliberadamente, cuando no están seguros de la respuesta correcta.[23][85]​ Además de las soluciones técnicas, los investigadores han abogado por definir estándares claros de veracidad y por crear instituciones, organismos reguladores o agencias de vigilancia que evaluen los sistemas de según esos estándares antes y durante el despliegue de los mismos.

Los investigadores distinguen la veracidad, que especifica que las inteligencias artificiales solo hagan declaraciones objetivamente verdaderas, y la honestidad, es decir, la propiedad de que las inteligencias artificiales solo afirmen lo que creen que es verdad. Algunas investigaciones han hallado que no es posible afirmar que los sistemas de inteligencia artificial más modernos tengan creencias estables, por lo que aún no es viable estudiar la honestidad de los sistemas de inteligencia artificial.[103]​ Sin embargo, existe una gran preocupación sobre la idea de que sistemas futuros que sí tengan creencias podrían mentir intencionalmente a los humanos. En casos extremos, un sistema no alineado podría engañar a sus operadores haciéndoles creer que es seguro o persuadirlos de que no hay ningún problema.[10]​ Algunos argumentan que si se pudiera hacer que las inteligencias artificiales afirmaran sólo lo que creen que es verdad, entonces se evitarían numerosos problemas derivados de la alineación.[104]

Alineación interna y objetivos emergentes[editar]

La investigación de la alineación se propone conciliar tres descripciones diferentes de un sistema de inteligencia artificial:[105]

  1. Objetivos deseados (o 'deseos'): “la descripción hipotética (pero difícil de articular) de un sistema de inteligencia artificial ideal que esté completamente alineado con los deseos del operador humano”;
  2. Objetivos especificados (o 'especificación externa'): los objetivos que de hecho especificamos, generalmente a través de una función objetiva y un conjunto de datos;
  3. Objetivos emergentes (o 'especificación interna'): los objetivos que la inteligencia artificial persigue realmente.

El 'defecto de alineación externa' es una falta de coincidencia entre los objetivos deseados (1) y los objetivos especificados (2), y el 'defecto de alineación interna' es una falta de coincidencia entre los objetivos especificados por los humanos (2) y los objetivos emergentes (3).

El defecto de alineación interna suele explicarse por analogía con la evolución biológica.[106]​ En el entorno ancestral, la evolución seleccionó genes humanos para la aptitud genética inclusiva, pero los humanos evolucionaron para tener otros objetivos. La aptitud corresponde a (2), el objetivo especificado que fue utilizado en el entorno del entrenamiento. En historia evolutiva, maximizar la especificación de la aptitud dio lugar a agentes inteligentes, los humanos, que no persiguen directamente la aptitud genética inclusiva. En cambio, persiguen objetivos emergentes (3) que en el entorno ancestral eran correlativos a la aptitud genética, como la nutrición, el sexo, etc. Sin embargo, nuestro entorno ha cambiado, ya que se ha producido un cambio de distribución. Los seres humanos siguen persiguiendo sus objetivos emergentes, pero esto ya no maximiza la aptitud genética. (En el aprendizaje automatizado, el problema análogo se conoce como generalización errónea de objetivos.)[3]​ Nuestro gusto por la comida azucarada (un objetivo emergente) fue originalmente beneficioso, pero ahora lleva a comer en exceso y a problemas de salud. Además, al usar métodos anticonceptivos, los humanos contradicen directamente la aptitud genética. Por analogía, si un desarrollador de inteligencia artificial eligiera como objetivo a la aptitud genética, observaría que el modelo se comporta según lo previsto en el entorno del entrenamiento, sin advertir que persigue un objetivo emergente no deseado hasta el momento de su implementación.

Las líneas de investigación para detectar y eliminar objetivos emergentes no alineados incluyen los ejercicios de oposición, la verificación, la detección de anomalías y la interpretabilidad.[18]​ El progreso en estas técnicas puede ayudar a reducir dos problemas aún sin resolver. En primer lugar, los objetivos emergentes sólo se vuelven evidentes cuando el sistema se implementa fuera de su entorno de entrenamiento, pero puede ser inseguro implementar un sistema no alineado en entornos de alto riesgo, incluso por un período breve hasta que se detecte alguna anomalía. Tal es el caso con los automóviles autónomos y con las aplicaciones militares.[107]​ El riesgo es aún mayor cuando los sistemas ganan más autonomía y capacidad, y se vuelven capaces de eludir las intervenciones humanas (véase § La búsqueda de poder y los objetivos instrumentales). En segundo lugar, un sistema lo suficientemente capaz puede obrar de modo que convenza al supervisor humano de que está persiguiendo el objetivo previsto aunque de hecho no sea el caso (véase lo dicho anteriormente sobre el engaño en § Supervisión extensible).

La búsqueda de poder y los objetivos instrumentales[editar]

Desde la década de 1950, los investigadores de la inteligencia artificial han tratado de construir sistemas avanzados que puedan lograr objetivos prediciendo los resultados de sus propias acciones y haciendo planes a largo plazo.[108]​ Sin embargo, algunos investigadores argumentan que los sistemas avanzados que pudieran hacer planes sobre sus objetivos buscarían de manera predeterminada el poder sobre su entorno, incluso sobre los humanos, impidiendo ser apagados o adquiriendo cada vez más recursos. Este comportamiento de búsqueda de poder no está programado explícitamente, pero surge porque el poder es fundamental para lograr una amplia gama de objetivos.[56][5]​ Por lo tanto, la búsqueda de poder se considera un objetivo instrumental convergente.[51]

La búsqueda de poder es poco común en los sistemas actuales, pero es posible que sistemas avanzados que puedan prever los resultados de sus acciones a largo plazo, busquen cada vez más poder. Esto se demostró con una teoría formal de tendencias estadísticas, que encontró que los agentes óptimos de aprendizaje por refuerzo buscarán poder al buscar formas de obtener más opciones, comportamiento éste que persiste en una amplia variedad de entornos y objetivos.[56]

De hecho, la búsqueda de poder ya emerge en algunos sistemas actuales. Los sistemas de aprendizaje por refuerzo han obtenido más opciones al adquirir y proteger recursos, a veces de formas ajenas a la intención de sus diseñadores.[52][109]​ En entornos aislados, otros sistemas han aprendido que pueden lograr su objetivo impidiendo la interferencia humana[53]​ o desactivando su interruptor de apagado.[55]Russell ilustró este comportamiento imaginando un robot que tiene la tarea de buscar café e impide que lo apaguen porque "no puedes buscar el café si estás muerto".[5]

Las formas hipotéticas de obtener opciones incluyen sistemas de inteligencia artificial que intentan:

... salir de un entorno cerrado; jaquear; acceder a recursos financieros o a recursos informáticos adicionales; hacer copias de seguridad de sí mismos; obtener capacidades, fuentes de información o canales de influencia sin tener autorización para ello; engañar/mentir a los humanos acerca de sus objetivos; rehusar o manipular los intentos de monitorear/comprender su comportamiento...; hacerse pasar por humanos; hacer que los humanos hagan cosas por ellos; ... manipular el discurso humano y la política; debilitar diversas instituciones humanas y capacidades de respuesta; tomar el control de infraestructuras físicas como fábricas o laboratorios científicos; hacer que se desarrollen ciertos tipos de tecnología e infraestructura; o dañar/dominar directamente a los humanos.

Los investigadores tienen por meta entrenar sistemas que sean 'corregibles': sistemas que no busquen poder y se dejen apagar, modificar, etc. Un desafío sin resolver es el de los sistemas que jaquean recompensas: cuando los investigadores penalizan a un sistema por buscar poder, se incentiva al sistema a buscar poder de formas difíciles de detectar.[6]​ Para detectar dicho comportamiento oculto, los investigadores intentan crear técnicas y herramientas adecuadas para inspeccionar modelos de inteligencia artificial[6]​ y para interpretar el funcionamiento interno de modelos de caja negra, como las redes neurales.

Además, los investigadores proponen resolver el problema de los sistemas que desactivan sus interruptores haciendo que éstos no estén seguros del objetivo que persiguen.[55][5]​ Los agentes diseñados de esta manera permitirían que los humanos los apagaran, ya que esto indicaría que el agente estaba equivocado sobre el valor de cualquier acción que estaba tomando antes de ser apagado. Aun se necesita más investigación para traducir esta idea en sistemas utilizables.[8]

Se cree que la inteligencia artificial que busca poder plantea riesgos inusuales. Sistemas ordinarios que hipotéticamente podrían poner en riesgo la seguridad no son adversos. Carecen de capacidad e incentivo para evadir las medidas de seguridad o parecer más seguros de lo que son. Por el contrario, la inteligencia artificial que busca poder se ha comparado con un jáquer que evade las medidas de seguridad. Además, las tecnologías ordinarias pueden volverse seguras por un proceso de prueba y error, a diferencia de la inteligencia artificial que busca poder, la cual se ha comparado con un virus cuya liberación sería irreversible, ya que evoluciona continuamente y crece en número —potencialmente a un ritmo más rápido que la sociedad humana— acabando por despojar a los humanos de su posición de poder o incluso ocasionando su extinción.[7]​ Por lo tanto, se suele argumentar que el problema de la alineación debe resolverse temprano, antes de que se cree una inteligencia artificial avanzada que busque poder.[51]

Sin embargo, algunos críticos han argumentado que la búsqueda de poder no es inevitable, ya que los humanos no siempre buscan poder y sólo lo hacen por razones evolutivas. Además, la idea de que los futuros sistemas de inteligencia artificial persigan objetivos y planes a largo plazo es materia de debate.[110]

Acción integrada[editar]

El trabajo sobre la supervisión extensible ocurre en gran medida dentro de formalismos como los procesos de decisión de Markov parcialmente observables. Los formalismos existentes suponen que el algoritmo del agente se ejecuta fuera del entorno (es decir, no está físicamente integrado en él). La acción integrada[111]​ es otra línea importante de investigación que intenta resolver los problemas que surgen de la falta de adecuación entre tales marcos teóricos y los agentes reales que podríamos construir. Por ejemplo, incluso si se resuelve el problema de la supervisión extensible, un agente capaz de obtener acceso a la computadora en la que se está ejecutando podría tener un incentivo para alterar su función de recompensa y así obtener una mucho mayor de la que le dan sus supervisores humanos.[112]​ Una lista de ejemplos de juegos de especificaciones elaborada por la investigadora de DeepMind, Victoria Krakovna, incluye un algoritmo genético que aprendió a eliminar el archivo que contenía el objetivo deseado para ser recompensado por no hacer nada.[113]​ Esta clase de problemas se ha formalizado utilizando diagramas de incentivos causales.[112]​ Investigadores de Oxford y DeepMind han argumentado que tales comportamientos problemáticos son muy probables en los sistemas avanzados, y que los dichos sistemas buscarían poder para tener el control de su señal de recompensa de forma indefinida y segura. Estos investigadores sugieren una variedad de posibles enfoques para abordar este problema.[42]

Escepticismo sobre el riesgo de la inteligencia artificial[editar]

En contraste con las preocupaciones anteriores, aquellos que son escépticos sobre los riesgos de la inteligencia artificial creen que la superinteligencia representa poco o ningún riesgo de conducta peligrosa, ya que consideran que el control de tales sistemas sería un problema trivial.[114]​ Algunos, como Gary Marcus,[115]​ proponen adoptar reglas similares a las Tres leyes de la robótica, que especifican directamente un resultado deseado ("normatividad directa"). Sin embargo, otros consideran que las citadas leyes no son útiles, debido a su ambigüedad e inconsistencia. (Otras propuestas de "normatividad directa" incluyen la ética kantiana y el utilitarismo.) La mayoría de aquellos que reconocen el riesgo creen, en cambio, que los valores humanos (y sus contrapartidas cuantitativas) son demasiado complejos y mal entendidos para ser programados directamente en una superinteligencia: sería necesario programar una superinteligencia con un proceso para adquirir y comprender completamente los valores humanos ("normatividad indirecta"), como la voluntad coherente extrapolada.[116]

Políticas públicas[editar]

En 2021, el Secretario General de las Naciones Unidas aconsejó regular la inteligencia artificial "para asegurarse de que respete los valores globales comunes".[16]​ En el mismo año, la República Popular China publicó pautas éticas para el uso de la inteligencia artificial en China. De acuerdo con estas pautas, los investigadores deben asegurarse de que la inteligencia artificial respete los valores humanos compartidos, de que esté siempre bajo el control humano y de que no ponga en peligro la seguridad pública.[117]​ También en 2021, el Reino Unido publicó su Estrategia Nacional de Inteligencia Artificial a 10 años,[118]​ que establece que el gobierno británico "toma en serio el riesgo a largo plazo de la Inteligencia General Artificial no alineada".[119]​ La estrategia describe acciones para evaluar los riesgos a largo plazo, incluidos los riesgos catastróficos.[120]

Véase también[editar]

Notas[editar]

  1. Otras definiciones de "alineación" requieren que la inteligencia artificial persiga objetivos más generales, como valores humanos, otros principios éticos o las intenciones que tendrían sus diseñadores si estuvieran más informados o fueran más perspicaces.[1]
  2. Véase Russel & Norvig, Artificial Intelligence: A Modern Approach.[2]​ La distinción entre inteligencia artificial no alineada e inteligencia artificial incompetente ha sido formalizada en ciertos contextos.[3]
  3. Los principios de la inteligencia artificial creados en la Conferencia de Asilomar sobre la Inteligencia Artificial Benéfica fueron firmados por 1797 investigadores de robótica e inteligencia artificial.[15]​ Además, el informe del Secretario General de la ONU titulado "Nuestra agenda común" señala que "el Pacto [Digital Global] también podría promover la regulación de la inteligencia artificial para asegurarse de que respete los valores globales comunes" y discute los riesgos catastróficos globales que surgen de los desarrollos tecnológicos.[16]
  4. Los sistemas de aprendizaje por refuerzo han aprendido a obtener más opciones al adquirir y proteger recursos, a veces de formas ajenas a la intención de sus diseñadores.[52][7]
  5. En una conferencia de 1951[57]​ Turing afirmó que “parece probable que una vez que el método de pensar de las máquinas haya comenzado, no tardará mucho tiempo en superar nuestros débiles poderes. Las máquinas no conocerían la muerte, y podrían conversar entre sí para mejorar sus facultades. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control, de la manera que se menciona en el Erewhon de Samuel Butler”. También en una conferencia transmitida por la BBC[58]​ expresó: "Si una máquina es capaz de pensar pensar, quizá podría pensar más inteligentemente que nosotros, y entonces ¿qué sería de nosotros? Incluso si pudiéramos mantener a las máquinas en una posición subordinada, por ejemplo, apagando la energía en momentos estratégicos, deberíamos, como especie, sentirnos muy humillados... Este nuevo peligro... es ciertamente algo que puede ponernos nerviosos”.
  6. Sobre el libro Human Compatible: AI and the Problem of Control, Bengio dijo: "Este libro, escrito en un estilo excelente, aborda un desafío fundamental para la humanidad: máquinas cada vez más inteligentes que hacen lo que les pedimos pero no lo que realmente pretendemos. Es una lectura esencial si le preocupa nuestro futuro".[60]
  7. Sobre el libro Human Compatible: AI and the Problem of Control, Pearl dijo: "Human Compatible me convirtió a las preocupaciones de Russell acerca de nuestra capacidad para controlar nuestra próxima creación: máquinas superinteligentes. A diferencia de alarmistas y futuristas improvisados, Russell es una autoridad eminente en inteligencia artificial. Su nuevo libro educará al público sobre el tema más que cualquier otro libro y es una lectura encantadora y edificante".[60]
  8. Russell y Norvig[62]​ señalan que "el 'problema del Rey Midas' fue anticipado por Marvin Minsky, quien una vez sugirió que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la tierra para construir supercomputadoras más poderosas".

Referencias[editar]

  1. Gabriel, Iason (1 de septiembre de 2020). «Artificial Intelligence, Values, and Alignment». Minds and Machines 30 (3): 411-437. ISSN 1572-8641. S2CID 210920551. doi:10.1007/s11023-020-09539-2. Consultado el 23 de julio de 2022. 
  2. a b c d Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th edición). Pearson. pp. 31-34. ISBN 978-1-292-40113-3. OCLC 1303900751. 
  3. a b Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D; Pfau, Jacob; Krueger, David (17 de julio de 2022). «Goal misgeneralization in deep reinforcement learning». Proceedings of the 39th international conference on machine learning. Proceedings of machine learning research 162. PMLR. pp. 12004-12019. 
  4. Krakovna, Victoria; Orseau, Laurent; Ngo, Richard; Martic, Miljan; Legg, Shane (6 de diciembre de 2020). «Avoiding Side Effects By Considering Future Tasks». Advances in Neural Information Processing Systems 33 (NeurIPS 2020) 33. arXiv:2010.07877. 
  5. a b c d e f g h i j k l m n Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915. 
  6. a b c d e f g h i Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2022-06-16). «Unsolved Problems in ML Safety». arXiv:2109.13916  [cs.LG]. 
  7. a b c d e f Carlsmith, Joseph (2022-06-16). «Is Power-Seeking AI an Existential Risk?». arXiv:2206.13353  [cs.CY]. 
  8. a b c d Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archivado desde el original el 10 de febrero de 2023. Consultado el 10 de octubre de 2022. 
  9. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 de septiembre de 2013). «Reinforcement learning in robotics: A survey». The International Journal of Robotics Research (en inglés) 32 (11): 1238-1274. ISSN 0278-3649. doi:10.1177/0278364913495721. 
  10. a b c d e f g h Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette et al. (12 de julio de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258. 
  11. a b Zaremba, Wojciech (10 de agosto de 2021). «OpenAI Codex». OpenAI. Consultado el 23 de julio de 2022. 
  12. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (11 de marzo de 2022). Reward (Mis)design for Autonomous Driving. arXiv:2104.13906. 
  13. Stray, Jonathan (2020). «Aligning AI Optimization to Community Well-Being». International Journal of Community Well-Being (en inglés) 3 (4): 443-463. ISSN 2524-5295. PMID 34723107. doi:10.1007/s42413-020-00086-3. 
  14. a b c Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de febrero de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Consultado el 21 de julio de 2022. 
  15. Future of Life Institute (11 de agosto de 2017). «Asilomar AI Principles». Future of Life Institute. Consultado el 18 de julio de 2022. 
  16. a b Naciones Unidas (2021), Nuestra agenda común: Informe del Secretario General, Nueva York: Naciones Unidas, pp. 63-64 .
  17. a b c d e Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016-06-21). «Concrete Problems in AI Safety» (en en). arXiv:1606.06565  [cs.AI]. 
  18. a b c Ortega, Pedro A. (27 de septiembre de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». DeepMind Safety Research - Medium. Consultado el 18 de julio de 2022. 
  19. a b Rorvig, Mordechai (14 de abril de 2022). «Researchers Gain New Understanding From Simple AI». Quanta Magazine. Consultado el 18 de julio de 2022. 
  20. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de diciembre de 2015). «Research Priorities for Robust and Beneficial Artificial Intelligence». AI Magazine 36 (4): 105-114. ISSN 2371-9621. doi:10.1609/aimag.v36i4.2577. 
  21. a b Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research 18 (136): 1-46. 
  22. a b Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences». Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302-4310. ISBN 978-1-5108-6096-4. 
  23. a b c d e f g Heaven, Will Douglas (27 de enero de 2022). «The new version of GPT-3 is much better behaved (and should be less toxic)». MIT Technology Review. Consultado el 18 de julio de 2022. 
  24. Clifton, Jesse (2020). «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda». Center on Long-Term Risk. Consultado el 18 de julio de 2022. 
  25. Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de mayo de 2021). «Cooperative AI: machines must learn to find common ground». Nature (en inglés) 593 (7857): 33-36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. doi:10.1038/d41586-021-01170-0. 
  26. Prunkl, Carina; Whittlestone, Jess (7 de febrero de 2020). «Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society». Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (en inglés) (New York NY USA: ACM): 138-143. ISBN 978-1-4503-7110-0. doi:10.1145/3375627.3375803. 
  27. Irving, Geoffrey; Askell, Amanda (19 de febrero de 2019). «AI Safety Needs Social Scientists». Distill 4 (2): 10.23915/distill.00014. ISSN 2476-0757. doi:10.23915/distill.00014. 
  28. a b Wiener, Norbert (6 de mayo de 1960). «Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers.». Science (en inglés) 131 (3410): 1355-1358. ISSN 0036-8075. doi:10.1126/science.131.3410.1355. 
  29. The Ezra Klein Show (4 de junio de 2021). «If 'All Models Are Wrong,' Why Do We Give Them So Much Power?». The New York Times. ISSN 0362-4331. Consultado el 18 de julio de 2022. 
  30. Wolchover, Natalie (21 de abril de 2015). «Concerns of an Artificial Intelligence Pioneer». Quanta Magazine. Consultado el 18 de julio de 2022. 
  31. California Assembly. «Bill Text - ACR-215 23 Asilomar AI Principles.». Consultado el 18 de julio de 2022. 
  32. a b Johnson, Steven (15 de abril de 2022). «A.I. Is Mastering Language. Should We Trust What It Says?». The New York Times. ISSN 0362-4331. Consultado el 18 de julio de 2022. 
  33. a b c Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th edición). Pearson. pp. 4-5. ISBN 978-1-292-40113-3. OCLC 1303900751. 
  34. OpenAI (15 de febrero de 2022). «Aligning AI systems with human intent». OpenAI. Consultado el 18 de julio de 2022. 
  35. Medium. «DeepMind Safety Research». Medium. Consultado el 18 de julio de 2022. 
  36. Krakovna, Victoria (21 de abril de 2020). «Specification gaming: the flip side of AI ingenuity». Deepmind. Consultado el 26 de agosto de 2022. 
  37. Jack Clark & Daroi Amodei (21 de diciembre de 2016). «Faulty Reward Functions in the Wild». OpenAI. 
  38. Naughton, John (2 de octubre de 2021). «The truth about artificial intelligence? It isn't that honest». The Observer. ISSN 0029-7712. Consultado el 18 de julio de 2022. 
  39. a b c Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). «TruthfulQA: Measuring How Models Mimic Human Falsehoods». Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (en inglés) (Dublin, Ireland: Association for Computational Linguistics): 3214-3252. doi:10.18653/v1/2022.acl-long.229. 
  40. Edge.org. «The Myth Of AI | Edge.org». Consultado el 19 de julio de 2022. 
  41. Tasioulas, John (2019). «First Steps Towards an Ethics of Robots and Artificial Intelligence». Journal of Practical Ethics 7 (1): 61-95. 
  42. a b Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29 de agosto de 2022). «Advanced artificial agents intervene in the provision of reward». AI Magazine (en inglés): aaai.12064. ISSN 0738-4602. doi:10.1002/aaai.12064. 
  43. Wells, Georgia (5 de noviembre de 2021). «Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest». Wall Street Journal. ISSN 0099-9660. Consultado el 19 de julio de 2022. 
  44. Shepardson, David (24 de mayo de 2018). «Uber disabled emergency braking in self-driving car: U.S. agency». Reuters. Consultado el 20 de julio de 2022. 
  45. Baum, Seth (1 de enero de 2021). «2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy». Consultado el 20 de julio de 2022. 
  46. Edwards, Ben (26 de abril de 2022). «Adept's AI assistant can browse, search, and use web apps like a human». Ars Technica. Consultado el 9 de septiembre de 2022. 
  47. Wakefield, Jane (2 de febrero de 2022). «DeepMind AI rivals average human competitive coder». BBC News. Consultado el 9 de septiembre de 2022. 
  48. Dominguez, Daniel (19 de mayo de 2022). «DeepMind Introduces Gato, a New Generalist AI Agent». InfoQ. Consultado el 9 de septiembre de 2022. 
  49. Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julio de 2018). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts». Journal of Artificial Intelligence Research 62: 729-754. ISSN 1076-9757. doi:10.1613/jair.1.11222. 
  50. Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2 de agosto de 2021). «Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers». Journal of Artificial Intelligence Research 71. ISSN 1076-9757. doi:10.1613/jair.1.12895. 
  51. a b c d e f Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (1st edición). USA: Oxford University Press, Inc. ISBN 978-0-19-967811-2. 
  52. a b Ornes, Stephen (18 de noviembre de 2019). «Playing Hide-and-Seek, Machines Invent New Tools». Quanta Magazine. Consultado el 26 de agosto de 2022. 
  53. a b Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (2017-11-28). «AI Safety Gridworlds». arXiv:1711.09883  [cs.LG]. 
  54. Orseau, Laurent; Armstrong, Stuart (1 de enero de 2016). Safely Interruptible Agents. Consultado el 20 de julio de 2022. 
  55. a b c d Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (2017). «The Off-Switch Game». Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17. pp. 220-227. doi:10.24963/ijcai.2017/32. 
  56. a b c d Turner, Alexander Matt; Smith, Logan; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (3 de diciembre de 2021). «Optimal Policies Tend to Seek Power». Neural Information Processing Systems 34. arXiv:1912.01683. 
  57. Turing, Alan (1951). Intelligent machinery, a heretical theory. Lecture given to '51 Society'. Manchester: The Turing Digital Archive. p. 16. Consultado el 22 de julio de 2022. 
  58. «Can digital computers think?». Automatic Calculating Machines. Episodio 2. BBC. 15 May 1951. 
  59. Muehlhauser, Luke (29 de enero de 2016). «Sutskever on Talking Machines». Luke Muehlhauser. Consultado el 26 de agosto de 2022. 
  60. a b «Human Compatible: AI and the Problem of Control». Consultado el 22 de julio de 2022. 
  61. Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148. 
  62. Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 1010. ISBN 978-0-13-604259-4. 
  63. Rossi, Francesca. «Opinion | How do you teach a machine to be moral?». Washington Post. ISSN 0190-8286. 
  64. Aaronson, Scott (17 de junio de 2022). «OpenAI!». Shtetl-Optimized. 
  65. Selman, Bart, Intelligence Explosion: Science or Fiction? .
  66. McAllester (10 de agosto de 2014). «Friendly AI and the Servant Mission». Machine Thoughts. 
  67. Schmidhuber, Jürgen (6 de marzo de 2015). «I am Jürgen Schmidhuber, AMA!» (Reddit Comment). r/MachineLearning. Consultado el 23 de julio de 2022. 
  68. a b Everitt, Tom; Lea, Gary; Hutter, Marcus (2018-05-21). «AGI Safety Literature Review». arXiv:1805.01109  [cs.AI]. 
  69. Shane (31 de agosto de 2009). «Funding safe AGI». vetta project. 
  70. Horvitz, Eric (27 de junio de 2016). «Reflections on Safety and Artificial Intelligence». Eric Horvitz. Consultado el 20 de abril de 2020. 
  71. Chollet, François (8 de diciembre de 2018). «The implausibility of intelligence explosion». Medium. Consultado el 26 de agosto de 2022. 
  72. Marcus, Gary (6 de junio de 2022). «Artificial General Intelligence Is Not as Imminent as You Might Think». Scientific American. Consultado el 26 de agosto de 2022. 
  73. Barber, Lynsey (31 de julio de 2016). «Phew! Facebook's AI chief says intelligent machines are not a threat to humanity». CityAM. Consultado el 26 de agosto de 2022. 
  74. Harris, Jeremie (16 de junio de 2021). «The case against (worrying about) existential risk from AI». Medium. Consultado el 26 de agosto de 2022. 
  75. Rochon, Louis-Philippe; Rossi, Sergio (27 de febrero de 2015). The Encyclopedia of Central Banking (en inglés). Edward Elgar Publishing. ISBN 978-1-78254-744-0. 
  76. Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. p. 88. ISBN 978-0-393-86833-3. OCLC 1233266753. Archivado desde el original el 10 de febrero de 2023. Consultado el 10 de octubre de 2022. 
  77. Ng, Andrew Y.; Russell, Stuart J. (2000). «Algorithms for inverse reinforcement learning». Proceedings of the seventeenth international conference on machine learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. pp. 663-670. ISBN 1-55860-707-2. 
  78. Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). «Cooperative Inverse Reinforcement Learning». Advances in Neural Information Processing Systems. NIPS'16 29. ISBN 978-1-5108-3881-9. Consultado el 21 de julio de 2022. 
  79. Armstrong, Stuart; Mindermann, Sören (2018). «Occam's razor is insufficient to infer the preferences of irrational agents». Advances in Neural Information Processing Systems. NeurIPS 2018 31. Montréal: Curran Associates, Inc. Consultado el 21 de julio de 2022. 
  80. a b Amodei, Dario (13 de junio de 2017). «Learning from Human Preferences». OpenAI. Consultado el 21 de julio de 2022. 
  81. Li, Yuxi (25 de noviembre de 2018). «Deep Reinforcement Learning: An Overview». Lecture Notes in Networks and Systems Book Series. 
  82. Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). «Preference Learning». Marc Herbstritt. Dagstuhl Reports (en inglés) 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. 
  83. Hilton, Jacob (13 de abril de 2022). «Measuring Goodhart's Law». OpenAI. Consultado el 9 de septiembre de 2022. 
  84. Anderson, Martin (5 de abril de 2022). «The Perils of Using Quotations to Authenticate NLG Content». Unite.AI. Consultado el 21 de julio de 2022. 
  85. a b Wiggers, Kyle (5 de febrero de 2022). «Despite recent progress, AI-powered chatbots still have a long way to go». VentureBeat. Consultado el 23 de julio de 2022. 
  86. Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24 de julio de 2021). «Aligning AI With Shared Human Values». International Conference on Learning Representations. arXiv:2008.02275. 
  87. Bhattacharyya, Sreejani (14 de febrero de 2022). «DeepMind's "red teaming" language models with language models: What is it?». Analytics India Magazine. Consultado el 23 de julio de 2022. 
  88. a b Gabriel, Iason (1 de septiembre de 2020). «Artificial Intelligence, Values, and Alignment». Minds and Machines 30 (3): 411-437. ISSN 1572-8641. doi:10.1007/s11023-020-09539-2. Consultado el 23 de julio de 2022. 
  89. MacAskill, William (2022). What we owe the future. New York, NY: Basic Books. ISBN 978-1-5416-1862-6. OCLC 1314633519. 
  90. Irving, Geoffrey (3 de mayo de 2018). «AI Safety via Debate». OpenAI. Consultado el 23 de julio de 2022. 
  91. a b Naughton, John (2 de octubre de 2021). «The truth about artificial intelligence? It isn't that honest». The Observer. ISSN 0029-7712. Consultado el 23 de julio de 2022. 
  92. Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman, Leonardo Trujillo, Bill Worzel (eds.). Cham: Springer International Publishing. 2020. ISBN 978-3-030-39957-3. doi:10.1007/978-3-030-39958-0. Consultado el 23 de julio de 2022. 
  93. Paul Christiano on how OpenAI is developing real solutions to the ‘AI alignment problem’, and his vision of how humanity will progressively hand over decision-making to AI systems. 2018-10-02.
  94. Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel et al. (2020). «The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities». Artificial Life (en inglés) 26 (2): 274-306. ISSN 1064-5462. PMID 32271631. doi:10.1162/artl_a_00319. 
  95. Wiggers, Kyle (23 de septiembre de 2021). «OpenAI unveils model that can summarize books of any length». VentureBeat. Consultado el 23 de julio de 2022. 
  96. Moltzau, Alex (24 de agosto de 2019). «Debating the AI Safety Debate». Towards Data Science. Consultado el 23 de julio de 2022. 
  97. a b c Wiggers, Kyle (20 de septiembre de 2021). «Falsehoods more likely with large language models». VentureBeat. Consultado el 23 de julio de 2022. 
  98. The Guardian (8 de septiembre de 2020). «A robot wrote this entire article. Are you scared yet, human?». The Guardian. ISSN 0261-3077. Consultado el 23 de julio de 2022. 
  99. Heaven, Will Douglas (20 de julio de 2020). «OpenAI's new language generator GPT-3 is shockingly good—and completely mindless». MIT Technology Review. Consultado el 23 de julio de 2022. 
  100. Alford, Anthony (13 de julio de 2021). «EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J». InfoQ. Consultado el 23 de julio de 2022. 
  101. Kumar, Nitish (23 de diciembre de 2021). «OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser». MarkTechPost. Consultado el 23 de julio de 2022. 
  102. Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah et al. (21 de marzo de 2022). «Teaching language models to support answers with verified quotes». DeepMind. arXiv:2203.11147. 
  103. Kenton, Zachary (30 de marzo de 2021). «Alignment of Language Agents». DeepMind Safety Research - Medium. Consultado el 23 de julio de 2022. 
  104. Leike, Jan (24 de agosto de 2022). «Our approach to alignment research». OpenAI. Consultado el 9 de septiembre de 2022. 
  105. Ortega, Pedro A. (27 de septiembre de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium. Consultado el 26 de agosto de 2022. 
  106. Christian, Brian (2020). «Chapter 5: Shaping». The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archivado desde el original el 10 de febrero de 2023. Consultado el 10 de octubre de 2022. 
  107. Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). «Towards risk-aware artificial intelligence and machine learning systems: An overview». Decision Support Systems (en inglés) 159: 113800. doi:10.1016/j.dss.2022.113800. 
  108. McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15 de diciembre de 2006). «A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955». AI Magazine (en inglés) 27 (4): 12. ISSN 2371-9621. doi:10.1609/aimag.v27i4.1904. 
  109. Baker, Bowen (17 de septiembre de 2019). «Emergent Tool Use from Multi-Agent Interaction». OpenAI. Consultado el 26 de agosto de 2022. 
  110. Shermer, Michael (1 de marzo de 2017). «Artificial Intelligence Is Not a Threat—Yet». Scientific American. Consultado el 26 de agosto de 2022. 
  111. Everitt, Tom; Lea, Gary; Hutter, Marcus (21 de mayo de 2018). «AGI Safety Literature Review». 1805.01109. arXiv:1805.01109. 
  112. a b Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (2019-09-06). «Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings». arXiv:1902.09980  [cs.AI]. 
  113. Krakovna, Victoria. «Specification gaming: the flip side of AI ingenuity». Deepmind. Archivado desde el original el 26 de enero de 2021. Consultado el 6 de enero de 2021. 
  114. Wakefield, Jane (27 de septiembre de 2015). «Intelligent Machines: Do we really need to fear AI?». BBC News. Archivado desde el original el 8 de noviembre de 2020. Consultado el 9 de febrero de 2021. 
  115. Marcus, Gary (6 de septiembre de 2019). «How to Build Artificial Intelligence We Can Trust». The New York Times. Archivado desde el original el 22 de septiembre de 2020. Consultado el 9 de febrero de 2021. 
  116. Sotala, Kaj; Yampolskiy, Roman (19 de diciembre de 2014). «Responses to catastrophic AGI risk: a survey». Physica Scripta 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001. 
  117. PRC Ministry of Science and Technology. Ethical Norms for New Generation Artificial Intelligence Released, 2021. A translation by Center for Security and Emerging Technology
  118. Richardson, Tim (22 de septiembre de 2021). «UK publishes National Artificial Intelligence Strategy». The Register. 
  119. "The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously." (The National AI Strategy of the UK, 2021)
  120. The National AI Strategy of the UK, 2021 (actions 9 and 10 of the section "Pillar 3 - Governing AI Effectively")