Seguridad de la inteligencia artificial

De Wikipedia, la enciclopedia libre

La seguridad de la inteligencia artificial es un campo multidisciplinario que se ocupa de prevenir accidentes, usos indebidos u otras consecuencias perjudiciales que podrían derivarse del uso de sistemas de inteligencia artificial (IA). Abarca la ética de las máquinas y la alineación de la IA, cuyo objetivo es hacer que los sistemas de IA sean morales y útiles, y la seguridad de la IA comprende problemas técnicos como la supervisión de los sistemas para detectar riesgos y hacer que sean altamente confiables. Pero más allá de la investigación sobre IA, se trata de desarrollar normas y políticas que fomenten la seguridad.

Motivos[editar]

Ejemplos de cómo una IA avanzada y desalineada podría intentar conseguir más poder.[1]​ Estos comportamientos pueden surgir porque el poder es útil para lograr casi cualquier objetivo[2]

Los investigadores de la IA tienen opiniones muy diferentes en cuanto a la severidad y a las principales fuentes de riesgo que plantea la tecnología de IA,[3][4][5]​ aunque algunas encuestas sugieren que los expertos sí se toman en serio los riesgos con consecuencias considerables. En dos encuestas realizadas a investigadores de la IA, la media de los encuestados se mostraba optimista sobre la IA en general, pero otorgaba un 5% de probabilidad a un resultado "extremadamente malo (por ejemplo, la extinción humana)" derivado de la IA avanzada.[3]

En una encuesta realizada en 2022 entre la comunidad del procesamiento de lenguaje natural (PLN), el 37% estuvo de acuerdo o casi de acuerdo con que es plausible que las decisiones de la IA podrían provocar una catástrofe " tanto o más devastadora que una auténtica guerra nuclear".[6]​ En este momento, los expertos debaten los actuales riesgos derivados de los fallos de los sistemas críticos,[7]​ la parcialidad[8]​ y la vigilancia mediante IA;[9]​ los riesgos emergentes derivados del desempleo tecnológico, la manipulación digital[10]​ y el armamentismo;[11]​ y los riesgos especulativos derivados de la pérdida de control sobre futuros agentes de inteligencia artificial general (IAG).[12]

Hay quien ha criticado las dudas que despierta la IAG, por ejemplo Andrew Ng, profesor adjunto de la Universidad de Stanford, quien comparó estas inquietudes con "preocuparse por la superpoblación de Marte cuando ni siquiera hemos puesto un pie en ese planeta".[13]​ Otros, como Stuart J. Russell, profesor de la Universidad de California en Berkeley, instan a la cautela, alegando que "es mejor anticiparse al ingenio humano que subestimarlo".[14]

Antecedentes[editar]

Los riesgos de la IA empezaron a ser discutidos en profundidad al inicio de la era informática:

Asimismo, si avanzamos hacia la creación de máquinas que aprendan y cuyo comportamiento pueda modificarse con la experiencia, tendremos que afrontar que todo grado de independencia que le demos a una máquina será también un grado de posible rebeldía contra nuestros deseos.

—Norbert Wiener (1949)[15]

Entre 2008 y 2009, la AAAI (American Association for Artificial Intelligence en inglés) solicitó un estudio para explorar y abordar las posibles influencias sociales a largo plazo de la investigación y el desarrollo de la IA. El panel se mostró bastante escéptico ante los argumentos radicales expresados por los autores de ciencia ficción, pero coincidió en que "sería valiosa una investigación adicional sobre los métodos para comprender y verificar el espectro de comportamientos de los sistemas computacionales complejos con el fin de minimizar los resultados inesperados".[15]

En 2011, Roman Yampolskiy introdujo el término "ingeniería de seguridad de IA"[16]​ durante la conferencia Filosofía y Teoría de la Inteligencia Artificial,[17]​ enumerando fallos previos de sistemas de IA y alegando que "la frecuencia y gravedad de tales acontecimientos aumentará progresivamente a medida que las IA sean más competentes".[18]

En 2014, el filósofo Nick Bostrom publicó el libro Superinteligencia: caminos, peligros, estrategias. Su alegato de que los sistemas avanzados del futuro podrían suponer una amenaza para la existencia humana impulsó a Elon Musk,[19]Bill Gates[20]​ y Stephen Hawking[21]​ a expresar inquietudes similares.

En 2015, decenas de expertos en inteligencia artificial firmaron una carta abierta sobre este tema en la que pedían que se investigaran las repercusiones sociales de la IA y que se definieran orientaciones concretas.[22]​ La carta ha sido firmada por más de 8.000 personas hasta la fecha, incluidos Yann LeCun, Shane Legg, Yoshua Bengio y Stuart Russell.

Ese mismo año, un grupo de académicos encabezados por el profesor Stuart Russell fundó el Centro de Inteligencia Artificial Humano-Compatible en la Universidad de Berkeley y el Instituto para el Futuro de la Vida concedió 6,5 millones de dólares en subvenciones para investigaciones destinadas a "garantizar que la inteligencia artificial (IA) siga siendo segura, ética y beneficiosa".[23]

En 2016, la Oficina de Políticas Científicas y Tecnológicas de la Casa Blanca y la Universidad Carnegie Mellon anunciaron el Taller Público sobre la Seguridad y el Control de la Inteligencia Artificial,[24]​ que formaba parte de una serie de cuatro talleres organizados por la Casa Blanca con el objetivo de investigar "las ventajas y desventajas" de la IA.[25]​ Ese mismo año se publicó Problemas Concretos de Seguridad en la IA, una de las primeras y más influyentes agendas técnicas en materia de seguridad en la IA.[26]

En 2017, el Instituto para el Futuro de la Vida patrocinó la Conferencia Asilomar sobre la IA Beneficiosa, en la que más de 100 líderes de opinión formularon una serie de principios para lograr una IA beneficiosa, entre ellos "Evitar la competencia": Los equipos desarrolladores de sistemas de IA deben cooperar activamente para evitar la reducción de los estándares de seguridad.[27]

En 2018, el equipo de DeepMind Safety planteó diversos problemas de seguridad de la IA en materia de especificación, solidez y fiabilidad.[28]​ El año siguiente, varios investigadores organizaron un taller en el ICLR (International Conference on Learning Representations en inglés) centrado en estas áreas problemáticas.[29]

En 2021 se publicó Unsolved Problems in ML Safety, en el que se esbozan las líneas de investigación en materia de solidez, supervisión, alineación y seguridad sistémica.[30]

En 2023, Rishi Sunak dijo que quiere que el Reino Unido sea el "hogar geográfico de la regulación mundial de la seguridad de la IA" y que sea la sede de la primera cumbre mundial sobre seguridad de la IA.[31]

Áreas de investigación[editar]

Las áreas de investigación en seguridad de la IA incluyen la solidez, la supervisión y la alineación.[28][30]​ La solidez busca lograr que los sistemas sean altamente confiables, la supervisión trata de anticipar fallos y de detectar usos indebidos, y la alineación se centra en garantizar que persigan objetivos beneficiosos.

Solidez[editar]

El estudio de la solidez se centra en garantizar que los sistemas de IA se comporten según lo previsto en una amplia gama de situaciones diferentes, lo que incluye los siguientes problemas secundarios:

  • Solidez ante cisnes negros: crear sistemas que se comporten como está previsto en situaciones inusuales.
  • Solidez antagónica: diseñar sistemas para que sean resistentes a entradas de datos escogidas intencionalmente para hacerlos fallar.

Solidez ante cisnes negros[editar]

Las entradas de datos inusuales pueden hacer que los sistemas de IA fallen de forma catastrófica. Por ejemplo, en el "Flash Crash" de 2010, los sistemas automatizados de negociación (trading en inglés) reaccionaron de forma inesperada y excesiva a las aberraciones de mercado, destruyendo un billón de dólares en valores bursátiles en cuestión de minutos.[32]

Nótese que no es necesario que se produzca un cambio de distribución para que esto ocurra. Los fallos de tipo cisne negro pueden producirse cuando los datos de entrada son de larga cola, como suele ocurrir en situaciones de la vida real.[33]​ Los vehículos autónomos siguen teniendo problemas con "casos poco habituales" (corner cases en inglés) que pueden no haber surgido durante el periodo de formación; por ejemplo, un vehículo podría ignorar una señal de alto que esté encendida como una rejilla de LED.[34]

A pesar de que este tipo de problemas pueden resolverse a medida que los sistemas de aprendizaje automático (AA) desarrollen una mejor comprensión del mundo real, algunos investigadores señalan que incluso los humanos no suelen responder adecuadamente a sucesos sin precedentes (como la pandemia de COVID-19), argumentando que la solidez ante cisnes negros será un problema de seguridad persistente.[30]

Solidez antagónica[editar]

Los sistemas de IA suelen ser vulnerables a muestras antagónicas o "entradas de datos a modelos de aprendizaje automático que un atacante ha diseñado intencionadamente para que el modelo cometa un error".[35]​ Por ejemplo, en 2013, Szegedy y colaboradores descubrieron que añadir determinadas distorsiones imperceptibles a una imagen podía hacer que esta fuera clasificada erróneamente y con un elevado nivel de confianza.[36]​ Esto sigue siendo un problema para las redes neuronales, aunque en estudios recientes las distorsiones suelen ser lo suficientemente grandes como para resultar perceptibles.[37][38][39]

Es posible añadir ruido cuidadosamente elaborado a una imagen para provocar una clasificación errónea con un elevado nivel de confianza

Todas las imágenes de la derecha fueron clasificadas como avestruces tras la aplicación de una distorsión. (Izquierda) una muestra clasificada correctamente, (centro) distorsión aplicada ampliada 10 veces, (derecha) muestra antagónica.[36]

La solidez antagónica se asocia a menudo con la seguridad.[40]​ Varios investigadores demostraron que una señal de audio podía modificarse de forma imperceptible para que los sistemas de conversión de voz a texto la transcribieran a cualquier mensaje que el atacante eligiera.[41]​ Los sistemas de detección de intrusiones en la red[42]​ y de software malicioso (malware en inglés)[43]​ también deben presentar solidez antagónica, ya que los atacantes podrían diseñar ataques capaces de engañar dichos detectores.

Los modelos que representan objetivos (modelos de recompensa) también deben poseer solidez antagónica. Por ejemplo, un modelo de recompensa puede estimar la utilidad de una respuesta textual y un modelo de lenguaje puede entrenarse para maximizar este resultado.[44]​ Diversos investigadores han demostrado que si un modelo de lenguaje es entrenado durante el tiempo suficiente, éste aprovechará las vulnerabilidades del modelo de recompensa para lograr un mejor resultado incluso al desempeñarse peor en la tarea prevista.[45]​ Este problema puede resolverse mejorando la solidez antagónica del modelo de recompensa.[46]​ En términos más generales, cualquier sistema de IA utilizado para evaluar otro sistema de IA debe tener una solidez antagónica. Esto podría incluir a los sistemas de supervisión, ya que éstos también son susceptibles de ser manipulados para obtener una recompensa mayor.[47]

Supervisión[editar]

La supervisión se centra en anticipar los fallos de los sistemas de IA para poder prevenirlos o gestionarlos. Entre los problemas secundarios de la supervisión se encuentran la detección de sistemas poco confiables, la detección de usos malintencionados, la comprensión del funcionamiento interno de los sistemas de IA de caja negra y la identificación de funciones ocultas creadas por un agente malintencionado.

Estimación de la incertidumbre[editar]

Muchas veces es importante que los operadores humanos evalúen hasta qué punto deben confiar en un sistema de IA, especialmente en entornos de alto riesgo como el diagnóstico médico.[48]​ Por lo general, los modelos AA transmiten confianza al generar probabilidades; sin embargo, a menudo se muestran demasiado confiados,[49]​ sobre todo en situaciones que difieren de aquellas para las que fueron entrenados.[50]​ El objetivo de la investigación en materia de calibración es conseguir que las probabilidades del modelo se correspondan lo más posible con la proporcionalidad real de que el modelo esté en lo correcto.

Del mismo modo, la detección de anomalías o detección fuera de distribución (out-of-distribution o OOD en inglés) pretende identificar cuándo un sistema de IA se encuentra en una situación inusual. Por ejemplo, si el sensor de un vehículo autónomo funciona mal o se encuentra con un terreno difícil, debe alertar al conductor para que tome el control o se detenga.[51]​ La detección de anomalías suele implementarse mediante el simple entrenamiento de un clasificador para distinguir las entradas anómalas de las que no lo son,[52]​ aunque también se utilizan otras técnicas.[53][54]

Detección de usos malintencionados[editar]

Académicos[11]​ y organismos públicos han expresado su preocupación ante la posibilidad de que los sistemas de IA sean utilizados para ayudar a agentes malintencionados a fabricar armas,[55]​ manipular la opinión pública[56][57]​ o automatizar ciberataques.[58]​ Estas inquietudes son una preocupación práctica para empresas como OpenAI, que alojan potentes herramientas de IA en línea.[59]​ Para evitar usos indebidos, OpenAI ha creado sistemas de detección que señalizan o restringen a los usuarios en función de su actividad.[60]

Transparencia[editar]

Las redes neuronales a menudo son descritas como cajas negras,[61]​ lo que significa que es difícil entender por qué toman las decisiones que toman como resultado del enorme número de procesos computacionales que realizan.[62]​ Esto supone un reto para adelantarse a los fallos. En 2018, un vehículo autónomo mató a un peatón tras fallar en identificarlo. Debido a la naturaleza de caja negra del software de IA, la razón del fallo sigue siendo incierta.[63]

Una de las ventajas de la transparencia es la explicabilidad.[64]​ A veces es un requisito legal dar una explicación de por qué se ha tomado una decisión para garantizar la imparcialidad, por ejemplo para el filtrado automático de solicitudes de empleo o la asignación de puntuaciones crediticias.[64]

Otra ventaja es revelar la causa de los fallos.[61]​ Al principio de la pandemia COVID-19 de 2020, diversos investigadores utilizaron herramientas de transparencia para demostrar que los clasificadores de imágenes médicas "prestaban atención" a etiquetas hospitalarias irrelevantes.[65]

Las técnicas de transparencia también pueden utilizarse para corregir errores. Por ejemplo, en el artículo "Locating and Editing Factual Associations in GPT" (Localización y Edición de Asociaciones Factuales en GPT), los autores pudieron identificar los parámetros del modelo que influían en su forma de responder a las preguntas sobre la ubicación de la torre Eiffel. A continuación, pudieron "editar" estos conocimientos para que el modelo respondiera a las preguntas como si creyera que la torre estaba en Roma en lugar de en Francia.[66]​ Aunque en este caso los autores indujeron un error, estos métodos podrían utilizarse para su corrección eficaz. También existen técnicas de edición de modelos en visión artificial.[67]

Por último, hay quien sostiene que la falta de transparencia de los sistemas de IA es una importante fuente de riesgo y que una mejor comprensión de su funcionamiento podría evitar fallos con graves consecuencias en el futuro.[68]​ La investigación sobre interpretabilidad "interna" tiene como objetivo lograr modelos de AA más transparentes. Una de las metas de esta investigación es identificar el significado de las activaciones neuronales internas.[69][70]​ Por ejemplo, algunos investigadores identificaron una neurona en CLIP que responde a imágenes de personas disfrazadas de Spiderman, a dibujos de Spiderman y a la palabra "araña".[71]​ También implica explicar las conexiones entre estas neuronas o "circuitos".[72][73]

En este sentido, diversos investigadores han identificado mecanismos de concordancia de patrones en atención de transformadores que podrían desempeñar un papel en la forma en que los modelos de lenguaje aprenden de su contexto.[74]​ La "interpretabilidad interna" ha sido comparada con la neurociencia. En ambos casos, el objetivo es comprender lo que ocurre en un sistema intrincado, aunque los investigadores del AA tienen la ventaja de poder realizar mediciones perfectas y ablaciones arbitrarias.[75]

Detección de troyanos[editar]

Los modelos de AA pueden contener "troyanos" o "puertas traseras", es decir, vulnerabilidades que los agentes malintencionados integran en un sistema de IA. Por ejemplo, un sistema de reconocimiento facial troyanizado podría conceder acceso cuando una pieza específica de joyería esté a la vista;[30]​ o un vehículo autónomo troyanizado podría funcionar normalmente hasta que un activador específico se haga visible.[76]

Cabe señalar que un atacante debe tener acceso a los datos de entrenamiento del sistema para poder introducir un troyano. Puede que esto no sea difícil de lograr con modelos de gran tamaño como CLIP o GPT-3, ya que han sido entrenados a partir de datos disponibles públicamente en internet.[77]​ Un grupo de investigadores consiguió introducir un troyano en un clasificador de imágenes cambiando sólo 3 de los 3 millones de imágenes de entrenamiento.[78]​ Además de suponer un riesgo para la seguridad, hay investigadores que sostienen que los troyanos ofrecen un escenario concreto para probar y desarrollar mejores herramientas de control.[47]

Alineación[editar]

En el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.[a]​Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.[b]

La alineación de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios fáciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales;[82]objetivos instrumentales, como la búsqueda de poder, que ayudan al sistema a lograr sus objetivos finales;[80][83][84][85]​ y objetivos emergentes que sólo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos.[84][86]​ Estos problemas afectan a sistemas comerciales como robots,[87]​ modelos de lenguaje,[88][89]​ vehículos autónomos,[90]​ y sistemas de recomendación de redes sociales.[88][83][91]​ Se cree que los problemas son tanto más probables cuanto más capaz es el sistema, ya que en parte resultan de una alta capacidad.[92][84]

La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.[c]

La alineación de sistemas es parte de un campo de estudio más amplio llamado seguridad de la inteligencia artificial (en inglés, AI safety), es decir, el estudio de cómo construir sistemas de inteligencia artificial que sean seguros.[84][95]​ Las vías para la investigación de la alineación incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervisión extensible, el examen e interpretación de modelos de inteligencia artificial, y la prevención de comportamientos emergentes, como la búsqueda de poder.[84][96]​ La investigación de la alineación tiene conexiones con la investigación de la interpretabilidad,[97]​ la solidez,[84][95]​ la detección de anomalías, la incertidumbre calibrada,[97]​ la verificación formal,[98]​ el aprendizaje por preferencias,[99][100][101]​ la ingeniería de seguridad,[84]​ la teoría de juegos,[102][103]​ la equidad algorítmica,[95][104]​ y las ciencias sociales,[105]​ entre otros.

Seguridad sistémica y factores socio-técnicos[editar]

Es habitual que los riesgos de la IA (y los riesgos tecnológicos en general) sean clasificados como uso indebido o accidentes.[106]​ Algunos especialistas han sugerido que este planteamiento se queda corto.[106]​ Por ejemplo, la crisis de los misiles de Cuba claramente no fue un accidente o un mal uso de la tecnología.[106]​ Los analistas políticos Zwetsloot y Dafoe escribieron:[106]

"Las perspectivas de usos indebidos y de accidentes tienden a centrarse únicamente en el último paso de la cadena causal que desemboca en un daño: es decir, la persona que hace uso indebido de la tecnología, o el sistema que se comporta de forma inesperada... Sin embargo, a menudo la cadena causal correspondiente es mucho más larga".[106]

Los factores de riesgo suelen ser de carácter "estructural" o "sistémico", como la presión de la competencia, la difusión de los daños, el desarrollo acelerado, los altos niveles de incertidumbre y una inadecuada cultura de seguridad.[106]​ En un contexto más amplio de ingeniería de seguridad, factores estructurales como la "cultura de seguridad organizativa" desempeñan un papel central en el popular marco de análisis de riesgos STAMP.[107]

Inspirándose en la perspectiva estructural, algunos investigadores han destacado la importancia de utilizar el aprendizaje automático para mejorar los factores de seguridad socio-técnica, por ejemplo, utilizando el AA para la defensa cibernética (ciberdefensa; o cyber defense en inglés), mejorando la toma de decisiones institucionales y facilitando la cooperación.[30]

Ciberdefensa[editar]

A algunos especialistas les preocupa que la IA pueda exacerbar el ya de por sí desequilibrado panorama entre ciberatacantes y ciberdefensores.[108]​ Esto aumentaría los incentivos para un "primer ataque" y podría conducir a ataques más agresivos y desestabilizadores. Para reducir este riesgo, algunos recomiendan hacer más hincapié en la ciberdefensa. Asimismo, la seguridad de los programas informáticos es esencial para evitar el robo y el uso indebido de los potentes modelos de IA.[11]

Mejorar la toma de decisiones institucional[editar]

El avance de la IA en ámbitos económicos y militares podría desencadenar desafíos políticos sin precedentes.[109]​ Algunos expertos han comparado el desarrollo de la inteligencia artificial con la Guerra Fría, en la que la toma de decisiones por parte de un reducido número de personas a menudo marcaba la diferencia entre la estabilidad y la catástrofe.[110]​ Investigadores del campo de la IA han sostenido que las tecnologías de IA también podrían utilizarse para ayudar en la toma de decisiones.[30]​ Por ejemplo, se están empezando a desarrollar sistemas de previsión[111]​ y asesoramiento basados en IA.[112]

Facilitar la cooperación[editar]

Muchas de las principales amenazas mundiales (guerra nuclear,[113]​ cambio climático,[114]​ etc.) han sido enmarcadas como problemas de cooperación. Como ocurre en el conocido dilema del prisionero, algunas dinámicas pueden conducir a malos resultados para todos los participantes, incluso cuando éstos actúan en su propio beneficio. Por ejemplo, ningún agente posee incentivos sólidos para hacer frente al cambio climático, a pesar de que las consecuencias pueden ser graves si nadie interviene.[114]

Uno de los principales retos de la cooperación en materia de IA es evitar una "carrera hacia el abismo".[115]​ En este contexto, los países o las empresas competirían por construir sistemas de inteligencia artificial más capaces y descuidarían la seguridad, lo que provocaría un accidente catastrófico que perjudicaría a todos los implicados. La inquietud ante este tipo de situaciones ha motivado esfuerzos políticos[116]​ y técnicos[117]​ para facilitar la cooperación entre seres humanos y, potencialmente, entre sistemas de IA. La mayor parte de la investigación en materia de IA se centra en el diseño de agentes individuales que cumplan funciones aisladas (a menudo en "juegos de un solo jugador").[118]​ Varios expertos han sugerido que, a medida que los sistemas de IA se vuelvan más autónomos, puede resultar esencial estudiar y moldear la forma en la que interactúan.[118]

En materia de gobernanza[editar]

En general, la gobernanza de la IA se ocupa de crear normas, estándares y reglamentos que guíen el uso y el desarrollo de los sistemas de inteligencia artificial.[110]​ Implica formular y aplicar recomendaciones concretas, así como llevar a cabo una investigación más fundacional para informar sobre cuáles deben ser estas recomendaciones. Esta sección se centra en los aspectos de la gobernanza de la IA específicamente relacionados con garantizar que los sistemas de IA sean seguros y beneficiosos.

Investigación[editar]

El estudio de la gobernanza de la seguridad de la IA abarca desde investigaciones fundacionales sobre las posibles repercusiones de la IA hasta su aplicación concreta. Desde el punto de vista fundacional, diversos investigadores han sostenido que la IA podría transformar muchos aspectos de la sociedad debido a su amplia aplicabilidad, comparándola con la electricidad y la locomotora de vapor.[119]​ Parte del trabajo se ha centrado en anticipar los riesgos específicos que pueden derivarse de estos impactos, tales como el desempleo masivo,[120]​ el armamentismo,[121]​ la desinformación,[122]​ la vigilancia[123]​ y la concentración de poder.[124]

Otras investigaciones analizan los factores de riesgo subyacentes, como la dificultad de supervisar la rápida evolución de la industria de la IA,[125]​ la disponibilidad de modelos de IA[126]​ y el fenómeno de la "carrera hacia el abismo".[115][127]​ Allan Dafoe, responsable de gobernanza y estrategia a largo plazo de DeepMind, ha hecho hincapié en los peligros de la carrera y en la posible necesidad de cooperación:[116]

"...puede ser casi una condición necesaria y suficiente para la seguridad y la alineación de la IA que haya un alto grado de precaución antes de desplegar poderosos sistemas avanzados; sin embargo, si los agentes están compitiendo en un dominio con grandes beneficios para los pioneros o con ventaja relativa, entonces se verán presionados a elegir un nivel de precaución por debajo del óptimo."[116]

Acción gubernamental[editar]

Hay quienes sostienen que es demasiado pronto para regular la IA, pues temen que la normativa obstaculice la innovación y consideran insensato "apresurarse a regular desde la ignorancia".[128][129]​ Otros, como el magnate de los negocios Elon Musk, abogan por una acción preventiva para mitigar riesgos catastróficos.[130]​ Hasta ahora apenas se han aprobado normas de seguridad en materia de IA a nivel nacional, pese a que se han presentado muchos proyectos de ley. Un ejemplo destacado es la Ley de Inteligencia Artificial de la Unión Europea, la cual regula ciertas aplicaciones de "alto riesgo" de la IA y restringe usos potencialmente dañinos como el reconocimiento facial, la manipulación subliminal y el puntaje crediticio social.

Al margen de la legislación formal, las agencias gubernamentales han propuesto recomendaciones éticas y de seguridad. En marzo de 2021, la Comisión Nacional de Seguridad de EE.UU. sobre Inteligencia Artificial informó que los avances en materia de IA podrían hacer que fuese cada vez más importante "garantizar que los sistemas estén alineados con metas y valores, como la seguridad, la solidez y la fiabilidad."[131]​ Posteriormente, el Instituto Nacional de Estándares y Tecnología elaboró un marco para la gestión de riesgos de la IA, que aconseja que cuando "existan riesgos de carácter catastrófico, el desarrollo y el despliegue deben cesar de forma segura hasta que los riesgos puedan gestionarse adecuadamente".[132]

En septiembre de 2021, la República Popular China publicó una serie de directrices éticas para el uso de la IA en China, haciendo hincapié en que las decisiones relativas a la IA deben permanecer bajo control humano y exigiendo mecanismos de rendición de cuentas. Ese mismo mes, el Reino Unido publicó su Estrategia Nacional de IA a 10 años,[133]​ que afirma que el gobierno británico "se toma en serio el riesgo a largo plazo de la Inteligencia Artificial General no alineada, y los cambios imprevisibles que supondría para el mundo."[134]​ La estrategia describe medidas para evaluar los riesgos a largo plazo relacionados con la IA, incluidos los de carácter catastrófico.[134]

Organizaciones gubernamentales, sobre todo en Estados Unidos, también han fomentado el desarrollo de investigaciones técnicas en materia de seguridad de la IA. La agencia de Actividad de Proyectos de Investigación Avanzados de Inteligencia (Intelligence Advanced Research Projects Activity o IARPA en inglés) inició el proyecto TrojAI para identificar y proteger a los sistemas de IA contra ataques troyanos.[135]​ La Agencia de Proyectos de Investigación Avanzados de Defensa (Defense Advanced Research Projects Agency o DARPA en inglés) investiga sobre inteligencia artificial explicable y cómo mejorar la solidez frente a ataques antagónicos,[136][137]​ y la Fundación Nacional de Ciencias (National Science Foundation o NSF en inglés) apoya al Centro para el Aprendizaje Automático Confiable y destina millones a financiar investigaciones empíricas en materia de seguridad de la IA.[138]

Autorregulación empresarial[editar]

Los laboratorios y las empresas de IA suelen regirse por prácticas y normas de seguridad que escapan a la legislación oficial.[139]​ Uno de los objetivos de los investigadores en materia de gobernanza es dar forma a estas normas. Algunos ejemplos de recomendaciones de seguridad que figuran en publicaciones relevantes incluyen la auditoría por parte de terceros,[140]​ ofrecer recompensas por detectar fallos,[140]​ compartir incidentes relacionados con la IA[140]​ (para ello se creó una base de datos de este tipo),[141]​ seguir directrices para determinar si es conveniente publicar investigaciones o modelos,[126]​ y mejorar la información y la ciberseguridad en los laboratorios de IA.[142]

Las empresas también han asumido compromisos concretos. Cohere, OpenAI y AI21 propusieron y acordaron "mejores prácticas para desplegar modelos de lenguaje", centradas en reducir usos indebidos.[143]​ Para evitar contribuir a la dinámica competitiva, OpenAI también declaró en sus estatutos que:[144]

"...si un proyecto alineado con valores y con conciencia de seguridad se acercase a la creación de una IAG antes que nosotros, nos comprometemos a dejar de competir con ese proyecto y a empezar a ayudarle."[144]

Asimismo, líderes de la industria como el CEO de DeepMind, Demis Hassabis, y el director de Facebook AI, Yann LeCun, han firmado cartas abiertas como los Principios Asilomar y la Carta Abierta sobre Armas Autónomas.[145]

Véase también[editar]

Notas[editar]

  1. Otras definiciones de "alineación" requieren que la inteligencia artificial persiga objetivos más generales, como valores humanos, otros principios éticos o las intenciones que tendrían sus diseñadores si estuvieran más informados o fueran más perspicaces.[79]
  2. Véase Russel & Norvig, Artificial Intelligence: A Modern Approach.[80]​ La distinción entre inteligencia artificial no alineada e inteligencia artificial incompetente ha sido formalizada en ciertos contextos.[81]
  3. Los principios de la inteligencia artificial creados en la Conferencia de Asilomar sobre la Inteligencia Artificial Benéfica fueron firmados por 1797 investigadores de robótica e inteligencia artificial.[93]​ Además, el informe del Secretario General de la ONU titulado "Nuestra agenda común" señala que "el Pacto [Digital Global] también podría promover la regulación de la inteligencia artificial para asegurarse de que respete los valores globales comunes" y discute los riesgos catastróficos globales que surgen de los desarrollos tecnológicos.[94]

Referencias[editar]

  1. Carlsmith, Joseph (2022-06-16). «Is Power-Seeking AI an Existential Risk?» (en inglés). arXiv:2206.13353  [cs.CY]. 
  2. «‘The Godfather of A.I.’ warns of ‘nightmare scenario’ where artificial intelligence begins to seek power». Fortune (en inglés). Consultado el 22 de junio de 2023. 
  3. a b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julio de 2018). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts». Journal of Artificial Intelligence Research (en inglés) 62: 729-754. ISSN 1076-9757. doi:10.1613/jair.1.11222. Consultado el 22 de junio de 2023. 
  4. Reade, A. E.; Gregory, K. F. (1975-12). «High-temperature production of protein-enriched feed from cassava by fungi». Applied Microbiology 30 (6): 897-904. ISSN 0003-6919. PMC 376565. PMID 2105. doi:10.1128/am.30.6.897-904.1975. Consultado el 22 de junio de 2023. 
  5. https://aiimpacts.org/author/katja (4 de agosto de 2022). «2022 Expert Survey on Progress in AI». AI Impacts (en inglés estadounidense). Consultado el 22 de junio de 2023. 
  6. Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). What Do NLP Researchers Believe? Results of the NLP Community Metasurvey (en inglés). arXiv:2208.12852. 
  7. De-Arteaga, Maria (13 de mayo de 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) (en inglés). Carnegie Mellon University. 
  8. Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (13 de julio de 2021). «A Survey on Bias and Fairness in Machine Learning». ACM Computing Surveys 54 (6): 115:1-115:35. ISSN 0360-0300. doi:10.1145/3457607. Consultado el 22 de junio de 2023. 
  9. Feldstein, Steven (2019), The Global Expansion of AI Surveillance (en inglés), Carnegie Endowment for International Peace .
  10. Barnes, Beth (2021). «Risks from AI persuasion». Lesswrong (en inglés). Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022. 
  11. a b c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 de abril de 2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation (en inglés). Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. S2CID 3385567. doi:10.17863/cam.22520. Archivado desde el original el 23 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  12. Carlsmith, Joseph (16 de junio de 2022). Is Power-Seeking AI an Existential Risk? (en inglés). arXiv:2206.13353. 
  13. Shermer, Michael. «Artificial Intelligence Is Not a Threat—Yet». Scientific American (en inglés). Consultado el 22 de junio de 2023. 
  14. Dafoe, Allan (2016). «Yes, We Are Worried About the Existential Risk of Artificial Intelligence». MIT Technology Review (en inglés). Archivado desde el original el 28 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  15. a b Markoff, John (20 de mayo de 2013). «In 1949, He Imagined an Age of Robots». The New York Times (en inglés). ISSN 0362-4331. Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022. 
  16. Yampolskiy, Roman V.; Spellchecker, M. S. (2016). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures. doi:10.48550/ARXIV.1610.07997. Consultado el 22 de junio de 2023. 
  17. «PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011)» (en inglés). Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022. 
  18. Yampolskiy, Roman V. (2013). Müller, Vincent C., ed. Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach (en inglés) 5. Springer Berlin Heidelberg. pp. 389-396. ISBN 978-3-642-31673-9. doi:10.1007/978-3-642-31674-6_29. Consultado el 22 de junio de 2023. 
  19. Elon Musk [@elonmusk]. «Worth reading Superintelligence by Bostrom. We need to be super careful with AI. Potentially more dangerous than nukes.». X (antes Twitter) (tuit) (en inglés). 
  20. Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015, consultado el 22 de junio de 2023 .
  21. Cellan-Jones, Rory (2 de diciembre de 2014). «Stephen Hawking warns artificial intelligence could end mankind». BBC News (en inglés). Archivado desde el original el 30 de octubre de 2015. Consultado el 23 de noviembre de 2022. 
  22. «Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter». Future of Life Institute (en inglés estadounidense). Consultado el 22 de junio de 2023. 
  23. «AI Research Grants Program». Future of Life Institute (en inglés estadounidense). Consultado el 22 de junio de 2023. 
  24. «SafArtInt 2016». www.cmu.edu. Consultado el 22 de junio de 2023. 
  25. «UW to host first of four White House public workshops on artificial intelligence». UW News (en inglés). Consultado el 22 de junio de 2023. 
  26. Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016). Concrete Problems in AI Safety. doi:10.48550/ARXIV.1606.06565. Consultado el 22 de junio de 2023. 
  27. «AI Principles». Future of Life Institute (en inglés estadounidense). Consultado el 22 de junio de 2023. 
  28. a b Research, DeepMind Safety (27 de septiembre de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (en inglés). Consultado el 22 de junio de 2023. 
  29. «SafeML ICLR 2019 Workshop». sites.google.com. Consultado el 22 de junio de 2023. 
  30. a b c d e f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2021). Unsolved Problems in ML Safety. doi:10.48550/ARXIV.2109.13916. Consultado el 24 de junio de 2023. 
  31. Browne, Ryan (12 de junio de 2023). «British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley». CNBC (en inglés). Consultado el 25 de junio de 2023. 
  32. Kirilenko, Andrei; Kyle, Albert S.; Samadi, Mehrdad; Tuzun, Tugkan (2017-06). «The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash». The Journal of Finance (en inglés) 72 (3): 967-998. doi:10.1111/jofi.12498. Consultado el 24 de junio de 2023. 
  33. Newman, Mej (2005-09). «Power laws, Pareto distributions and Zipf's law». Contemporary Physics (en inglés) 46 (5): 323-351. ISSN 0010-7514. doi:10.1080/00107510500052444. Consultado el 24 de junio de 2023. 
  34. Eliot, Lance. «Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars». Forbes. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  35. «Attacking machine learning with adversarial examples». openai.com (en inglés estadounidense). Consultado el 29 de junio de 2023. 
  36. a b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de febrero de 2014). Intriguing properties of neural networks. arXiv:1312.6199. 
  37. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de septiembre de 2019). Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv:1706.06083. 
  38. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de septiembre de 2019). Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv:1706.06083. 
  39. Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de marzo de 2018). Adversarial Logit Pairing. arXiv:1803.06373. 
  40. Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julio de 2018). Motivating the Rules of the Game for Adversarial Example Research. arXiv:1807.06732. 
  41. Carlini, Nicholas; Wagner, David (29 de marzo de 2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv:1801.01944. 
  42. Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de septiembre de 2022). Adversarial Examples in Constrained Domains. arXiv:2011.01183. 
  43. Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). Exploring Adversarial Examples in Malware Detection. arXiv:1810.08280. 
  44. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de marzo de 2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. 
  45. Gao, Leo; Schulman, John; Hilton, Jacob (19 de octubre de 2022). Scaling Laws for Reward Model Overoptimization. arXiv:2210.10760. 
  46. Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de octubre de 2021). RoMA: Robust Model Adaptation for Offline Model-based Optimization. arXiv:2110.14188. 
  47. a b Hendrycks, Dan; Mazeika, Mantas (20 de septiembre de 2022). X-Risk Analysis for AI Research. arXiv:2206.05862. 
  48. Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). «Deep learning in cancer diagnosis, prognosis and treatment selection». Genome Medicine (en inglés) 13 (1): 152. ISSN 1756-994X. PMC 8477474. PMID 34579788. doi:10.1186/s13073-021-00968-x. 
  49. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). «On calibration of modern neural networks». Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research 70. PMLR. pp. 1321-1330. 
  50. Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji et al. (17 de diciembre de 2019). Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. arXiv:1906.02530. 
  51. Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). «Description of Corner Cases in Automated Driving: Goals and Challenges». 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW): 1023-1028. ISBN 978-1-6654-0191-3. S2CID 237572375. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. 
  52. Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de enero de 2019). Deep Anomaly Detection with Outlier Exposure. arXiv:1812.04606. 
  53. Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de marzo de 2022). ViM: Out-Of-Distribution with Virtual-logit Matching. arXiv:2203.10807. 
  54. Hendrycks, Dan; Gimpel, Kevin (3 de octubre de 2018). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. arXiv:1610.02136. 
  55. Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). «Dual use of artificial-intelligence-powered drug discovery». Nature Machine Intelligence (en inglés) 4 (3): 189-191. ISSN 2522-5839. PMC 9544280. PMID 36211133. doi:10.1038/s42256-022-00465-9. 
  56. Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation. S2CID 240522878. doi:10.51593/2021ca003. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  57. «Propaganda-as-a-service may be on the horizon if large language models are abused». VentureBeat. 14 de diciembre de 2021. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  58. Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). «Automating Cyber Attacks: Hype and Reality». Center for Security and Emerging Technology. S2CID 234623943. doi:10.51593/2020ca002. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  59. «Lessons Learned on Language Model Safety and Misuse». OpenAI. 3 de marzo de 2022. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  60. Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 de agosto de 2022). «New-and-Improved Content Moderation Tooling». OpenAI. Archivado desde el original el 11 de enero de 2023. Consultado el 24 de noviembre de 2022. 
  61. a b Savage, Neil (29 de marzo de 2022). «Breaking into the black box of artificial intelligence». Nature. PMID 35352042. S2CID 247792459. doi:10.1038/d41586-022-00858-1. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  62. Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). Key Concepts in AI Safety: Interpretability in Machine Learning. S2CID 233775541. doi:10.51593/20190042. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  63. McFarland, Matt (19 de marzo de 2018). «Uber pulls self-driving cars after first fatal crash of autonomous vehicle». CNNMoney. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  64. a b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20 de diciembre de 2019). Accountability of AI Under the Law: The Role of Explanation. arXiv:1711.01134. 
  65. Fong, Ruth; Vedaldi, Andrea (2017). «Interpretable Explanations of Black Boxes by Meaningful Perturbation». 2017 IEEE International Conference on Computer Vision (ICCV): 3449-3457. ISBN 978-1-5386-1032-9. S2CID 1633753. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. 
  66. Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). «Locating and editing factual associations in GPT». Advances in Neural Information Processing Systems 35. arXiv:2202.05262. 
  67. Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 de julio de 2020). Rewriting a Deep Generative Model. arXiv:2007.15646. 
  68. Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de septiembre de 2022). Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks. arXiv:2207.13243. 
  69. Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). Network Dissection: Quantifying Interpretability of Deep Visual Representations. arXiv:1704.05796. 
  70. McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich et al. (22 de noviembre de 2022). «Acquisition of chess knowledge in AlphaZero». Proceedings of the National Academy of Sciences (en inglés) 119 (47): e2206625119. Bibcode:2022PNAS..11906625M. ISSN 0027-8424. PMC 9704706. PMID 36375061. arXiv:2111.09259. doi:10.1073/pnas.2206625119. 
  71. Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). «Multimodal neurons in artificial neural networks». Distill 6 (3). S2CID 233823418. doi:10.23915/distill.00030. 
  72. Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). «Zoom in: An introduction to circuits». Distill 5 (3). S2CID 215930358. doi:10.23915/distill.00024.001. 
  73. Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). «Curve circuits». Distill 6 (1). doi:10.23915/distill.00024.006. Archivado desde el original el 5 de diciembre de 2022. Consultado el 5 de diciembre de 2022. 
  74. Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Drain, Dawn; Ganguli, Deep; Hatfield-Dodds, Zac; Hernandez, Danny; Johnston, Scott; Jones, Andy; Kernion, Jackson; Lovitt, Liane; Ndousse, Kamal; Amodei, Dario; Brown, Tom; Clark, Jack; Kaplan, Jared; McCandlish, Sam; Olah, Chris (2022). «In-context learning and induction heads». Transformer Circuits Thread. arXiv:2209.11895. 
  75. Olah, Christopher. «Interpretability vs Neuroscience [rough note]». Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  76. Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de marzo de 2019). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733. 
  77. Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de diciembre de 2017). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. arXiv:1712.05526. 
  78. Carlini, Nicholas; Terzis, Andreas (28 de marzo de 2022). Poisoning and Backdooring Contrastive Learning. arXiv:2106.09667. 
  79. Gabriel, Iason (1 de septiembre de 2020). «Artificial Intelligence, Values, and Alignment». Minds and Machines 30 (3): 411-437. ISSN 1572-8641. S2CID 210920551. doi:10.1007/s11023-020-09539-2. Consultado el 23 de julio de 2022. 
  80. a b Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th edición). Pearson. pp. 31-34. ISBN 978-1-292-40113-3. OCLC 1303900751. 
  81. Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D; Pfau, Jacob; Krueger, David (17 de julio de 2022). «Goal misgeneralization in deep reinforcement learning». Proceedings of the 39th international conference on machine learning. Proceedings of machine learning research 162. PMLR. pp. 12004-12019. 
  82. Krakovna, Victoria; Orseau, Laurent; Ngo, Richard; Martic, Miljan; Legg, Shane (6 de diciembre de 2020). «Avoiding Side Effects By Considering Future Tasks». Advances in Neural Information Processing Systems 33 (NeurIPS 2020) 33. arXiv:2010.07877. 
  83. a b Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915. 
  84. a b c d e f g Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2022-06-16). «Unsolved Problems in ML Safety». arXiv:2109.13916  [cs.LG]. 
  85. Carlsmith, Joseph (2022-06-16). «Is Power-Seeking AI an Existential Risk?». arXiv:2206.13353  [cs.CY]. 
  86. Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archivado desde el original el 10 de febrero de 2023. Consultado el 10 de octubre de 2022. 
  87. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 de septiembre de 2013). «Reinforcement learning in robotics: A survey». The International Journal of Robotics Research (en inglés) 32 (11): 1238-1274. ISSN 0278-3649. doi:10.1177/0278364913495721. 
  88. a b Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette et al. (12 de julio de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258. 
  89. Zaremba, Wojciech (10 de agosto de 2021). «OpenAI Codex». OpenAI. Consultado el 23 de julio de 2022. 
  90. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (11 de marzo de 2022). Reward (Mis)design for Autonomous Driving. arXiv:2104.13906. 
  91. Stray, Jonathan (2020). «Aligning AI Optimization to Community Well-Being». International Journal of Community Well-Being (en inglés) 3 (4): 443-463. ISSN 2524-5295. PMID 34723107. doi:10.1007/s42413-020-00086-3. 
  92. Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de febrero de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Consultado el 21 de julio de 2022. 
  93. Future of Life Institute (11 de agosto de 2017). «Asilomar AI Principles». Future of Life Institute. Consultado el 18 de julio de 2022. 
  94. Naciones Unidas (2021), Nuestra agenda común: Informe del Secretario General, Nueva York: Naciones Unidas, pp. 63-64 .
  95. a b c Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016-06-21). «Concrete Problems in AI Safety» (en en). arXiv:1606.06565  [cs.AI]. 
  96. Ortega, Pedro A. (27 de septiembre de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». DeepMind Safety Research - Medium. Consultado el 18 de julio de 2022. 
  97. a b Rorvig, Mordechai (14 de abril de 2022). «Researchers Gain New Understanding From Simple AI». Quanta Magazine. Consultado el 18 de julio de 2022. 
  98. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de diciembre de 2015). «Research Priorities for Robust and Beneficial Artificial Intelligence». AI Magazine 36 (4): 105-114. ISSN 2371-9621. doi:10.1609/aimag.v36i4.2577. 
  99. Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research 18 (136): 1-46. 
  100. Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences». Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302-4310. ISBN 978-1-5108-6096-4. 
  101. Heaven, Will Douglas (27 de enero de 2022). «The new version of GPT-3 is much better behaved (and should be less toxic)». MIT Technology Review. Consultado el 18 de julio de 2022. 
  102. Clifton, Jesse (2020). «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda». Center on Long-Term Risk. Consultado el 18 de julio de 2022. 
  103. Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de mayo de 2021). «Cooperative AI: machines must learn to find common ground». Nature (en inglés) 593 (7857): 33-36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. doi:10.1038/d41586-021-01170-0. 
  104. Prunkl, Carina; Whittlestone, Jess (7 de febrero de 2020). «Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society». Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (en inglés) (New York NY USA: ACM): 138-143. ISBN 978-1-4503-7110-0. doi:10.1145/3375627.3375803. 
  105. Irving, Geoffrey; Askell, Amanda (19 de febrero de 2019). «AI Safety Needs Social Scientists». Distill 4 (2): 10.23915/distill.00014. ISSN 2476-0757. doi:10.23915/distill.00014. 
  106. a b c d e f Zwetsloot, Remco; Dafoe, Allan (11 de febrero de 2019). «Thinking About Risks From AI: Accidents, Misuse and Structure». Lawfare. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  107. Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). «Systems theoretic accident model and process (STAMP): A literature review». Safety Science (en inglés) 152: 105596. S2CID 244550153. doi:10.1016/j.ssci.2021.105596. Archivado desde el original el 15 de marzo de 2023. Consultado el 28 de noviembre de 2022. 
  108. Center for Security and Emerging Technology; Hoffman, Wyatt (2021). AI and the Future of Cyber Competition. S2CID 234245812. doi:10.51593/2020ca007. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  109. Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement. S2CID 240957952. doi:10.51593/20190051. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  110. a b Future of Life Institute (27 de marzo de 2019). AI Strategy, Policy, and Governance (Allan Dafoe). Escena en 22:05. Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022. 
  111. Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de octubre de 2022). Forecasting Future World Events with Neural Networks. arXiv:2206.15474. 
  112. Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 de febrero de 2022). Augmenting Decision Making via Interactive What-If Analysis. arXiv:2109.06160. 
  113. Lindelauf, Roy (2021), «Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited», en Osinga, Frans; Sweijs, Tim, eds., NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (en inglés) (The Hague: T.M.C. Asser Press): 421-436, ISBN 978-94-6265-418-1, S2CID 229449677, doi:10.1007/978-94-6265-419-8_22, archivado desde el original el 15 de marzo de 2023, consultado el 24 de noviembre de 2022 .
  114. a b Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  115. a b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl, Racing to the Precipice: a Model of Artificial Intelligence Development, Future of Humanity Institute, Oxford University .
  116. a b c Dafoe, Allan, AI Governance: A Research Agenda, Centre for the Governance of AI, Future of Humanity Institute, University of Oxford .
  117. Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de diciembre de 2020). Open Problems in Cooperative AI. arXiv:2012.08630. 
  118. a b Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature 593 (7857): 33-36. Bibcode:2021Natur.593...33D. PMID 33947992. S2CID 233740521. doi:10.1038/d41586-021-01170-0. Archivado desde el original el 22 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  119. Crafts, Nicholas (23 de septiembre de 2021). «Artificial intelligence as a general-purpose technology: an historical perspective». Oxford Review of Economic Policy (en inglés) 37 (3): 521-536. ISSN 0266-903X. doi:10.1093/oxrep/grab012. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  120. 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 de diciembre de 2020). «Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review». 臺灣東亞文明研究學刊 (en inglés) 17 (2). ISSN 1812-6243. doi:10.6163/TJEAS.202012_17(2).0002. 
  121. Johnson, James (3 de abril de 2019). «Artificial intelligence & future warfare: implications for international security». Defense & Security Analysis (en inglés) 35 (2): 147-169. ISSN 1475-1798. S2CID 159321626. doi:10.1080/14751798.2019.1600800. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  122. Kertysova, Katarina (12 de diciembre de 2018). «Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered». Security and Human Rights 29 (1–4): 55-81. ISSN 1874-7337. S2CID 216896677. doi:10.1163/18750230-02901005. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022. 
  123. Feldstein, Steven (2019). The Global Expansion of AI Surveillance. Carnegie Endowment for International Peace. 
  124. The economics of artificial intelligence : an agenda. Ajay Agrawal, Joshua Gans, Avi Goldfarb. Chicago. 2019. ISBN 978-0-226-61347-5. OCLC 1099435014. Archivado desde el original el 15 de marzo de 2023. Consultado el 28 de noviembre de 2022. 
  125. Whittlestone, Jess; Clark, Jack (31 de agosto de 2021). Why and How Governments Should Monitor AI Development. arXiv:2108.12427. 
  126. a b Shevlane, Toby (2022). «Sharing Powerful AI Models | GovAI Blog». Center for the Governance of AI. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  127. Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julio de 2019). The Role of Cooperation in Responsible AI Development. arXiv:1907.04534. 
  128. Ziegler, Bart. «Is It Time to Regulate AI?». WSJ. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  129. Reed, Chris (13 de septiembre de 2018). «How should we regulate artificial intelligence?». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (en inglés) 376 (2128): 20170360. Bibcode:2018RSPTA.37670360R. ISSN 1364-503X. PMC 6107539. PMID 30082306. doi:10.1098/rsta.2017.0360. 
  130. Belton, Keith B. (7 de marzo de 2019). «How Should AI Be Regulated?». IndustryWeek. Archivado desde el original el 29 de enero de 2022. Consultado el 24 de noviembre de 2022. 
  131. National Security Commission on Artificial Intelligence (2021), Final Report .
  132. National Institute of Standards and Technology (12 de julio de 2021). «AI Risk Management Framework». NIST. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  133. Richardson, Tim (2021). «Britain publishes 10-year National Artificial Intelligence Strategy». Archivado desde el original el 10 de febrero de 2023. Consultado el 24 de noviembre de 2022. 
  134. a b «Guidance: National AI Strategy». GOV.UK. 2021. Archivado desde el original el 10 de febrero de 2023. Consultado el 24 de noviembre de 2022. 
  135. Office of the Director of National Intelligence; Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. «IARPA - TrojAI». Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  136. Turek, Matt. «Explainable Artificial Intelligence». Archivado desde el original el 19 de febrero de 2021. Consultado el 24 de noviembre de 2022. 
  137. Draper, Bruce. «Guaranteeing AI Robustness Against Deception». Defense Advanced Research Projects Agency. Archivado desde el original el 9 de enero de 2023. Consultado el 24 de noviembre de 2022. 
  138. National Science Foundation. «Safe Learning-Enabled Systems». Archivado desde el original el 26 de febrero de 2023. Consultado el 27 de febrero de 2023. 
  139. Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). «Defining organizational AI governance». AI and Ethics (en inglés) 2 (4): 603-609. ISSN 2730-5953. S2CID 247119668. doi:10.1007/s43681-022-00143-x. Archivado desde el original el 15 de marzo de 2023. Consultado el 28 de noviembre de 2022. 
  140. a b c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (20 de abril de 2020). Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims. arXiv:2004.07213. 
  141. «Welcome to the Artificial Intelligence Incident Database». Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  142. Wiblin, Robert; Harris, Keiran (2022). «Nova DasSarma on why information security may be critical to the safe development of AI systems». 80,000 Hours. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 
  143. OpenAI (2 de junio de 2022). «Best Practices for Deploying Language Models». OpenAI. Archivado desde el original el 15 de marzo de 2023. Consultado el 24 de noviembre de 2022. 
  144. a b OpenAI. «OpenAI Charter». OpenAI. Archivado desde el original el 4 de marzo de 2021. Consultado el 24 de noviembre de 2022. 
  145. Future of Life Institute (2016). «Autonomous Weapons Open Letter: AI & Robotics Researchers». Future of Life Institute. Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022. 

Enlaces externos[editar]