Aprendizaje automático antagónico

El aprendizaje automático antagónico (AAA) es el estudio de los ataques contra algoritmos de aprendizaje automático (AA) y de los mecanismos de defensa contra tales ataques.^[1] Una encuesta de mayo de 2020 revela que los expertos señalan la enorme necesidad de reforzar la protección de los sistemas de aprendizaje automático en los usos industriales.^[2]

Para entenderlo, hay que tener en cuenta que la mayoría de las técnicas de aprendizaje automático están diseñadas para funcionar en conjuntos de problemas específicos, suponiendo que los datos de formación y de prueba se generan a partir de la misma distribución estadística (IID). Sin embargo, este supuesto suele incumplirse peligrosamente en casos prácticos de alto riesgo, en los que los usuarios pueden suministrar intencionadamente datos falsos que incumplan el supuesto estadístico.

Algunos de los ataques más comunes en el aprendizaje automático antagónico son los ataques de evasión,^[3] los ataques de envenenamiento de datos,^[4] los ataques bizantinos^[5] y la extracción de modelos.^[6]

Historia[editar]

En la Conferencia sobre Spam del MIT, celebrada en enero de 2004, John Graham-Cumming demostró que un filtro antispam de aprendizaje automático podía utilizarse para derrotar a otro filtro antispam de aprendizaje automático si éste aprendía por sí mismo qué palabras añadir a un correo electrónico no deseado para que no fuera clasificado como tal.^[7]

En 2004, Nilesh Dalvi y otros observaron que los clasificadores lineales utilizados en los filtros de correo spam podían ser derrotados mediante simples "ataques de evasión", ya que los responsables del spam (en inglés, spammers) insertaban "palabras buenas" en sus correos electrónicos no deseados. (Alrededor de 2007, algunos spammers incorporaban ruido aleatorio a las palabras difusas dentro del "spam de imágenes" con el fin de burlar los filtros basados en ROC).

En 2006, Marco Barreno y colaboradores publicaron Can Machine Learning Be Secure? (en español, ¿Puede ser seguro el aprendizaje automático?), donde describían una amplia taxonomía de ataques. Incluso en 2013, muchos investigadores seguían confiando en que los clasificadores no lineales (como las máquinas de vectores de soporte y las redes neuronales) podrían ser resistentes a los ataques, hasta que Battista Biggio y otros demostraron los primeros ataques basados en gradientes contra este tipo de modelos de aprendizaje automático (2012^[8] -2013^[9]).

En 2012, las redes neuronales profundas comenzaron a dominar los problemas de visión por ordenador. A partir de 2014, Christian Szegedy y otros demostraron que las redes neuronales profundas podían ser burladas por atacantes, empleando una vez más un ataque basado en gradientes para crear perturbaciones antagónicas.^[10]^[11]

Recientemente, se ha observado que los ataques antagónicos son más difíciles de producir en el entorno práctico debido a las diferentes restricciones ambientales que anulan el efecto de los ruidos.^[12]^[13] Por ejemplo, cualquier pequeña rotación o ligera iluminación en una imagen antagónica puede acabar con el efecto antagónico. Además, investigadores como Nicholas Frosst, de Google Brain, señalan que es mucho más fácil hacer que los vehículos autónomos^[14] se salten las señales de alto eliminando físicamente la propia señal, en lugar de crear ejemplos antagónicos.^[15]

Frosst también cree que la comunidad del aprendizaje automático antagónico asume incorrectamente que los modelos formados con una determinada distribución de datos funcionarán igual de bien usando una distribución de datos completamente distinta. Él sugiere que debería explorarse un nuevo enfoque del aprendizaje automático, y actualmente está trabajando en una red neuronal única que tiene características más parecidas a la percepción humana que los enfoques más actualizados.^[15]

Aunque el aprendizaje automático antagónico sigue estando muy arraigado en el mundo académico, grandes empresas tecnológicas como Google, Microsoft e IBM han empezado a recopilar documentación y bases de código de fuente abierta para que otros puedan evaluar concretamente la solidez de los modelos de aprendizaje automático y minimizar el riesgo de ataques antagónicos.^[16]^[17]^[18]

Ejemplos[editar]

Algunos ejemplos son los ataques a filtros antispam, en los que los mensajes spam son ofuscados al escribir incorrectamente palabras "malas" o insertar palabras "buenas";^[19]^[20] los ataques a la seguridad informática, como la ofuscación de código malicioso (en inglés, malware) en paquetes de red o la modificación de las características de un flujo de red para confundir a los detectores de amenazas;^[21]^[22] los ataques al reconocimiento biométrico, en los que pueden explotarse rasgos biométricos falsos para hacerse pasar por un usuario legítimo;^[23] o para poner en peligro las galerías de plantillas de usuarios que se adaptan a rasgos actualizados con el paso del tiempo.

Algunos investigadores demostraron que cambiando solo un píxel era posible engañar a los algoritmos de aprendizaje profundo.^[24] Otros imprimieron en 3D una tortuga de juguete con una textura diseñada para que la IA de detección de objetos de Google la clasificara como un rifle, independientemente del ángulo desde el que se mirara la tortuga.^[25] Para crear la tortuga sólo se necesitó tecnología de impresión 3D de bajo coste disponible en el mercado.^[26]

Se demostró que la imagen de un perro retocada por una máquina parecía un gato tanto para los ordenadores como para los humanos.^[27] Un estudio de 2019 reveló que los humanos pueden adivinar la forma en que las máquinas clasificarán las imágenes antagónicas.^[28] Se han descubierto métodos para alterar la apariencia de una señal de alto de forma que un vehículo autónomo la clasifique como una señal de fusión de tráfico o de límite de velocidad.^[14]^[29]^[30]

McAfee atacó y engañó al antiguo sistema Mobileye de Tesla para que condujera a 80 km/h por encima del límite de velocidad con solo añadir una tira de cinco centímetros de cinta negra a una señal de límite de velocidad.^[31]^[32]

Patrones antagónicos en anteojos o ropa, diseñados para engañar a los sistemas de reconocimiento facial o a los lectores de matrículas, han dado lugar a una industria nicho de ropa con estilo "encubierto" (en inglés, stealth streetwear).^[33]

Un ataque antagónico a una red neuronal puede permitir a un atacante inyectar algoritmos en el sistema objetivo.^[34] Asimismo, los investigadores pueden crear entradas de audio antagónicas para disfrazar comandos dirigidos a asistentes inteligentes en audio de apariencia benigna;^[35] hay literatura paralela que explora la percepción humana ante tales estímulos.^[36]^[37]

Los algoritmos de agrupación se utilizan en el campo de la seguridad. El análisis de malware y virus informáticos tiene como objetivo identificar familias de malware y generar firmas de detección específicas.^[38]^[39]

Modalidades de ataque[editar]

Taxonomía[editar]

Los ataques contra algoritmos de aprendizaje automático (supervisado) se han clasificado en tres categorías principales:^[40]

Influencia en el clasificador: Un ataque puede influir en el clasificador perturbando la fase de clasificación. Esto puede ir precedido de una fase de exploración para identificar vulnerabilidades. Las capacidades del atacante pueden verse limitadas por la presencia de restricciones de manipulación de datos.^[41]

Violación de la seguridad: Un ataque puede suministrar datos maliciosos que acaben siendo clasificados como legítimos. Los datos maliciosos suministrados durante la formación pueden hacer que los datos legítimos sean rechazados después de la formación .

Especificidad: Un ataque dirigido intenta permitir una intrusión/perturbación específica. Por el contrario, un ataque indiscriminado provoca un caos general.

Esta taxonomía se ha ampliado en un modelo de amenaza más completo que permite suposiciones explícitas sobre el objetivo del atacante, el conocimiento del sistema atacado, la capacidad de manipular los datos de entrada/componentes del sistema y sobre la estrategia de ataque.^[42]^[43] Esta taxonomía se ha ampliado para incluir dimensiones de estrategias de defensa contra ataques antagónicos.^[44]

Estrategias[editar]

A continuación se exponen algunos de los escenarios de ataque más frecuentes:

Envenenamiento de datos[editar]

El envenenamiento de datos (en inglés, data poisoning) consiste en contaminar el conjunto de datos de formación con datos diseñados para aumentar los errores en la salida. Dado que los algoritmos de aprendizaje dependen de sus conjuntos de datos de formación , el envenenamiento puede reprogramar algoritmos con intenciones potencialmente maliciosas. Han surgido inquietudes especialmente en relación con los datos de formación generados por los usuarios, por ejemplo, para la recomendación de contenidos o los modelos de lenguaje natural. La proliferación de cuentas falsas ofrece muchas posibilidades de envenenamiento. Según informes, Facebook elimina alrededor de 7.000 millones de cuentas falsas al año.^[45]^[46] El envenenamiento de datos es la principal fuente de preocupación con respecto a usos industriales.^[2]

En las redes sociales, las campañas de desinformación intentan sesgar los algoritmos de recomendación y moderación para impulsar determinados contenidos en detrimento de otros.

Un caso particular de envenenamiento de datos es el ataque de puerta trasera,^[47] cuyo objetivo es enseñar un comportamiento específico a entradas con un detonante determinado, por ejemplo, un pequeño defecto en imágenes, sonidos, vídeos o textos.

Por ejemplo, los sistemas de detección de intrusos suelen formarse a partir de datos recopilados. Un atacante puede envenenar estos datos inyectando muestras maliciosas durante su funcionamiento que posteriormente afecten al reformación.^[40]^[42]^[43]^[48]^[49]^[50]

Ataques bizantinos[editar]

A medida que se amplía el aprendizaje automático, este suele depender de múltiples máquinas de computación. Así, en el aprendizaje federado los dispositivos periféricos colaboran con un servidor central, normalmente enviando gradientes o parámetros de modelos. Sin embargo, algunos de estos dispositivos pueden desviarse de su comportamiento esperado, ya sea para perjudicar el modelo del servidor central^[51] o para sesgar los algoritmos hacia determinados comportamientos (por ejemplo, amplificando la recomendación de contenidos desinformativos). Por otra parte, si la formación se realiza en una sola máquina, el modelo es muy vulnerable a un fallo de la máquina o a un ataque a la máquina; la máquina es un punto único de fallo.^[52] De hecho, el propietario de la máquina también pudiera insertar puertas traseras indetectables.^[53]

Actualmente, las principales soluciones para que los algoritmos de aprendizaje (distribuido) sean resistentes a una minoría de participantes malintencionados (es decir, bizantinos) se basan en reglas agregación de gradientes sólidos.^[54]^[55]^[56]^[57]^[58]^[59] Las reglas de agregación sólida no siempre funcionan, especialmente cuando los datos de los participantes tienen una distribución no-IID. Sin embargo, en el contexto de participantes honestos heterogéneos, como usuarios con diferentes hábitos de consumo para los algoritmos de recomendación o estilos de escritura para modelos de lenguaje, existen teoremas de imposibilidad demostrables sobre lo que cualquier algoritmo de aprendizaje sólido puede garantizar.^[5]^[60]

Evasión[editar]

Los ataques de evasión^[9]^[42]^[43]^[61] consisten en explotar la imperfección de un modelo formado. Por ejemplo, los spammers y los hackers intentan a menudo eludir la detección ofuscando el contenido de los correos basura y el malware. Las muestras se modifican para eludir la detección, es decir, para ser clasificadas como legítimas. Esto no implica influir en los datos de formación . Un claro ejemplo de evasión es el spam basado en imágenes, en el que el contenido del spam se incrusta dentro de una imagen adjunta para eludir el análisis textual de los filtros antispam. Otro ejemplo de evasión viene dado por los ataques de suplantación de identidad (en inglés, spoofing) contra los sistemas de verificación biométrica.^[23]

Los ataques de evasión pueden dividirse generalmente en dos categorías principales: ataques de caja negra y ataques de caja blanca.^[17]

Extracción de modelos[editar]

La extracción de modelos implica que un adversario examine un sistema de aprendizaje automático de caja negra para extraer los datos con los que fue formado.^[62]^[63] Esto puede causar problemas cuando los datos de formación o el propio modelo son sensibles y confidenciales. Por ejemplo, la extracción de modelos podría utilizarse para extraer un modelo de negociación de acciones patentado que el atacante podría utilizar para su propio beneficio financiero.

En casos extremos, la extracción de modelos puede conducir al robo de modelos, que corresponde a la extracción de una cantidad suficiente de datos del modelo para permitir la reconstrucción completa del mismo.

Por otro lado, la inferencia de pertenencia es un ataque de extracción de modelos orientado, que infiere el propietario de un punto de datos, a menudo aprovechando el sobreajuste (en inglés, overfitting) resultante de prácticas deficientes de aprendizaje automático.^[64] Lo preocupante es que a veces esto se puede conseguir incluso sin conocer los parámetros de un modelo objetivo o sin tener acceso a ellos, lo que plantea problemas de seguridad para los modelos formados con datos confidenciales, incluidos, entre otros, los historiales médicos y/o la información de identificación personal. Con la aparición del aprendizaje por transferencia y la accesibilidad pública de muchos modelos de aprendizaje automático de última generación, las empresas tecnológicas se ven cada vez más atraídas a crear modelos basados en modelos públicos, lo que proporciona a los atacantes información de libre acceso sobre la estructura y el tipo de modelo utilizado.^[64]

Categorías[editar]

Aprendizaje antagónico de refuerzo profundo[editar]

El aprendizaje antagónico de refuerzo profundo es un área activa de investigación en el aprendizaje reforzado que se centra en las vulnerabilidades de las políticas aprendidas. En esta área de investigación, algunos estudios mostraron inicialmente que las políticas de aprendizaje reforzado son susceptibles a manipulaciones antagónicas imperceptibles.^[65]^[66] Aunque se han propuesto algunos métodos para superar estas susceptibilidades, en los estudios más recientes se ha demostrado que las soluciones propuestas distan mucho de ofrecer una representación exacta de las vulnerabilidades actuales de las políticas de aprendizaje de refuerzo profundo.^[67]

Procesamiento antagónico de lenguaje natural[editar]

Se han introducido ataques antagónicos al reconocimiento de voz para aplicaciones de voz-a-texto (en inglés, speech-to-text), en particular para la implementación a Mozilla de DeepSpeech.^[68]

Tipos de ataques específicos[editar]

Existe una gran variedad de ataques antagónicos que pueden utilizarse contra los sistemas de aprendizaje automático. Muchos de ellos funcionan tanto en sistemas de aprendizaje profundo como en modelos de aprendizaje automático tradicionales, como SVM^[8] y regresión lineal.^[69] Una muestra de alto nivel de estos tipos de ataque incluyen:

Ejemplos Antagónicos^[70]
Ataques de troyanos / Ataques de Puerta Trasera^[71]
Inversión de Modelos^[72]
Inferencia de Pertenencia^[73]

Ejemplos antagónicos[editar]

Un ejemplo antagónico se refiere a una entrada de datos especialmente diseñada para que parezca "normal" a los humanos, pero que provoca una clasificación errónea en un modelo de aprendizaje automático. A menudo se usa una forma de "ruido" especialmente diseñado para provocar las clasificaciones erróneas. A continuación se presentan algunas técnicas actualizadas de generación de ejemplos antagónicos en la literatura (que no constituyen una lista exhaustiva).

Ataque de evasión basado en gradientes^[9]
Método de signo de gradiente rápido (Fast Gradient Sign Method o FGSM)^[74]
Descenso de gradiente proyectado (Projected Gradient Descent o PGD)^[75]
Ataque de Carlini y Wagner (C&W)^[76]
Ataque de parche antagónico^[77]

Ataques de caja negra[editar]

Los ataques de caja negra en el aprendizaje automático antagónico presuponen que el atacante sólo puede obtener resultados de las entradas proporcionadas y no tiene conocimiento de la estructura o los parámetros del modelo.^[17]^[78] En este caso, el ejemplo antagónico se genera utilizando un modelo creado desde cero o sin utilizar ningún modelo (excluyendo la posibilidad de consultar el modelo original). En cualquier caso, el objetivo de estos ataques es crear ejemplos antagónicos que puedan transferirse al modelo de caja negra en cuestión.^[79]

Ataque Cuadrado[editar]

El Ataque Cuadrado (en inglés, Square Attack) se introdujo en 2020 como un ataque antagónico de evasión de caja negra basado en la consulta de puntuaciones de clasificación sin necesidad de información de gradiente.^[80] Como ataque de caja negra basado en puntuaciones, este enfoque antagónico es capaz de consultar las distribuciones de probabilidad entre las clases de salida del modelo, pero no tiene ningún otro acceso al modelo en sí. Según los autores de la investigación, el Ataque Cuadrado propuesto requería menos consultas que los ataques de caja negra basados en puntuaciones más actualizados en el momento.^[80]

Para describir la función objetivo, el ataque define el clasificador como ${\textstyle f:[0,1]^{d}\rightarrow \mathbb {R} ^{K}}$ , con ${\textstyle d}$ representando las dimensiones de la entrada y ${\textstyle K}$ como el número total de clases de salida. ${\textstyle f_{k}(x)}$ devuelve la puntuación (o una probabilidad entre 0 y 1) de que la entrada ${\textstyle x}$ pertenece a la clase ${\textstyle k}$ , lo que permite que la salida de clase del clasificador para cualquier entrada ${\textstyle x}$ se defina como ${\textstyle argmax_{k=1,...,K}f_{k}(x)}$ . El objetivo de este ataque es el siguiente:^[80]

argmax_{k=1,...,K}f_{k}({\hat {x}})\neq y,||{\hat {x}}-x||_{p}\leq \epsilon {\text{ and }}{\hat {x}}\in [0,1]^{d}

En otras palabras, encontrar algún ejemplo antagónico perturbado ${\textstyle {\hat {x}}}$ tal que el clasificador lo clasifique incorrectamente dentro de alguna otra clase bajo la restricción de que ${\textstyle {\hat {x}}}$ y ${\textstyle x}$ sean similares. A continuación, el estudio define la pérdida ${\textstyle L}$ como ${\textstyle L(f({\hat {x}}),y)=f_{y}({\hat {x}})-\max _{k\neq y}f_{k}({\hat {x}})}$ y propone que la solución para encontrar el ejemplo antagónico ${\textstyle {\hat {x}}}$ es resolver el siguiente problema de optimización con restricciones:^[80]

\min _{{\hat {x}}\in [0,1]^{d}}L(f({\hat {x}}),y),{\text{ s.t. }}||{\hat {x}}-x||_{p}\leq \epsilon

En teoría, el resultado es un ejemplo antagónico que tiene una gran confianza en la clase incorrecta, pero que también es muy similar a la imagen original. Para encontrar ese ejemplo, Ataque Cuadrado utiliza la técnica de búsqueda aleatoria iterativa para perturbar aleatoriamente la imagen con la esperanza de mejorar la función objetivo. En cada paso, el algoritmo perturba solo una pequeña sección cuadrada de píxeles, de ahí el nombre de Ataque Cuadrado, que termina en cuanto se encuentra un ejemplo antagónico para mejorar la eficiencia de la consulta. Por último, dado que el algoritmo de ataque utiliza puntuaciones y no información de gradiente, los autores del estudio indican que este enfoque no se ve afectado por el enmascaramiento de gradiente, una técnica común utilizada anteriormente para evitar los ataques de evasión.^[80]

Ataque Triple Salto[editar]

El Ataque Triple Salto (en inglés, HopSkipJump Attack) Este ataque de caja negra también se propuso como un ataque eficiente de consulta, pero que se basa únicamente en el acceso a cualquier clase de salida predicha por una entrada. En otras palabras, el Ataque Triple Salto no requiere la capacidad de calcular gradientes o el acceso a los valores de puntuación como el Ataque Cuadrado, y sólo requerirá la salida de predicción de clase del modelo (para cualquier entrada dada).

El ataque propuesto se divide en dos enfoques diferentes, dirigido y no dirigido, pero ambos se construyen a partir de la idea general de añadir perturbaciones mínimas que conduzcan a un resultado diferente del modelo. En el enfoque dirigido, el objetivo es hacer que el modelo clasifique erróneamente la imagen perturbada con una etiqueta objetivo específica (que no es la etiqueta original). En el enfoque no dirigido, el objetivo es hacer que el modelo clasifique erróneamente la imagen perturbada con cualquier etiqueta que no sea la original.

Los objetivos de ataque de ambos son como se muestra a continuación donde ${\textstyle x}$ es la imagen original, $x'$ es la imagen antagónica, ${\textstyle d}$ es una función de distancia entre imágenes, $c^{*}$ es la etiqueta objetivo, y ${\textstyle C}$ es la función de etiqueta de clase de clasificación del modelo:^[81]

{\textbf {Targeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })=c^{*}

{\textbf {Untargeted:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })\neq C(x)

Para resolver este problema, el ataque propone la siguiente función límite ${\textstyle S}$ tanto para el enfoque no dirigido como para el dirigido:^[81]

S(x^{\prime }):={\begin{cases}max_{c\neq C(x)}{F(x^{\prime })_{c}}-F(x^{\prime })_{C(x)},&{\text{(Untargeted)}}\\F(x^{\prime })_{c^{*}}-max_{c\neq c^{*}}{F(x^{\prime })_{c}},&{\text{(Targeted)}}\end{cases}}

Esto puede simplificarse aún más para visualizar mejor el límite entre los distintos ejemplos antagónicos potenciales:^[81]

S(x^{\prime })>0\iff {\begin{cases}argmax_{c}F(x^{\prime })\neq C(x),&{\text{(Untargeted)}}\\argmax_{c}F(x^{\prime })=c^{*},&{\text{(Targeted)}}\end{cases}}

Con esta función límite, el ataque sigue entonces un algoritmo iterativo para encontrar ejemplos antagónicos $x'$ para una imagen dada ${\textstyle x}$ que satisfaga los objetivos del ataque.

Inicializar ${\textstyle x}$ hasta algún punto donde ${\textstyle S(x)>0}$
Iterar a continuación
1. Búsqueda de límites
2. Actualización del gradiente
  - Calcular el gradiente
  - Determinar el tamaño del paso

La búsqueda de límites utiliza una búsqueda binaria modificada para encontrar el punto en el que el límite (definido por ${\textstyle S}$ ) se cruza con la línea entre ${\textstyle x}$ y $x'$ . El siguiente paso consiste en calcular el gradiente para ${\textstyle x}$ y actualizar el valor original de ${\textstyle x}$ utilizando este gradiente y un tamaño de paso preestablecido. Los autores de Triple Salto demuestran que este algoritmo iterativo convergerá, llevando a ${\textstyle x}$ a un punto justo a lo largo del límite que está muy cerca en distancia a la imagen original.^[81]

Sin embargo, como Triple Salto es un ataque de caja negra propuesto y el algoritmo iterativo anterior requiere el cálculo de un gradiente en el segundo paso iterativo (al que los ataques de caja negra no tienen acceso), los autores proponen una solución para el cálculo del gradiente que sólo requiere las predicciones de salida del modelo.^[81] Mediante la generación de muchos vectores aleatorios en todas las direcciones, denotados como ${\textstyle u_{b}}$ , se puede calcular una aproximación del gradiente utilizando la media de estos vectores aleatorios ponderados por el signo de la función límite en la imagen ${\textstyle x^{\prime }+\delta _{u_{b}}}$ donde ${\textstyle \delta _{u_{b}}}$ es el tamaño de la perturbación del vector aleatorio:^[81]

\nabla S(x^{\prime },\delta )\approx {\frac {1}{B}}\sum _{b=1}^{B}\phi (x^{\prime }+\delta _{u_{b}})u_{b}

El resultado de la ecuación anterior da una aproximación cercana del gradiente requerido en el paso 2 del algoritmo iterativo, completando el Triple Salto como un ataque de caja negra.^[81]^[82]^[83]

Ataques de caja blanca[editar]

Los ataques de caja blanca suponen que el atacante tiene acceso a los parámetros del modelo, además de poder obtener las etiquetas de las entradas proporcionadas.^[79]

Método de signo de gradiente rápido[editar]

Uno de los primeros ataques propuestos para generar ejemplos antagónicos fue propuesto por los investigadores de Google Ian J. Goodfellow, Jonathon Shlens y Christian Szegedy.^[84] El ataque se denominó Método del Signo de Gradiente Rápido (FGSM, por sus siglas en inglés), y consiste en añadir a la imagen una cantidad lineal de ruido imperceptible y hacer que un modelo la clasifique incorrectamente. Este ruido se calcula multiplicando el signo del gradiente con respecto a la imagen que queremos perturbar por una pequeña constante épsilon. A medida que epsilon aumenta, el modelo tiene más probabilidades de ser burlado, pero las perturbaciones también se vuelven más fáciles de identificar. A continuación se muestra la ecuación para generar un ejemplo antagónico donde ${\textstyle x}$ es la imagen original, ${\textstyle \epsilon }$ es un número muy pequeño, ${\textstyle \Delta _{x}}$ es la función de gradiente, ${\textstyle J}$ es la función de pérdida, ${\textstyle \theta }$ son los pesos del modelo, e ${\textstyle y}$ es la etiqueta verdadera.^[85]^[86]

adv_{x}=x+\epsilon \cdot sign(\Delta _{x}J(\theta ,x,y))

Una propiedad importante de esta ecuación es que el gradiente se calcula con respecto a la imagen de entrada ya que el objetivo es generar una imagen que maximice la pérdida para la imagen original de etiqueta verdadera ${\textstyle y}$ . En el descenso del gradiente tradicional (para la formación del modelo), el gradiente se utiliza para actualizar los pesos del modelo, ya que el objetivo es minimizar la pérdida del modelo en un conjunto sólido de datos verdaderos. El método de signo gradiente rápido se propuso como una forma rápida de generar ejemplos antagónicos para evadir el modelo, basándose en la hipótesis de que las redes neuronales no pueden resistir ni siquiera cantidades lineales de perturbaciones en la entrada.^[84]^[85]^[86]

Carlini y Wagner (C&W)[editar]

En un esfuerzo por analizar los ataques y defensas antagónicos existentes, los investigadores de la Universidad de California, Berkeley, Nicholas Carlini y David Wagner en 2016 proponen un método más rápido y sólido para generar ejemplos antagónicos.^[87]

El ataque propuesto por Carlini y Wagner comienza intentando resolver una difícil ecuación de optimización no lineal:^[63]

\min(||\delta ||_{p}){\text{ subject to }}C(x+\delta )=t,x+\delta \in [0,1]^{n}

Aquí el objetivo es minimizar el ruido ( ${\textstyle \delta }$ ), añadido a la entrada original ${\textstyle x}$ , de manera que el algoritmo de aprendizaje automático ( ${\textstyle C}$ ) predice la entrada original con delta (o ${\textstyle x+\delta }$ ) como alguna otra clase ${\textstyle t}$ . Sin embargo en lugar de utilizar directamente la ecuación anterior, Carlini y Wagner proponen utilizar una nueva función ${\textstyle f}$ tal que:^[63]

C(x+\delta )=t\iff f(x+\delta )\leq 0

Esto condensa la primera ecuación en el problema siguiente:^[63]

\min(||\delta ||_{p}){\text{ subject to }}f(x+\delta )\leq 0,x+\delta \in [0,1]^{n}

y aún más en la siguiente ecuación:^[63]

\min(||\delta ||_{p}+c\cdot f(x+\delta )),x+\delta \in [0,1]^{n}

Carlini y Wagner proponen entonces el uso de la siguiente función en lugar de ${\textstyle f}$ utilizando ${\textstyle Z}$ , una función que determina las probabilidades de clase para una entrada dada ${\textstyle x}$ . Cuando se sustituye, esta ecuación puede considerarse como la búsqueda de una clase objetivo que es más segura que la siguiente clase más probable por una cantidad constante:^[63]

f(x)=([\max _{i\neq t}Z(x)_{i}]-Z(x)_{t})^{+}

Cuando se resuelve utilizando el descenso de gradiente, esta ecuación es capaz de producir ejemplos antagónicos más fuertes en comparación con el método de signo de gradiente rápido que también es capaz de eludir la destilación defensiva, una defensa que se propuso en su día como eficaz contra los ejemplos antagónicos.^[63]^[87]^[88]^[89]

Defensas[editar]

Diversos investigadores han propuesto un planteamiento en varios pasos para proteger el aprendizaje automático.^[11]

Modelado de amenazas - Formalizar los objetivos y capacidades de los atacantes con respecto al sistema objetivo.
Simulación de ataque - Formalizar el problema de optimización que el atacante intenta resolver según las posibles estrategias de ataque.
Evaluación del impacto de los ataques.
Diseño de contramedidas.
Detección de ruido (para ataques basados en la evasión).^[90]
Lavado de información - Alterar la información recibida por los atacantes (para ataques de robo de modelos).^[63]

Mecanismos[editar]

Se han propuesto varios mecanismos de defensa contra la evasión, el envenenamiento y los ataques a la privacidad, incluyendo:

Algoritmos de aprendizaje seguro.^[20]^[91]^[92]
Algoritmos resistentes a ataques bizantinos.^[5]^[54]
Sistemas clasificadores múltiples.^[19]^[93]
Algoritmos escritos por IA.^[34]
IAs que exploran el entorno de formación; por ejemplo, en el reconocimiento de imágenes, navegando activamente por un entorno 3D en lugar de escanear pasivamente un conjunto fijo de imágenes 2D.^[34]
Aprendizaje con preservación de la privacidad.^[43]^[94]
Algoritmo de escalera para competiciones tipo Kaggle.
Modelos teóricos de juegos.^[95]^[96]^[97]
Desinfección de los datos de formación.
Formación antagónica.^[22]^[74]
Algoritmos de detección de puertas traseras.^[98]
Técnicas de enmascaramiento/ofuscación del gradiente: para evitar que el atacante se aproveche del gradiente en ataques de caja blanca. Esta familia de defensas se considera poco fiable, ya que estos modelos siguen siendo vulnerables a los ataques de caja negra o pueden eludirse de otras maneras.^[99]
En la literatura se han propuesto conjuntos de modelos, pero se debe tener cuidado al usarlos: normalmente la agrupación de clasificadores débiles da como resultado un modelo más preciso, pero esto no parece aplicarse en el contexto antagónico.^[100]

Véase también[editar]

Referencias[editar]

↑ Kianpour, Mazaher; Wen, Shao-Fang (2020). «Timing Attacks on Machine Learning: State of the Art». Intelligent Systems and Applications. Advances in Intelligent Systems and Computing (en inglés) 1037. pp. 111-125. ISBN 978-3-030-29515-8. S2CID 201705926. doi:10.1007/978-3-030-29516-5_10.
↑ ^a ^b Siva Kumar, Ram Shankar; Nyström, Magnus; Lambert, John; Marshall, Andrew; Goertzel, Mario; Comissoneru, Andi; Swann, Matt; Xia, Sharon (May 2020). «Adversarial Machine Learning-Industry Perspectives». 2020 IEEE Security and Privacy Workshops (SPW): 69-75. ISBN 978-1-7281-9346-5. S2CID 229357721. doi:10.1109/SPW50608.2020.00028.
↑ Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas (25 de junio de 2018). «Making machine learning robust against adversarial inputs». Communications of the ACM (en inglés) 61 (7): 56-66. ISSN 0001-0782. doi:10.1145/3134599. Consultado el 13 de diciembre de 2018. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ Geiping, Jonas; Fowl, Liam H.; Huang, W. Ronny; Czaja, Wojciech; Taylor, Gavin; Moeller, Michael; Goldstein, Tom (28 de septiembre de 2020). Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching. International Conference on Learning Representations 2021 (Poster) (en inglés).
↑ ^a ^b ^c El-Mhamdi, El Mahdi; Farhadkhani, Sadegh; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (6 de diciembre de 2021). «Collaborative Learning in the Jungle (Decentralized, Byzantine, Heterogeneous, Asynchronous and Nonconvex Learning)». Advances in Neural Information Processing Systems (en inglés) 34. arXiv:2008.00742.
↑ Tramèr, Florian; Zhang, Fan; Juels, Ari; Reiter, Michael K.; Ristenpart, Thomas (2016). Stealing Machine Learning Models via Prediction {APIs}. 25th USENIX Security Symposium (en inglés). pp. 601-618. ISBN 978-1-931971-32-4.
↑ «How to beat an adaptive/Bayesian spam filter (2004)» (en inglés). Consultado el 5 de julio de 2023.
↑ ^a ^b Biggio, Battista; Nelson, Blaine; Laskov, Pavel (2013-03-25). «Poisoning Attacks against Support Vector Machines». arXiv:1206.6389 [cs.LG].
↑ ^a ^b ^c Biggio, Battista; Corona, Igino; Maiorca, Davide; Nelson, Blaine; Srndic, Nedim; Laskov, Pavel; Giacinto, Giorgio; Roli, Fabio (2013). «Evasion attacks against machine learning at test time». ECML PKDD. Lecture Notes in Computer Science 7908. Springer. pp. 387-402. ISBN 978-3-642-38708-1. S2CID 18716873. arXiv:1708.06131. doi:10.1007/978-3-642-40994-3_25.
↑ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014-02-19). «Intriguing properties of neural networks». arXiv:1312.6199 [cs.CV].
↑ ^a ^b Biggio, Battista; Roli, Fabio (December 2018). «Wild patterns: Ten years after the rise of adversarial machine learning». Pattern Recognition 84: 317-331. Bibcode:2018PatRe..84..317B. S2CID 207324435. arXiv:1712.03141. doi:10.1016/j.patcog.2018.07.023.
↑ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (2016). «Adversarial examples in the physical world». arXiv:1607.02533 [cs.CV].
↑ Gupta, Kishor Datta, Dipankar Dasgupta, and Zahid Akhtar. "Applicability issues of Evasion-Based Adversarial Attacks and Mitigation Techniques." 2020 IEEE Symposium Series on Computational Intelligence (SSCI). 2020.
↑ ^a ^b Lim, Hazel Si Min; Taeihagh, Araz (2019). «Algorithmic Decision-Making in AVs: Understanding Ethical and Technical Concerns for Smart Cities». Sustainability (en inglés) 11 (20): 5791. Bibcode:2019arXiv191013122L. S2CID 204951009. arXiv:1910.13122. doi:10.3390/su11205791.
↑ ^a ^b «Google Brain's Nicholas Frosst on Adversarial Examples and Emotional Responses». Synced. 21 de noviembre de 2019. Consultado el 23 de octubre de 2021.
↑ «Responsible AI practices». Google AI (en inglés). Consultado el 23 de octubre de 2021.
↑ ^a ^b ^c Adversarial Robustness Toolbox (ART) v1.8, Trusted-AI, 23 de octubre de 2021, consultado el 23 de octubre de 2021 .
↑ amarshal. «Failure Modes in Machine Learning - Security documentation». docs.microsoft.com (en inglés estadounidense). Consultado el 23 de octubre de 2021.
↑ ^a ^b Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). «Multiple classifier systems for robust classifier design in adversarial environments». International Journal of Machine Learning and Cybernetics 1 (1–4): 27-41. ISSN 1868-8071. S2CID 8729381. doi:10.1007/s13042-010-0007-7. hdl:11567/1087824. Archivado desde el original el 19 de enero de 2023. Consultado el 8 de agosto de 2023.
↑ ^a ^b Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). «Static Prediction Games for Adversarial Learning Problems». Journal of Machine Learning Research 13 (Sep): 2617-2654. ISSN 1533-7928.
↑ Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). «Static Prediction Games for Adversarial Learning Problems». Journal of Machine Learning Research 13 (Sep): 2617-2654. ISSN 1533-7928.
↑ ^a ^b Vitorino, João; Oliveira, Nuno; Praça, Isabel (March 2022). «Adaptative Perturbation Patterns: Realistic Adversarial Learning for Robust Intrusion Detection». Future Internet (en inglés) 14 (4): 108. ISSN 1999-5903. doi:10.3390/fi14040108.
↑ ^a ^b Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 de junio de 2009). «Robustness of multimodal biometric fusion methods against spoof attacks». Journal of Visual Languages & Computing 20 (3): 169-179. ISSN 1045-926X. doi:10.1016/j.jvlc.2009.01.010.
↑ Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (October 2019). «One Pixel Attack for Fooling Deep Neural Networks». IEEE Transactions on Evolutionary Computation 23 (5): 828-841. ISSN 1941-0026. S2CID 2698863. arXiv:1710.08864. doi:10.1109/TEVC.2019.2890858.
↑ «Single pixel change fools AI programs». BBC News. 3 de noviembre de 2017. Consultado el 12 de febrero de 2018.
↑ Athalye, Anish; Engstrom, Logan; Ilyas, Andrew; Kwok, Kevin (2017). «Synthesizing Robust Adversarial Examples». arXiv:1707.07397 [cs.CV].
↑ «AI Has a Hallucination Problem That's Proving Tough to Fix». WIRED. 2018. Consultado el 10 de marzo de 2018.
↑ Zhou, Zhenglong; Firestone, Chaz (2019). «Humans can decipher adversarial images». Nature Communications 10 (1): 1334. Bibcode:2019NatCo..10.1334Z. PMC 6430776. PMID 30902973. arXiv:1809.04120. doi:10.1038/s41467-019-08931-6.
↑ Jain, Anant (9 de febrero de 2019). «Breaking neural networks with adversarial attacks – Towards Data Science». Medium. Consultado el 15 de julio de 2019.
↑ Ackerman, Evan (4 de agosto de 2017). «Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms». IEEE Spectrum: Technology, Engineering, and Science News. Consultado el 15 de julio de 2019.
↑ «A Tiny Piece of Tape Tricked Teslas Into Speeding Up 50 MPH». Wired (en inglés). 2020. Consultado el 11 de marzo de 2020.
↑ «Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles». McAfee Blogs (en inglés estadounidense). 19 de febrero de 2020. Consultado el 11 de marzo de 2020.
↑ Seabrook, John (2020). «Dressing for the Surveillance Age». The New Yorker (en inglés). Consultado el 5 de abril de 2020.
↑ ^a ^b ^c Heaven, Douglas (October 2019). «Why deep-learning AIs are so easy to fool». Nature (en inglés) 574 (7777): 163-166. Bibcode:2019Natur.574..163H. PMID 31597977. doi:10.1038/d41586-019-03013-5.
↑ Hutson, Matthew (10 de mayo de 2019). «AI can now defend itself against malicious messages hidden in speech». Nature. PMID 32385365. S2CID 189666088. doi:10.1038/d41586-019-01510-1.
↑ Lepori, Michael A; Firestone, Chaz (2020-03-27). «Can you hear me now? Sensitive comparisons of human and machine perception». arXiv:2003.12362 [eess.AS].
↑ Vadillo, Jon; Santana, Roberto (2020-01-23). «On the human evaluation of audio adversarial examples». arXiv:2001.08444 [eess.AS].
↑ D. B. Skillicorn. "Adversarial knowledge discovery". IEEE Intelligent Systems, 24:54–61, 2009.
↑ ^a ^b B. Biggio, G. Fumera, and F. Roli. "Pattern recognition systems under attack: Design issues and research challenges". Int'l J. Patt. Recogn. Artif. Intell., 28(7):1460002, 2014. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ ^a ^b Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, J. D. (2010). «The security of machine learning». Machine Learning 81 (2): 121-148. S2CID 2304759. doi:10.1007/s10994-010-5188-5.
↑ Sikos, Leslie F. (2019). AI in Cybersecurity. Intelligent Systems Reference Library 151. Cham: Springer. p. 50. ISBN 978-3-319-98841-2. doi:10.1007/978-3-319-98842-9.
↑ ^a ^b ^c B. Biggio, G. Fumera, and F. Roli. "Security evaluation of pattern classifiers under attack". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ ^a ^b ^c ^d ^e Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin I. P.; Maiorca, Davide; Fumera, Giorgio; Giacinto, Giorgio; Roli, Fabio (2014). «Security Evaluation of Support Vector Machines in Adversarial Environments». Support Vector Machines Applications. Springer International Publishing. pp. 105-153. ISBN 978-3-319-02300-7. S2CID 18666561. arXiv:1401.7727. doi:10.1007/978-3-319-02300-7_4.
↑ Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick (15 de junio de 2020). «Fool Me Once, Shame On You, Fool Me Twice, Shame On Me: A Taxonomy of Attack and De-fense Patterns for AI Security». ECIS 2020 Research Papers.
↑ «Facebook removes 15 Billion fake accounts in two years». Tech Digest (en inglés británico). 27 de septiembre de 2021. Consultado el 8 de junio de 2022.
↑ «Facebook removed 3 billion fake accounts in just 6 months». New York Post (en inglés estadounidense). Associated Press. 23 de mayo de 2019. Consultado el 8 de junio de 2022.
↑ Schwarzschild, Avi; Goldblum, Micah; Gupta, Arjun; Dickerson, John P.; Goldstein, Tom (1 de julio de 2021). «Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks». International Conference on Machine Learning (en inglés) (PMLR): 9389-9398.
↑ B. Biggio, B. Nelson, and P. Laskov. "Support vector machines under adversarial label noise". In Journal of Machine Learning Research – Proc. 3rd Asian Conf. Machine Learning, volume 20, pp. 97–112, 2011. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ M. Kloft and P. Laskov. "Security analysis of online centroid anomaly detection". Journal of Machine Learning Research, 13:3647–3690, 2012.
↑ Moisejevs, Ilja (15 de julio de 2019). «Poisoning attacks on Machine Learning – Towards Data Science». Medium (en inglés). Consultado el 15 de julio de 2019.
↑ Baruch, Gilad; Baruch, Moran; Goldberg, Yoav (2019). «A Little Is Enough: Circumventing Defenses For Distributed Learning». Advances in Neural Information Processing Systems (Curran Associates, Inc.) 32. arXiv:1902.06156.
↑ El-Mhamdi, El-Mahdi; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (26 de mayo de 2022). «Genuinely distributed Byzantine machine learning». Distributed Computing 35 (4): 305-331. ISSN 1432-0452. S2CID 249111966. doi:10.1007/s00446-022-00427-9.
↑ Goldwasser, S.; Kim, Michael P.; Vaikuntanathan, V.; Zamir, Or (2022). «Planting Undetectable Backdoors in Machine Learning Models». arXiv:2204.06974 [cs.LG].
↑ ^a ^b Blanchard, Peva; El Mhamdi, El Mahdi; Guerraoui, Rachid; Stainer, Julien (2017). «Machine Learning with Adversaries: Byzantine Tolerant Gradient Descent». Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30.
↑ Chen, Lingjiao; Wang, Hongyi; Charles, Zachary; Papailiopoulos, Dimitris (3 de julio de 2018). «DRACO: Byzantine-resilient Distributed Training via Redundant Gradients». International Conference on Machine Learning (en inglés) (PMLR): 903-912. arXiv:1803.09877.
↑ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (3 de julio de 2018). «The Hidden Vulnerability of Distributed Learning in Byzantium». International Conference on Machine Learning (PMLR): 3521-3530. arXiv:1802.07927.
↑ Allen-Zhu, Zeyuan; Ebrahimianghazani, Faeze; Li, Jerry; Alistarh, Dan (2 de octubre de 2020). Byzantine-Resilient Non-Convex Stochastic Gradient Descent (en inglés). Consultado el 19 de julio de 2023.
↑ Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (2 de octubre de 2020). Distributed Momentum for Byzantine-resilient Stochastic Gradient Descent (en inglés). Consultado el 19 de julio de 2023.
↑ Data, Deepesh; Diggavi, Suhas (1 de julio de 2021). «Byzantine-Resilient High-Dimensional SGD with Local Iterations on Heterogeneous Data». International Conference on Machine Learning (PMLR): 2478-2488.
↑ Karimireddy, Sai Praneeth; He, Lie; Jaggi, Martin (6 de octubre de 2021). Byzantine-Robust Learning on Heterogeneous Datasets via Bucketing (en inglés). Consultado el 19 de julio de 2023.
↑ B. Nelson, B. I. Rubinstein, L. Huang, A. D. Joseph, S. J. Lee, S. Rao, and J. D. Tygar. "Query strategies for evading convex-inducing classifiers". J. Mach. Learn. Res., 13:1293–1332, 2012
↑ «How to steal modern NLP systems with gibberish?». cleverhans-blog (en inglés). 6 de abril de 2020. Consultado el 15 de octubre de 2020.
↑ ^a ^b ^c ^d ^e ^f ^g ^h Wang, Xinran; Xiang, Yu; Gao, Jun; Ding, Jie (2020-09-13). «Information Laundering for Model Privacy». arXiv:2009.06112 [cs.CR].
↑ ^a ^b Dickson, Ben (23 de abril de 2021). «Machine learning: What are membership inference attacks?». TechTalks (en inglés estadounidense). Consultado el 7 de noviembre de 2021.
↑ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). «Explaining and Harnessing Adversarial Examples». International Conference on Learning Representations. arXiv:1412.6572.
↑ Pieter, Huang; Papernot, Sandy; Goodfellow, Nicolas; Duan, Ian; Abbeel, Yan (7 de febrero de 2017). Adversarial Attacks on Neural Network Policies. OCLC 1106256905.
↑ Korkmaz, Ezgi (2022). «Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs». Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229-7238. S2CID 245219157. doi:10.1609/aaai.v36i7.20684.
↑ Carlini, Nicholas; Wagner, David (2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. «2018 IEEE Security and Privacy Workshops (SPW)». IEEE Symposium on Security and Privacy Workshops. pp. 1-7. ISBN 978-1-5386-8276-0. S2CID 4475201. arXiv:1801.01944. doi:10.1109/SPW.2018.00009.
↑ Jagielski, Matthew; Oprea, Alina; Biggio, Battista; Liu, Chang; Nita-Rotaru, Cristina; Li, Bo (May 2018). «Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning». 2018 IEEE Symposium on Security and Privacy (SP). IEEE. pp. 19-35. ISBN 978-1-5386-4353-2. S2CID 4551073. arXiv:1804.00308. doi:10.1109/sp.2018.00057.
↑ «Attacking Machine Learning with Adversarial Examples». OpenAI. 24 de febrero de 2017. Consultado el 15 de octubre de 2020.
↑ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (2019-03-11). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain». arXiv:1708.06733 [cs.CR].
↑ Veale, Michael; Binns, Reuben; Edwards, Lilian (28 de noviembre de 2018). «Algorithms that remember: model inversion attacks and data protection law». Philosophical Transactions. Series A, Mathematical, Physical, and Engineering Sciences 376 (2133). Bibcode:2018RSPTA.37680083V. ISSN 1364-503X. PMC 6191664. PMID 30322998. arXiv:1807.04644. doi:10.1098/rsta.2018.0083.
↑ Shokri, Reza; Stronati, Marco; Song, Congzheng; Shmatikov, Vitaly (2017-03-31). «Membership Inference Attacks against Machine Learning Models». arXiv:1610.05820 [cs.CR].
↑ ^a ^b Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015-03-20). «Explaining and Harnessing Adversarial Examples». arXiv:1412.6572 [stat.ML].
↑ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (2019-09-04). «Towards Deep Learning Models Resistant to Adversarial Attacks». arXiv:1706.06083 [stat.ML].
↑ Carlini, Nicholas; Wagner, David (2017-03-22). «Towards Evaluating the Robustness of Neural Networks». arXiv:1608.04644 [cs.CR].
↑ Brown, Tom B.; Mané, Dandelion; Roy, Aurko; Abadi, Martín; Gilmer, Justin (2018-05-16). «Adversarial Patch». arXiv:1712.09665 [cs.CV].
↑ Guo, Sensen; Zhao, Jinxiong; Li, Xiaoyu; Duan, Junhong; Mu, Dejun; Jing, Xiao (24 de abril de 2021). «A Black-Box Attack Method against Machine-Learning-Based Anomaly Network Flow Detection Models». Security and Communication Networks 2021. e5578335. ISSN 1939-0114. doi:10.1155/2021/5578335.
↑ ^a ^b Gomes, Joao (17 de enero de 2018). «Adversarial Attacks and Defences for Convolutional Neural Networks». Onfido Tech. Consultado el 23 de octubre de 2021.
↑ ^a ^b ^c ^d ^e Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020). «Square Attack: A Query-Efficient Black-Box Adversarial Attack via Random Search». En Vedaldi, Andrea; Bischof, Horst; Brox, Thomas et al., eds. Computer Vision – ECCV 2020. Lecture Notes in Computer Science (Cham: Springer International Publishing) 12368: 484-501. ISBN 978-3-030-58592-1. S2CID 208527215. arXiv:1912.00049. doi:10.1007/978-3-030-58592-1_29.
↑ ^a ^b ^c ^d ^e ^f ^g Chen, Jianbo; Jordan, Michael I.; Wainwright, Martin J. (2019), HopSkipJumpAttack: A Query-Efficient Decision-Based Attack (en inglés), arXiv:1904.02144, consultado el 25 de octubre de 2021 .
↑ Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020-07-29). «Square Attack: a query-efficient black-box adversarial attack via random search». arXiv:1912.00049 [cs.LG].
↑ «Black-box decision-based attacks on images». KejiTech (en inglés). 21 de junio de 2020. Consultado el 25 de octubre de 2021.
↑ ^a ^b Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015-03-20). «Explaining and Harnessing Adversarial Examples». arXiv:1412.6572 [stat.ML].
↑ ^a ^b Tsui, Ken (22 de agosto de 2018). «Perhaps the Simplest Introduction of Adversarial Examples Ever». Medium (en inglés). Consultado el 24 de octubre de 2021.
↑ ^a ^b «Adversarial example using FGSM | TensorFlow Core». TensorFlow (en inglés). Consultado el 24 de octubre de 2021.
↑ ^a ^b Carlini, Nicholas; Wagner, David (2017-03-22). «Towards Evaluating the Robustness of Neural Networks». arXiv:1608.04644 [cs.CR].
↑ «carlini wagner attack». richardjordan.com. Consultado el 23 de octubre de 2021.
↑ Plotz, Mike (26 de noviembre de 2018). «Paper Summary: Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods». Medium (en inglés). Consultado el 23 de octubre de 2021.
↑ Kishor Datta Gupta; Akhtar, Zahid; Dasgupta, Dipankar (2021). «Determining Sequence of Image Processing Technique (IPT) to Detect Adversarial Attacks». SN Computer Science 2 (5): 383. ISSN 2662-995X. S2CID 220281087. arXiv:2007.00337. doi:10.1007/s42979-021-00773-8.
↑ O. Dekel, O. Shamir, and L. Xiao. "Learning to classify with missing and corrupted features". Machine Learning, 81:149–178, 2010.
↑ Liu, Wei; Chawla, Sanjay (2010). «Mining adversarial patterns via regularized loss minimization». Machine Learning 81: 69-83. S2CID 17497168. doi:10.1007/s10994-010-5199-2.
↑ B. Biggio, G. Fumera, and F. Roli. "Evade hard multiple classifier systems. In O. Okun and G. Valentini, editors, Supervised and Unsupervised Ensemble Methods and Their Applications, volume 245 of Studies in Computational Intelligence, pages 15–38. Springer Berlin / Heidelberg, 2009. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. "Learning in a large function space: Privacy- preserving mechanisms for svm learning". Journal of Privacy and Confidentiality, 4(1):65–100, 2012.
↑ M. Kantarcioglu, B. Xi, C. Clifton. "Classifier Evaluation and Attribute Selection against Active Adversaries". Data Min. Knowl. Discov., 22:291–335, January 2011.
↑ Chivukula, Aneesh; Yang, Xinghao; Liu, Wei; Zhu, Tianqing; Zhou, Wanlei (2020). «Game Theoretical Adversarial Deep Learning with Variational Adversaries». IEEE Transactions on Knowledge and Data Engineering 33 (11): 3568-3581. ISSN 1558-2191. S2CID 213845560. doi:10.1109/TKDE.2020.2972320. hdl:10453/145751.
↑ Chivukula, Aneesh Sreevallabh; Liu, Wei (2019). «Adversarial Deep Learning Models with Multiple Adversaries». IEEE Transactions on Knowledge and Data Engineering 31 (6): 1066-1079. ISSN 1558-2191. S2CID 67024195. doi:10.1109/TKDE.2018.2851247. hdl:10453/136227.
↑ «TrojAI». www.iarpa.gov. Consultado el 14 de octubre de 2020.
↑ Athalye, Anish; Carlini, Nicholas; Wagner, David (2018-02-01). «Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Example». arXiv:1802.00420v1 [cs.LG].
↑ He, Warren; Wei, James; Chen, Xinyun; Carlini, Nicholas; Song, Dawn (2017-06-15). «Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong». arXiv:1706.04701 [cs.LG].

Enlaces externos[editar]

«MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems». atlas.mitre.org (en inglés).

«NIST 8269 Draft: A Taxonomy and Terminology of Adversarial Machine Learning». web.archive.org (en inglés).

A Taxonomy and Terminology of Adversarial Machine Learning (en inglés).

«NIPS : Conferences : 2007 : Program : Machine Learning in Adversarial Environments for Computer Security». web.archive.org (en inglés).

«Machine learning in adversarial environments». Machine Learning 81 (2): 115-119. 2010. S2CID 12567278. doi:10.1007/s10994-010-5207-6.

«Dagstuhl Perspectives Workshop 12371: Machine Learning Methods for Computer Security». www.dagstuhl.de (en inglés).

«16th ACM Workshop on Artificial Intelligence and Security (AISec 2023)». aisec.cc (en inglés).

Datos: Q20312394

[1] Kianpour, Mazaher; Wen, Shao-Fang (2020). «Timing Attacks on Machine Learning: State of the Art». Intelligent Systems and Applications. Advances in Intelligent Systems and Computing (en inglés) 1037. pp. 111-125. ISBN 978-3-030-29515-8. S2CID 201705926. doi:10.1007/978-3-030-29516-5_10.

[:1-2] Siva Kumar, Ram Shankar; Nyström, Magnus; Lambert, John; Marshall, Andrew; Goertzel, Mario; Comissoneru, Andi; Swann, Matt; Xia, Sharon (May 2020). «Adversarial Machine Learning-Industry Perspectives». 2020 IEEE Security and Privacy Workshops (SPW): 69-75. ISBN 978-1-7281-9346-5. S2CID 229357721. doi:10.1109/SPW50608.2020.00028.

[GoodfellowMcDaniel20182-3] Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas (25 de junio de 2018). «Making machine learning robust against adversarial inputs». Communications of the ACM (en inglés) 61 (7): 56-66. ISSN 0001-0782. doi:10.1145/3134599. Consultado el 13 de diciembre de 2018. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[4] Geiping, Jonas; Fowl, Liam H.; Huang, W. Ronny; Czaja, Wojciech; Taylor, Gavin; Moeller, Michael; Goldstein, Tom (28 de septiembre de 2020). Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching. International Conference on Learning Representations 2021 (Poster) (en inglés).

[:13-5] El-Mhamdi, El Mahdi; Farhadkhani, Sadegh; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (6 de diciembre de 2021). «Collaborative Learning in the Jungle (Decentralized, Byzantine, Heterogeneous, Asynchronous and Nonconvex Learning)». Advances in Neural Information Processing Systems (en inglés) 34. arXiv:2008.00742.

[6] Tramèr, Florian; Zhang, Fan; Juels, Ari; Reiter, Michael K.; Ristenpart, Thomas (2016). Stealing Machine Learning Models via Prediction {APIs}. 25th USENIX Security Symposium (en inglés). pp. 601-618. ISBN 978-1-931971-32-4.

[7] «How to beat an adaptive/Bayesian spam filter (2004)» (en inglés). Consultado el 5 de julio de 2023.

[Poisoning_Attacks_against_Support_V-8] Biggio, Battista; Nelson, Blaine; Laskov, Pavel (2013-03-25). «Poisoning Attacks against Support Vector Machines». arXiv:1206.6389 [cs.LG].

[Springer-9] Biggio, Battista; Corona, Igino; Maiorca, Davide; Nelson, Blaine; Srndic, Nedim; Laskov, Pavel; Giacinto, Giorgio; Roli, Fabio (2013). «Evasion attacks against machine learning at test time». ECML PKDD. Lecture Notes in Computer Science 7908. Springer. pp. 387-402. ISBN 978-3-642-38708-1. S2CID 18716873. arXiv:1708.06131. doi:10.1007/978-3-642-40994-3_25.

[10] Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014-02-19). «Intriguing properties of neural networks». arXiv:1312.6199 [cs.CV].

[:02-11] Biggio, Battista; Roli, Fabio (December 2018). «Wild patterns: Ten years after the rise of adversarial machine learning». Pattern Recognition 84: 317-331. Bibcode:2018PatRe..84..317B. S2CID 207324435. arXiv:1712.03141. doi:10.1016/j.patcog.2018.07.023.

[12] Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (2016). «Adversarial examples in the physical world». arXiv:1607.02533 [cs.CV].

[13] Gupta, Kishor Datta, Dipankar Dasgupta, and Zahid Akhtar. "Applicability issues of Evasion-Based Adversarial Attacks and Mitigation Techniques." 2020 IEEE Symposium Series on Computational Intelligence (SSCI). 2020.

[LimTaeihagh20192-14] Lim, Hazel Si Min; Taeihagh, Araz (2019). «Algorithmic Decision-Making in AVs: Understanding Ethical and Technical Concerns for Smart Cities». Sustainability (en inglés) 11 (20): 5791. Bibcode:2019arXiv191013122L. S2CID 204951009. arXiv:1910.13122. doi:10.3390/su11205791.

[:2-15] «Google Brain's Nicholas Frosst on Adversarial Examples and Emotional Responses». Synced. 21 de noviembre de 2019. Consultado el 23 de octubre de 2021.

[16] «Responsible AI practices». Google AI (en inglés). Consultado el 23 de octubre de 2021.

[:3-17] Adversarial Robustness Toolbox (ART) v1.8, Trusted-AI, 23 de octubre de 2021, consultado el 23 de octubre de 2021 .

[18] rshal. «Failure Modes in Machine Learning - Security documentation». docs.microsoft.com (en inglés estadounidense). Consultado el 23 de octubre de 2021.

[BiggioFumera20102-19] Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). «Multiple classifier systems for robust classifier design in adversarial environments». International Journal of Machine Learning and Cybernetics 1 (1–4): 27-41. ISSN 1868-8071. S2CID 8729381. doi:10.1007/s13042-010-0007-7. hdl:11567/1087824. Archivado desde el original el 19 de enero de 2023. Consultado el 8 de agosto de 2023.

[Adversarial_Machine_Learning_18A2-20] Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). «Static Prediction Games for Adversarial Learning Problems». Journal of Machine Learning Research 13 (Sep): 2617-2654. ISSN 1533-7928.

[Adversarial_Machine_Learning_18A22-21] Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). «Static Prediction Games for Adversarial Learning Problems». Journal of Machine Learning Research 13 (Sep): 2617-2654. ISSN 1533-7928.

[:0-22] Vitorino, João; Oliveira, Nuno; Praça, Isabel (March 2022). «Adaptative Perturbation Patterns: Realistic Adversarial Learning for Robust Intrusion Detection». Future Internet (en inglés) 14 (4): 108. ISSN 1999-5903. doi:10.3390/fi14040108.

[RodriguesLing20092-23] Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 de junio de 2009). «Robustness of multimodal biometric fusion methods against spoof attacks». Journal of Visual Languages & Computing 20 (3): 169-179. ISSN 1045-926X. doi:10.1016/j.jvlc.2009.01.010.

[24] Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (October 2019). «One Pixel Attack for Fooling Deep Neural Networks». IEEE Transactions on Evolutionary Computation 23 (5): 828-841. ISSN 1941-0026. S2CID 2698863. arXiv:1710.08864. doi:10.1109/TEVC.2019.2890858.

[25] «Single pixel change fools AI programs». BBC News. 3 de noviembre de 2017. Consultado el 12 de febrero de 2018.

[26] Athalye, Anish; Engstrom, Logan; Ilyas, Andrew; Kwok, Kevin (2017). «Synthesizing Robust Adversarial Examples». arXiv:1707.07397 [cs.CV].

[27] «AI Has a Hallucination Problem That's Proving Tough to Fix». WIRED. 2018. Consultado el 10 de marzo de 2018.

[28] Zhou, Zhenglong; Firestone, Chaz (2019). «Humans can decipher adversarial images». Nature Communications 10 (1): 1334. Bibcode:2019NatCo..10.1334Z. PMC 6430776. PMID 30902973. arXiv:1809.04120. doi:10.1038/s41467-019-08931-6.

[29] Jain, Anant (9 de febrero de 2019). «Breaking neural networks with adversarial attacks – Towards Data Science». Medium. Consultado el 15 de julio de 2019.

[30] Ackerman, Evan (4 de agosto de 2017). «Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms». IEEE Spectrum: Technology, Engineering, and Science News. Consultado el 15 de julio de 2019.

[31] «A Tiny Piece of Tape Tricked Teslas Into Speeding Up 50 MPH». Wired (en inglés). 2020. Consultado el 11 de marzo de 2020.

[32] «Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles». McAfee Blogs (en inglés estadounidense). 19 de febrero de 2020. Consultado el 11 de marzo de 2020.

[33] Seabrook, John (2020). «Dressing for the Surveillance Age». The New Yorker (en inglés). Consultado el 5 de abril de 2020.

[nature_why2-34] Heaven, Douglas (October 2019). «Why deep-learning AIs are so easy to fool». Nature (en inglés) 574 (7777): 163-166. Bibcode:2019Natur.574..163H. PMID 31597977. doi:10.1038/d41586-019-03013-5.

[35] Hutson, Matthew (10 de mayo de 2019). «AI can now defend itself against malicious messages hidden in speech». Nature. PMID 32385365. S2CID 189666088. doi:10.1038/d41586-019-01510-1.

[36] Lepori, Michael A; Firestone, Chaz (2020-03-27). «Can you hear me now? Sensitive comparisons of human and machine perception». arXiv:2003.12362 [eess.AS].

[37] Vadillo, Jon; Santana, Roberto (2020-01-23). «On the human evaluation of audio adversarial examples». arXiv:2001.08444 [eess.AS].

[Adversarial_Machine_Learning_42A2-38] D. B. Skillicorn. "Adversarial knowledge discovery". IEEE Intelligent Systems, 24:54–61, 2009.

[Adversarial_Machine_Learning_46A2-39] B. Biggio, G. Fumera, and F. Roli. "Pattern recognition systems under attack: Design issues and research challenges". Int'l J. Patt. Recogn. Artif. Intell., 28(7):1460002, 2014. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[Adversarial_Machine_Learning_22-40] Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, J. D. (2010). «The security of machine learning». Machine Learning 81 (2): 121-148. S2CID 2304759. doi:10.1007/s10994-010-5188-5.

[41] Sikos, Leslie F. (2019). AI in Cybersecurity. Intelligent Systems Reference Library 151. Cham: Springer. p. 50. ISBN 978-3-319-98841-2. doi:10.1007/978-3-319-98842-9.

[Adversarial_Machine_Learning_4A2-42] B. Biggio, G. Fumera, and F. Roli. "Security evaluation of pattern classifiers under attack". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[Adversarial_Machine_Learning_5A2-43] Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin I. P.; Maiorca, Davide; Fumera, Giorgio; Giacinto, Giorgio; Roli, Fabio (2014). «Security Evaluation of Support Vector Machines in Adversarial Environments». Support Vector Machines Applications. Springer International Publishing. pp. 105-153. ISBN 978-3-319-02300-7. S2CID 18666561. arXiv:1401.7727. doi:10.1007/978-3-319-02300-7_4.

[44] Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick (15 de junio de 2020). «Fool Me Once, Shame On You, Fool Me Twice, Shame On Me: A Taxonomy of Attack and De-fense Patterns for AI Security». ECIS 2020 Research Papers.

[45] «Facebook removes 15 Billion fake accounts in two years». Tech Digest (en inglés británico). 27 de septiembre de 2021. Consultado el 8 de junio de 2022.

[46] «Facebook removed 3 billion fake accounts in just 6 months». New York Post (en inglés estadounidense). Associated Press. 23 de mayo de 2019. Consultado el 8 de junio de 2022.

[47] Schwarzschild, Avi; Goldblum, Micah; Gupta, Arjun; Dickerson, John P.; Goldstein, Tom (1 de julio de 2021). «Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks». International Conference on Machine Learning (en inglés) (PMLR): 9389-9398.

[Adversarial_Machine_Learning_15A2-48] B. Biggio, B. Nelson, and P. Laskov. "Support vector machines under adversarial label noise". In Journal of Machine Learning Research – Proc. 3rd Asian Conf. Machine Learning, volume 20, pp. 97–112, 2011. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[Adversarial_Machine_Learning_29A22-49] M. Kloft and P. Laskov. "Security analysis of online centroid anomaly detection". Journal of Machine Learning Research, 13:3647–3690, 2012.

[50] Moisejevs, Ilja (15 de julio de 2019). «Poisoning attacks on Machine Learning – Towards Data Science». Medium (en inglés). Consultado el 15 de julio de 2019.

[Baruch_2019-51] Baruch, Gilad; Baruch, Moran; Goldberg, Yoav (2019). «A Little Is Enough: Circumventing Defenses For Distributed Learning». Advances in Neural Information Processing Systems (Curran Associates, Inc.) 32. arXiv:1902.06156.

[52] El-Mhamdi, El-Mahdi; Guerraoui, Rachid; Guirguis, Arsany; Hoang, Lê-Nguyên; Rouault, Sébastien (26 de mayo de 2022). «Genuinely distributed Byzantine machine learning». Distributed Computing 35 (4): 305-331. ISSN 1432-0452. S2CID 249111966. doi:10.1007/s00446-022-00427-9.

[53] Goldwasser, S.; Kim, Michael P.; Vaikuntanathan, V.; Zamir, Or (2022). «Planting Undetectable Backdoors in Machine Learning Models». arXiv:2204.06974 [cs.LG].

[:14-54] Blanchard, Peva; El Mhamdi, El Mahdi; Guerraoui, Rachid; Stainer, Julien (2017). «Machine Learning with Adversaries: Byzantine Tolerant Gradient Descent». Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30.

[55] Chen, Lingjiao; Wang, Hongyi; Charles, Zachary; Papailiopoulos, Dimitris (3 de julio de 2018). «DRACO: Byzantine-resilient Distributed Training via Redundant Gradients». International Conference on Machine Learning (en inglés) (PMLR): 903-912. arXiv:1803.09877.

[56] Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (3 de julio de 2018). «The Hidden Vulnerability of Distributed Learning in Byzantium». International Conference on Machine Learning (PMLR): 3521-3530. arXiv:1802.07927.

[57] Allen-Zhu, Zeyuan; Ebrahimianghazani, Faeze; Li, Jerry; Alistarh, Dan (2 de octubre de 2020). Byzantine-Resilient Non-Convex Stochastic Gradient Descent (en inglés). Consultado el 19 de julio de 2023.

[58] Mhamdi, El Mahdi El; Guerraoui, Rachid; Rouault, Sébastien (2 de octubre de 2020). Distributed Momentum for Byzantine-resilient Stochastic Gradient Descent (en inglés). Consultado el 19 de julio de 2023.

[59] Data, Deepesh; Diggavi, Suhas (1 de julio de 2021). «Byzantine-Resilient High-Dimensional SGD with Local Iterations on Heterogeneous Data». International Conference on Machine Learning (PMLR): 2478-2488.

[60] Karimireddy, Sai Praneeth; He, Lie; Jaggi, Martin (6 de octubre de 2021). Byzantine-Robust Learning on Heterogeneous Datasets via Bucketing (en inglés). Consultado el 19 de julio de 2023.

[Adversarial_Machine_Learning_36A2-61] B. Nelson, B. I. Rubinstein, L. Huang, A. D. Joseph, S. J. Lee, S. Rao, and J. D. Tygar. "Query strategies for evading convex-inducing classifiers". J. Mach. Learn. Res., 13:1293–1332, 2012

[62] «How to steal modern NLP systems with gibberish?». cleverhans-blog (en inglés). 6 de abril de 2020. Consultado el 15 de octubre de 2020.

[:12-63] ↑ ^a ^b ^c ^d ^e ^f ^g ^h Wang, Xinran; Xiang, Yu; Gao, Jun; Ding, Jie (2020-09-13). «Information Laundering for Model Privacy». arXiv:2009.06112 [cs.CR].

[:6-64] Dickson, Ben (23 de abril de 2021). «Machine learning: What are membership inference attacks?». TechTalks (en inglés estadounidense). Consultado el 7 de noviembre de 2021.

[65] Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). «Explaining and Harnessing Adversarial Examples». International Conference on Learning Representations. arXiv:1412.6572.

[66] Pieter, Huang; Papernot, Sandy; Goodfellow, Nicolas; Duan, Ian; Abbeel, Yan (7 de febrero de 2017). Adversarial Attacks on Neural Network Policies. OCLC 1106256905.

[67] Korkmaz, Ezgi (2022). «Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs». Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229-7238. S2CID 245219157. doi:10.1609/aaai.v36i7.20684.

[68] Carlini, Nicholas; Wagner, David (2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. «2018 IEEE Security and Privacy Workshops (SPW)». IEEE Symposium on Security and Privacy Workshops. pp. 1-7. ISBN 978-1-5386-8276-0. S2CID 4475201. arXiv:1801.01944. doi:10.1109/SPW.2018.00009.

[69] Jagielski, Matthew; Oprea, Alina; Biggio, Battista; Liu, Chang; Nita-Rotaru, Cristina; Li, Bo (May 2018). «Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning». 2018 IEEE Symposium on Security and Privacy (SP). IEEE. pp. 19-35. ISBN 978-1-5386-4353-2. S2CID 4551073. arXiv:1804.00308. doi:10.1109/sp.2018.00057.

[70] «Attacking Machine Learning with Adversarial Examples». OpenAI. 24 de febrero de 2017. Consultado el 15 de octubre de 2020.

[71] Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (2019-03-11). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain». arXiv:1708.06733 [cs.CR].

[72] Veale, Michael; Binns, Reuben; Edwards, Lilian (28 de noviembre de 2018). «Algorithms that remember: model inversion attacks and data protection law». Philosophical Transactions. Series A, Mathematical, Physical, and Engineering Sciences 376 (2133). Bibcode:2018RSPTA.37680083V. ISSN 1364-503X. PMC 6191664. PMID 30322998. arXiv:1807.04644. doi:10.1098/rsta.2018.0083.

[73] Shokri, Reza; Stronati, Marco; Song, Congzheng; Shmatikov, Vitaly (2017-03-31). «Membership Inference Attacks against Machine Learning Models». arXiv:1610.05820 [cs.CR].

[Explaining_and_Harnessing_Adversari2-74] Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015-03-20). «Explaining and Harnessing Adversarial Examples». arXiv:1412.6572 [stat.ML].

[75] Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (2019-09-04). «Towards Deep Learning Models Resistant to Adversarial Attacks». arXiv:1706.06083 [stat.ML].

[76] Carlini, Nicholas; Wagner, David (2017-03-22). «Towards Evaluating the Robustness of Neural Networks». arXiv:1608.04644 [cs.CR].

[77] Brown, Tom B.; Mané, Dandelion; Roy, Aurko; Abadi, Martín; Gilmer, Justin (2018-05-16). «Adversarial Patch». arXiv:1712.09665 [cs.CV].

[78] Guo, Sensen; Zhao, Jinxiong; Li, Xiaoyu; Duan, Junhong; Mu, Dejun; Jing, Xiao (24 de abril de 2021). «A Black-Box Attack Method against Machine-Learning-Based Anomaly Network Flow Detection Models». Security and Communication Networks 2021. e5578335. ISSN 1939-0114. doi:10.1155/2021/5578335.

[:4-79] Gomes, Joao (17 de enero de 2018). «Adversarial Attacks and Defences for Convolutional Neural Networks». Onfido Tech. Consultado el 23 de octubre de 2021.

[:7-80] Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020). «Square Attack: A Query-Efficient Black-Box Adversarial Attack via Random Search». En Vedaldi, Andrea; Bischof, Horst; Brox, Thomas et al., eds. Computer Vision – ECCV 2020. Lecture Notes in Computer Science (Cham: Springer International Publishing) 12368: 484-501. ISBN 978-3-030-58592-1. S2CID 208527215. arXiv:1912.00049. doi:10.1007/978-3-030-58592-1_29.

[:8-81] ↑ ^a ^b ^c ^d ^e ^f ^g Chen, Jianbo; Jordan, Michael I.; Wainwright, Martin J. (2019), HopSkipJumpAttack: A Query-Efficient Decision-Based Attack (en inglés), arXiv:1904.02144, consultado el 25 de octubre de 2021 .

[82] Andriushchenko, Maksym; Croce, Francesco; Flammarion, Nicolas; Hein, Matthias (2020-07-29). «Square Attack: a query-efficient black-box adversarial attack via random search». arXiv:1912.00049 [cs.LG].

[83] «Black-box decision-based attacks on images». KejiTech (en inglés). 21 de junio de 2020. Consultado el 25 de octubre de 2021.

[:9-84] Goodfellow, Ian J.; Shlens, Jonathon; Szegedy, Christian (2015-03-20). «Explaining and Harnessing Adversarial Examples». arXiv:1412.6572 [stat.ML].

[:10-85] Tsui, Ken (22 de agosto de 2018). «Perhaps the Simplest Introduction of Adversarial Examples Ever». Medium (en inglés). Consultado el 24 de octubre de 2021.

[:112-86] «Adversarial example using FGSM | TensorFlow Core». TensorFlow (en inglés). Consultado el 24 de octubre de 2021.

[:5-87] Carlini, Nicholas; Wagner, David (2017-03-22). «Towards Evaluating the Robustness of Neural Networks». arXiv:1608.04644 [cs.CR].

[88] «carlini wagner attack». richardjordan.com. Consultado el 23 de octubre de 2021.

[89] Plotz, Mike (26 de noviembre de 2018). «Paper Summary: Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods». Medium (en inglés). Consultado el 23 de octubre de 2021.

[90] Kishor Datta Gupta; Akhtar, Zahid; Dasgupta, Dipankar (2021). «Determining Sequence of Image Processing Technique (IPT) to Detect Adversarial Attacks». SN Computer Science 2 (5): 383. ISSN 2662-995X. S2CID 220281087. arXiv:2007.00337. doi:10.1007/s42979-021-00773-8.

[Adversarial_Machine_Learning_22A22-91] O. Dekel, O. Shamir, and L. Xiao. "Learning to classify with missing and corrupted features". Machine Learning, 81:149–178, 2010.

[Adversarial_Machine_Learning_45A2-92] Liu, Wei; Chawla, Sanjay (2010). «Mining adversarial patterns via regularized loss minimization». Machine Learning 81: 69-83. S2CID 17497168. doi:10.1007/s10994-010-5199-2.

[Adversarial_Machine_Learning_10A2-93] B. Biggio, G. Fumera, and F. Roli. "Evade hard multiple classifier systems. In O. Okun and G. Valentini, editors, Supervised and Unsupervised Ensemble Methods and Their Applications, volume 245 of Studies in Computational Intelligence, pages 15–38. Springer Berlin / Heidelberg, 2009. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[Adversarial_Machine_Learning_41A2-94] B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. "Learning in a large function space: Privacy- preserving mechanisms for svm learning". Journal of Privacy and Confidentiality, 4(1):65–100, 2012.

[feature_select22-95] M. Kantarcioglu, B. Xi, C. Clifton. "Classifier Evaluation and Attribute Selection against Active Adversaries". Data Min. Knowl. Discov., 22:291–335, January 2011.

[96] Chivukula, Aneesh; Yang, Xinghao; Liu, Wei; Zhu, Tianqing; Zhou, Wanlei (2020). «Game Theoretical Adversarial Deep Learning with Variational Adversaries». IEEE Transactions on Knowledge and Data Engineering 33 (11): 3568-3581. ISSN 1558-2191. S2CID 213845560. doi:10.1109/TKDE.2020.2972320. hdl:10453/145751.

[97] Chivukula, Aneesh Sreevallabh; Liu, Wei (2019). «Adversarial Deep Learning Models with Multiple Adversaries». IEEE Transactions on Knowledge and Data Engineering 31 (6): 1066-1079. ISSN 1558-2191. S2CID 67024195. doi:10.1109/TKDE.2018.2851247. hdl:10453/136227.

[98] «TrojAI». www.iarpa.gov. Consultado el 14 de octubre de 2020.

[99] Athalye, Anish; Carlini, Nicholas; Wagner, David (2018-02-01). «Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Example». arXiv:1802.00420v1 [cs.LG].

[100] He, Warren; Wei, James; Chen, Xinyun; Carlini, Nicholas; Song, Dawn (2017-06-15). «Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong». arXiv:1706.04701 [cs.LG].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]