Diferencia entre revisiones de «Abandono (redes neuronales)»

Contenido eliminado Contenido añadido

En renglón

Revisión del 13:29 14 dic 2020

Dilución (tambien conocido como Dropout) es una técnica de regularización para reducir el sobreajuste en redes neuronales artificiales al evitar coadaptaciones complejas en los conjuntos de entrenamiento . Es una forma eficiente de realizar promedios de modelos con redes neuronales. El término dropout se refiere a "abandonar" u omitir aleatoriamente neuronas(tanto ocultas como visibles) durante el proceso de entrenamiento de una red neuronal. ^[1] Tanto la reducción de los pesos como el omitir unidades desencadenan el mismo tipo de regularización y, a menudo, el término dropout se utiliza cuando se hace referencia a la reducción de pesos.

Tipos y usos

La dilución normalmente se separa en dilución débil y dilución fuerte. La dilución débil describe el proceso en qué la fracción finita de conexiones eliminadas es pequeña, y la dilución fuerte refiere a cuándo esta fracción es grande. No hay una clara distinción sobre donde esta el limite entre la dilución débil y la fuerte. Aunque la distinción no tiene sentido, tiene implicaciones a la hora de elegir una solución para resolver el problema.

A veces la dilución se utiliza para añadir ruido a las entradas. En aquel caso, la dilución débil refiere a añadir una cantidad pequeña de ruido, mientras que la dilución fuerte añade una cantidad más grande. Ambos pueden ser reescritos como variantes de dilución de peso.

Se suele referir a estas técnicas como poda aleatoria de pesos, pero esto es normalmente una operación unidireccional no recurrente. La red es podada, y se mantiene si produce una mejora sobre el modelo anterior. Dilución y dropout ambos se refieren a un proceso iterativo. La poda de los pesos típicamente no implica que la red continúe aprendiendo, mientras que en dilución/dropout, la red continúa aprendiendo después de aplicarse la técnica.

Red lineal generalizada

La salida de una capa de nodos lineales, en una red neuronal artificial puede ser descrita como

$y_{i}=\sum _{j}w_{ij}x_{j}$

(1)

$y_{i}=\sum _{j}w_{i,j}x_{j}$

$y_{i}$ – Salida del nodo $i$
$w_{ij}$ – Peso real antes de que dilución, también llamado fuerza de conexión de Hebb
$x_{j}$ – Entrada del nodo $j$

Esto puede ser escrito en notación de vector como

$\mathbf {y} =\mathbf {W} \mathbf {x}$

(2)

$y=W\times x$

$\mathbf {y}$ – Vector de salida
$\mathbf {W}$ – Matriz de pesos
$\mathbf {x}$ – Vector de entrada

Ecuaciones (1) y (2) son utilizadas en las secciones subsiguientes.

Dilución débil

Durante la dilución débil, la fracción de las conexiones eliminadas(los pesos) es pequeña, dando lugar a una pequeña incertidumbre. Este borde-el caso puede ser solucionado exactamente con teoría de campo malo. En dilución débil el impacto en los pesos puede ser descrito cuando

${\hat {w_{ij}}}={\begin{cases}w_{ij},&{\mbox{with }}P(c)\\0,&{\mbox{otherwise}}\end{cases}}$

(3)

${\widehat {w}}={\begin{cases}w_{i,j}&{\text{with}}P(c)\\0,&{\text{otherwise}}\end{cases}}$

${\hat {w_{ij}}}$ – Peso diluido
$w_{ij}$ – Peso real antes de la dilución
$P(c)$ – La probabilidad de c , probabilidad de mantener un peso

Se puede interpretar $P(c)$ como la poda del peso en vez de la probabilidad de mantenerlo

En notación vectorial, esto se puede escribir como

${\hat {\mathbf {W} }}=\operatorname {g} \left(\mathbf {W} ,c\right)$

(4)

${\widehat {W}}=g(W,c)$

Donde $\operatorname {g} (\cdot )$ impone la dilución anterior.

En dilución débil, solo se diluye una fracción pequeña y fija de los pesos. Cuando el número de términos de la suma llega a infinito (los pesos de cada neurona), sigue siendo infinito (la fracción es fija), por lo que se puede aplicar la teoría de campo medio . En la notación de Hertz et al. ^[2] esto se escribiría como

$\left\langle h_{i}\right\rangle =c\sum _{j}w_{ij}\left\langle S_{j}\right\rangle$

(5)

$\langle h_{i}\rangle =c\sum _{j}w_{ij}\langle S_{j}\rangle$

$\left\langle h_{i}\right\rangle$ la temperatura media del campo
$c$ - un factor de escala para la temperatura a partir de la probabilidad de mantener el peso
$w_{ij}$ - peso real antes de la dilución, también llamado fuerza de conexión Hebb
$\left\langle S_{j}\right\rangle$ - los estados de equilibrio estable medio

Hay algunas suposiciones que no se enumeran aquí. ^[3] ^[4]

Fuerte dilución

Cuando la dilución es fuerte, la fracción finita de conexiones eliminadas (los pesos) es grande, lo que genera una gran incertidumbre.

Dropout

Dropout es un caso especial de la ecuación de ponderación anterior (3), donde la ecuación antes mencionada se ajusta para eliminar una fila completa en la matriz vectorial, y no solo ponderaciones al azar.

${\hat {\mathbf {w} _{j}}}={\begin{cases}\mathbf {w} _{j},&{\mbox{with }}P(c)\\\mathbf {0} ,&{\mbox{otherwise}}\end{cases}}$

(6)

${\widehat {w}}={\begin{cases}w_{i,j}&{\text{with}}P(c)\\0,&{\text{otherwise}}\end{cases}}$

$P(c)$ - la probabilidad $c$ para mantener una fila en la matriz de peso
$\mathbf {w} _{j}$ - fila real en la matriz de peso antes de la eliminación
${\hat {\mathbf {w} _{j}}}$ - fila diluida en la matriz de peso

Debido a que la técnica de dropout elimina una fila completa de la matriz vectorial, los supuestos anteriores (no enumerados) para la dilución débil y el uso de la teoría del campo medio no son aplicables.

El proceso por el cual el nodo se lleva a cero, ya sea estableciendo los pesos en cero, "eliminando el nodo" o por algún otro medio, no afecta al resultado final y no crea un caso nuevo y único. Si la red neuronal es procesada por un multiplicador de matrices digital de alto rendimiento, entonces es probable que sea más efectivo llevar el valor a cero más tarde en el gráfico del proceso. Si la red es procesada por un procesador restringido, tal vez incluso un procesador neuromorfo analógico, entonces es probable que una solución más eficiente sea llevar el valor a cero al principio del gráfico del proceso.

Patente de Google

Aunque ha habido ejemplos de eliminación aleatoria de conexiones entre neuronas en una red neuronal para mejorar los modelos, ^[2] esta técnica fue introducida por primera vez con el nombre de dropout por Geoffrey Hinton, et al. en 2012. Google tiene actualmente la patente de la técnica de dropout. ^{[note 1]}

Ver también

Notas

↑ The patent is most likely not valid due to previous art. “Dropout” has been described as “dilution” in previous publications. It is described by Hertz, Krogh, and Palmer in Introduction to the Theory of Neural Computation (1991) ISBN 0-201-51560-1, pp. 45, Weak Dilution. The text references Sompolinsky The Theory of Neural Networks: The Hebb Rules and Beyond in Heidelberg Colloquium on Glossy Dynamics (1987) and Canning and Gardner Partially Connected Models of Neural Networks in Journal of Physics (1988). It goes on to describe strong dilution. This predates Hinton's paper.

Referencias

↑ «Dropout: A Simple Way to Prevent Neural Networks from Overfitting». Jmlr.org. Consultado el July 26, 2015.
↑ ^a ^b Hertz, John; Krogh, Anders; Palmer, Richard (1991). Introduction to the Theory of Neural Computation. Redwood City, California: Addison-Wesley Pub. Co. pp. 45-46. ISBN 0-201-51560-1.
↑ Sompolinsky, H. (1987), «The theory of neural networks: The Hebb rule and beyond», Heidelberg Colloquium on Glassy Dynamics, Lecture Notes in Physics (Berlin, Heidelberg: Springer Berlin Heidelberg) 275: 485-527, Bibcode:1987LNP...275..485S, ISBN 978-3-540-17777-7, doi:10.1007/bfb0057531 .
↑ Canning, A; Gardner, E (7 de agosto de 1988). «Partially connected models of neural networks». Journal of Physics A: Mathematical and General 21 (15): 3275-3284. Bibcode:1988JPhA...21.3275C. ISSN 0305-4470. doi:10.1088/0305-4470/21/15/016.

[5] The patent is most likely not valid due to previous art. “Dropout” has been described as “dilution” in previous publications. It is described by Hertz, Krogh, and Palmer in Introduction to the Theory of Neural Computation (1991) ISBN 0-201-51560-1, pp. 45, Weak Dilution. The text references Sompolinsky The Theory of Neural Networks: The Hebb Rules and Beyond in Heidelberg Colloquium on Glossy Dynamics (1987) and Canning and Gardner Partially Connected Models of Neural Networks in Journal of Physics (1988). It goes on to describe strong dilution. This predates Hinton's paper.

[MyUser_Jmlr.org_July_26_2015c-1] «Dropout: A Simple Way to Prevent Neural Networks from Overfitting». Jmlr.org. Consultado el July 26, 2015.

[:1-2] Hertz, John; Krogh, Anders; Palmer, Richard (1991). Introduction to the Theory of Neural Computation. Redwood City, California: Addison-Wesley Pub. Co. pp. 45-46. ISBN 0-201-51560-1.

[3] Sompolinsky, H. (1987), «The theory of neural networks: The Hebb rule and beyond», Heidelberg Colloquium on Glassy Dynamics, Lecture Notes in Physics (Berlin, Heidelberg: Springer Berlin Heidelberg) 275: 485-527, Bibcode:1987LNP...275..485S, ISBN 978-3-540-17777-7, doi:10.1007/bfb0057531 .

[4] Canning, A; Gardner, E (7 de agosto de 1988). «Partially connected models of neural networks». Journal of Physics A: Mathematical and General 21 (15): 3275-3284. Bibcode:1988JPhA...21.3275C. ISSN 0305-4470. doi:10.1088/0305-4470/21/15/016.

[1]

[2]

[3]

[4]

[note 1]