Función de activación

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En redes computacionales, la Función de Activación de un nodo define la salida de un nodo dada una entrada o un conjunto de entradas. Se podría decir que un circuito estándar de computador se comporta como una red digital de funciones de activación al activarse como "ON" (1) u "OFF" (0), dependiendo de la entrada. Esto es similar al funcionamiento de un Perceptrón en una Red neuronal artificial.

Funciones[editar]

En las redes neurales inspiradas sobre la biología, la función de activación es usualmente una abstracción representando un tasa de potencial de activación gatillándose en la celda. En su forma simplificada, esta función es binaria, esto es, se activa la neurona o no. La función se ve como \phi(v_i)=U(v_i), donde U es la función escalón. En este caso, un gran número de neuronas deben ser usadas en computación más allá de la separación lineal de las categorías.

Una función rampa también puede ser usada para reflejar el incremento del potencial de activación que ocurre cuando la entrada se incrementa. La función podría ser de la forma \phi(v_i)=\mu v_i, donde \mu es la pendiente. Esta función de activación es lineal, y por consiguiente tiene los mismos problemas que la función binaria. En adición, las redes neurales construidas usando este modelo tienen convergencia inestable porque a la larga, las entradas a la neurona tienden a incrementarse sin límite, esta función no es normalizable.

Los problemas mencionados anteriormente, pueden ser manejados usando una función de activación sigmoidal. Un modelo realístico permanece en cero hasta que una entrada es recibida, en este punto la frecuencia de activación se incrementa rápidamente, pero gradualmente llega a ser asíntota cuando la frecuencia es 100%. Matemáticamente, esto se ve como \phi(v_i)=U(v_i)\tanh(v_i), donde la función de tangente hiperbólica puede también ser cualquier función sigmoidal. Esta conducta es realísticamente reflejada en la neurona, ya que las neuronas no pueden físicamente activarse más rápido que una cierta tasa.

El modelo final que es usado en perceptrones multicapa es el modelo de activación sigmoidal en la forma de tangente hiperbólica. Dos formas de esta función son comúnmente usados: \phi(v_i)=\tanh(v_i) cuyos rangos son normalizados desde -1 hasta 1, y \phi(v_i) = (1+\exp(-v_i))^{-1} es verticalmente normalizado desde 0 a 1. El último modelo es frecuentemente considerado más biológicamente realístico, pero tiene dificultades teóricas y experimentales en ciertos tipos de problemas computacionales.

Estructuras alternativas[editar]

Una clase especial de funciones de activación conocidas como Funciones de Base Radial (RBFs) son usadas en Redes de neuronas de base radial, las cuales son extremadamente eficientes como funciones universales de aproximación. Esas funciones de activación pueden tomar cualquier forma, pero usualmente se encuentran una de estas tres:

  • Gausiana: \,\phi(v_i)=\exp\left(-\frac{\|v_i-c_i\|^2}{2\sigma^2}\right)
  • Multicuadráticas: \,\phi(v_i)=\sqrt{\|v_i-c_i\|^2 + a^2}
  • Multicuadráticas Inversas: \,\phi(v_i)=(\|v_i-c_i\|^2 + a^2)^{-1/2}

donde c_i es el vector representando la función central y a y \sigma son parámetros affectando la magnitud del radio.

Máquinas de Soporte Vectorial (SVMs) pueden efectivamente utilizar una clase de funciones de activación que incluyen funciones sigmoidales y Funciones de Base Radial. En este caso, el vector de entrada es transformado para reflejar un límite de decisión hiplerplano basado en unas pocas entradas de entrenamiento llamadas vectores de soporte x. La función de activación para las capas ocultas de esas maquinas son referidas como producto del núcleo interno, K(v_i,x)=\phi(v_i). Los vectores de soporte son representados como los centros en RBFs con el núcleo igual a la función de activación, pero toman una fórma única en el perceptrón como :\,\phi(v_i)=\tanh\left(\beta_1 + \beta_0 \sum_j v_{i,j} x_j \right), donde \beta_0 y \beta_1 deben satisfacer ciertas condiciones de convergencia. Esas máquinas también pueden aceptar funciones de polinomios de orden arbitrario donde:\,\phi(v_i)=\left(1+\sum_j v_{i,j} x_j \right)^p.[1]

Referencias[editar]

  1. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation (2 edición). Prentice Hall. ISBN 0132733501.