Función Swish

De Wikipedia, la enciclopedia libre

La función swish es una función matemática definida por la siguiente fórmula:

Donde β puede ser constante o un parámetro entrenable según el modelo. En el caso en que β=1, la función es equivalente a la función con ponderación sigmoide que se usa en aprendizaje de refuerzo (Sigmoid-weighted Linear Unit, SiL), mientras que para β=0, swish se convierte en la función lineal f(x)=x/2. Con β→∞, el componente sigmoideo se acerca a una función escalón unitario, por lo que swish tiende a la función ReLU. Así, puede ser vista como una interpolación no lineal entre una función lineal y la ReLU.

Aplicaciones[editar]

En 2017, después de actuar análisis en los datos de ImageNet, investigadores de Google descubrieron que utilizando la función como una función de activación en redes neuronales artificiales mejora el rendimiento, comparado a ReLU y funciones sigmoides. Se cree que una razón para la mejora es que la función swish ayuda a aliviar el Problema de desvanecimiento de gradiente durante backpropagation.

Referencias[editar]

Error en la cita: La etiqueta <ref> definida en las <references> con nombre «Elfwing-Uchibe-Doya_2017» no se utiliza en el texto anterior.
Error en la cita: La etiqueta <ref> definida en las <references> con nombre «Ramachandran-Zoph-Le_2017_v1» no se utiliza en el texto anterior.
Error en la cita: La etiqueta <ref> definida en las <references> con nombre «Ramachandran-Zoph-Le_2017_v2» no se utiliza en el texto anterior.

Error en la cita: La etiqueta <ref> definida en las <references> con nombre «Sefiks_2018» no se utiliza en el texto anterior.