Distancia de inicio de Fréchet

La distancia de inicio de Fréchet (DIF) es una métrica utilizada para determinar la calidad de las imágenes creadas por un modelo generativo, como una red adversarial generativa (GAN).^[1] A diferencia de la puntuación de inicio anterior (IS), que evalúa solo la distribución de las imágenes generadas, la DIF compara la distribución de las imágenes generadas con la distribución de un conjunto de imágenes reales («verdad fundamental»).^[1]

La métrica DIF se introdujo en 2017,^[1] y es el estándar actual para evaluar la calidad de los modelos generativos desde 2020. Se ha utilizado para medir la calidad de muchos modelos recientes, incluidas las redes de alta resolución StyleGAN1^[2] y StyleGAN2 .

Definición[editar]

Para cualesquiera dos distribuciones de probabilidad $\mu ,\nu$ encima $\mathbb {R} ^{n}$ teniendo media finita y varianzas, ladistancia de Fréchet es^[3]

d_{F}(\mu ,\nu ):=\left(\inf _{\gamma \in \Gamma (\mu ,\nu )}\int _{\mathbb {R} ^{n}\times \mathbb {R} ^{n}}\|x-y\|^{2}\,\mathrm {d} \gamma (x,y)\right)^{1/2},

dónde

\Gamma (\mu ,\nu )

es el conjunto de todas las medidas de

\mathbb {R} ^{n}\times \mathbb {R} ^{n}

con marginales $\mu$ y $\nu$ en el primer y segundo factor respectivamente. (El conjunto

\Gamma (\mu ,\nu )

también se denomina el conjunto de todos los acoplamientos de $\mu$ y $\nu$ . ). Es decir, es la distancia de 2 Wasserstein en

\mathbb {R} ^{n}

. Para dos distribuciones gaussianas multidimensionales

{\mathcal {N}}(\mu ,\Sigma )

y

{\mathcal {N}}(\mu ',\Sigma ')

, es explícitamente resoluble como^[4]

d_{F}({\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma '))^{2}=\lVert \mu -\mu '\rVert _{2}^{2}+\operatorname {tr} \left(\Sigma +\Sigma '-2\left(\Sigma ^{\frac {1}{2}}\cdot \Sigma '\cdot \Sigma ^{\frac {1}{2}}\right)^{\frac {1}{2}}\right)

Esto nos permite definir el DIF en forma de pseudocódigo :

INGRESA una función $f:\Omega _{X}\to \mathbb {R} ^{n}$ .
INGRESA dos conjuntos de datos $S,S'\subset \Omega _{X}$ .
Calcula $f(S),f(S')\subset \mathbb {R} ^{n}$ .
Ajusta dos distribuciones gaussianas ${\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma ')$ , respectivamente para $f(S),f(S')$ .

DEVUELVE $d_{F}({\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma '))^{2}$ .

En la mayoría de los usos prácticos del DIF, $\Omega _{X}$ es el espacio de las imágenes, y $f$ es un modelo de Inception v3 formado en ImageNet, pero sin la etapa de clasificación final. Técnicamente, es el vector de activación de 2048 dimensiones de la etapa pool3 .

En lugar de comparar imágenes píxel por píxel directamente (por ejemplo, como lo hace la norma L2 ), el DIF compara la media y la desviación estándar de la capa más profunda en Inception v3. Estas etapas están más cerca de los nodos de salida que corresponden a objetos del mundo real, como una raza específica de perro o un avión, y más lejos de las poco profundas cerca de la imagen de entrada.

Variantes[editar]

Se han sugerido variantes especializadas de DIF como métrica de evaluación para algoritmos de mejora de la música como Distancia de audio Fréchet (DAF),^[5] para modelos generativos de video como Distancia de vídeo Fréchet (DVF),^[6] y para moléculas generadas por IA como Distancia Fréchet ChemNet (DFC) .^[7]

Limitaciones[editar]

Chong y Forsyth demostraron que DIF está sesgado estadísticamente, en el sentido de que su valor esperado sobre datos finitos no es su valor real. Además, debido a que DIF midió la distancia de Wasserstein hacia la distribución real del terreno, no es adecuada para evaluar la calidad de los generadores en configuraciones de adaptación de dominio o en generación de tiro cero. Finalmente, mientras que la DIF es más consistente con el juicio humano que la puntuación de inicio utilizada anteriormente, hay casos en los que la DIF es inconsistente con el juicio humano (por ejemplo, Figura 3,5 en Liu et al. ).

Referencias[editar]

↑ ^a ^b ^c Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (2017). «GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium». Advances in Neural Information Processing Systems (en inglés) 30. arXiv:1706.08500.
↑ Karras, Tero; Laine, Samuli; Aila, Timo (2020). «A Style-Based Generator Architecture for Generative Adversarial Networks». IEEE Transactions on Pattern Analysis and Machine Intelligence. PP (12): 4217-4228. PMID 32012000. arXiv:1812.04948. doi:10.1109/TPAMI.2020.2970919.
↑ Fréchet., M (1957). «Sur la distance de deux lois de probabilité.». C. R. Acad. Sci. Paris 244: 689-692.
↑ Dowson, D. C; Landau, B. V (1 de septiembre de 1982). «The Fréchet distance between multivariate normal distributions». Journal of Multivariate Analysis (en inglés) 12 (3): 450-455. ISSN 0047-259X. doi:10.1016/0047-259X(82)90077-X.
↑ Kilgour, Kevin; Zuluaga, Mauricio; Roblek, Dominik; Sharifi, Matthew (15 de septiembre de 2019). «Fréchet Audio Distance: A Reference-Free Metric for Evaluating Music Enhancement Algorithms». Interspeech 2019: 2350-2354. doi:10.21437/Interspeech.2019-2219.
↑ Unterthiner, Thomas; Steenkiste, Sjoerd van; Kurach, Karol; Marinier, Raphaël; Michalski, Marcin; Gelly, Sylvain (27 de marzo de 2019). FVD: A new Metric for Video Generation (en inglés). p. Open Review.
↑ Preuer, Kristina; Renz, Philipp; Unterthiner, Thomas; Hochreiter, Sepp; Klambauer, Günter (24 de septiembre de 2018). «Fréchet ChemNet Distance: A Metric for Generative Models for Molecules in Drug Discovery». Journal of Chemical Information and Modeling 58 (9): 1736-1741. PMID 30118593. arXiv:1803.09518. doi:10.1021/acs.jcim.8b00234.

[fid-1] Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (2017). «GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium». Advances in Neural Information Processing Systems (en inglés) 30. arXiv:1706.08500.

[stylegan1-2] Karras, Tero; Laine, Samuli; Aila, Timo (2020). «A Style-Based Generator Architecture for Generative Adversarial Networks». IEEE Transactions on Pattern Analysis and Machine Intelligence. PP (12): 4217-4228. PMID 32012000. arXiv:1812.04948. doi:10.1109/TPAMI.2020.2970919.

[3] Fréchet., M (1957). «Sur la distance de deux lois de probabilité.». C. R. Acad. Sci. Paris 244: 689-692.

[gaussian-4] Dowson, D. C; Landau, B. V (1 de septiembre de 1982). «The Fréchet distance between multivariate normal distributions». Journal of Multivariate Analysis (en inglés) 12 (3): 450-455. ISSN 0047-259X. doi:10.1016/0047-259X(82)90077-X.

[5] Kilgour, Kevin; Zuluaga, Mauricio; Roblek, Dominik; Sharifi, Matthew (15 de septiembre de 2019). «Fréchet Audio Distance: A Reference-Free Metric for Evaluating Music Enhancement Algorithms». Interspeech 2019: 2350-2354. doi:10.21437/Interspeech.2019-2219.

[6] Unterthiner, Thomas; Steenkiste, Sjoerd van; Kurach, Karol; Marinier, Raphaël; Michalski, Marcin; Gelly, Sylvain (27 de marzo de 2019). FVD: A new Metric for Video Generation (en inglés). p. Open Review.

[7] Preuer, Kristina; Renz, Philipp; Unterthiner, Thomas; Hochreiter, Sepp; Klambauer, Günter (24 de septiembre de 2018). «Fréchet ChemNet Distance: A Metric for Generative Models for Molecules in Drug Discovery». Journal of Chemical Information and Modeling 58 (9): 1736-1741. PMID 30118593. arXiv:1803.09518. doi:10.1021/acs.jcim.8b00234.

[1]

[2]

[3]

[4]

[5]

[6]

[7]