Estimación de Densidad de Kernel

En estadística, la estimación de la densidad de Kernel (KDE) es la aplicación del suavizado de kernel para la estimación de la densidad de probabilidad, es decir, un método no paramétrico para estimar la función de densidad de probabilidad de una variable aleatoria basada en kernels como pesos. KDE responde a un problema fundamental de suavizado de datos en el que se hacen inferencias sobre la población, basándose en una muestra finita de datos. En algunos campos, como el procesamiento de señales y la econometría, también se denomina método de la ventana de Parzen-Rosenblatt, en honor a Emanuel Parzen y Murray Rosenblatt, a quienes se suele atribuir su creación independiente en su forma actual.^[1]^[2]Una de las aplicaciones más conocidas de la estimación de la densidad del núcleo es la estimación de las densidades marginales condicionales de clase de los datos cuando se utiliza un clasificador Bayes ingenuo,^[3]^[4] que puede mejorar su precisión de predicción.^[3]

Definición[editar]

Sean (x1, x2, ..., xn) muestras independientes e idénticamente distribuidas extraídas de alguna distribución univariante con una densidad desconocida ƒ en cualquier punto dado x. Nos interesa estimar la forma de esta función ƒ. Su estimador de densidad kernel es

${\widehat {f}}_{h}(x)={\frac {1}{n}}\sum _{i=1}^{n}K_{h}(x-x_{i})={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},$

Donde K es el núcleo (una función no negativa) y h > 0 es un parámetro de suavizado denominado ancho de banda. Un kernel con el subíndice h se denomina kernel escalado y se define como Kh(x) = 1/h K(x/h). Intuitivamente, uno quiere elegir h tan pequeño como permitan los datos; sin embargo, siempre hay un compromiso entre el sesgo del estimador y su varianza. La elección del ancho de banda se analiza con más detalle a continuación.

Se suele utilizar una serie de funciones de kernel: uniforme, triangular, biponderada, triponderada, Epanechnikov, normal y otras. El kernel de Epanechnikov es óptimo en el sentido del error cuadrático medio,^[5] aunque la pérdida de eficiencia es pequeña para los kernels enumerados anteriormente.^[6] Debido a sus convenientes propiedades matemáticas, a menudo se utiliza el kernel normal, que significa K(x) = ϕ(x), donde ϕ es la función de densidad normal estándar.

La construcción de una estimación de densidad de núcleo encuentra interpretaciones en campos ajenos a la estimación de densidad.^[7] Por ejemplo, en termodinámica, equivale a la cantidad de calor generada cuando se colocan kernel de calor (la solución fundamental de la ecuación del calor) en cada ubicación de punto de datos xi. Se utilizan métodos similares para construir operadores discretos de Laplace en nubes de puntos para el aprendizaje de variedades (por ejemplo, el mapa de difusión).

Ejemplo[editar]

Las estimaciones de densidad de kernel están estrechamente relacionadas con los histogramas, pero pueden dotarse de propiedades como la suavidad o la continuidad mediante el uso de un kernel adecuado. El siguiente diagrama basado en estos 6 puntos de datos ilustra esta relación:


Muestra	1	2	3	4	5	6
Valor	-2.1	-1.3	-0.4	1.9	5.1	6.2

Para el histograma, primero se divide el eje horizontal en subintervalos o "bins" que cubren el intervalo de los datos: En este caso, seis intervalos de 2. Cada vez que un dato cae dentro de este intervalo, se coloca en él una caja de 1/12 de altura. Si hay más de un dato dentro del mismo intervalo, las cajas se apilan unas encima de otras.

Para la estimación de la densidad del núcleo, se colocan núcleos normales con una desviación estándar de 1,5 (indicados por las líneas discontinuas rojas) en cada uno de los puntos de datos xi. Los núcleos se suman para obtener la estimación de la densidad del núcleo (curva azul continua). La suavidad de la estimación de la densidad del kernel (en comparación con la discreción del histograma) ilustra cómo las estimaciones de la densidad del kernel convergen más rápidamente a la verdadera densidad subyacente para variables aleatorias continuas.^[8]

Selección de ancho de banda[editar]

El ancho de banda del kernel es un parámetro libre que influye mucho en la estimación resultante. Para ilustrar su efecto, tomamos una muestra aleatoria simulada de la distribución normal estándar (representada en los picos azules del rug plot en el eje horizontal). La curva gris es la densidad real (una densidad normal con media 0 y varianza 1). En comparación, la curva roja está poco suavizada, ya que contiene demasiados datos espurios debido a la utilización de un ancho de banda h = 0,05, que es demasiado pequeño. La curva verde está demasiado suavizada, ya que el ancho de banda h = 2 oculta gran parte de la estructura subyacente. La curva negra con un ancho de banda de h = 0,337 se considera óptimamente suavizada, ya que su estimación de la densidad se aproxima a la densidad real. Una situación extrema se da en el límite $h\to 0$ (sin suavizado), donde la estimación es una suma de n funciones delta centradas en las coordenadas de las muestras analizadas. En el otro límite extremo $h\to \infty$ la estimación conserva la forma del núcleo utilizado, centrada en la media de las muestras (completamente lisa).

El criterio de optimalidad más utilizado para seleccionar este parámetro es la función de riesgo L2 esperado, también denominada error cuadrático medio integrado:

$\operatorname {MISE} (h)=\operatorname {E} \!\left[\,\int ({\hat {f}}_{h}(x)-f(x))^{2}\,dx\right]$

Bajo supuestos débiles sobre ƒ y K, (ƒ es la función de densidad real, generalmente desconocida),^[1]^[2]

$\operatorname {MISE} (h)=\operatorname {AMISE} (h)+{\mathcal {o}}((nh)^{-1}+h^{4})$

donde o es la notación o pequeña, y n el tamaño de la muestra (como arriba). El AMISE es el MISE asintótico, es decir, los dos términos principales,

$\operatorname {AMISE} (h)={\frac {R(K)}{nh}}+{\frac {1}{4}}m_{2}(K)^{2}h^{4}R(f'')$

Donde $R(g)=\int g(x)^{2}\,dx$ para una función g, $m_{2}(K)=\int x^{2}K(x)\,dx$ y $f''$ es la segunda derivada de $f$ y $K$ es el kernel. El mínimo de este AMISE es la solución de esta ecuación diferencial.

${\frac {\partial }{\partial h}}\operatorname {AMISE} (h)=-{\frac {R(K)}{nh^{2}}}+m_{2}(K)^{2}h^{3}R(f'')=0$

o

$h_{\operatorname {AMISE} }={\frac {R(K)^{1/5}}{m_{2}(K)^{2/5}R(f'')^{1/5}}}n^{-1/5}=Cn^{-1/5}$

Ni las fórmulas AMISE ni las hAMISE pueden utilizarse directamente, ya que implican la función de densidad desconocida $f$ o su segunda derivada $f''$ . Para superar esa dificultad, se han desarrollado diversos métodos automáticos basados en datos para seleccionar el ancho de banda. Se han realizado varios estudios de revisión para comparar su eficacia,^[9]^[10]^[11]^[12]^[13]^[14]^[15] con el consenso general de que los selectores de complemento^[7]^[16]^[17] y los selectores de validación cruzada^[18]^[19]^[20] son los más útiles en una amplia gama de conjuntos de datos.

Sustituyendo cualquier ancho de banda h que tenga el mismo orden asintótico n^-1/5 que h_AMISE en el AMISE se obtiene que AMISE(h) = O(n^-4/5), donde O es la notación big o. Puede demostrarse que, bajo supuestos débiles, no puede existir un estimador no paramétrico que converja a un ritmo más rápido que el estimador kernel.^[21] Obsérvese que el ritmo n^-4/5 es más lento que el típico ritmo de convergencia n^-1 de los métodos paramétricos.

Si el ancho de banda no se mantiene fijo, sino que varía en función de la ubicación de la estimación (estimador de globo) o de las muestras (estimador puntual), se obtiene un método especialmente potente denominado estimación de densidad kernel adaptativa o de ancho de banda variable.

La selección del ancho de banda para la estimación de la densidad del kernel de distribuciones con colas gruesas es relativamente difícil.^[22]

Un estimador de ancho de banda basado en reglas empíricas[editar]

Si se utilizan funciones de base gaussiana para aproximar datos univariantes, y la densidad subyacente que se estima es gaussiana, la elección óptima para h (es decir, el ancho de banda que minimiza el error cuadrático medio integrado) es:^[23]

$h=\left({\frac {4{\hat {\sigma }}^{5}}{3n}}\right)^{\frac {1}{5}}\approx 1.06\,{\hat {\sigma }}\,n^{-1/5},$

Un valor $h$ se considera más robusto cuando mejora el ajuste para distribuciones de cola larga y sesgadas o para distribuciones de mezcla bimodales. Esto suele hacerse empíricamente sustituyendo la desviación típica ${\hat {\sigma }}$ por el parámetro $A$ a continuación:

$A=\min \left({\hat {\sigma }},{\frac {IQR}{1.34}}\right)$ donde IQR es el rango intercuartílico.

Otra modificación que mejorará el modelo es reducir el factor de 1,06 a 0,9. Entonces la fórmula final sería:

$h=0.9\,\min \left({\hat {\sigma }},{\frac {IQR}{1.34}}\right)\,n^{-{\frac {1}{5}}}$

Esta aproximación se denomina aproximación de distribución normal, aproximación gaussiana o regla empírica de Silverman.^[23] Aunque esta regla empírica es fácil de calcular, debe utilizarse con precaución, ya que puede dar lugar a estimaciones muy imprecisas cuando la densidad no se aproxima a la normalidad. Por ejemplo, al estimar el modelo de mezcla gaussiana bimodal:

${\frac {1}{2{\sqrt {2\pi }}}}e^{-{\frac {1}{2}}(x-10)^{2}}+{\frac {1}{2{\sqrt {2\pi }}}}e^{-{\frac {1}{2}}(x+10)^{2}}$

a partir de una muestra de 200 puntos, la figura de la derecha muestra la densidad real y dos estimaciones de densidad kernel: una que utiliza el ancho de banda de la regla empírica y otra que utiliza el ancho de banda de la solución de la ecuación.^[7]^[17] La estimación basada en el ancho de banda de la regla empírica está muy suavizada.

Relación con el estimador de densidad de la función característica[editar]

Dada la muestra (x1, x2, ..., xn), es natural estimar la función característica φ(t) = E[e^itX] como:

${\widehat {\varphi }}(t)={\frac {1}{n}}\sum _{j=1}^{n}e^{itx_{j}}$

Conociendo la función característica, es posible hallar la correspondiente función de densidad de probabilidad mediante la fórmula de la transformada de Fourier. Una dificultad de la aplicación de esta fórmula de inversión es que conduce a una integral divergente, ya que la estimación $\scriptstyle {\widehat {\varphi }}(t)$ no es fiable para t's grandes. Para evitar este problema, el estimador $\scriptstyle {\widehat {\varphi }}(t)$ se multiplica por una función de amortiguación ψ_h(t) = ψ(ht) , que es igual a 1 en el origen y luego cae a 0 en el infinito. El "parámetro de ancho de banda" h controla la rapidez con la que intentamos amortiguar la función $\scriptstyle {\widehat {\varphi }}(t)$ . En particular, cuando h es pequeño, entonces ψ_h(t) será aproximadamente uno para un amplio rango de t's, lo que significa que $\scriptstyle {\widehat {\varphi }}(t)$ permanece prácticamente inalterado en la región más importante de t's.

La elección más común para la función ψ es la función uniforme ψ(t) = 1{−1 ≤ t ≤ 1}, lo que significa truncar el intervalo de integración en la fórmula de inversión a [−1/h, 1/h] o la función gaussiana ψ (t) = e^πt2. Una vez elegida la función ψ, se puede aplicar la fórmula de inversión, y el estimador de densidad será:

${\begin{aligned}{\widehat {f}}(x)&={\frac {1}{2\pi }}\int _{-\infty }^{+\infty }{\widehat {\varphi }}(t)\psi _{h}(t)e^{-itx}\,dt={\frac {1}{2\pi }}\int _{-\infty }^{+\infty }{\frac {1}{n}}\sum _{j=1}^{n}e^{it(x_{j}-x)}\psi (ht)\,dt\\[5pt]&={\frac {1}{nh}}\sum _{j=1}^{n}{\frac {1}{2\pi }}\int _{-\infty }^{+\infty }e^{-i(ht){\frac {x-x_{j}}{h}}}\psi (ht)\,d(ht)={\frac {1}{nh}}\sum _{j=1}^{n}K{\Big (}{\frac {x-x_{j}}{h}}{\Big )},\end{aligned}}$

donde K es la transformada de Fourier de la función de amortiguación ψ. Así pues, el estimador de densidad kernel coincide con el estimador de densidad de función característica.

Características geométricas y topológicas[editar]

Podemos ampliar la definición del modo (global) a un sentido local y definir los modos locales:

$M=\{x:g(x)=0,\lambda _{1}(x)<0\}$

Concretamente, $M$ es la colección de puntos para los que la función de densidad se maximiza localmente. Un estimador natural de $M$ es un plug-in de KDE,^[24]^[25] donde $g(x)$ y $\lambda _{1}(x)$ son la versión KDE de $g(x)$ y $\lambda _{1}(x)$ . Bajo suposiciones suaves, $M_{c}$ es un estimador coherente de $M$ . Obsérvese que se puede utilizar el algoritmo de desplazamiento de la media^[26] ^[27]^[28]para calcular el estimador $M_{c}$ numéricamente.

Aplicación estadística[editar]

Una lista no exhaustiva de implementaciones de software de estimadores de densidad kernel incluye:

En la versión 4.4 de Analytica, la opción de suavizado para resultados PDF utiliza KDE, y a partir de las expresiones está disponible a través de la función Pdf incorporada.
En C/C++, FIGTree es una biblioteca que puede utilizarse para calcular estimaciones de densidad de núcleos utilizando núcleos normales. Interfaz MATLAB disponible.
En C++, libagf es una biblioteca para la estimación de la densidad del kernel variable.
En C++, mlpack es una biblioteca que puede calcular KDE utilizando muchos núcleos diferentes. Permite establecer una tolerancia de error para un cálculo más rápido. Dispone de interfaces para Python y R.
en C# y F#, Math.NET Numerics es una biblioteca de código abierto para cálculo numérico que incluye la estimación de la densidad del kernel.
En CrimeStat, la estimación de la densidad del núcleo se implementa utilizando cinco funciones de núcleo diferentes: normal, uniforme, cuártica, exponencial negativa y triangular. Se dispone de rutinas de estimación de densidad de núcleo simple y doble. La estimación de la densidad del núcleo también se utiliza en la interpolación de una rutina Head Bang, en la estimación de una función de densidad bidimensional Journey-to-crime y en la estimación de una estimación Bayesiana Journey-to-crime tridimensional.
En ELKI, las funciones de densidad del núcleo se encuentran en el paquete de.lmu.ifi.dbs.elki.math.statistics.kernelfunctions
En los productos ESRI, la cartografía de densidad de kernel se gestiona fuera de la caja de herramientas Spatial Analyst y utiliza el kernel Quartic(biweight).
En Excel, la Royal Society of Chemistry ha creado un complemento para la estimación de la densidad del núcleo basado en su Informe Técnico 4 del Comité de Métodos Analíticos.
En gnuplot, la estimación de la densidad kernel se implementa mediante la opción smooth kdensity, el fichero de datos puede contener un peso y un ancho de banda para cada punto, o el ancho de banda puede establecerse automáticamente^[29] según la "regla empírica de Silverman" (véase más arriba).
En Haskell, la densidad del núcleo se implementa en el paquete statistics.
En IGOR Pro, la estimación de la densidad del kernel se implementa mediante la operación StatsKDE (añadida en Igor Pro 7.00). El ancho de banda puede ser especificado por el usuario o estimado mediante Silverman, Scott o Bowmann y Azzalini. Los tipos de núcleo son: Epanechnikov, Bi-peso, Tri-peso, Triangular, Gaussiano y Rectangular.
En Java, el paquete de aprendizaje automático Weka proporciona weka.estimators.KernelEstimator, entre otros.
En JavaScript, el paquete de visualización D3.js ofrece un paquete KDE en su paquete science.stats.
En el JMP, la plataforma Graph Builder utiliza la estimación de densidad kernel para proporcionar gráficos de contorno y regiones de alta densidad (HDR) para densidades bivariantes, y gráficos de violín y HDR para densidades univariantes. Los controles deslizantes permiten al usuario variar el ancho de banda. Las plataformas Ajustar Y por X y Distribución también proporcionan estimaciones de densidad de kernel bivariantes y univariantes, respectivamente.
En Julia, la estimación de la densidad del kernel se implementa en el paquete KernelDensity.jl.
En KNIME, las distribuciones 1D y 2D Kernel Density pueden ser generadas y trazadas usando nodos de la contribución de la comunidad Vernalis, por ejemplo 1D Kernel Density Plot, entre otros. La implementación subyacente está escrita en Java.
En MATLAB, la estimación de la densidad del kernel se implementa a través de la función ksdensity (Statistics Toolbox). A partir de la versión 2018a de MATLAB, se pueden especificar tanto el ancho de banda como el suavizador del kernel, incluyendo otras opciones como especificar el rango de la densidad del kernel.^[30] Alternativamente, en el MATLAB Central File Exchange está disponible un paquete de software gratuito de MATLAB que implementa un método de selección automática del ancho de banda^[7] para:
- Datos unidimensionales
- Datos bidimensionales
- datos de n dimensiones

En estas páginas está disponible una caja de herramientas MATLAB gratuita con la implementación de la regresión kernel, la estimación de la densidad kernel, la estimación kernel de la función de riesgo y muchas otras (esta caja de herramientas forma parte del libro)^[31].

En Mathematica, la estimación numérica de la densidad del kernel se implementa mediante la función SmoothKernelDistribution^[32] y la estimación simbólica se implementa mediante la función KernelMixtureDistribution^[33], las cuales proporcionan anchos de banda en función de los datos.
En Minitab, la Royal Society of Chemistry ha creado una macro para ejecutar la estimación de densidad de kernel basada en su Informe técnico 4 del Comité de Métodos Analíticos^[34].
En la Biblioteca NAG, la estimación de la densidad del kernel se implementa mediante la rutina g10ba (disponible tanto en la versión Fortran^[35] como en la versión C^[36] de la Biblioteca).
En Nuklei, los métodos de densidad de núcleo C++ se centran en los datos del grupo euclidiano especial $SE(3)$
En Octave, la estimación de la densidad kernel se implementa mediante la opción kernel_density (paquete econometrics).
En Origin, el gráfico de densidad de kernel 2D puede realizarse desde su interfaz de usuario, y dos funciones, Ksdensity para 1D y Ks2density para 2D pueden utilizarse desde su código LabTalk, Python o C.
En Perl, puede encontrarse una implementación en el módulo Statistics-KernelEstimation.
En PHP, se puede encontrar una implementación en la biblioteca MathPHP
En Python, existen muchas implementaciones: pyqt_fit.kde Module en el paquete PyQt-Fit, SciPy (scipy.stats.gaussian_kde), Statsmodels (KDEUnivariate y KDEMultivariate) y scikit-learn (KernelDensity) (véase la comparación)^[37]. KDEpy soporta datos ponderados y su implementación FFT es órdenes de magnitud más rápida que las otras implementaciones. La biblioteca pandas de uso común^[1] ofrece soporte para el trazado kde a través del método plot (df.plot(kind='kde'))^[2]). El paquete getdist para muestras MCMC ponderadas y correlacionadas admite ancho de banda optimizado, corrección de límites y métodos de orden superior para distribuciones 1D y 2D. Un paquete utilizado recientemente para la estimación de la densidad del núcleo es seaborn (import seaborn as sns , sns.kdeplot())^[38] También existe una implementación de KDE en la GPU.^[39]
En R, se implementa a través de la density en la distribución base, y la función bw.nrd0 se utiliza en el paquete stats, esta función utiliza la fórmula optimizada en el libro de Silverman. bkde en la biblioteca KernSmooth, ParetoDensityEstimation en la biblioteca DataVisualizations (para la estimación de la densidad de la distribución pareto), kde en la biblioteca ks, kde y dbckden en la biblioteca evmix (esta última para la estimación de la densidad del kernel con corrección de límites para soporte acotado), npudens en la biblioteca np (datos numéricos y categóricos), sm.density en la biblioteca sm. Para una implementación de la función kde.R, que no requiere la instalación de ningún paquete o biblioteca, véase kde.R. La biblioteca btb, dedicada al análisis urbano, implementa la estimación de densidad kernel mediante kernel_smoothing.
En SAS, proc kde puede utilizarse para estimar densidades kernel univariantes y bivariantes.
En Apache Spark, la clase KernelDensity()()^[40]
En Stata, se implementa a través de kdensity;^[41] por ejemplo histogram x, kdensity. Alternativamente, existe un módulo gratuito de Stata, KDENS^[42], que permite al usuario estimar funciones de densidad 1D o 2D.
En Swift, se implementa a través de SwiftStats.KernelDensityEstimation en la biblioteca estadística de código abierto.

Véase también[editar]

Kernel (estadísticas)
Desplazamiento cuadrático medio
Escala (espacial) : Las tripletas {(x, h, KDE con ancho de banda h evaluado en x: todo x, h > 0} forman una representación de espacio de escala de los datos.
Cola (informática)

Lectura adicional[editar]

Härdle, Müller, Sperlich, Werwatz, Nonparametric and Semiparametric Methods, Springer-Verlag Berlin Heidelberg 2004, pp. 39–83

Referencias[editar]

↑ ^a ^b ^c Rosenblatt, Murray (1956-09). «Remarks on Some Nonparametric Estimates of a Density Function». The Annals of Mathematical Statistics 27 (3): 832-837. ISSN 0003-4851. doi:10.1214/aoms/1177728190. Consultado el 27 de marzo de 2024.
↑ ^a ^b ^c Parzen, Emanuel (1962-09). «On Estimation of a Probability Density Function and Mode». The Annals of Mathematical Statistics 33 (3): 1065-1076. ISSN 0003-4851. doi:10.1214/aoms/1177704472. Consultado el 27 de marzo de 2024.
↑ ^a ^b Piryonesi S. Madeh; El-Diraby Tamer E. (2020). «Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems"». Journal of Transportation Engineering, Part B: Pavements. doi:10.1061/JPEODX.0000175.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2001). «The Elements of Statistical Learning : Data Mining, Inference, and Prediction : with 200 full-color illustrations.». New York: Springer. ISBN 0-387-95284-5.
↑ Epanechnikov, V.A. (1969). «"Non-parametric estimation of a multivariate probability density"». Theory of Probability and Its Applications. doi:10.1137/1114019.
↑ Wand, M.P; Jones, M.C. (1995). «Kernel Smoothing». London: Chapman & Hall/CRC. ISBN 978-0-412-55270-0.
↑ ^a ^b ^c ^d «UQ eSpace». espace.library.uq.edu.au. Consultado el 27 de marzo de 2024.
↑ Scott, D. (1979). «On optimal and data-based histograms». Biometrika. doi:10.1093/biomet/66.3.605.
↑ Park, B.U.; Marron, J.S. (1990). «Comparison of data-driven bandwidth selectors». Journal of the American Statistical Association. doi:10.1080/01621459.1990.10475307.
↑ Park, Byeong; Turlach, Berwin (1 de enero de 1992). «Practical performance of several data driven bandwidth selectors». LIDAM Discussion Papers CORE (en inglés). Consultado el 28 de marzo de 2024.
↑ Cao, R.; Cuevas, A.; Manteiga, W. G. (1994). «"A comparative study of several smoothing methods in density estimation"». Computational Statistics and Data Analysis. doi:10.1016/0167-9473(92)00066-Z.
↑ Jones, M.C.; Marron, J.S.; Sheather, S. J.45 (1996). «"A brief survey of bandwidth selection for density estimation".». Journal of the American Statistical Association. doi:10.2307/2291420.
↑ Sheather, S.J. (1992). «"The performance of six popular bandwidth selection methods on some real data sets (with discussion)"». Computational Statistics.
↑ Agarwal, N.; Aluru, N.R. (2010). «A data-driven stochastic collocation approach for uncertainty quantification in MEMS». International Journal for Numerical Methods in Engineering. doi:10.1002/nme.2844.
↑ Xu, X.; Yan, Z.; Xu, S. (2015). «Estimating wind speed probability distribution by diffusion-based kernel density method». Electric Power Systems Research. doi:10.1016/j.epsr.2014.11.029.
↑ Botev, Z.I.; Grotowski, J.F.; Kroese, D.P. (2010). «Kernel density estimation via diffusion». Annals of Statistics. doi:10.1214/10-AOS799.
↑ ^a ^b Sheather, S.J.; Jones, M.C. (1991). «A reliable data-based bandwidth selection method for kernel density estimation». Journal of the Royal Statistical Society, Series B. doi:10.1111/j.2517-6161.1991.tb01857.x.
↑ Rudemo, M. (1982). «"Empirical choice of histograms and kernel density estimators".». Scandinavian Journal of Statistics.
↑ Bowman, A.W. (1984). «"An alternative method of cross-validation for the smoothing of density estimates"». Biometrika. doi:10.1093/biomet/71.2.353.
↑ Hall, Peter; Marron, J. S.; Park, Byeong U. (1 de marzo de 1992). «Smoothed cross-validation». Probability Theory and Related Fields (en inglés) 92 (1): 1-20. ISSN 1432-2064. doi:10.1007/BF01205233. Consultado el 28 de marzo de 2024.
↑ Wahba, G. (1975). «"Optimal convergence properties of variable knot, kernel, and orthogonal series methods for density estimation"». Annals of Statistics. doi:10.1214/aos/1176342997.
↑ Buch-Larsen, TINE (2005). «"Kernel density estimation for heavy-tailed distributions using the Champernowne transformation"». Statistics. doi:10.1080/02331880500439782.
↑ ^a ^b Internet Archive (1998). Density estimation for statistics and data analysis. Chapman & Hall/CRC. ISBN 978-0-412-24620-3. Consultado el 28 de marzo de 2024.
↑ Chen, Yen-Chi; Genovese, Christopher R.; Wasserman, Larry (2016). «A comprehensive approach to mode clustering». Electronic Journal of Statistics. doi:10.1214/15-ejs1102.
↑ Chazal, Frédéric; Fasy, Brittany Terese; Lecci, Fabrizio; Rinaldo, Alessandro; Wasserman, Larry (13 de marzo de 2015). «Stochastic convergence of persistence landscapes and silhouettes». Journal of Computational Geometry (en inglés) 6 (2): 140-161. ISSN 1920-180X. doi:10.20382/jocg.v6i2a8. Consultado el 29 de marzo de 2024.
↑ Fukunaga, K.; Hostetler, L. (1975). «"The estimation of the gradient of a density function, with applications in pattern recognition"». IEEE Transactions on Information Theory. ISSN 0018-9448. doi:10.1109/tit.1975.1055330.
↑ Yizong Cheng (1995). «"Mean shift, mode seeking, and clustering"». IEEE Transactions on Pattern Analysis and Machine Intelligence. ISSN 0162-8828. doi:10.1109/34.400568.
↑ Comaniciu, D.; Meer, P. (2002). «"Mean shift: a robust approach toward feature space analysis".». IEEE Transactions on Pattern Analysis and Machine Intelligence. ISSN 0162-8828. doi:10.1109/34.1000236.
↑ Janert, Philipp K (2009). «Gnuplot in action : understanding data with graphs». Connecticut, USA: Manning Publications. ISBN 978-1-933988-39-9.
↑ «Kernel smoothing function estimate for univariate and bivariate data - MATLAB ksdensity». www.mathworks.com. Consultado el 29 de marzo de 2024.
↑ Horová, I.; Koláček, J.; Zelinka, J. (2012). «Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing.». Singapore: World Scientific Publishing. ISBN 978-981-4405-48-5.
↑ «SmoothKernelDistribution—Wolfram Language Documentation». reference.wolfram.com. Consultado el 29 de marzo de 2024.
↑ «KernelMixtureDistribution—Wolfram Language Documentation». reference.wolfram.com. Consultado el 29 de marzo de 2024.
↑ «Analytical Science Community». Royal Society of Chemistry (en inglés británico). Consultado el 29 de marzo de 2024.
↑ The Numerical Algorithms Group (2012). "NAG Library Routine Document: nagf_smooth_kerndens_gauss (g10baf).
↑ The Numerical Algorithms Group (2011). «"NAG Library Routine Document: nag_kernel_density_estim (g10bac)». NAG Library Manual, Mark 9.
↑ «Kernel Density Estimation in Python | Pythonic Perambulations». jakevdp.github.io. Consultado el 29 de marzo de 2024.
↑ «seaborn.kdeplot — seaborn 0.13.2 documentation». seaborn.pydata.org. Consultado el 29 de marzo de 2024.
↑ kde-gpu: We implemented nadaraya waston kernel density and kernel conditional probability estimator using cuda through cupy. It is much faster than cpu version but it requires GPU with high memory., consultado el 29 de marzo de 2024 .
↑ «Basic Statistics - RDD-based API - Spark 3.5.1 Documentation». spark.apache.org. Consultado el 29 de marzo de 2024.
↑ https://www.stata.com/manuals15/rkdensity.pdf.
↑ Jann, Ben (26 de mayo de 2008). «KDENS: Stata module for univariate kernel density estimation». Statistical Software Components (en inglés). Consultado el 29 de marzo de 2024.

Enlaces externos[editar]

Introduction to kernel density estimation A short tutorial which motivates kernel density estimators as an improvement over histograms.
Kernel Bandwidth Optimization A free online tool that generates an optimized kernel density estimate.
Free Online Software (Calculator) computes the Kernel Density Estimation for a data series according to the following Kernels: Gaussian, Epanechnikov, Rectangular, Triangular, Biweight, Cosine, and Optcosine.
Kernel Density Estimation Applet An online interactive example of kernel density estimation. Requires .NET 3.0 or later.

[:1-1] Rosenblatt, Murray (1956-09). «Remarks on Some Nonparametric Estimates of a Density Function». The Annals of Mathematical Statistics 27 (3): 832-837. ISSN 0003-4851. doi:10.1214/aoms/1177728190. Consultado el 27 de marzo de 2024.

[:2-2] Parzen, Emanuel (1962-09). «On Estimation of a Probability Density Function and Mode». The Annals of Mathematical Statistics 33 (3): 1065-1076. ISSN 0003-4851. doi:10.1214/aoms/1177704472. Consultado el 27 de marzo de 2024.

[:0-3] Piryonesi S. Madeh; El-Diraby Tamer E. (2020). «Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems"». Journal of Transportation Engineering, Part B: Pavements. doi:10.1061/JPEODX.0000175.

[4] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2001). «The Elements of Statistical Learning : Data Mining, Inference, and Prediction : with 200 full-color illustrations.». New York: Springer. ISBN 0-387-95284-5.

[5] Epanechnikov, V.A. (1969). «"Non-parametric estimation of a multivariate probability density"». Theory of Probability and Its Applications. doi:10.1137/1114019.

[6] Wand, M.P; Jones, M.C. (1995). «Kernel Smoothing». London: Chapman & Hall/CRC. ISBN 978-0-412-55270-0.

[:3-7] «UQ eSpace». espace.library.uq.edu.au. Consultado el 27 de marzo de 2024.

[8] Scott, D. (1979). «On optimal and data-based histograms». Biometrika. doi:10.1093/biomet/66.3.605.

[9] Park, B.U.; Marron, J.S. (1990). «Comparison of data-driven bandwidth selectors». Journal of the American Statistical Association. doi:10.1080/01621459.1990.10475307.

[10] Park, Byeong; Turlach, Berwin (1 de enero de 1992). «Practical performance of several data driven bandwidth selectors». LIDAM Discussion Papers CORE (en inglés). Consultado el 28 de marzo de 2024.

[11] Cao, R.; Cuevas, A.; Manteiga, W. G. (1994). «"A comparative study of several smoothing methods in density estimation"». Computational Statistics and Data Analysis. doi:10.1016/0167-9473(92)00066-Z.

[12] Jones, M.C.; Marron, J.S.; Sheather, S. J.45 (1996). «"A brief survey of bandwidth selection for density estimation".». Journal of the American Statistical Association. doi:10.2307/2291420.

[13] Sheather, S.J. (1992). «"The performance of six popular bandwidth selection methods on some real data sets (with discussion)"». Computational Statistics.

[14] Agarwal, N.; Aluru, N.R. (2010). «A data-driven stochastic collocation approach for uncertainty quantification in MEMS». International Journal for Numerical Methods in Engineering. doi:10.1002/nme.2844.

[15] Xu, X.; Yan, Z.; Xu, S. (2015). «Estimating wind speed probability distribution by diffusion-based kernel density method». Electric Power Systems Research. doi:10.1016/j.epsr.2014.11.029.

[16] Botev, Z.I.; Grotowski, J.F.; Kroese, D.P. (2010). «Kernel density estimation via diffusion». Annals of Statistics. doi:10.1214/10-AOS799.

[:4-17] Sheather, S.J.; Jones, M.C. (1991). «A reliable data-based bandwidth selection method for kernel density estimation». Journal of the Royal Statistical Society, Series B. doi:10.1111/j.2517-6161.1991.tb01857.x.

[18] Rudemo, M. (1982). «"Empirical choice of histograms and kernel density estimators".». Scandinavian Journal of Statistics.

[19] Bowman, A.W. (1984). «"An alternative method of cross-validation for the smoothing of density estimates"». Biometrika. doi:10.1093/biomet/71.2.353.

[20] Hall, Peter; Marron, J. S.; Park, Byeong U. (1 de marzo de 1992). «Smoothed cross-validation». Probability Theory and Related Fields (en inglés) 92 (1): 1-20. ISSN 1432-2064. doi:10.1007/BF01205233. Consultado el 28 de marzo de 2024.

[21] Wahba, G. (1975). «"Optimal convergence properties of variable knot, kernel, and orthogonal series methods for density estimation"». Annals of Statistics. doi:10.1214/aos/1176342997.

[22] Buch-Larsen, TINE (2005). «"Kernel density estimation for heavy-tailed distributions using the Champernowne transformation"». Statistics. doi:10.1080/02331880500439782.

[:5-23] Internet Archive (1998). Density estimation for statistics and data analysis. Chapman & Hall/CRC. ISBN 978-0-412-24620-3. Consultado el 28 de marzo de 2024.

[24] Chen, Yen-Chi; Genovese, Christopher R.; Wasserman, Larry (2016). «A comprehensive approach to mode clustering». Electronic Journal of Statistics. doi:10.1214/15-ejs1102.

[25] Chazal, Frédéric; Fasy, Brittany Terese; Lecci, Fabrizio; Rinaldo, Alessandro; Wasserman, Larry (13 de marzo de 2015). «Stochastic convergence of persistence landscapes and silhouettes». Journal of Computational Geometry (en inglés) 6 (2): 140-161. ISSN 1920-180X. doi:10.20382/jocg.v6i2a8. Consultado el 29 de marzo de 2024.

[26] Fukunaga, K.; Hostetler, L. (1975). «"The estimation of the gradient of a density function, with applications in pattern recognition"». IEEE Transactions on Information Theory. ISSN 0018-9448. doi:10.1109/tit.1975.1055330.

[27] Yizong Cheng (1995). «"Mean shift, mode seeking, and clustering"». IEEE Transactions on Pattern Analysis and Machine Intelligence. ISSN 0162-8828. doi:10.1109/34.400568.

[28] Comaniciu, D.; Meer, P. (2002). «"Mean shift: a robust approach toward feature space analysis".». IEEE Transactions on Pattern Analysis and Machine Intelligence. ISSN 0162-8828. doi:10.1109/34.1000236.

[29] Janert, Philipp K (2009). «Gnuplot in action : understanding data with graphs». Connecticut, USA: Manning Publications. ISBN 978-1-933988-39-9.

[30] «Kernel smoothing function estimate for univariate and bivariate data - MATLAB ksdensity». www.mathworks.com. Consultado el 29 de marzo de 2024.

[31] Horová, I.; Koláček, J.; Zelinka, J. (2012). «Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing.». Singapore: World Scientific Publishing. ISBN 978-981-4405-48-5.

[32] «SmoothKernelDistribution—Wolfram Language Documentation». reference.wolfram.com. Consultado el 29 de marzo de 2024.

[33] «KernelMixtureDistribution—Wolfram Language Documentation». reference.wolfram.com. Consultado el 29 de marzo de 2024.

[34] «Analytical Science Community». Royal Society of Chemistry (en inglés británico). Consultado el 29 de marzo de 2024.

[35] The Numerical Algorithms Group (2012). "NAG Library Routine Document: nagf_smooth_kerndens_gauss (g10baf).

[36] The Numerical Algorithms Group (2011). «"NAG Library Routine Document: nag_kernel_density_estim (g10bac)». NAG Library Manual, Mark 9.

[37] «Kernel Density Estimation in Python | Pythonic Perambulations». jakevdp.github.io. Consultado el 29 de marzo de 2024.

[38] «seaborn.kdeplot — seaborn 0.13.2 documentation». seaborn.pydata.org. Consultado el 29 de marzo de 2024.

[39] kde-gpu: We implemented nadaraya waston kernel density and kernel conditional probability estimator using cuda through cupy. It is much faster than cpu version but it requires GPU with high memory., consultado el 29 de marzo de 2024 .

[40] «Basic Statistics - RDD-based API - Spark 3.5.1 Documentation». spark.apache.org. Consultado el 29 de marzo de 2024.

[41] https://www.stata.com/manuals15/rkdensity.pdf.

[42] Jann, Ben (26 de mayo de 2008). «KDENS: Stata module for univariate kernel density estimation». Statistical Software Components (en inglés). Consultado el 29 de marzo de 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]