Estadística descriptiva

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda
Mapa de Charles Minard (1869) que muestra el movimiento, las pérdidas humanas y la temperatura ambiental durante la campaña de Napoleón contra Rusia en 1812.

La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar el uso, generalmente con el apoyo de tablas, medidas numéricas o gráficas. Estas técnicas son utilizadas en el proceso de investigación, en la etapa donde el investigador necesita procesar y analizar los datos recolectados en dicho estudio.

El término estadística descriptiva (en el sentido de contar sustantivos contables) es una técnica matemática que describe o resume cuantitativamente las características de una colección de información,[1]​ mientras que también puede emplearse el mismo término (en el sentido de contabilizar sustantivos no numerables) para el proceso de usar y analizar esas técnicas y resultados.

La estadística descriptiva se distingue de la estadística inferencial (o estadística inductiva) por su objetivo de resumir una muestra, en lugar de utilizar los datos para aprender sobre la población que se cree que representa la muestra de datos.[2]​ Esto generalmente significa que las estadísticas descriptivas, a diferencia de las estadísticas inferenciales, no se desarrollan sobre la base de la teoría de la probabilidad y, con frecuencia, son estadísticas no paramétricas.[3]​ Incluso cuando un análisis de datos extrae sus principales conclusiones utilizando estadísticas inferenciales, generalmente también se presentan estadísticas descriptivas.[2]​ Por ejemplo, en los artículos que informan sobre sujetos humanos, normalmente se incluye una tabla con el tamaño de la muestra general, los tamaños de la muestra en subgrupos importantes (por ejemplo, para cada tratamiento o grupo de exposición) y características demográficas o clínicas, como la edad promedio, la proporción de sujetos de cada sexo, la proporción de sujetos con comorbilidades relacionadas, etc.

Algunas medidas que se emplean comúnmente para describir un conjunto de datos son las medidas de tendencia central y las medidas de variabilidad o dispersión. Las medidas de tendencia central incluyen la media, la mediana y la moda, mientras que las medidas de variabilidad incluyen la desviación estándar (o varianza), los valores mínimo y máximo de las variables, la curtosis y la asimetría.[4]

Historia de la estadística descriptiva[editar]

Los primeros estudios estadísticos que se hacían eran los censos, que son estudios descriptivos sobre todos los integrantes de una población. La elaboración de censos comenzó en la Edad Antigua, y sigue dándose en nuestros días. La Historia ofrece gran cantidad de ejemplos de actividad estadística. En antiguas civilizaciones como Babilonia, Egipto, China, Roma etc. era normal que se elaboraran recuentos de la población. La estadística aparece incluso en los textos sagrados de varias religiones. Por ejemplo, en la Biblia, en el libro de los Números, se menciona la elaboración de un censo de población en el que se anotaría específicamente los varones mayores de 20 años (aptos para ir a la guerra). Otro ejemplo es el realizado en [Egipto] por Moisés (según consta la Biblia) y el empadronamiento que fue efectuado por los romanos en [Judea]. En Mesoamérica en el año 1116, durante la segunda migración de las tribus chichimecas, el rey Xólotl ordenó que fueran censados todos sus súbditos. Para contarlos, cada uno tiró una piedra en un montón al que se llamó nepohualco; el proceso contabilizó un total de 3.200.000 personas.[5]

A partir del siglo XIX, con el aporte de Adolphe Quetelet (1796-1874), entre otros, se crearon diferentes métodos de cálculo de probabilidades para determinar y analizar el tipo de datos que regulan algunos fenómenos.

Tipos de parámetros estadísticos[editar]

Un parámetro es un número que se obtiene gracias a una distribución de datos estadísticos y ayuda a organizar la información dada ya sea por una gráfica o una tabla.

Los principales tipos son:

  • Centralización.
  • Posición.
  • Dispersión.

Uso en el análisis estadístico[editar]

Las estadísticas descriptivas proporcionan resúmenes simples sobre la muestra y sobre las observaciones que se han realizado. Dichos resúmenes pueden ser cuantitativos, es decir, estadísticas resumidas, o visuales, es decir, gráficos fáciles de entender. Estos resúmenes pueden formar la base de la descripción inicial de los datos como parte de un análisis estadístico más extenso, o pueden ser suficientes por sí mismos para una investigación en particular.

Por ejemplo, el porcentaje de tiro en baloncesto es una estadística descriptiva que resume el rendimiento de un jugador o un equipo. Este número es el número de disparos exitosos dividido entre el número total de disparos realizados. Por ejemplo, un jugador que tira al 33% está acertando aproximadamente un tiro de cada tres. El porcentaje resume o describe múltiples eventos discretos. Considere también el promedio de calificaciones. Este número único describe el rendimiento general de un estudiante en toda la gama de experiencias de su curso.[6]

El uso de estadísticas descriptivas y resumidas tiene una larga historia y, de hecho, la simple tabulación de poblaciones y de datos económicos fue la primera forma en que apareció el tema de la estadística. Más recientemente, se ha formulado una colección de técnicas de resumen bajo el título de análisis exploratorio de datos: un ejemplo de tal técnica es el diagrama de caja.

En el mundo de los negocios, las estadísticas descriptivas proporcionan un resumen útil de muchos tipos de datos. Por ejemplo, los inversores y los corredores pueden utilizar una cuenta histórica del comportamiento de la rentabilidad mediante la realización de análisis empíricos y analíticos de sus inversiones para tomar mejores decisiones de inversión en el futuro.

Análisis univariante[editar]

El análisis univariante implica describir la distribución de una sola variable, incluida su tendencia central (considerando también la media, la mediana y la moda) y la dispersión (tomando en cuenta el rango, los cuartiles del conjunto de datos y las medidas de dispersión, como la varianza y la desviación estándar). La forma de la distribución de los datos también se puede describir mediante índices como la asimetría y la curtosis. Las características de la distribución de una variable también se pueden representar en formato gráfico o tabular, incluidos los histogramas y los diagramas de tallos y hojas.

Análisis bivariante y multivariante[editar]

Cuando una muestra consta de más de una variable se pueden utilizar estadísticas descriptivas para describir la relación entre pares de variables. En este caso, las estadísticas descriptivas incluyen:

  • Tablas de contingencia
  • Representación gráfica a través de diagramas de dispersión
  • Medidas cuantitativas de dependencia
  • Descripciones de distribuciones condicionales

La razón principal para diferenciar el análisis univariante y bivariante es que este último no es solo un simple análisis descriptivo, sino que también describe la relación entre dos variables diferentes.[7]​ Las medidas cuantitativas de dependencia incluyen la correlación (como la r de Pearson, cuando ambas variables son continuas, o la rho de Spearman, si una o ambas no lo son) y la covarianza (que refleja la escala en la que se miden las variables).

La pendiente, en el análisis de regresión, también refleja la relación entre variables. La pendiente no estandarizada indica el cambio de unidad en la variable de criterio para un cambio de una unidad en el predictor. La pendiente estandarizada indica este cambio en unidades estandarizadas (unidad tipificada). Los datos altamente sesgados a menudo se transforman empleando logaritmos: con el uso de estos, los gráficos son más simétricos y se parezcan más a la distribución normal, lo que facilita su interpretación intuitiva.[8]

Véase también[editar]

Referencias[editar]

  1. Mann, Prem S. (1995). Introductory Statistics (2nd edición). Wiley. ISBN 0-471-31009-3. 
  2. a b «Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing», Interpreting and Using Statistics in Psychological Research (2455 Teller Road, Thousand Oaks California 91320: SAGE Publications, Inc), 2017: 145-183, ISBN 978-1-5063-0416-8, doi:10.4135/9781506304144.n6, consultado el 1 de junio de 2021 .
  3. Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4. (requiere registro). 
  4. Investopedia, Descriptive Statistics Terms
  5. Sin autor (Octubre de 2010). «Historia estadística». www.ine.es/explica/docs/historia_estadistica.pdf. Consultado el 2010. 
  6. Trochim, William M. K. (2006). «Descriptive statistics». Research Methods Knowledge Base. Consultado el 14 March 2011. 
  7. Babbie, Earl R. (2009). The Practice of Social Research (12th edición). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1. (requiere registro). 
  8. Nick, Todd G. (2007). «Descriptive Statistics». Topics in Biostatistics. Methods in Molecular Biology 404. New York: Springer. pp. 33-52. ISBN 978-1-58829-531-6. PMID 18450044. doi:10.1007/978-1-59745-530-5_3.