Análisis de contenido en línea

De Wikipedia, la enciclopedia libre

El análisis de contenido en línea o análisis textual en línea se refiere a una colección de técnicas de investigación utilizadas para describir y hacer inferencias sobre el material en línea a través de la codificación e interpretación sistemáticas. El análisis de contenido en línea es una forma de análisis de contenido para la comunicación basada en Internet.

Historia y definición[editar]

El análisis de contenido como un examen e interpretación sistemáticos de la comunicación se remonta al menos al siglo XVII. Sin embargo, no fue hasta el surgimiento del periódico a principios del siglo XX que la producción en masa de material impreso creó una demanda de análisis cuantitativo de palabras impresas.[1]

La definición de Berelson (1952) proporciona una base subyacente para el análisis textual como una "técnica de investigación para la descripción objetiva, sistemática y cuantitativa del contenido manifiesto de la comunicación".[2]​ El análisis de contenido consiste en categorizar unidades de textos (es decir, oraciones, cuasi-oraciones, párrafos, documentos, páginas web, etc.) de acuerdo con sus características sustantivas para construir un conjunto de datos que permita al analista interpretar textos y hacer inferencias. Si bien el análisis de contenido es a menudo cuantitativo, los investigadores conceptualizan la técnica como métodos inherentemente mixtos porque la codificación textual requiere un alto grado de interpretación cualitativa.[3]​ Los científicos sociales han utilizado esta técnica para investigar preguntas de investigación sobre los medios de comunicación,[1]​ los efectos de los medios[4]​ y la configuración de la agenda.[5]

Con el auge de la comunicación en línea, las técnicas de análisis de contenido se han adaptado y aplicado a la investigación en Internet . Al igual que con el auge de los periódicos, la proliferación de contenido en línea ofrece una oportunidad más amplia para los investigadores interesados en el análisis de contenido. Si bien el uso de fuentes en línea presenta nuevos problemas y oportunidades de investigación, el procedimiento de investigación básica del análisis de contenido en línea descrito por McMillan (2000) es prácticamente indistinguible del análisis de contenido que utiliza fuentes fuera de línea:

  1. Formule una pregunta de investigación con un enfoque en la identificación de hipótesis comprobables que puedan conducir a avances teóricos.
  2. Defina un marco de muestreo del que se extraerá una muestra y construya una muestra (a menudo llamado corpus) de contenido para analizar.
  3. Desarrolle e implemente un esquema de codificación que pueda usarse para clasificar el contenido con el fin de responder la pregunta identificada en el paso 1. Esto requiere especificar un período de tiempo, una unidad de contexto en la que se incrusta el contenido y una unidad de codificación que clasifica el contenido.
  4. Capacite a los codificadores para implementar consistentemente el esquema de codificación y verificar la confiabilidad entre los codificadores. Este es un paso clave para garantizar la replicabilidad del análisis.
  5. Analizar e interpretar los datos. Pruebe las hipótesis avanzadas en el paso 1 y saque conclusiones sobre el contenido representado en el conjunto de datos.[2]

En investigación en Internet[editar]

Desde el surgimiento de la comunicación en línea, los académicos han discutido cómo adaptar las técnicas de análisis textual para estudiar contenido basado en la web. La naturaleza de las fuentes en línea requiere un cuidado particular en muchos de los pasos de un análisis de contenido en comparación con las fuentes fuera de línea.

Mientras que el contenido fuera de línea, como el texto impreso, permanece estático una vez producido, el contenido en línea puede cambiar con frecuencia. La naturaleza dinámica del material en línea combinada con el gran y creciente volumen de contenido en línea puede dificultar la construcción de un marco de muestreo a partir del cual extraer una muestra aleatoria. El contenido de un sitio también puede diferir entre los usuarios, lo que requiere una especificación cuidadosa del marco de muestreo. Algunos investigadores han usado motores de búsqueda para construir marcos de muestreo. Esta técnica tiene desventajas porque los resultados de los motores de búsqueda son poco sistemáticos y no aleatorios, lo que los hace poco confiables para obtener una muestra imparcial. El problema del marco de muestreo se puede eludir mediante el uso de toda una población de interés, como los tweets de usuarios particulares de Twitter[6]​ o el contenido archivado en línea de ciertos periódicos como marco de muestreo.[7]​ Los cambios en el material en línea pueden hacer que clasificar el contenido (paso 3) sea más desafiante. Debido a que el contenido en línea puede cambiar con frecuencia, es particularmente importante tener en cuenta el período de tiempo durante el cual se recoge la muestra. Un paso útil es archivar el contenido de muestra para evitar que se realicen cambios.

El contenido en línea también es no lineal. El texto impreso tiene límites claramente delineados que se pueden usar para identificar unidades de contexto (por ejemplo, un artículo de periódico). Los límites del contenido en línea que se utilizará en una muestra se definen con menos facilidad. Los primeros analistas de contenido en línea a menudo especificaban un sitio web como una unidad de contexto, sin una definición clara de lo que querían decir.[2]​ Los investigadores recomiendan definir clara y sistemáticamente en qué consiste una página web, o reducir el tamaño de la unidad de contexto a una característica en un sitio web.[3]​ Los investigadores también han utilizado unidades de comunicación en línea más discretas, como comentarios en la web[8]​ o tweets.[6]

Análisis de contenido automático[editar]

El aumento del contenido en línea ha aumentado dramáticamente la cantidad de texto digital que se puede utilizar en la investigación. La cantidad de texto disponible ha motivado las innovaciones metodológicas con el fin de dar sentido a los conjuntos de datos textuales que son demasiado grandes para ser prácticamente codificados a mano, como había sido la práctica metodológica convencional.[3][7]​ Los avances en la metodología junto con el aumento de la capacidad y la disminución de los gastos de computación han permitido a los investigadores utilizar técnicas que antes no estaban disponibles para analizar grandes conjuntos de contenido textual.

El análisis de contenido automático representa una ligera desviación del procedimiento de análisis de contenido en línea de McMillan en que los codificadores humanos se complementan con un método computacional, y algunos de estos métodos no requieren que las categorías se definan de forma avanzada. Los modelos de análisis textual cuantitativo a menudo emplean métodos de 'bolsa de palabras' que eliminan el orden de las palabras, eliminan palabras que son muy comunes y muy poco comunes, y simplifican las palabras mediante lematización o stemming, reduciendo las palabras complejas a su palabra raíz.[9]​ Si bien estos métodos son fundamentalmente reduccionistas en la forma en que interpretan el texto, pueden ser muy útiles si se aplican y validan correctamente.

Grimmer y Stewart (2013) identifican dos categorías principales de análisis textual automático: métodos supervisados y no supervisados. Los métodos supervisados implican crear un esquema de codificación y codificar manualmente una submuestra de los documentos que el investigador quiere analizar. Idealmente, la submuestra, llamada 'conjunto de entrenamiento', es representativa de la muestra como un todo. El conjunto de entrenamiento codificado se usa para "enseñar" a un algoritmo cómo las palabras en los documentos corresponden a cada categoría de codificación. El algoritmo se puede aplicar para analizar automáticamente el resto de los documentos en el corpus.[9]

  • Métodos de diccionario: el investigador preselecciona un conjunto de palabras clave (n-grama) para cada categoría. La máquina luego usa estas palabras clave para clasificar cada unidad de texto en una categoría.
  • Métodos individuales: el investigador etiqueta previamente una muestra de textos y entrena un algoritmo de aprendizaje automático (es decir Algoritmo SVM) usando esas etiquetas. La máquina etiqueta el resto de las observaciones extrapolando información del conjunto de entrenamiento.
  • Métodos de conjunto: en lugar de usar un solo algoritmo de aprendizaje automático, el investigador entrena un conjunto de ellos y usa las múltiples etiquetas resultantes para etiquetar el resto de las observaciones (ver Collingwood y Wiklerson 2011 para más detalles).[10]
  • La escala ideológica supervisada (es decir, las puntuaciones de palabras) se utiliza para colocar diferentes unidades de texto a lo largo de un continuo ideológico. El investigador selecciona dos conjuntos de textos que representan cada extremo ideológico, que el algoritmo puede usar para identificar palabras que pertenecen a cada punto extremo. El resto de los textos en el corpus se escalan dependiendo de cuántas palabras de cada referencia extrema contengan.[11]

Se pueden usar métodos no supervisados cuando un conjunto de categorías para la codificación no se puede definir bien antes del análisis. A diferencia de los métodos supervisados, los codificadores humanos no están obligados a entrenar el algoritmo. Una opción clave para los investigadores al aplicar métodos no supervisados es seleccionar el número de categorías para clasificar los documentos en lugar de definir cuáles son las categorías de antemano.

  • Modelos de membresía única: estos modelos agrupan automáticamente los textos en diferentes categorías que son mutuamente excluyentes, y los documentos se codifican en una sola categoría. Como señalaron Grimmer y Stewart, "cada algoritmo tiene tres componentes: (1) una definición de similitud o distancia del documento; (2) una función objetivo que operacionaliza y agrupamiento ideal; y (3) un algoritmo de optimización".[9]
  • Modelos de membresía mixta: según Grimmer y Stewart, los modelos de membresía mixta "mejoran la producción de los modelos de membresía única al incluir una estructura adicional y específica del problema".[9]​ Los modelos FAC de membresía mixta clasifican las palabras individuales dentro de cada documento en categorías, lo que permite que el documento como un todo sea parte de varias categorías simultáneamente. Los modelos de temas representan un ejemplo de FAC de membresía mixta que se puede utilizar para analizar cambios en el enfoque de actores políticos[6]​ o artículos periodísticos.[7]​ Una de las técnicas de modelado de temas más utilizadas es LDA .
  • Escalado ideológico no supervisado: algoritmos que asignan unidades de texto en un continuo ideológico dependiendo del contenido gramatical compartido. Contrariamente a los métodos de escalado supervisados, como las puntuaciones de palabras, los métodos como wordfish [12]​ no requieren que el investigador proporcione muestras de textos ideológicos extremos.

Validación[editar]

Los resultados de los métodos supervisados se pueden validar dibujando una submuestra distinta del corpus, llamada 'conjunto de validación'. Los documentos en el conjunto de validación pueden codificarse manualmente y compararse con la salida de codificación automática para evaluar qué tan bien el algoritmo replica la codificación humana. Esta comparación puede tomar la forma de puntajes de confiabilidad entre codificadores como los utilizados para validar la consistencia de los codificadores humanos en el análisis textual tradicional.

La validación de métodos no supervisados se puede llevar a cabo de varias maneras.

  • La validez semántica (o interna) representa qué tan bien los documentos en cada grupo identificado representan una unidad categórica distinta. En un modelo de tema, este sería el grado en que los documentos en cada grupo representan el mismo tema. Esto se puede probar creando un conjunto de validación que los codificadores humanos usan para validar manualmente la elección del tema o la relación de los documentos dentro del clúster en comparación con los documentos de diferentes clústeres.
  • La validez predictiva (o externa) es la medida en que los cambios en la frecuencia de cada grupo pueden explicarse por eventos externos. Si los grupos de temas son válidos, los temas más destacados deberían responder a través del tiempo de manera predecible como resultado de eventos externos que ocurran.[cita requerida]

Desafíos en el análisis textual en línea[editar]

A pesar de la continua evolución del análisis de texto en las ciencias sociales, todavía hay algunas preocupaciones metodológicas sin resolver. Esta es una lista (no exclusiva) con algunas de estas preocupaciones:

  • ¿Cuándo deberían los investigadores definir sus categorías? ¿Ex ante, de ida y vuelta o ad hoc ? Algunos científicos sociales sostienen que los investigadores deberían construir su teoría, expectativas y métodos (en este caso, categorías específicas que usarán para clasificar diferentes unidades de texto) antes de comenzar a recopilar y estudiar los datos[13]​ mientras que otros apoyan la definición de un conjunto de categorías es un proceso de ida y vuelta.[14][15]
  • Validación. Aunque la mayoría de los investigadores informan mediciones de validación para sus métodos (es decir, confiabilidad entre codificadores, estimaciones de precisión y recuperación, matrices de confusión, etc.), algunos otros no lo hacen. En particular, a un gran número de académicos les preocupa cómo algunas técnicas de modelado de temas difícilmente pueden validarse.[16]
  • Muestras aleatorias. Por un lado, es extremadamente difícil saber cuántas unidades de un tipo de textos (por ejemplo, publicaciones de blog) hay en un momento determinado en Internet. Por lo tanto, dado que la mayoría de las veces el universo es desconocido, ¿cómo puede el investigador seleccionar una muestra aleatoria? Si en algunos casos es casi imposible obtener una muestra aleatoria, ¿deberían los investigadores trabajar con muestras o deberían tratar de recolectar todas las unidades de texto que observan? Y por otro lado, a veces los investigadores tienen que trabajar con muestras que les dan algunos motores de búsqueda (es decir, Google) y empresas en línea (es decir, Twitter), pero la investigación no tiene acceso a cómo se han generado estas muestras y si son aleatorias o no. ¿Deberían las investigaciones usar tales muestras?

Véase también[editar]

Referencias[editar]

  1. a b Krippendorff, Klaus (2012). Content Analysis: An introduction to its methodology. Thousand Oaks, CA: Sage. 
  2. a b c McMillan, Sally J. (March 2000). «The Microscope and the Moving Target: The Challenge of Applying Content Analysis to the World Wide Web». Journalism and Mass Communication Quarterly 77 (1): 80-98. doi:10.1177/107769900007700107. 
  3. a b c van Selm, Martine; Jankowski, Nick (2005). Content Analysis of Internet-Based Documents. Unpublished Manuscript. 
  4. Riffe, Daniel; Lacy, Stephen; Fico, Frederick (1998). Analyzing Media Messages: Using Quantitative Content Analysis in Research. Mahwah, New Jersey, London: Lawrence Erlbaum. 
  5. Baumgartner, Frank; Jones, Bryan (1993). Agendas and Instability in American Politics. Chicago. University of Chicao Press. ISBN 9780226039534. 
  6. a b c Barberá, Pablo; Bonneau, Richard; Egan, Patrick; Jost, John; Nagler, Jonathan; Tucker, Joshua (2014). «Leaders or Followers? Measuring Political Responsiveness in the U.S. Congress Using Social Media Data.». Prepared for Delivery at the Annual Meeting of the American Political Science Association. 
  7. a b c DiMaggio, Paul; Nag, Manish; Blei, David (December 2013). «Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding». Poetics 41 (6): 570-606. doi:10.1016/j.poetic.2013.08.004. 
  8. Mishne, Gilad; Glance, Natalie (2006). «Leave a reply: An analysis of weblog comments». Third Annual Conference on the Weblogging Ecosystem. 
  9. a b c d Grimmer, Justin; Stewart, Brandon (2013). «Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts». Political Analysis 21 (3): 1-31. 
  10. Collingwood, Loren and John Wilkerson. (2011). Tradeoffs in Accuracy and Efficiency in supervised Learning Methods, in The Journal of Information Technology and Politics, Paper 4.
  11. Gerber, Elisabeth; Lewis, Jeff (2004). «Beyond the median: Voter preferences, district heterogeneity, and political representation». Journal of Political Economy 112 (6): 1364-83. doi:10.1086/424737. 
  12. Slapin, Jonathan, and Sven-Oliver Proksch. 2008. A scaling model for estimating time-series party positions from texts. American Journal of Political Science 52(3):705–22.
  13. King, Gary, Robert O. Keohane, & Sidney Verba. (1994). Designing Social Inquiry: Scientific Inference in Qualitative Research. Princeton: Prince University Press.
  14. Herring, Susan C. (2009). «Web Content Analysis: Expanding the Paradigm». En Hunsinger, Jeremy, ed. International Handbook of Internet Research (en inglés). Springer Netherlands. pp. 233–249. ISBN 978-1-4020-9788-1. doi:10.1007/978-1-4020-9789-8_14. 
  15. Saldana Johnny. (2009). The Coding Manual for Qualitative Research. London: SAGE Publication Ltd.
  16. Chuang, Jason, John D. Wilkerson, Rebecca Weiss, Dustin Tingley, Brandon M. Stewart, Margaret E. Roberts, Forough Poursabzi-Sangdeh, Justin Grimmer, Leah Findlater, Jordan Boyd-Graber, and Jeffrey Heer. (2014). Computer-Assisted Content Analysis: Topic Models for Exploring Multiple Subjective Interpretations. Paper presented at the Conference on Neural Information Processing Systems (NIPS). Workshop on HumanPropelled Machine Learning. Montreal, Canada.