Perfilación de datos digitales

De Wikipedia, la enciclopedia libre

Se le denomina perfilación de datos digitales a la minería de datos aplicada en la creación de perfiles digitales de usuarios de las grandes redes sociales y el Internet. Esto se hace con el fin de predecir gustos, orientaciones, su psicología y generar patrones que ayudan tanto a elaborar campañas de Microtargeting (micro focalización en español) como a alimentar bases de datos de inteligencia artificial.

Inicialmente fue usado en la estadística y luego en las ciencias de la computación, ha generado grandes impactos en la industria del comercio electrónico al descifrar patrones de consumo y colaborando a la creación de sistemas de predicción. Hoy en día gracias al crecimiento y el potencial que se ha evidenciado, la perfilación de datos se ha utilizado para influenciar votaciones, imponer modas y predecir patrones de comportamiento y toma de decisiones.

De esta manera se ha implementado en todos los aspectos relacionados con el comercio electrónico y la publicidad digital para así seleccionar el contenido que es mostrado en las plataformas como Amazon, Facebook y Google al público más apropiado, en un esfuerzo de mejorar la experiencia de usuario y la interacción con las interfaces que ha sido recientemente explotado por compañías como Cambridge Analytica.

Proceso[editar]

La perfilación de datos comienza por la obtención de los mismos, para esto se llevan a cabo diversos procesos para recolectar la mayor cantidad de Datapoints de un usuario, desde información proporcionada en perfiles de usuario y correos electrónicos hasta datos del seguro de vida, rentas de carros, conversaciones telefónicas y chats.

Las técnicas de la minería de datos utilizadas provienen de la inteligencia artificial y de la estadística, dichas técnicas son representadas a manera de algoritmos. A continuación se listan las técnicas más implementados en plataformas digitales:[1]

  • Árboles de decisión - Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial y el análisis predictivo; es un método analítico que a través de una representación esquemática de las alternativas disponibles, facilita la toma de decisiones. Dada una base de datos se construyen los diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
  • Algoritmo de agrupamiento - Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; el proceso consiste en la división de los datos en grupos de objetos similares. Cuando se representan la información obtenida a través de clusters se pierden algunos detalles de los datos, pero a la vez se simplifica dicha información. Ejemplos:
  • Modelos estadísticos - Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Redes neuronales - Una red neuronal es un modelo simplificado que emula el modo en que el cerebro humano procesa la información: Funciona simultaneando un número elevado de unidades de procesamiento interconectadas que parecen versiones abstractas de neuronas. La información de entrada atraviesa la red neuronal (donde se somete a diversas operaciones) produciendo unos valores de salida.[2]​ Algunos ejemplos de red neuronal son:
  • Regresión lineal - Es la más utilizada para formar relaciones entre datos, en estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.[3]
  • Reglas de asociación - Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados.[4]

  • Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.
  • Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Métodos de análisis[editar]

Después de la recolección se debe realizar una interpretación y evaluación de datos, para esto es determinante el medio por el cual se obtuvieron los datos dado que la conectividad de las plataformas digitales permiten agrupaciones de Data Points por medio de contactos en redes sociales, familiares, compras recientes, entre otros de esta manera se ejemplifican con los casos específicos de las plataformas Google y Facebook, las cuales permiten realizar la minería de datos autodirigida, es decir, proporcionan a los usuarios con los Data Points que son recolectados de ellos y los medios por los cuales se crearon.

Google[editar]

Al ser el motor de búsqueda más utilizado alrededor del mundo, Google posee una gran base de datos de sus usuarios además de contar y estar asociado a cientos de servicios adicionales. Por cada uno de estos es posible recolectar información de los aspectos cotidianos de la vida en el internet de una persona, a continuación se listan los datos que se ofrecen a la plataforma y sus servicios (no refleja los datos que son inferidos o asociados por medio de redes de similitudes):[5]

  • Gmail: Se proporcionan listas de contactos, historial de correos enviados y recibidos, suscripciones a revistas y/o servicios externos a la plataforma como exámenes médicos, facturas de compras y recorridos en plataformas como Uber y Lime.
  • Google maps y Google Earth: Brindan acceso a la posición de dispositivos móviles y de escritorio, además de rutas predilectas, viajes, lugares frecuentados y vehículos de transporte.
  • YouTube: Su historial de búsquedas canales más vistos, likes en video y comentarios, horas de contenido vistas, temas vistos y relacionados con búsquedas.
  • Chrome: Historial de búsquedas, doble click, búsqueda de productos, artículos en Google académico, movimiento del cursor y tiempo invertido en ventanas y pestañas.
  • Drive y Fotos: Todos los archivos subidos, compartidos, datos exif.
  • Fit: Registros de ritmo cardiaco, saturación de oxígeno, peso y estatura.

Y si se posee un dispositivo que funciona sobre el sistema operativo Android también se proporcionan Data Points sobre configuración, aplicaciones instaladas, duración de la pantalla encendida, entre otros.

Facebook[editar]

Es la red social más grande existente hasta el momento, además de ser un canal para venta de productos, intercambio de conocimiento y divulgación de información. La plataforma motiva a sus usuarios a dar los datos que considere interesantes sobre sí mismo, de esta manera consigue información personal de todo aquel con un perfil de usuario. Esta es la información que se recauda gracias a permisos de la aplicación como a lo proporcionado en la creación de cuentas nuevas:

  • Listado de amigos: Todos aquellos con quien se haya enviado y aceptado una solicitud de amistad, aun cuando estos hayan sido eliminados posteriormente.
  • Registros de llamadas: Hechas o recibidas en dispositivos Android, además del buzón de mensajes y el listado de números telefónicos de contactos.
  • Historial de búsqueda: Todos los usuarios y páginas que se hayan buscado por medio de la plataforma y su relación de amistad o seguimiento previo y posterior a la búsqueda.
  • Gustos personales: Listado aportado en la creación de perfiles que incluye datos como películas y libros favoritos, interés por pareja sentimental, estado civil, afiliaciones políticas, entre otros.
  • Páginas seguidas: Generalmente estas vinculan a intereses y el listado de personas que también siguen dicho perfil.
  • Historial de “Me gusta”: Todas las reacciones que se han dado frente al contenido mostrado en la plataforma, como estados de ánimo, comentarios y “me gusta” desde la creación del perfil.

Por otra parte al ser dueños de WhatsApp e Instagram acceden a historial de mensajes, lista de seguidores y seguidos y archivos enviados o subidos a la plataforma.

Creación de perfiles[editar]

Para la comprensión del proceso de creación de perfiles es necesario diseccionar dos términos principales para su desarrollo los Data Points y las Data Brokers dada su relación con la minería de datos y las técnicas de mercadotecnia posteriores.

Data points[editar]

Un Data point o punto de datos, en español, es una unidad discreta de información. En un contexto estadístico o analítico, un punto de datos generalmente se deriva de una medición o investigación y se puede representar numéricamente y/o gráficamente. El término punto de datos es más o menos equivalente a un datum, la forma singular de datos.[6]

El siguiente es un listado de puntos de datos recolectados para la creación de publicidad personalizada publicada por Facebook:

  1. Ubicación
  2. Edad
  3. Generación
  4. Género
  5. Idioma
  6. Nivel educativo
  7. Campo de estudio
  8. Escuela
  9. Afinidad étnica
  10. Ingresos y patrimonio neto
  11. Propiedad y tipo de vivienda
  12. Valor de la vivienda
  13. Tamaño de propiedad
  14. Metros cuadrados de la vivienda
  15. Año de construcción de la vivienda
  16. Composición del hogar[7]

Esta información le permite a Facebook mantener sus anuncios "útiles y relevantes" dado que realiza un seguimiento de la actividad en el sitio, como las páginas que le gustan al usuario y los anuncios en los que hace clic, la configuración de su dispositivo y ubicación, como la marca de teléfono que usa y su tipo de conexión a Internet. Es importante resaltar el alcance de los esfuerzos de seguimiento web de plataformas como Facebook pero también sus colaboraciones con las principales Data Brokers.[7]

Data Brokers[editar]

Las Data Brokers (también conocidos como corredores de información, abastecedor de datos y proveedores de datos) son compañías que recopilan datos ellos mismos o los compran a otras compañías (como las compañías de tarjetas de crédito y aseguradoras), buscan en Internet información útil sobre los usuarios, y agregan información con datos de otras fuentes (por ejemplo, fuentes fuera de línea).[8]

Estas empresas presentan perfiles con características demográficas tradicionales como la edad, la raza y los ingresos, así como inclinaciones políticas, afiliaciones religiosas, números de Seguro Social, registros de posesión de armas, géneros de películas preferidos y preferencias de juego (casino o lotería). También se puede rastrear el interés en problemas de salud, como diabetes, infección por VIH y depresión.[9]

Existen cientos de empresas en todo el mundo que recopilan información sobre los consumidores de fuentes públicas y privadas para venderlas a otras empresas. Según el rango y el tipo de datos que almacenan, los corredores de datos se dividen en tres categorías:

  • Para marketing y publicidad: El papel de estas compañías es crear bases de datos de individuos y usarlas más tarde para publicidad y marketing específicos, estas incluyen la edad, ubicación, nivel educativo, ingresos, historial web, historial de compras e intereses de una persona.
  • Detección de fraude: Antes de otorgar un préstamo, un banco puede recurrir a este servicio para determinar si la información proporcionada por el cliente es precisa y legítima y, por lo tanto, reducir el riesgo de otorgar un préstamo a un estafador.
  • Mitigación de riesgos: Las Data Brokers recurren al historial de búsqueda de una persona para ofrecerle préstamos de alto interés (alto riesgo) en lugar de préstamos de bajo interés (seguro). Por ejemplo, un historial de compras regulares en línea de tarjetas de crédito de productos de lujo puede indicar que una persona tiene muchas deudas, especialmente si sus ingresos son modestos.[10]

Perfilación[editar]

Las plataformas digitales utilizan las anteriores para lograr obtener la información total de sus usuarios dentro y fuera de sus servicios, ahora bien la perfilación funciona como una red de relaciones entre Data Points y sus proveedores o usuarios. Esto quiere decir que para alcanzar el paso final se deben comparar los perfiles entre sí y así establecer conexiones que le permitan a las empresas interesadas y a la misma plataforma crear bases de datos que no sólo listen individuos sino sus relaciones sociales, para dejar de ser un dato y convertirse en una estructura.

La capacidad de analizar información para crear modelos predictivos permite a las empresas desarrollar fórmulas precisas y repetibles que tengan en cuenta las condiciones del mercado para identificar escenarios óptimos. Mediante el uso de técnicas de visualización avanzadas junto con análisis predictivos controlados por el usuario, las compañías pueden optimizar sus operaciones. En la mayoría de los casos las mismas plataformas se transforman en el medio para llegar a los consumidores con los perfiles creados en las mismas, esto se ve evidenciado en la publicidad de Facebook, los anuncios de Google y las predicciones de Amazon.[11]

"Hablando como consumidor y como anunciante, creo que las capacidades publicitarias de Facebook hacen que la publicidad en Internet sea una mejor experiencia en general", dijo Kane Jamison, un vendedor con sede en Seattle que ha escrito sobre su experiencia con los anuncios de Facebook. "La mayoría de los temas promocionados que veo en mi feed de Facebook son relevantes para mis intereses, y vale la pena hacer clic con más frecuencia".
Caitlin Dewey - The Washington Post

Aplicación de mercadotecnia y política[editar]

Con los perfiles creados, es posible implementar técnicas de mercadotecnia para aprovechar los datos obtenidos. Campañas publicitarias alrededor del mundo están implementando la información para poder decidir los contenidos que son mostrados ellas, por otra parte se usa para la determinar el público al que se puede apelar cierto tipo de mensajes persuasivos.

En la mayoría de casos se pretende encontrar grupos específicos de personas que puedan ser susceptibles a contenidos diseñados específicamente para ellos, lo que ha llevado a una alteración en la cual se realiza la publicidad y más específicamente a la venta de productos. A continuación se encuentras las técnicas usadas en las plataformas digitales para poder encontrar los usuarios perfectos para los mensajes transmitidos:

Segmentación[editar]

La segmentación consiste en dividir un conjunto analizado en segmentos más pequeños de usuarios que tienen comparten necesidades, características y comportamientos que requieren estrategias o mezclas de mercadotecnia diferenciadas.

Como su propio nombre indica, se trata de identificar segmentos de mercado o grupos uniformes más pequeños, ya que la segmentación de un mercado en muchos casos se puede hacer desde una perspectiva social, de acuerdo a sus características o variables que puedan influir en su comportamiento de compra.

Variables de segmentación de mercado:

  • Geográficas: países, regiones, ciudades o códigos postales.
  • Demográficas: género, edad, ingresos, educación, profesión, clase social, religión o nacionalidad.
  • Psicográficas: estilo de vida y personalidad.
  • Conductual: frecuencia de uso del producto, búsqueda del beneficio, nivel de fidelidad, actitud hacia el producto.[12]

Al ser dirigido hacia las plataformas digitales, difiere de las técnicas de mercadotecnia tradicionales dado que en los medios digitales se posee mayor control de medida, es decir, se pueden tener estadísticas reales de las acciones realizadas por el contrario en los medios físicos estas son basadas bajo suposiciones, estudios de mercado basados en muestras y encuestas.[13]

Psicografía[editar]

Los perfiles psicográficos permiten clasificar a los grupos de personas según aspectos de su personalidad, gustos, intereses, inclinaciones, aspiraciones, temores, etc. Conocer esta información, permite diseñar campañas que influyan en el público de manera más eficaz, tanto se trate de incrementar las ventas de un producto, estimular la contratación de un servicio o impulsar la candidatura de un político. La segmentación se establece a partir de parámetros básicos: personalidad, estilo de vida y valores.[14]

Los encuestadores generalmente se basan en datos demográficos para predecir los resultados de las elecciones. La investigación demográfica tiende a clasificar a las personas de acuerdo con características claras como la edad, el sexo, la raza, la clase, la educación y el empleo. La psicografía funciona de una manera similar pero usa el tipo de personalidad, en lugar de la edad y el sexo, para predecir el comportamiento.

Para adquirir esta información empresas y plataformas implementan diversas estrategias, entre ellas tests de personalidad y minijuegos. Otras como las aplicaciones de citas, les piden a sus usuarios que proporcionen esta información directamente para que sus perfiles sean asociados con otros de preferencias semejantes, todo esto a través del estudio psicográfico.[15]

Focalización de contenidos[editar]

Después de realizados los anteriores procesos de mercadotecnia y encontrar patrones comunes mediante criterios de selección que consideran inclinaciones, intereses, preocupaciones, situación socioeconómica, nivel educacional, franja etaria, etc. se diseñan mensajes a su medida para las personas de cada uno de estos subconjuntos, con un alto grado de personalización, logrando así un incremento en el impacto y la respuesta esperada, estos pueden tratar temas desde la venta de productos y promoción de establecimientos hasta campañas electorales y movimientos sociales.[16]​ La eficacia de la técnica es directamente proporcional a la precisión lograda en el conocimiento de las características individuales de las personas a quienes se dirige.[17]

La focalización de contenidos también conocida como “marketing de uno a uno” trata a los usuarios de forma individual, ahora gracias a la tecnología también es posible aplicarlo a un mercado de masas y ofrecer productos de forma individual. Empresas como Nike y Heineken ya han adoptado el marketing personalizado con sus servicios NikeID y Your Heineken, permitiendo a sus clientes personalizar sus productos y de esta forma también alterar su publicidad.[18]

Referencias[editar]

  1. «¿Qué es la minería de datos?». Kaspersky. 2019. Consultado el 5 de noviembre de 2019. 
  2. IBM Knowledge Center, IBM®. «El modelo de redes neuronales». Consultado el 7 de noviembre de 2019. 
  3. Salazar López, Bryan (2016). «REGRESIÓN LINEAL O MÍNIMOS CUADRADOS». Consultado el 7 de noviembre de 2019. 
  4. Indurkhya, Nitin; Zhang, Tong; Weiss, Sholom M. (14 de junio de 2010). Fundamentals of Predictive Text Mining. pp. 1-38. ISBN 978-1-84996-226-1. Consultado el 5 de noviembre de 2019. 
  5. Hubbard, Douglas (2007). «Everything Is Measurable» (en inglés). Consultado el 7 de noviembre de 2019. 
  6. Rouse, Margaret (2012). «data point» (en inglés). Consultado el 7 de noviembre de 2019. 
  7. a b Dewey, Caitlin (2016). «98 personal data points that Facebook uses to target ads to you» (en inglés). Consultado el 6 de noviembre de 2019. 
  8. Wlosik, Michal (2019). «What Is a Data Broker and How Does It Work?» (en inglés). Consultado el 7 de noviembre de 2019. 
  9. Timberg, Craig (2014). «Brokers use ‘billions’ of data points to profile Americans» (en inglés). The Washington Post. Consultado el 6 de noviembre de 2019. 
  10. Grauer, Yael (2018). «Here’s a Long List of Data Broker Sites and How to Opt-Out of Them» (en inglés). Consultado el 5 de noviembre de 2019. 
  11. «The Driving Need for Commodity Analytics in a Big Data World» (en inglés). EKA. 2015. Consultado el 7 de noviembre de 2019. 
  12. Espinoza, Roberto (2013). «Segmentación de mercado, concepto y enfoque». Consultado el 7 de noviembre de 2019. 
  13. MarketingOk (2019). «Segmentación en Marketing». Consultado el 6 de noviembre de 2019. 
  14. Klainer, Vanessa (2002). «Segmentación Psicográfica, Conocer al Consumidor». Consultado el 6 de noviembre de 2019. 
  15. Ciribeli, João Paulo; Miquelito, Samuel (28/02/14). LA SEGMENTACIÓN DEL MERCADO POR EL CRITERIO PSICOGRÁFICO. pp. 4-13. Consultado el 6 de noviembre de 2019. 
  16. Parker, Clifton B. (2015). «Michal Kosinski: Computers Are Better Judges of Your Personality Than Friends» (en inglés). Consultado el 7 de noviembre de 2019. 
  17. ROCHINA, PAULA (2016). «Nuestra huella digital en Internet: ¿Hasta dónde saben de mí?». Consultado el 6 de noviembre de 2019. 
  18. López, Tino (26 de mayo de 2015). «El análisis de los votantes a través del microtargeting». Consultado el 7 de noviembre de 2019.