Speech analytics

De Wikipedia, la enciclopedia libre

Speech Analytics se refiere a sistemas que permiten extraer información a partir del análisis de las conversaciones almacenadas en los sistemas de grabación. Se pueden dividir en dos tipos de análisis, el primero es el reconocimiento del habla, en el cual se transcribe la conversación a texto utilizando diversos sistemas de reconocimiento de voz. El segundo es el reconocimiento cualitativo, detectando las características del cliente que surgen de su forma de hablar por ejemplo: Estado emocional, edad, género, idioma, acento, ambiente de ubicación, etc. Haciendo un análisis de todos estos factores que nos traen los tipos de análisis podemos sacar mucha información de nuestros clientes, como sus gustos, preocupaciones, fallas de nuestra campáñas o productos y a su vez estudiamos la gestión de nuestros operadores, como transmisten la campaña, como interactúan con los clientes, como fueron formados y si necesitan algún tipo de corrección.

Para ello se basa en diferentes herramientas:

  • Reconocimiento del habla (detección del contenido de la llamada), en sus diferentes variantes: wordspotting, con detección de palabras, y Reconocimiento de Lenguaje Natural, con detección de conjuntos de palabras y frases.
  • Reconocimiento de patrones sonoros, tales cómo: la edad, el género, el estado emocional de cada locutor, entorno desde donde se llama y red empleada y, por supuesto, idioma hablado (castellano, inglés, catalán, etc.)

Toda esta información aporta una información muy completa de aquello que sucede en el audio analizado, sin embargo es conveniente enfocar el análisis para que esta información aporte un valor de negocio y no se convierta en un compendio de palabras o nube de palabras más dichas (habitualmente hola, adiós, etc. ).

Historia[editar]

En la actualidad, las empresas gastan ingentes cantidades de dinero en estudios de mercado que les muestren su posicionamiento en la mente de los consumidores, sus gustos y sus percepciones, siendo esta información absolutamente vital para la toma de decisiones estratégicas de la compañía.

Por el contrario, es notable el volumen de información que las empresas disponen de sus usuarios en las grabaciones de las llamadas o en los mensajes que se envían a sus centros de contacto. Sin embargo, esta información no es fácilmente extraída si no es mediante una monitorización parcial y humana de esa información. Método altamente costoso y sesgado.

El tratamiento de esta información posibilita a la organización estar mucho más cerca de sus usuarios, generando oportunidades de negocio, fidelizando e incluso ahorrando costes innecesarios.

Por tanto, disponer de una solución de Speech Analytics facilita la extracción de esta información de manera objetiva y sin incurrir en elevados costes.

Principales usos de Speech Analytics[editar]

  • Detecta los motivos de las llamadas; identifica y estructura el contenido de los diálogos categorizándolos en función de su contenido y motivaciones.
  • Auditora la normativa existente. Reduciendo el tiempo y los costes de los agentes de control de calidad.
  • Asegura la calidad de Atención en los contact centers, analizando si la atención está siendo satisfactoria para el usuario. El sistema lleva un control de los diferentes parámetros (estado emocional del agente, esperas, ruido, del número y calidad de los escalados, cortes, solapamientos, palabras o frases malsonantes, etc.) que influyen en la calidad de la atención, generando métricas acerca de la calidad de la atención prestada por el agente.
  • Ayudar y formar a los agentes para mejorar la calidad de la atención; asegurando la productividad de los agentes, analizando los aspectos críticos del diálogo, sirviendo de guía y asesoramiento en tiempo real.
  • Identifica el perfil de cada uno de los interlocutores en la conversación. Principalmente del cliente, pero también del agente.

Tecnología[editar]

Los proveedores de análisis de voz utilizan el "motor" de un tercero y otros desarrollan motores patentados. La tecnología utiliza principalmente tres enfoques. El enfoque fonético es el más rápido de procesar, principalmente porque el tamaño de la gramática es muy pequeño, con un fonema como unidad básica de reconocimiento. Hay solo unas pocas decenas de fonemas únicos en la mayoría de los idiomas, y el resultado de este reconocimiento es un flujo (texto) de fonemas, que luego se pueden buscar. El reconocimiento de voz continuo de vocabulario extenso (LVCSR, más comúnmente conocido como voz a texto, transcripción completa o ASR, reconocimiento automático de voz) utiliza un conjunto de palabras (bi-gramas, tri-gramas, etc.) como unidad básica. Este enfoque requiere cientos de miles de palabras para hacer coincidir el audio. Puede hacer surgir nuevos problemas comerciales, las consultas son mucho más rápidas y la precisión es mayor que el enfoque fonético.[1]

El reconocimiento y la predicción extendidos de las emociones del habla se basan en tres clasificadores principales: kNN, C4.5 y SVM RBF Kernel. Este conjunto logra un mejor rendimiento que cada clasificador básico tomado por separado. Se compara con otros dos conjuntos de clasificadores: SVM multiclase uno contra todos (OAA) con núcleos híbridos y el conjunto de clasificadores que consta de los dos clasificadores básicos siguientes: C5.0 y Red neuronal. La variante propuesta logra un mejor rendimiento que los otros dos conjuntos de clasificadores.[2]

Referencias[editar]

  1. Efraim Turban, Dursun Delen, Ramesh Sharda (2017). Business Intelligence, Analytics, and Data Science: A Managerial Perspective. Pearson. ISBN 978-0134633282. Archivado desde el original el 6 de septiembre de 2021. Consultado el 8 de octubre de 2021. 
  2. S.E. Khoruzhnikov (2014). «Extended speech emotion recognition and prediction». Scientific and Technical Journal of Information Technologies, Mechanics and Optics 14 (6): 137. 

Enlaces externos[editar]