Usuario:Ignacio Icke/Reconocimiento del habla

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Esto pretende ser un esqueleto para poder, en un futuro, tener un artículo de reconocimiento del habla en condiciones.

Introducción[editar]

Historia[editar]

Primeros pasos[editar]

La primera máquina capaz de reconocer habla fue un perro de juguete de la década de 1920, llamado Radio Rex, que avanzaba cuando percibía un tono de 500hz, que coincidía aproximadanente con el primer formante de la pronunciación de la palabra "Rex", de forma que parecía que el perro avanzaba cuando se le llamaba.

Entre 1940 y 1950 los Laboratorios Bell diseñaron un reconocedor de dígitos que tenía una precisión considerable, pues reconocía del 97% al 99% de los dígitos correctamente mediante una técnica simple, basada en computar la correlación entre la entrada y patrones grabados, eligiendo el patrón que maximizaba dicha correlación. Esta misma técnica se siguió usando para reconocer vocales y consonantes aisladas.

Tres avances clave[editar]

Los avances en tecnología de computación permitieron el desarrollo de el procesado digital de la señal, lo que posibilitó que durante la década de 1960 se desarrollaron tres conceptos clave que definieron en gran medida el devenir del reconocimiento del habla. El primero de estos avances fue el algoritmo de transformada ràpida de Fourier (FFT), propuesto por Cooley y Tukey en 1965, que posibilitaba interpretar las señales en términos de frecuencia con un coste computacional reducido. Otro avance significativo en el procesado del habla fue la codificación lineal predictiva (LPC), que produce un espectro de la señal suavizado, en el que se aprecian más fácilmente los picos del espectro, lo que supone una ventaja a la hora de identificar los formantes. En tercer lugar, en 1972 se empezaron a aplicar los Modelos Ocultos de Markov, que fueron utilizados casi simultáneamente por James Baker y Jelinek en IBM en el reconocimiento del habla.

Habla Contínua[editar]

  • 1997 Dragon (desde 2000 propiedad de Lernout & Hauspie) saca Natural Speaking
  • 1998 Microsoft firma un acuerdo con Lernout & Huspie para usar sus sistemas

Estado del arte[editar]

Clasificación[editar]

Los sistemas de reconocimiento de voz pueden clasificarse según los siguientes criterios:

  • Entrenabilidad: determina si el sistema necesita un entrenamiento previo antes de empezar a usarse.
  • Dependencia del hablante: determina si el sistema debe entrenarse para cada usuario o es independiente del hablante.
  • Continuidad: determina si el sistema puede reconocer habla contínua o el usuario debe hacer pausas entre palabra y palabra.
  • Robustez: determina si el sistema está diseñado para usarse con señales poco ruidosas o, por el contrario, puede funcionar aceptablemente en condiciones ruidosas, ya sea ruido de fondo, ruido procedente del canal o la presencia de voces de otras personas.
  • Tamaño del dominio: determina si el sistema está diseñado para reconocer lenguaje de un dominio reducido (unos cientos de palabras p. e. reservas de vuelos o peticiones de información metereológica) o extenso (miles de palabras).

Características del habla humana[editar]

El habla humana reúne una serie de propiedades características que la diferencian de otros estímulos auditivos. Por una parte, la envolvente en amplitud del habla tiene grandes alternancias, pues los fonemas vocálicos tienen una amplitud mucho mayor que los fonemas consonánticos. Por otra parte, la envolvente espectral es también característica, pues está causada por la respuesta frecuencial del tracto vocal, con picos en los formantes del habla. En tercer lugar, el habla presenta segmentos sonoros cuasi periódicos, originados por la vibración periódica de las cuerdas vocales alternados con otros segmentos aperiódicos, correspondientes a los fonemas sordos, que resultan de la fricción aleatoria de las partículas de aire contra ciertas partes del tracto vocal.

Diagrama de bloques de un sistema de reconocimiento automático del habla

Proceso de reconocimiento[editar]

Preprocesado de la señal[editar]

Conversión analógico/digital[editar]

Detección del habla[editar]

Segmentación[editar]

Etiquetado de segmentos[editar]

Análisis de características[editar]

El análisis de características, que ocurre tras el preprocesado de la señal, consiste en la extracción de las características únicas que identifiquen los fonemas producidos. La capacidad de reconocer el fonema en condiciones variadas de ruido ambiental, diferencias de articulación de cada hablante o la presencia de otras conversaciones de fondo determina la robustez del sistema.

Existe un amplio abanico de sistemas de extracción de las características relevantes. En última instancia, el objetivo de estos sistemas es equipararse al funcionamiento del oído humano, que es tremendamente eficiente procesando habla humana. A continuación se describen algunas técnicas relevantes de análisis de características.

Codifiación lineal predictiva[editar]

MFCC[editar]

Predicción lineal perceptual[editar]

El modelo de predicción lineal perceptual (abreviado habitualmente como PLP), fue introducido por Hermanksy en 1990. Este modelo se aproxima más al funcionamiento real del oído humano que la codificación lineal predictiva (LPC), lo que le hace más robusto en entornos ruidosos.

La señal segmenta y a cada segmento, de unos 20ms de longitud se le aplica una ventana de Hamming. Al resultado de este enventanado se le aplica la transformada de Fourier y se computa su espectro de potencia. A continuación se pasa a la frecuencia Bark, una escala frecuencial que modela la respuesta del oído humano a los sonidos a distintas frecuencias, pues las altas frecuencias son percibidas con menos intensidad que las bajas frecuencias.

LLegados a este punto, los segmentos en escala Bark se procesan mediante un banco de filtros que representan el espectro de potencia de la respuesta de cada banda crítica.

Modelo de Lyon[editar]

El modelo de Lyon modela el comportamiento de la cóclea, que en esencia se comporta como un banco de filtros no lineales.

Modelo de Seneff[editar]

El modelo de Seneff, como el de Lyon, modela el comportamiento del oído humano. Tras preprocesar la señal para eliminar las componentes de muy baja y muy alta frecuencia

Modelo acústico[editar]

Modelos Ocultos de Markov[editar]

Modelo del lenguaje[editar]

El modelo del lenguaje es la parte que contiene información acerca del lenguaje o subconjunto del lenguaje para el que el sistema está diseñado. Estos sistemas tratan con la estadística del lenguaje, aportando información probabilística que ayuda a determinar la verosimilitud de una estimación. A partir de corpus que más o menos relacionados con la aplicación que se va a desempeñar obtienen las frecuencia de aparición de fonemas o palabras que pueden seguir a las ya reconocidas. Por ejemplo, si un sistema ha reconocido que se ha dicho la cadena "sacó a pasear a su perr..." y se está estimando el último fonema, un modelo del lenguaje debería de apuntar que es más probable que la última palabra sea "perro" o "perra" que "perrz".

Los modelos del lenguaje pueden variar mucho en cuanto a complejidad. Una estrategia muy frecuente para desarrollarlos se apoya en el cómputo de N-gramas, de forma que se estima el siguiente fonema en base a los dos (2-gramas) o tres (3-gramas) anteriores. Existe un amplio abanico de técnicas para estimar la probabilidad de aparición de un determinado N-grama. El diseño del valor óptimo de N está sujeto a un cierto compromiso, pues mientras valores más altos tienen en cuenta fonemas que han aparecido con más anterioridad (incrementando la memoria del sistema), requieren bases de datos mucho más extensas y son más proclives a errores; pues es posible que sólo aparezcan una o dos ocurrencias de muchos N-gramas largos, lo que contaminaría la estimación al depender la decisión de las pocas muestras que aparecen en el corpus, que no tienen por qué ser las únicas.

Léxico[editar]

Clasificación de patrones[editar]

Verificación de palabras[editar]

Decisión[editar]

Usos y aplicaciones[editar]

Curiosidades[editar]

Cultura popular[editar]

  • Hal 9000 en 1968

Véase también[editar]

Enlaces externos[editar]

Referencias[editar]

  • R. F. Lyon (1982), "A Computational Model of Filtering, Detection, and Compression in the Cochlea", in Proceedings of IEEE-ICASSP-82, pp. 1282-1285.
  • H. Hermansky, ``Perceptual Linear Predictive (PLP) Analysis of Speech, Journal of Acoust. Soc. Am., pp. 1738-1752, April 1990.