CMU Sphinx

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

CMU Sphinx (acortado como Sphinx), es el término general para describir un grupo de sistemas de reconocimiento de voz desarrollado en la Universidad de Carnegie Mellon. Incluye una serie de programas para reconocimiento de voz (Sphinx 2 - 4) y un entrenador modelo acústico (SphinxTrain).

En el año 2000, el grupo de Sphinx se comprometió a desarrollar varios componentes para reconocimiento de voz, incluyendo Sphinx 2 y más tarde Sphinx 3 (en 2001). Los decodificadores de voz vienen con modelos acústicos y aplicaciones de ejemplo. Los recursos disponibles incluyen además el software para el entrenamiento de modelos acústicos, la compilación de un modelo de lenguaje y un diccionario de pronunciación en dominio público llamado cmudict.

Sphinx abarca una serie de sistemas de software, inicio como sphinx 1, luego se produjeron las versiones 2, 3, 4 y Pocket Sphinx, todas tienen aplicaciones diferentes, aunque su función es la misma, el reconomiento del habla, todas ellas se describen a continuación.

Sphinx[editar]

Sphinx es un sistema de habla continua y reconocimiento de habla, utiliza el Modelo oculto de Márkov (HMMs) y un lenguaje de modelado estadístico de n-gramas. Fue desarrollado por Kai Fu-Lee. Sphinx interpreta voz hablada en forma continua, reconocimiento de habla de vocabulario amplio.

Sphinx 2[editar]

Es un sistema de reconocimiento de habla de alta resolución desarrollado originalmente por Xuedong Huang en la Carnegie Mellon, quien liberó su código como software libre con una licencia BSD. Sphinx 2 se centra en el reconocmiento de voz en tiempo real, es adecuado para aplicaciones de lenguaje hablado. Incorpora funciones tales como, end-pointing, partial hypothesis generation, dynamic language model switching entre otras. Es utilizado en sistemas de diálogo y los sistemas de aprendizaje de idiomas.

Sphinx 2 utiliza una representación semi-continua para el modelado acústico (es decir, un único conjunto de gaussianas se utiliza para todos los modelos, con los modelos individuales como un vector de peso durante estas gaussianas).

Puede ser utilizado en los sistemas informáticos basados ​​en PBX como Asterisk. El código de Sphinx 2 también se ha incorporado en una serie de productos comerciales.

Sphinx 3[editar]

Aprobada la representación frecuente HMM continuó y se ha utilizado principalmente para la alta precisión, no en tiempo real de reconocimiento. La evolución reciente (en los algoritmos y hardware) han hecho que Sphinx funcione "casi" en tiempo real, aunque todavía no es adecuado para las aplicaciones interactivas. Sphinx 3 está en desarrollo y en colaboración con SphinxTrain proporciona acceso a una serie de técnicas de modelado modernas, como LDA / MLLT, MLLR y VTLN, que mejoran la precisión en el reconocimiento.

Sphinx 4[editar]

Sphinx 4 es una completa re-escritura de la máquina de Sphinx, con el objetivo de proporcionar un marco más flexible para la investigación en reconocimiento de voz, está escrito íntegramente en lenguaje de programación Java. Sun Microsystems apoya el desarrollo de la Sphinx 4 y contribuyó experiencia en software de ingeniería para el proyecto. Entre los participantes había personas en el REAL, MIT y la CMU. Al estar escrito en java puede ser utilizado en una gran diversidad de sistemas operativos y hardware.

Los objetivos actuales de desarrollo incluyen:

  • El desarrollo de un nuevo entrenador (modelo acústico)
  • Implementación de adaptación de la persona que está hablando (por ejemplo, MLLR)
  • Mejora de la gestión de configuración
  • La creación de una interfaz de usuario gráfica basada en el diseño gráfico de sistemas.

Pocket Sphinx[editar]

Pocket Sphinx es una versión de la Sphinx que se pueden utilizar en sistemas embebidos (por ejemplo, basado en un procesador ARM). PocketSphinx está siendo evaluado para desarrollar e incorporar características como la aritmética de coma fija y algoritmos eficientes para el cálculo de modelos mezclados. Puede ser utilizado en muchos equipos portátiles y también en teléfonos móviles.

Véase también[editar]

Referencias[editar]

  • CMU Sphinx homepage
  • Sphinx subwiki - Getting started tutorials + python integration information.
  • SourceForge hosts Sphinx software and should be considered the definitive source for code.
  • NeXT on Campus Fall 1990 (This document is postscript format compressed with gzip.) Carnegie Mellon University - Breakthroughs in speech recognition and document management, pgs. 12-13