Conversor texto-voz

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La conversión texto-voz es la generación por medios automáticos de una voz artificial que genera el sonido producido por una persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son sistemas que permiten la conversión de textos en voz sintética. Los conversores de texto-voz son conocidos también con las siglas CTV o por las siglas en inglés TTS (Text To Speech).

Requisitos de los conversores CTV/TTS[editar]

  1. Debe producir una voz sintética (artificial) que resulte natural y sea inteligible.
  2. La síntesis del habla ha de ser completamente automática, sin que se tenga que introducir ningún tipo de reajuste manual en ninguna parte del proceso.
  3. El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no puede estar amañado en ningún sentido.

Fases de la conversión texto-voz[editar]

  • En la primera fase se realiza una representación lingüística simbólica, para ello se siguen tres procesos consecutivos:
  1. Normalización del texto. Se convierte la totalidad del texto a una forma textual convencional. Esto afecta principalmente a las cifras, abreviaturas, etc. A la normalización del texto también se la denomina pre-procesado o tokenización.
  2. Conversión fonética. Una vez normalizado el texto se asignan transcripciones fonéticas a cada palabra. El proceso de convertir las transcripciones fonéticas en palabras se denomina «conversión texto-fonema» (TTP en sus siglas en inglés de text-to-phoneme) o «conversión grafema-fonema» (GTP en sus siglas en inglés de grapheme-to-phoneme).
  3. División prosódica. Se divide el texto en unidades prosódicas, tales como unidades sintagmáticas, proposiciones y frases.
  • En la segunda fase, la que forma el sintetizador propiamente dicho, toma como entrada la representación lingüística simbólica y la transforma en voz sintética.

Algunos ejemplos de software

Algunos ejemplos de estos programas[editar]

  • Verbio TTS Solución de síntesis de voz en Español de España, español de Argentina, español de México, español latinoamericano neutro, Portugués de Brasil y Portugal, Inglés, Francés, Catalán, Gallego, Vasco y otros idiomas.
  • VozMe
  • Dspeech
  • Balabolka
  • Loquendo TTS El software sintetizador de voz de Loquendo ofrece una amplia gama de características distintivas y un conjunto de herramientas de gran valor a la hora de asegurar que tus mensajes textos peech y prompts se realicen exactamente como se desea:

Vocabulario del usuario te permite definir la pronunciación de siglas, nombres, abreviaturas, etc .Controles Audio – te consienten añadir efectos y eco, ajustar el equilibrio estéreo, modificar los niveles de frecuencia vía un 30-band graphic EQ incorporado, o añadir música y efectos de sonido. Estos también se pueden mezclar con la velocidad y variar de intensidad. Los usos potenciales en la formación son varios: Audio-guía didáctica, traducción de textos a otros idiomas y explicación en audio, etc... En este link está la explicación y la demostración de cómo funciona: Demo. Como ejemplo práctico de este programa TTS, sería el uso en una aplicación móvil de explicaciones audio-guiadas de cualquier teoría escrita , introducida por escrito previamente , para poder hacer uso de ella de manera práctica (reparación de electrodomésticos tutorizados mediante audio que han sido previamente convertidos de manuales )

  • TextAloud
  • Sodelscot

Véase también[editar]

Enlaces externos[editar]