Conversor texto-voz

La conversión texto-voz es la generación por medios automáticos de una voz artificial que genera el sonido producido por una persona al leer un texto cualquiera en voz alta. o una voz artificial. Es decir, son sistemas que permiten la conversión de textos en voz sintética. Los conversores de texto-voz son conocidos también con las siglas CTV o por las siglas en inglés TTS (Text To Speech).

Requisitos de los conversores CTV/TTS

Debe producir una voz sintética (artificial) que resulte natural y sea inteligible.
La síntesis del habla ha de ser completamente automática, sin que se tenga que introducir ningún tipo de reajuste manual en ninguna parte del proceso.
El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no puede estar amañado en ningún sentido.

Fases de la conversión texto-voz

En la primera fase se realiza una representación lingüística simbólica, para ello se siguen tres procesos consecutivos:

Normalización del texto. Se convierte la totalidad del texto a una forma textual convencional. Esto afecta principalmente a las cifras, abreviaturas, etc. A la normalización del texto también se la denomina pre-procesado o tokenización.
Conversión fonética. Una vez normalizado el texto se asignan transcripciones fonéticas a cada palabra. El proceso de convertir las transcripciones fonéticas en palabras se denomina «conversión texto-fonema» (TTP en sus siglas en inglés de text-to-phoneme) o «conversión grafema-fonema» (GTP en sus siglas en inglés de grapheme-to-phoneme).
División prosódica. Se divide el texto en unidades prosódicas, tales como unidades sintagmáticas, proposiciones y frases.

En la segunda fase, la que forma el sintetizador propiamente dicho, toma como entrada la representación lingüística simbólica y la transforma en voz sintética.

Véase también

Enlaces externos

Datos: Q8350507