Segmentación del habla

De Wikipedia, la enciclopedia libre

La segmentación del habla es el proceso de identificar los límites entre palabras, sílabas o fonemas en las lenguas naturales habladas. El término se aplica tanto a los procesos mentales utilizados por los humanos como a los procesos artificiales del procesamiento del lenguaje natural.

Este problema se superpone en cierta medida con el problema de la segmentación de texto que se produce en algunos idiomas que son tradicionalmente escrito sin espacios entre palabras, como el chino y el japonés, comparado con los sistemas de escritura que indican la segmentación del habla entre palabras por un separador de palabras, como el espacio. Sin embargo, incluso para esos idiomas, la segmentación del texto es a menudo mucho más fácil que la segmentación del habla, porque la lengua escrita generalmente tiene poca interferencia entre las palabras adyacentes y, a menudo, contiene pistas adicionales que no están presentes en el habla (como el uso de caracteres chinos para los vástagos de palabras Japonés). La identificación de límites de palabras se puede superar mediante enfoques NLU como la teoría de Patom integrada con la función y la gramática de referencia (RRG) para idiomas

Reconocimiento léxico[editar]

En las lenguas naturales, el significado de una oración hablada compleja se puede entender descomponiéndola en segmentos léxicos más pequeños (más o menos, las palabras de la lengua), asociando un significado a cada segmento y combinando esos significados de acuerdo con las reglas gramaticales de la lengua.

Aunque no se cree que los bebés utilicen el reconocimiento léxico en su primer año, debido a su vocabulario muy limitado, es uno de los principales procesos involucrados en la segmentación del habla para adultos. Existen tres modelos principales de reconocimiento léxico en la investigación actual: primero, acceso de palabra completa, que sostiene que las palabras tienen una representación de palabra completa en el léxico; segundo, la descomposición, que argumenta que las palabras morfológicamente complejas se descomponen en sus morfemas (raíces, tallos, inflexiones, etc.) y luego interpretados y; tercero, la opinión de que se usan los modelos de palabra completa y descomposición, pero que el modelo de palabra completa proporciona algunas ventajas computacionales y, por lo tanto, es dominante en el reconocimiento léxico.[1]

Para dar un ejemplo, en un modelo de palabra completa, la palabra "gatos" se puede almacenar y buscar por letra, primero "g", luego "ga", "gato" y finalmente "gatos". La misma palabra, en un modelo de descomposición, probablemente se almacenaría bajo la palabra raíz "gato" y se podría buscar después de eliminar el sufijo "s". "Falling", (cayendo) de manera similar, se almacenaría como "fall" (caer) y con el sufijo de la inflexión "ing".[2]

Aunque los defensores del modelo de descomposición reconocen que un análisis morfema por morfema puede requerir un cálculo significativamente mayor, argumentan que el desempaque de la información morfológica es necesario para otros procesos (como la estructura sintáctica) que pueden ocurrir paralelamente a las búsquedas léxicas.

En general, la investigación en sistemas de reconocimiento léxico humano está limitada debido a la poca evidencia experimental que discrimina completamente entre los tres modelos principales.[1]

En cualquier caso, el reconocimiento léxico probablemente contribuye significativamente a la segmentación del habla a través de las pistas contextuales que proporciona, dado que es un sistema altamente probabilístico, basado en la probabilidad estadística de que ciertas palabras o constituyentes aparezcan juntos. Por ejemplo, uno puede imaginar una situación en la que una persona podría decir "compre mi perro en una ____ tienda" y la vocal de la palabra que falta se pronuncia como "net", "sweat" o "pet". Si bien la probabilidad de "netshop" es extremadamente baja, ya que "netshop" no es actualmente un compuesto o frase en inglés, y "sweatshop" también parece improbable en el contexto, "tienda de mascotas" es una buena opción porque es una frase común y También está relacionado con la palabra "perro".[3]

Además, una expresión puede tener diferentes significados dependiendo de cómo se divide en palabras. Un ejemplo popular en inglés, a menudo citado en el campo, es la frase "How to wreck a nice beach", que suena muy similar a "How to recognize speech". Como muestra este ejemplo, la segmentación léxica adecuada depende del contexto y la semántica, que se basan en la experiencia y el conocimiento humanos, y, por lo tanto, requerirían tecnologías avanzadas de reconocimiento de patrones e inteligencia artificial para ser implementadas en una computadora.

El reconocimiento léxico es de particular valor en el campo del reconocimiento de voz por computadora, ya que la capacidad de construir y buscar una red de ideas conectadas semánticamente aumentaría en gran medida la efectividad del software de reconocimiento de voz. Los modelos estadísticos se pueden usar para segmentar y alinear el habla grabada con palabras o teléfonos. Las aplicaciones incluyen la sincronización automática de la sincronización de labios para la animación de caricaturas, la subtitulación de videos de la pelota de seguimiento y la investigación lingüística.

Señales fonotácticas[editar]

Para la mayoría de los idiomas hablados, los límites entre las unidades léxicas son difíciles de identificar; las fonotácticas son una respuesta a este problema. Uno podría esperar que los espacios entre palabras utilizados por muchos idiomas escritos como el inglés o el español corresponderían a las pausas en su versión hablada, pero eso es cierto solo en el habla muy lenta, cuando el hablante inserta deliberadamente esas pausas. En el habla normal, normalmente se encuentran muchas palabras consecutivas que se dicen sin pausas entre ellas, y con frecuencia los sonidos finales de una palabra se combinan suavemente o se fusionan con los sonidos iniciales de la siguiente palabra.

La noción de que el habla se produce como escritura, como una secuencia de vocales distintas y consonantes, puede ser una reliquia de la herencia alfabética para algunas comunidades lingüísticas. De hecho, la forma en que se producen las vocales depende de las consonantes circundantes, así como las consonantes afectan a las consonantes; Esto se llama coarticulación. Por ejemplo, en inglés, en la palabra "kit", la [k] está más adelantada que cuando decimos 'caught'. Pero también, la vocal en "kick" es fonéticamente diferente de la vocal en "kit", aunque normalmente no escuchamos esto. Además, hay cambios específicos del lenguaje que ocurren en el habla informal, lo que lo hace bastante diferente de la ortografía. Por ejemplo, en inglés, la frase "hit you" a menudo podría ser más correctamente deletreada "hitcha"

Desde una perspectiva de descomposición, en muchos casos, la fonotáctica es importante para que los oradores sepan dónde dibujar los límites de las palabras. En inglés, los oradores perciben que la palabra "strawberry" (fresa) consiste en (fonéticamente) dos partes: "straw" (paja) y "berry" (baya). Otras interpretaciones como "stra" y "wberry" están inhibidas por la fonotáctica en inglés, que no permite la palabra "wb" del grupo inicialmente. Otros ejemplos de este tipo son "day / dream" y "mile / stone", que probablemente no se interpretarán como "da / ydream" o "mil / estone" debido a la probabilidad fonótica o improbabilidad de ciertos grupos.La frase "Cinco mujeres se fueron", que podría transcribirse fonéticamente como [faɪvwɪmɘnlɛft], está marcada ya que ninguna / vw / in / faɪvwɪmɘn / o / nl / in / wɪmɘnlɛft / está permitida como inicios de sílabas o codas en fonotácticas en inglés. Estas señales fonotácticas a menudo permiten a los hablantes distinguir fácilmente los límites de las palabras.

La armonía de vocales en idiomas como el finlandés también puede servir para proporcionar señales fonotácticas. Si bien el sistema no permite que las vocales delanteras y las vocales traseras existan juntas dentro de un morfema, los compuestos permiten que dos morfemas mantengan su propia armonía vocal mientras coexistan en una palabra. Por lo tanto, en compuestos como "selkä / ongelma" ('problema de espalda') donde la armonía vocal es distinta entre dos constituyentes en un compuesto, el límite estará donde sea que tenga lugar el cambio en armonía, entre "ä" y "ö "en este caso.[4]​ Sin embargo, hay casos en que la fonotáctica puede no ayudar en la segmentación. Las palabras con grupos poco claros o armonía vocal no controlada como en "opinto / uudistus" ('reforma estudiantil') no ofrecen pistas fonotácticas sobre cómo están segmentadas.[5]

Sin embargo, desde la perspectiva del modelo de palabra completa, estas palabras se almacenan como palabras completas, por lo que las partes constituyentes no serían necesariamente relevantes para el reconocimiento léxico.

Segmentación del habla en lactantes y no nativos[editar]

Los bebés son uno de los principales focos de investigación en la segmentación del habla. Dado que los bebés aún no han adquirido un léxico capaz de proporcionar pistas contextuales extensas o búsquedas de palabras basadas en la probabilidad dentro de su primer año, como se mencionó anteriormente, a menudo deben confiar principalmente en señales fonotácticas y rítmicas (con la prosodia como la señal dominante), todas que son específicos del idioma. Entre los 6 y 9 meses, los bebés comienzan a perder la capacidad de discriminar entre los sonidos que no están presentes en su idioma nativo y se vuelven sensibles a la estructura de sonido de su idioma nativo, con las habilidades de segmentación de palabras que aparecen alrededor de 7.5 meses.

Aunque se necesita mucha más investigación sobre los procesos exactos que utilizan los bebés para comenzar la segmentación del habla, los estudios actuales y pasados sugieren que los bebés nativos del inglés se acercan a las sílabas acentuadas como el principio de las palabras. A los 7,5 meses, los bebés parecen ser capaces de segmentar palabras bisilábicas con patrones de estrés fuerte-débil, aunque los patrones de estrés débil-fuerte a menudo se malinterpretan, por ejemplo. interpretando "guiTAR es" como "GUI TARis". Parece que los bebés también muestran cierta complejidad en el seguimiento de la frecuencia y la probabilidad de las palabras, por ejemplo, reconociendo que aunque las sílabas en inglés "the" y "dog" ocurren juntas con frecuencia, “the" también ocurre comúnmente con otras sílabas, lo que puede llevar a la Análisis de que "dog" es una palabra o concepto individual en lugar de la interpretación "thedog".[6][7]

Los aprendices de idiomas son otro grupo de individuos que están siendo investigados dentro de la segmentación del habla. De alguna manera, aprender a segmentar el habla puede ser más difícil para un aprendiz de un segundo idioma que para un infante, no solo por la falta de familiaridad con las probabilidades y restricciones de sonido, sino en particular por la aplicación excesiva de los patrones del idioma nativo. Si bien algunos patrones pueden ocurrir entre idiomas, como en la segmentación silábica del francés y el inglés, pueden no funcionar bien con idiomas como el japonés, que tiene un sistema de segmentación basado en mora. Además, las restricciones fonotácticas como el grupo de marcado de límites / ld / en alemán u holandés están permitidas (sin marcar necesariamente los límites) en inglés. Incluso la relación entre el estrés y la duración de las vocales, que puede parecer intuitiva para los hablantes de inglés, puede no existir en otros idiomas, por lo que los aprendices de un segundo idioma enfrentan un desafío especialmente grande cuando aprenden un idioma y sus claves de segmentación.[8]

Referencias[editar]

  1. a b Badecker, William; Mark, Allen (2002). «Morphological Parsing and the Perception of Lexical Identity: A Masked Priming Study of Stem Homographs». Journal of Memory and Language: 125-144. Consultado el 27 de abril de 2014. 
  2. Taft, Marcus; Forster., Kenneth (1976). «Lexical storage and retrieval of polymorphemic and polysyllabic words». Journal of Verbal Learning and Verbal Behavior. Consultado el 27 de abril de 2014. 
  3. Lieberman, Henry; Faaborg, Alexander. How to Wreck a Nice Beach You Sing Calm Incense. MIT Media Library. Consultado el January 9–12, 2005. 
  4. Bertram, Raymond; Pollatsek, Alexander; Hyönä., Jukka (2004). «Morphological parsing and the use of segmentation cues in reading Finnish compounds». Journal of Memory and Language 51: 325-345. Consultado el 8 de noviembre de 2018. 
  5. Artjom, Für (2012). «1». En LOT, ed. Phonotactics and Its Acquisition, Representation, and Use An Experimental-Phonological Study. The Netherlands. pp. 1-13. ISBN 978-94-6093-080-5. Archivado desde el original el 27 de abril de 2014. 
  6. Jusczyk, Peter; Houston, Derek (Noviembre de 1999). «The Beginnings of Word Segmentation in English-Learning Infants». Cognitive Psychology 39 (3-4): 159-207. 
  7. Johnson, Elizabeth; Jusczyk, Peter (Mayo de 2001). «Word Segmentation by 8-Month-Olds: When Speech Cues Count More Than Statistics». Journal of Memory and Language 44 (4): 548-567. Consultado el 8 de noviembre de 2018. 
  8. Michael, Tyler; Cutler, Anne (2009). «Cross-Language Differences in Cue Use for Speech Segmentation». Journal of the Acoustical Society of America: 367-376. Consultado el 27 de abril de 2014.