Similitud léxica

De Wikipedia, la enciclopedia libre

En lingüística la similitud léxica es la medida de grado de semejanza entre series de palabras pertenecientes a dos lenguas diferentes. Una similitud léxica de 1 (o 100 %) correspondería a un recurrente total entre los vocabularios, mientras que 0 significa que no hay palabras comunes.

Hay varios modos de definir la similitud léxica y los resultados varían consecuentemente. Por ejemplo, el método de Ethnologue consiste en comparar un conjunto estandarizado de listas de palabras y a contar las formas que presentan una similitud a la vez en la forma y en el significado. Utilizando un tal método, el inglés ha sido evaluado, presentando una similitud léxica del 60 % con el alemán y del 27 % con el francés.

La similitud léxica puede ser utilizada para evaluar el grado de relación genética entre dos lenguas. Porcentajes superiores al 85 % indican habitualmente que los idiomas comparados son probablemente dialectos emparentados. Este ocurre entre el español y el portugués, cuya similitud léxica supera el 89 %.[1][2]

La similitud léxica constituye solo una indicación de la inteligibilidad mutua de dos lenguas, dado que esta última depende también del grado de similitud, fonética, morfológica y sintáctica. Por ejemplo, la similitud léxica entre el francés y el inglés es considerable en los campos léxicos relativos a la cultura, mientras que su similitud es más restringida cuando se trata de palabras de base (en términos de función). Al contrario de lo que pasa con la inteligibilidad mutua, la similitud léxica no puede ser más que simétrica.

Lenguas indoeuropeas[editar]

En el siguiente cuadro se presentan algunos valores de similitud léxica dadas entre algunas lenguas, publicadas por Ethnologue.[3]

Lang.
code
Lengua 1
Coeficientes de similitud léxica
Catalán Inglés Francés Alemán Italiano Portugués Rumano Romanche Ruso Sardo Español
cat Catalán 1 - 0.85 - 0.87 0.85 0.73 0.76 - 0.75 0.85
eng Inglés - 1 0.27 0.60 - - - - 0.24 - -
fra Francés 0.85 0.27 1 0.29 0.89 0.75 0.75 0.78 - 0.80 0.75
deu Alemán - 0.60 0.29 1 - - - - - - -
ita Italiano 0.87 - 0.89 - 1 - 0.77 0.78 - 0.85 0.82
por Portugués 0.85 - 0.75 - - 1 0.72 0.74 - - 0.89
ron Rumano 0.73 - 0.75 - 0.77 0.72 1 0.72 - 0.74 0.71
roh Romanche 0.76 - 0.78 - 0.78 0.74 0.72 1 - 0.74 0.74
rus Ruso - 0.24 - - - - - - 1 - -
srd Sardo 0.75 - 0.80 - 0.85 - 0.74 0.74 - 1 0.76
spa Español 0.85 - 0.75 - 0.82 0.89 0.71 0.74 - 0.76 1
Catalán Inglés Francés Alemán Italiano Portugués Rumano Romanche Ruso Sardo Español
Language 2 → cat eng fra deu ita por ron roh rus srd spa
  • Los códigos lengua son aquellos de la norma ISO 639-3
  • El Ethnologue no precisa con qué variante de la lengua sarda, la similitud léxica ha sido calculada
  • "-" indica que los datos de comparación no son disponibles

Véase también[editar]

Referencias[editar]