Programa Automatizado de Juicio de Similitud

De Wikipedia, la enciclopedia libre

El Programa Automatizado de Juicio de Similitud (inglés ASJP, Automated Similarity Judgment Program) es un proyecto colaborativo que aplica enfoques computacionales a lingüística comparativa utilizando una base de datos de listas de vocabulario. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos, para más de la mitad de los idiomas del mundo.[1]​ Cada nueva versión ha incluido una expansión continua de dicha base de datos. Además de lenguas aisladas y lenguas de grupos filogenéticos demostrados, la base de datos incluye ahora pidgins, lenguas criollas, lenguas mixtas y lenguas construidas. las palabras de la base de datos se transcriben en una ortografía estándar simplificada (ASJPcode).[2]​ La base de datos se ha utilizado para estimar las fechas en las que las familias lingüísticas han divergido a partir de la proto-lengua (lengua madre) original en sus diversos descencientes modernos (lenguas hijas) por un método relacionado pero aún diferente de glotocronología,[3]​ determinar la patria (Urheimat) de una proto-lengua,[4]​ investigar simbolismo sonoro,[5]​ para evaluar diferentes métodos filogenéticos,[6]​ y varios otros propósitos.

La clasificación de ASJP no es ampliamente aceptada por los lingüistas históricos, y por tanto, no se considera que por sí mismo proporcione un método suficientemente adecuado para establecer o evaluar por sí mismo las relaciones entre las familias lingüísticas.[7][8]​ Sin embargo, algunas de las relaciones encontradas originalmente, posteriormente tras una inspección minuciosa usando el método comparativo ortodoxo se ha visto que eran identificaciones correctas.

Historia[editar]

Objtivos originales[editar]

ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, en función de las similitudes léxicas observadas. En el primer artículo de ASJP[2]​ dos palabras de idiomas presumiblemente relacionados se consideraron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se consideraron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de varias familias lingüísticas, que incluían la austroasiática, la indoeuropea, la mayance y la muskogee.

Consorcio ASJP[editar]

El Consorcio ASJP, fundado en 2008, llegó a involucrar a alrededor de 25 lingüistas profesionales y otras partes interesadas que trabajan como transcriptores voluntarios y / o extienden la ayuda al proyecto de otras maneras. La principal fuerza impulsora detrás de la fundación del consorcio fue Cecil H. Brown. Søren Wichmann es el encargado usual de mantener el proyecto. Un tercer miembro central del consorcio es Eric W. Holman, quen creó la mayor parte del software utilizado en el proyecto.

Listas de palabras más cortas[editar]

Si bien las listas de palabras utilizadas se basaron originalmente en la lista de 100 elementos, se determinó estadísticamente que un subconjunto de 40 de los 100 elementos iniciales producía resultados clasificatorios tan buenos, e incluso ligeramente mejores, que toda la lista completa.[9]​. Esto se debe en parte a que la lista de Swadesh que era altamente parecida a la lista inicial, contiene elementos más estables que otros, por tanto al reducir la lista a los elementos más estables se disminuye el ruido estadístico y la clasificación puede llegar a ser mejor. Por esa razón, posteriormente las listas de palabras reunidas contenían sólo 40 elementos (o menos, cuando faltan atestaciones documentales para algunos de los ítems léxicos).

Distancia de Levenshtein[editar]

En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (DL). Se encontró que este enfoque produce mejores resultados clasificatorios, medidos por comparación con las clasificaciones estándar dadas por los especialistas en diferentes familias, que el método utilizado inicialmente por Brown. La DL se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo DL por el número de símbolos de la más larga de las dos palabras comparadas. Esto produce DL normalizada (DLN). Un DLN dividido (DLND) entre los dos idiomas se calcula dividiendo el DLN promedio para todos los pares de palabras que involucran el mismo significado por el DLN promedio para todos los pares de palabras que involucran diferentes significados. Esta segunda normalización pretende corregir la similitud fortuita.[10]

Lista de palabras[editar]

El ASJP utiliza la siguiente lista de 40 palabras.[11]​ Es similar a la lista de Swadesh-Yakhontov, pero tiene algunas diferencias. Los términos originales en inglés son:

Partes del cuerpo
  • eye 'ojo'
  • ear 'oreja'
  • nose 'nariz'
  • tongue 'lengua'
  • tooth 'diente'
  • hand 'mano'
  • knee 'rodilla'
  • blood 'sangre'
  • bone 'hueso'
  • breast 'senos'
  • liver 'hígado'
  • skin 'piel'
Animales y plantas
  • louse 'piojo'
  • dog 'perro'
  • fish 'pez'
  • horn 'cuerno'
  • tree 'árbol'
  • leaf'hoja'
Personas
  • person 'ser humano'
  • name 'nombre'
Objetos y fenómenos naturales
  • sun 'sol'
  • star 'estrella'
  • water 'agua'
  • fire 'fuego'
  • stone 'piedra'
  • path 'camino'
  • mountain 'montaña'
  • night 'noche'
Verbos y adjectivos
  • drink 'beber'
  • die 'morir'
  • see 'ver'
  • hear 'oír'
  • come 'venir'
  • new 'nuevo'
  • full 'lleno'
Numerales y pronombres
  • one 'uno'
  • two 'dos'
  • I 'yo'
  • you 'tú'
  • we 'nosotros'

Codificación de ASJP de los fonemas[editar]

La versión de ASJP de 2016 utiliza los siguientes símbolos para codificar fonemas: < p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G ! i e E 3 a u o >. Esto grafemas representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.

Sonidos representados por ASJPcode[2]
ASJPcode Descripción AFI
i vocal anterior alta, redondeada y no redondeada i, ɪ, y, ʏ
e vocal anterior media, redondeada y no redondeada e, ø
E vocal anterior baja, redondeada y no redondeada a, æ, ɛ, ɶ, œ
3 vocal central alta y media, redondeada y no redondeada ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
a vocal central baja ɐ
u vocal posterior alta, redondeada y no redondeada ɯ, u
o vocal posterior media y baja, redondeada y no redondeada ɤ, ʌ, ɑ, o, ɔ, ɒ
p voiceless bilabial stop and fricative p, ɸ
b oclusiva y fricativa bilabial sorda b, β
m nasal bilabial m
f fricativa sorda labiodental f
v fricativa labiodental sonora v
8 fricativas dental sorda y sonora θ, ð
4 nasal dental
t oclusiva alveolar sorda t
d oclusiva alveolar sonora d
s fricativa alveolar sorda s
z fricativa alveolar sonora z
c africadas alveolar sorda y sonora ts, dz
n nasal alveolar sorda y sonora n
S fricativa postalveolar sorda ʃ
Z fricativa postalveolar sonora ʒ
C africada palatoalveolar sorda
j africada palatoalveolar sonora
T oclusivas palatal sorda y sonora c, ɟ
5 nasal palatal ɲ
k oclusiva velar sorda k
g oclusiva velar sonora ɡ
x fricativas velar sorda y sonora x, ɣ
N nasal velar ŋ
q oclusiva uvular sorda q
G oclusiva uvular sonora ɢ
X fricativas uvulares y faríngeas sordas y sonoras χ, ʁ, ħ, ʕ
7 oclusiva glotal sorda ʔ
h fricativas glotales sorda y sonora h, ɦ
l lateral alveolar sonora l
L todas los demás laterales ʟ, ɭ, ʎ
w aproximante labiovelar w
y aproximante palatal j
r rótica apicoalveolar y sonidos "r” r, ʀ, etc.
! Todas las variedades de "clics" ǃ, ǀ, ǁ, ǂ
  • Una marca ~ sigue a dos consonantes para que se consideren en la misma posición. Por lo tanto, kwat se convierte en kw~at. Las sílabas como kat, wat, kaw y kwi se consideran léxicamente similares a kw~at. Del mismo modo, una marca $ sigue a tres consonantes para que se considere que están en la misma posición. ndy$im se considera similar a nim, dam y yom. " marca la consonante precedente como glotalizada.

Véase también[editar]

Referencias[editar]

  1. Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant y Pilar Valenzuela. 2013. The ASJP Database (versión 16). http://asjp.clld.org/
  2. a b c Brown, Cecil H., Eric W. Holman, Søren Wichmann y Viveka Velupillai. Clasificación automatizada de las lenguas del mundo: una descripción del método y resultados preliminares. STUF – Language Typology and Universals 61.4: 285-308.
  3. Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List y Dmitry Egorov. Datación automatizada de las familias lingüísticas del mundo basadas en la similitud léxica. Current Anthropology 52.6: 841-875.
  4. Wichmann, Søren, André Müller y Viveka Velupillai. 2010. Homelands of the world's language families: A quantitative approach. Diachronica 27.2: 247-276.
  5. Wichmann, Søren, Holman, Eric W., y Cecil H. Brown. 2010. Simbolismo sonoro en vocabulario básico. Entropía 12.4: 844-858.
  6. Pompeya, Simone, Vittorio Loreto y Francesca Tria. 2011. Sobre la precisión de los árboles lingüísticos. PLoS ONE 6: e20109.
  7. Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Automated Dating of the World's Language Families Based on Lexical Similarity". Current Anthropology, vol. 52, no. 6, pp. 841–875.
  8. «Cross-Linguistic Linked Data». Consultado el 22 de febrero de 2020. 
  9. Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller y Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
  10. Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 (doi 10.1016/j.physa.2010.05.011).
  11. http://asjp.clld.org/static/Guidelines.pdf

Bibliografía[editar]

Enlaces exteriores[editar]