Corpus lingüístico

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Un corpus lingüístico es un conjunto, habitualmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas).

Lingüística de corpus[editar]

Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante.

Esta subdisciplina, dado el volumen de datos que se maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural.

Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el ahora clásico Computational Analysis of Present-Day American English (Análisis computacional del inglés estadounidense de la actualidad), a partir del corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

Véase también[editar]