Lingüística de corpus

La lingüística de corpus estudia el lenguaje a través de ejemplos de textos reales producidos en el "mundo real". Este método representa un enfoque que infiere un conjunto de reglas abstractas por el cual una lengua natural se gobierna o se refiere a otro idioma. Antiguamente se hacían a mano pero hoy en día los corpus lingüísticos se obtienen mayoritariamente mediante un proceso automatizado.^[1]

En la filología forman los corpus aquellos textos, orales o escritos, y los documentos que los contienen, que han sido debidamente recopilados. Estos corpus constituyen las muestras que se utilizan en lingüística aplicada, entre otros, para estudiar y analizar las características del objeto de estudio, pues integran las muestras de los elementos que constituyen la realidad que se quiere observar. Tanto si es oral como escrito, un corpus deberá definirse en función de los objetivos que se persigan con el mismo.

Los partidarios de la lingüística de corpus creen que el análisis lingüístico más fiable se produce en las muestras recogidas en contextos naturales y con una interferencia mínima. Dentro de la lingüística de corpus hay puntos de vista divergentes en cuanto al valor de la anotación de corpus, desde el punto de vista de John Sinclair,^[2] que opta por la anotación mínima y permitiendo a los textos "hablar por sí mismos" hasta otros como el del equipo de Survey of English Usage (con sede en la University College, Londres)^[3] que apoyan la anotación como un camino hacia una mayor comprensión lingüística y de mayor rigor.

Historia[editar]

Algunos de los primeros esfuerzos en la descripción gramatical se basan, al menos en parte, en los corpus religiosos o culturales. Por ejemplo, la literatura Prātiśākhya describe los patrones de sonido del sánscrito como se encuentra en los Vedas, y la gramática de Panini del sánscrito clásico se basa, al menos en parte, en el análisis de ese mismo corpus. Del mismo modo, los primeros gramáticos árabes prestaron especial atención a la lengua del Corán. En la tradición europea occidental varios académicos prepararon concordancias para realizar un estudio detallado del lenguaje de la Biblia y otros textos canónicos.

Un hito en la lingüística de corpus modernos fue la publicación por Henry Kucera y W. Nelson Francis de Computational Analysis of Present-Day American English en 1967, un trabajo basado en el análisis del Corpus de Brown, una selección cuidadosamente compilada del inglés americano actual, con un total de aproximadamente un millón de palabras extraídas de una amplia variedad de fuentes. Kucera y Francis compilaron una obra muy rica y variada, que combina elementos de la lingüística, la enseñanza de idiomas, la psicología, la estadística y la sociología. Una publicación clave adicional fue la de Randolph Quirk Towards a description of English Usage (1960)^[4] en la que se introdujo el estudio del uso del inglés.

Poco después, la editorial Houghton-Mifflin siguiendo a Kucera logró reunir un millón de palabras para su nuevo diccionario American Heritage Dictionary, el primer diccionario creado usando la lingüística de corpus. El AHD dio el paso innovador de combinar elementos prescriptivos (cómo se debe utilizar el lenguaje) con información descriptiva (cómo se utiliza en realidad). Otras editoriales siguieron el ejemplo.

El Corpus de Brown también ha dado lugar a una serie de conjuntos de corpus de estructura similar: el LOB Corpus (1960, inglés británico), Kolhapur (inglés indio), Wellington (inglés de Nueva Zelanda), Corpus australiano de inglés (inglés australiano), el Corpus de Frown (el inglés estadounidense de principios de 1990), y el FLOB Corpus (inglés británico de 1990). Otros conjuntos de corpus representan muchos idiomas, variedades y formas, e incluyen el International Corpus of English, y el British National Corpus, una colección de 100 millones de palabras de una serie de textos orales y escritos, creada en la década de 1990 por un consorcio de editoriales, universidades (Oxford y Lancaster) y la Biblioteca Británica. Para el inglés americano contemporáneo, el trabajo se ha estancado en el American National Corpus, aunque el corpus de más de 400 millones de palabras Corpus of Contemporary American English (1990-presente) está ahora disponible a través de una interfaz web.

El primer corpus informatizado del lenguaje hablado transcrito fue construido en 1971 por el Proyecto Francés de Montreal,^[5] que contenía un millón de palabras inspiró un corpus aún más grande, el Corpus del Francés hablado en el área de Ottawa-Hull.^[6]

Además de estos conjuntos de corpus de las lenguas vivas, se han hecho corpus informatizados de las colecciones de textos en lenguas antiguas. Un ejemplo es la base de datos de Andersen-Forbes de la Biblia hebrea, que se viene desarrollando desde la década de los setenta. En él, en cada cláusula se analiza el uso de gráficos que representan hasta siete niveles de sintaxis y cada segmento está etiquetado con siete campos de información.^[7]^[8] El corpus del árabe coránico es un corpus con anotaciones de la lengua árabe clásica del Corán. Este proyecto es reciente y con múltiples capas de anotación entre las que se incluyen la segmentación morfológica, el etiquetado gramatical y el análisis sintáctico utilizando la gramática de dependencia.^[9]

Métodos[editar]

La Lingüística de corpus ha generado una serie de métodos de investigación, tratando de trazar un camino de datos a la teoría. Wallis y Nelson (2001)^[10] introdujeron por primera vez lo que ellos llamaron la perspectiva de las tres A (3A perspective): anotación, abstracción y análisis.

La anotación consiste en la aplicación de un esquema para textos. Las anotaciones pueden incluir etiquetas estructurales, etiquetado gramatical, análisis sintáctico, y numerosas otras representaciones.
La abstracción consiste en la traducción (mapeo) de términos en el esquema en conjunto de datos. La abstracción incluye la búsqueda lingüista dirigida y puede incluir, por ejemplo, la regla de aprendizaje para los analizadores.
El análisis consiste en sondear, la manipular y la generar el conjunto de datos, todo ello de manera estadística. El análisis podría incluir evaluaciones estadísticas, optimización de bases de reglas o métodos de descubrimiento de conocimiento.

La mayoría de los conjuntos de corpus léxicos son parte del etiquetado del discurso. Sin embargo, incluso los lingüistas de corpus que trabajan con texto plano y sin anotaciones en el texto aplican de manera inevitable algún método para aislar términos destacables. En tales situaciones la anotación y la abstracción se combinan en la búsqueda del léxico.

La ventaja de la publicación de un corpus con anotaciones es que otros usuarios pueden realizar experimentos en el corpus. Los lingüistas con otros intereses y perspectivas diferentes que los creadores pueden utilizar ese trabajo. Al compartir los datos, los lingüistas del corpus son capaces de tratar el corpus como un elemento de debate lingüístico más que como una fuente de conocimiento.

Estudios recientes han demostrado que adolescentes con trastorno de fobia social también pueden ser evaluados mediante el análisis de la lengua a través de la lingüística de corpus.^[11]

Lingüística de corpus vs. Gramática generativa[editar]

La Lingüística de corpus parte del uso de lenguas naturales. Se trata de un método inductivo/empírico que persigue la adquisición de conocimiento sobre las lenguas: mediante la observación de una gran cantidad de ejemplos concretos se llega a la formulación de una teoría general del objeto. Este proceder empírico (de lo concreto a lo general) parte de la base de que todo conocimiento se fundamenta en la experiencia. En el lado opuesto, nos encontramos el método deductivo que surge de la tradición filosófica del Racionalismo: a través del pensamiento se trata de encontrar confirmación de cómo están construidas las lenguas (de lo general a lo concreto).

Lingüística de corpus - ¿Método o disciplina?[editar]

A la pregunta de si la Lingüística de corpus es una metodología aplicada o general o de si constituye una disciplina científica en sí misma aún no se ha ofrecido una respuesta definitiva. A favor de su consideración como Método, es un hecho que muchas ramas de la Lingüística, desde la Lingüística teórica a la Lingüística forense, utilizan técnicas de análisis empíricas basadas en corpus reflejado metódicamente, si bien no de forma exclusiva. No se le reconoce, sin embargo, un objeto original o genuino de la Lingüística de corpus. Aun así, sería necesario que dispusiera de uno, si se le quiere conceder el estatuto de disciplina científica independiente. Para su consideración como disciplina científica podemos decir que determina decididamente el uso de la lengua como su objeto de conocimiento y que, de este modo, se aleja de las teorías lingüísticas que toman como objeto de estudio la capacidad lingüística de los seres humanos o las estructuras generales de la lengua como sistema semiótico. Independientemente de este principio, se ha consolidado la Lingüística de corpus como una disciplina científica en el mundo académico. A este respecto se puede constatar, por ejemplo, la existencia de numerosas revistas especializadas, así como, de dos cátedras en la Universidad de Birmingham y en la Universidad Humboldt de Berlín.

Véase también[editar]

Referencias[editar]

Esta obra contiene una traducción derivada de «Corpus linguistics» de Wikipedia en inglés, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.

↑ Castillo Fadic, María Natalia (2020). «Corpus Básico del Español de Chile ©: metodología de procesamiento y análisis». Lexis, Perú. doi:10.18800/lexis.202002.004.
↑ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
↑ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007.e-Published
↑ Quirk, R. 'Towards a description of English Usage', Transactions of the Philological Society. 1960. 40–61.
↑ Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7–64.
↑ Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411–451.
↑ Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies 40: 43–61 [45] .
↑ Eyland, E. Ann (1987), «Revelations from Word Counts», en Newing, Edward G.; Conrad, Edgar W., eds., Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake, IN: Eisenbrauns, p. 51, ISBN 0-931464-26-9 .
↑ Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
↑ Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
↑ Garcia-Lopez, L. J, Bedmar, MB, Perez-Paredes, P, & Tornero, E. (2011). TREATMENT CHANGE IN ADOLESCENTS WITH SOCIAL ANXIETY DISORDER: INSIGHTS FROM CORPUS LINGUISTICS. Ansiedad y Estres, 17, 149-155.

Revistas[editar]

Hay varias revistas internacionales dedicadas a la lingüística de corpus, por ejemplo, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal y la International Journal of Corpus Linguistics.

Enlaces externos[editar]

Bookmarks for Corpus-based Linguists -- very comprehensive site with categorized and annotated links to language corpora, software, references, etc.
Corpora discussion list
Freely-available, web-based corpora (100 million - 400 million words each): American (COCA, COHA), British (BNC), TIME, Spanish, Portuguese
Manuel Barbera's overview site
Przemek Kaszubski's list of references
AskOxford.com Archivado el 29 de octubre de 2007 en Wayback Machine. the composition and use of the Oxford Corpus
DMCBC.com
Datum Multilanguage Corpora Based on chinese free sample download
Corpus4u Community a Chinese online forum for corpus linguistics
McEnery and Wilson's Corpus Linguistics Page
Corpus Linguistics with R mailing list
Research and Development Unit for English Studies Archivado el 29 de octubre de 2010 en Wayback Machine.
Survey of English Usage
The Centre for Corpus Linguistics at Birmingham University Archivado el 9 de abril de 2003 en Wayback Machine.
Gateway to Corpus Linguistics on the Internet Archivado el 22 de junio de 2006 en Wayback Machine.: an annotated guide to corpus resources on the web
Biomedical corpora
Linguistic Data Consortium, a major distributor of corpora
Penn Parsed Corpora of Historical English
Corsis: (formerly Tenka Text) an open-source (GPLed) corpus analysis tool written in C#
ICECUP and Fuzzy Tree Fragments
Research and Development Unit for English Studies Archivado el 29 de octubre de 2010 en Wayback Machine.
Discussion group text mining

Datos: Q865083
Multimedia: Corpus linguistics / Q865083

[1] Castillo Fadic, María Natalia (2020). «Corpus Básico del Español de Chile ©: metodología de procesamiento y análisis». Lexis, Perú. doi:10.18800/lexis.202002.004.

[2] Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.

[3] Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007.e-Published

[4] Quirk, R. 'Towards a description of English Usage', Transactions of the Philological Society. 1960. 40–61.

[5] Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7–64.

[6] Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411–451.

[7] Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies 40: 43–61 [45] .

[8] Eyland, E. Ann (1987), «Revelations from Word Counts», en Newing, Edward G.; Conrad, Edgar W., eds., Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake, IN: Eisenbrauns, p. 51, ISBN 0-931464-26-9 .

[9] Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.

[10] Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery, 5: 307–340. 2001.

[11] Garcia-Lopez, L. J, Bedmar, MB, Perez-Paredes, P, & Tornero, E. (2011). TREATMENT CHANGE IN ADOLESCENTS WITH SOCIAL ANXIETY DISORDER: INSIGHTS FROM CORPUS LINGUISTICS. Ansiedad y Estres, 17, 149-155.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]