Lingüística de corpus
La lingüística de corpus es un área de la lingüística que se ocupa de la recopilación y análisis de corpus lingüísticos, es decir, de conjuntos de datos lingüísticos recolectados criteriosamente para ser objeto de investigación lingüística. Originalmente se elaboraban a mano; en la actualidad, los corpus se recopilan de manera automática.
Los partidarios de la lingüística de corpus consideran que el análisis lingüístico fiable se da de manera óptima en muestreos recopilados en contextos naturales y con mínima interferencia experimental. Existen visiones divergentes respecto del valor de las anotaciones de corpus, desde John Sinclair[1] que sostiene que se deben tomar un mínimo de anotaciones y permitir que los textos "hablen por sí mismos", hasta otros como el equipo Survey of English Usage (del University College de Londres)[2] que sostienen que la anotación implica un camino hacia un máximo de comprensión y rigor lingüísticos.
Véase también[editar]
- Colocación
- Corpus lingüístico
- Corpus paralelo
- Ingeniería lingüística
- Memoria de traducción
- Motor de búsqueda
- Traducción asistida
- Traducción automática
Referencias[editar]
- Esta obra deriva de la traducción de Corpus linguistics, publicada bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 3.0 Unported por editores de la Wikipedia en inglés.
- ↑ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
- ↑ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007.e-Published
Enlaces externos[editar]
- Bookmarks for Corpus-based Linguists -- very comprehensive site with categorized and annotated links to language corpora, software, references, etc.
- Corpora discussion list
- Freely-available, web-based corpora (100 million - 400 million words each): American (COCA, COHA), British (BNC), TIME, Spanish, Portuguese
- Manuel Barbera's overview site
- Przemek Kaszubski's list of references
- AskOxford.com the composition and use of the Oxford Corpus
- DMCBC.com
- Datum Multilanguage Corpora Based on chinese free sample download
- Corpus4u Community a Chinese online forum for corpus linguistics
- McEnery and Wilson's Corpus Linguistics Page
- Corpus Linguistics with R mailing list
- Research and Development Unit for English Studies
- Survey of English Usage
- The Centre for Corpus Linguistics at Birmingham University
- Gateway to Corpus Linguistics on the Internet: an annotated guide to corpus resources on the web
- Biomedical corpora
- Linguistic Data Consortium, a major distributor of corpora
- Penn Parsed Corpora of Historical English
- Corsis: (formerly Tenka Text) an open-source (GPLed) corpus analysis tool written in C#
- ICECUP and Fuzzy Tree Fragments
- Research and Development Unit for English Studies
- Discussion group text mining