TreeBank

De Wikipedia, la enciclopedia libre

TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir anotada con su estructura sintáctica. La estructura sintáctica se ha representado generalmente como una estructura arbórea que recibe la denominación de TreeBank.[1]​ En la mayoría de los casos se ha empleado etiquetado gramatical. La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas. Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semiautomáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista. En la práctica, el completo control del parseado del lenguaje natural con el objeto de establecer diferentes corpus es una labor intensiva que dedica el tiempo de varios equipos de lingüistas, pudiendo alcanzar varios años.

Representación[editar]

Por ejemplo, el análisis sintáctico de la frase Víctor ama a María, puede ser representado de diversas formas, por ejemplo con un sistema anidado de paréntesis en el texto, como este (siguiendo la notación del Penn Treebank):

(S (NP (NNP Víctor))
   (VP (VPZ ama)
        (PP (TO a)
          (NP (NNP María))))
   (. .))

Esta representación es la más habitual y antigua, aunque desde comienzos del siglo XXI se han venido empleando anotaciones cada vez más complejas, siendo una de las posibles respresentaciones en XML.[2]​ En ella se puede ver como cada palabra se anota con su función sintáctica: nombre, verbo, adjetivo.

Usos[editar]

Una de las aplicaciones directas de los treebanks es el aprendizaje de gramáticas (inducción gramatical).[3]​ En analizadores fragmentales de texto (chunkers) capaces de separar las diversas frases de un texto. Estos analizadores se denominan a veces como "segmentación sintáctica básica".

Véase también[editar]

Referencias[editar]

  1. A. Abeillé, (2003), Treebanks: Building and Using Parsed Corpora, Kuwler Academic Publisher
  2. Ruslan Mitkov, (2004),The Oxford Handbook of Computational Linguistics, Oxford University Press
  3. Amparo Alcina,Esperanza Valero, (2009), Terminología y Sociedad del Conocimiento, Peter Lang AG

Referencias Externas[editar]