Compound term processing

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

El procesamiento de términos compuestos se refiere a una categoría de técnicas utilizadas en aplicaciones de recuperación de información para realizar coincidencias sobre la base de términos compuestos. Los términos compuestos se crean combinando dos o más términos simples; por ejemplo, "triple" es un término de una sola palabra, pero "derivación de triple corazón" es un término compuesto.

El procesamiento de términos compuestos es un nuevo enfoque para un viejo problema: ¿cómo se puede mejorar la relevancia de los resultados de búsqueda mientras se mantiene la facilidad de uso? Usando esta técnica, una búsqueda de tasas de supervivencia después de un bypass cardíaco triple en personas mayores localizará documentos sobre este tema, incluso si esta frase precisa no figura en ningún documento. Esto se puede realizar mediante una búsqueda de conceptos, que a su vez utiliza el procesamiento de términos compuestos. Esto extraerá automáticamente los conceptos clave (en este caso, "tasas de supervivencia", "puente de triple corazón" y "personas mayores") y utilizará estos conceptos para seleccionar los documentos más relevantes.

Técnicas[editar]

En agosto de 2003, Concept Searching Limited introdujo la idea de utilizar el procesamiento estadístico de términos compuestos.[1]

CLAMOR es un proyecto de colaboración europea cuyo objetivo es encontrar una mejor manera de clasificar al recopilar y difundir información y estadísticas industriales. CLAMOR parece utilizar un enfoque lingüístico, en lugar de uno basado en modelos estadísticos.[2]

Historia[editar]

Las técnicas para la ponderación probabilística de los términos de una sola palabra se remontan, al menos, a 1976 en la histórica publicación de Stephen E. Robertson Y Karen Spärck Jones.[3]​ Robertson afirmó que la suposición de la independencia de las palabras no está justificada y existe como una cuestión de conveniencia matemática. Su objeción al término independencia no es una idea nueva, que data de al menos 1964 cuando H. H. Williams afirmó que "[l] a suposición de independencia de las palabras en un documento generalmente se hace como una cuestión de conveniencia matemática".[4]

En 2004, Anna Lynn Patterson presentó patentes sobre "búsqueda basada en frases en un sistema de recuperación de información" a la que Google posteriormente adquirió los derechos.[5][6]

Adaptabilidad[editar]

El procesamiento del término compuesto estadístico es más adaptable que el proceso descrito por Patterson. Su proceso está dirigido a buscar en la World Wide Web, donde se puede utilizar un amplio conocimiento estadístico de búsquedas comunes para identificar frases candidatas. El procesamiento de términos compuestos estadísticos es más adecuado para las aplicaciones de búsqueda empresarial donde dicho conocimiento a priori no está disponible.

El procesamiento de términos compuestos estadísticos también es más adaptable que el enfoque lingüístico adoptado por el proyecto CLAMOR, que debe considerar las propiedades sintácticas de los términos (es decir, parte del habla, género, número, etc.) y sus combinaciones. CLAMOR es altamente dependiente del lenguaje, mientras que el enfoque estadístico es independiente del lenguaje.

Aplicaciones[editar]

El procesamiento de términos compuestos permite que las aplicaciones de recuperación de información, como los motores de búsqueda, realicen su coincidencia sobre la base de conceptos de varias palabras, en lugar de palabras sueltas aisladas que pueden ser muy ambiguas.

Los primeros buscadores buscaban documentos que contengan las palabras ingresadas por el usuario en el cuadro de búsqueda. Estos son conocidos como motores de búsqueda de palabras clave. Los motores de búsqueda Boolean agregan un grado de sofisticación al permitir al usuario especificar requisitos adicionales. Por ejemplo, "Tiger NEAR Woods AND (golf O golf) NOT Volkswagen" utiliza los operadores "NEAR", "AND", "OR" y "NOT" para especificar que estas palabras deben seguir ciertos requisitos. Una búsqueda de frase es más fácil de usar, pero requiere que la frase exacta especificada aparezca en los resultados.

Ver también[editar]

Referencias[editar]

  1. «Lateral Thinking in Information Retrieval». INFORMATION MANAGEMENT AND TECHNOLOGY. 36 PART 4.  The British Library Direct catalogue entry can be found here:[1]
  2. [2] National Statistics CLAMOUR project
  3. Robertson, S. E.; Spärck Jones, K. (1976). «Relevance weighting of search terms». Journal of the American Society for Information Science 27 (3): 129. doi:10.1002/asi.4630270302. 
  4. «Results of classifying documents with multiple discriminant functions». Statistical Association Methods for Mechanized Documentation, National Bureau of Standards (Washington). 1965. 
  5. US 20060031195Plantilla:Patent
  6. Google Acquires Cuil Patent Applications