Ley de Heaps

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 09:05 12 may 2020 por Oblongo (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.
Una representación habitual de la ley de Heaps. El eje X representa el tamaño del texto, y el eje Y representa el número de palabras distintas (vocabulario) presentes en el texto.

En lingüística, la ley de Heaps (también llamada ley de Herdan) es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) como una función de la longitud del documento. Pueda ser formulado como:

Donde VR es el número de palabras distintas en un texto de tamaño n. K Y β son los parámetros libres que se determinan empíricamente. Con un texto en inglés, típicamente K es entre 10 y 100, y β es entre 0,4 y 0,6.

La ley es frecuentemente atribuida a Harold Stanley Heaps, pero fue originalmente descubierta por Gustav Herdan (1960). Bajo suposiciones suaves, la ley de Herdan-Heaps es una la ley asintóticamente equivalente a la ley de Zipf, que concierne a las frecuencias de palabras individuales dentro de un texto. Esto es una consecuencia del hecho de que la relación typo-token (en general) de un texto homogéneo puede ser derivado de la distribución de sus typos.[1][2][3]

La ley de Heaps significa que cuando más texto es generado, costará más tiempo encontrar palabras nuevas.

La ley de Heaps también aplica a las situaciones en que el «vocabulario» es algún conjunto de distintas clases de alguna colección de objetos. Por ejemplo, los objetos podrían ser personas, y las clases podrían ser países de origen de la persona. Si las personas están seleccionadas aleatoriamente (es decir, no están seleccionadas las personas en función del país de origen), entonces la ley de Heaps dice cuán rápido encontraremos representantes de los países (en proporción al número de personas seleccionadas al azar) y predice que será más difícil cada vez encontrar personas de un país no incluido en la muestra.

Referencias

Citas

  1. Egghe (2007): "Herdan's law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon".
  2. Kornai (1999); Baeaza-Yates y Navarro (2000); van Leijenhorst y van der Weide (2003).
  3. Milička (2009)

Fuentes

  • Baeza-Yates, Ricardo; Navarro, Gonzalo (2000), «Block addressing indices for approximate text retrieval», Journal of the American Society for Information Science 51 (1): 69-82, doi:10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c ..
  • Egghe, L. (2007), «Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments», Journal of the American Society for Information Science and Technology 58 (5): 702-709, doi:10.1002/asi.20524 ..
  • Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206–208). .
  • Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton ..
  • Kornai, Andras (1999), «Zipf's law outside the middle range», en Rogers, James, ed., Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, pp. 347-356 ..
  • Milička, Jiří (2009), «Type-token & Hapax-token Relation: A Combinatorial Model», Glottotheory. International Journal of Theoretical Linguistics 1 (2): 99-110, doi:10.1515/glot-2009-0009 ..
  • van Leijenhorst, D. C; van der Weide, Th. P. (2005), «A formal derivation of Heaps' Law», Information Sciences 170 (2–4): 263-272, doi:10.1016/j.ins.2004.03.006 ..
  • Este artículo incorpora material de Heaps' law en PlanetMath, que tiene licencia Creative Commons Atribución Compartir-Igual.