Ley de Heaps

En lingüística, la ley de Heaps (también llamada ley de Herdan) es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) como una función de la longitud del documento. Pueda ser formulado como:

V_{R}(n)=Kn^{\beta }

Donde V_R es el número de palabras distintas en un texto de tamaño n. K Y β son los parámetros libres que se determinan empíricamente. Con un texto en inglés, típicamente K es entre 10 y 100, y β es entre 0,4 y 0,6.

La ley es frecuentemente atribuida a Harold Stanley Heaps, pero fue originalmente descubierta por Gustav Herdan (1960). Bajo suposiciones suaves, la ley de Herdan-Heaps es una la ley asintóticamente equivalente a la ley de Zipf, que concierne a las frecuencias de palabras individuales dentro de un texto. Esto es una consecuencia del hecho de que la relación typo-token (en general) de un texto homogéneo puede ser derivado de la distribución de sus typos.^[1]^[2]^[3]

La ley de Heaps significa que cuando más texto es generado, costará más tiempo encontrar palabras nuevas.

La ley de Heaps también aplica a las situaciones en que el «vocabulario» es algún conjunto de distintas clases de alguna colección de objetos. Por ejemplo, los objetos podrían ser personas, y las clases podrían ser países de origen de la persona. Si las personas están seleccionadas aleatoriamente (es decir, no están seleccionadas las personas en función del país de origen), entonces la ley de Heaps dice cuán rápido encontraremos representantes de los países (en proporción al número de personas seleccionadas al azar) y predice que será más difícil cada vez encontrar personas de un país no incluido en la muestra.

Referencias

Citas

↑ Egghe (2007): "Herdan's law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon".
↑ Kornai (1999); Baeaza-Yates y Navarro (2000); van Leijenhorst y van der Weide (2003).
↑ Milička (2009)

Fuentes

Baeza-Yates, Ricardo; Navarro, Gonzalo (2000), «Block addressing indices for approximate text retrieval», Journal of the American Society for Information Science 51 (1): 69-82, doi:10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c ..
Egghe, L. (2007), «Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments», Journal of the American Society for Information Science and Technology 58 (5): 702-709, doi:10.1002/asi.20524 ..
Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206–208). .
Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton ..
Kornai, Andras (1999), «Zipf's law outside the middle range», en Rogers, James, ed., Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, pp. 347-356 ..
Milička, Jiří (2009), «Type-token & Hapax-token Relation: A Combinatorial Model», Glottotheory. International Journal of Theoretical Linguistics 1 (2): 99-110, doi:10.1515/glot-2009-0009 ..
van Leijenhorst, D. C; van der Weide, Th. P. (2005), «A formal derivation of Heaps' Law», Information Sciences 170 (2–4): 263-272, doi:10.1016/j.ins.2004.03.006 ..
Este artículo incorpora material de Heaps' law en PlanetMath, que tiene licencia Creative Commons Atribución Compartir-Igual.

Datos: Q5691531
Multimedia: Heaps' law / Q5691531

[1] Egghe (2007): "Herdan's law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon".

[2] Kornai (1999); Baeaza-Yates y Navarro (2000); van Leijenhorst y van der Weide (2003).

[3] Milička (2009)

[1]

[2]

[3]