Frecuencia de aparición de letras

El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:

El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R".
El vocabulario específico del documento. Si se habla de ríos, habrá muchas íes.
El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etcétera), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
En el diccionario de la RAE, comúnmente usada en nombres propios es la letra ⟨A⟩.
Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, estos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes.
La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma y el punto, por ejemplo, son más frecuentes que más de la mitad de las letras.

Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.

Frecuencia de aparición de letras en español[editar]

Porcentaje de aparición de letras en español:^[1]

Letra	A	B	C	D	E	F	G	H	I	J	K	L	M	N
Porcentaje	12,53%	1,42%	4,68%	5,86%	13,68%	0,69%	1,01%	0,70%	6,25%	0,44%	0,02%	4,97%	3,15%	6,71%
Letra	Ñ	O	P	Q	R	S	T	U	V	W	X	Y	Z
Porcentaje	0,31%	8,68%	2,51%	0,88%	6,87%	7,98%	4,63%	3,93%	0,90%	0,01%	0,22%	0,90%	0,52%

Ordenadas de mayor a menor frecuencia de aparición obtenemos: E, A, O, S, R, N, I, D, L, C, T, U, M, P, B, G, V, Y, Q, H, F, Z, J, Ñ, X, K, W.

A partir de los datos anteriores, se puede decir que:

Las vocales ocuparán alrededor del 45% del texto.
La E y la A son identificables fácilmente dado su porcentaje de aparición.
Las consonantes más frecuentes son: S, R, N, D, L, C (aparecen con una frecuencia de un 37%)
Las seis letras menos frecuentes son: Z, J, Ñ, X, K, W (sumadas tienen una frecuencia que apenas supera el 1,5%)

Ejemplo concreto: el Quijote[editar]

El texto del Quijote contiene 1.640.502 letras:

Letra	e	a	o	s	n	r	i	l	d	u	t	c	m	p
Cantidad	229.188	200.492	162.512	125.726	108.440	100.953	90.070	89.141	87.237	79.471	61.749	59.435	44.658	35.464
Porcentaje	14,0%	12,2%	9,9%	7,7%	6,6%	6,2%	5,5%	5,4%	5,3%	4,8%	3,8%	3,6%	2,7%	2,2%
Letra	q	y	b	h	v	g	j	f	z	ñ	k	w	x
Cantidad	32.483	25.115	24.146	19.920	17.855	17.225	10.530	7.581	6.491	4.241	377	2	1
Porcentaje	2,0%	1,5%	1,5%	1,2%	1,1%	1,0%	0,6%	0,5%	0,4%	0,3%	0,1%	0,0%	0,0%

La Regenta, de Leopoldo Alas (Clarín)[editar]

La Regenta

Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación " . , ; : "

Hay que señalar los siguientes resultados:^[2]

1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.

2. La letra “a” es algo más abundante que la letra “e”.

3. Los signos de puntuación “,” y “.” son más abundantes que la letra “q” y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el "punto y coma" supera a la “ñ” y los "dos puntos" a la “k”.

Letra	espacio	a	e	o	s	r	n	i	l	d	u	t	c	m	p	b
Cantidad	305.290	192.666	176.252	128.009	101.317	89.243	87.585	86.284	83.524	67.215	57.662	53.937	52.346	36.500	33.970	26.658
Porcentaje	17,599%	11,107%	10,160%	7,379%	5,841%	5,145%	5,049%	4,974%	4,815%	3,875%	3,324%	3,109%	3,018%	2,104%	1,958%	1,537%
Letra	.	,	q	v	g	h	y	f	j	z	;	ñ	x	:	k	w
Cantidad	26.079	24.447	17.773	15.491	15.202	13.796	13.619	8.454	6.428	5.549	3.658	3.501	1.224	941	59	20
Porcentaje	1,503%	1,409%	1,025%	0,893%	0,876%	0,795%	0,785%	0,487%	0,371%	0,320%	0,211%	0,202%	0,071%	0,054%	0,003%	0,001%

Total 1 734 699^[2]

Otros sistemas[editar]

Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.

Otros idiomas[editar]

El alineamiento de las letras en una máquina linotipia es ETAOIN SHRDLU, que corresponde aproximadamente a las doce letras más frecuentes en inglés.

Referencias[editar]

↑ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
↑ ^a ^b Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 2 de mayo de 2015.

Enlaces externos[editar]

«Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, creep y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 17 de febrero de 2011.

Datos: Q520562

[1] Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.

[kripto-2] Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 2 de mayo de 2015.

[1]

[2]