Estadístico N50

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En bioinformática se define al estadístico N50 como una medida de la longitud media de un conjunto de secuencias nucleotídicas, con mayor peso dado a secuencias más largas. Es ampliamente utilizado en el ensamblado o montaje de un genoma, especialmente en referencia a la longitud de los contig dentro de un proyecto de ensamblado de un genoma.

N50 es definido como la longitud de los contigs tal que usando contigs de igual o mayor tamaño produce la mitad de las bases del genoma. El tamaño N50 se calcula ordenando todos los contigs de mayor a menor, y determinando el conjunto mínimo de contigs cuyo tamaño total sea el 50% de todo el genoma.

Cálculo[editar]

Definición matemática: Dado un conjunto de secuencias de longitud variable, la longitud N50 se define como la longitud N por la cual el 50% de todas las bases en las secuencias están en una secuencia de longitud L < N. Esto se puede encontrar matemáticamente de la siguiente manera: Tome una lista L de enteros positivos. Cree otra lista L', que es idéntica a L, excepto que cada elemento n en L se ha sustituido con n copias de sí mismo. Luego, la mediana de L' es el N50 de L. Por ejemplo: si L = {2, 2, 2, 3, 3, 4, 8, 8}, entonces L' consta de seis dos, seis tres, cuatro cuatros, y diez y seis de ochos, el N50 de la L es la mediana de L', que es 6.

Referencias[editar]

Enlaces externos[editar]