Estadístico N50
En bioinformática el estadístico N50 es ampliamente utilizado en el ensamblado o montaje de un genoma, especialmente en referencia a la longitud de los contig dentro de un proyecto de ensamblado de un genoma.
El valor N50 es una medida de la calidad de ensamblaje de los datos Next-Generation Sequencing NGS mediante la determinación de qué tan bien se desempeña un ensamblador en la formación de contig y scaffold. N50 se define como una estadística mediana ponderada tal que el de todo el conjunto está contenido en contigs que son iguales o mayores que este valor. Aunque la precisión del ensamblaje es extremadamente difícil de medir, el valor N50 ha sido hasta ahora la métrica más común para usar para la completitud del ensamblaje genómico. Se pueden utilizar otras métricas para determinar el rendimiento general del conjunto, pero todas se basan en el estadístico N50. Generalmente, se supone que cuanto mayor sea el valor N50, el ensamblaje es mucho más preciso[1].
Cálculo del N50
[editar]Dado un conjunto de secuencias de longitudes variables, se busca primero ordenar la secuencia de mayor a menor según sus longitudes, luego se suman todas las longitudes y se toma el de dicha suma, para después sumar las longitudes de mayor a menor hasta llegar al y la longitud de la secuencia es el valor del estadístico N50.[2]
Otros estadísticos relacionados
[editar]Estadístico L50
[editar]El número del contig cuya suma de longitud es el valor N50.
Estadístico U50
[editar]La longitud del contig más pequeño tal que el de la suma de todos los contigs únicos y específicos del objetivo está contenida en contigs de tamaño U50 o más grande.
Estadístico NG50
[editar]La longitud del contig más pequeño tal que el del genoma de referencia está contenido en contigs de tamaño NG50 o más grande. NG50 estima el tamaño del genoma en función de las longitudes de entrada de contig, no de un genoma de referencia como entrada.
Estadístico UL50
[editar]El número de contigs cuya suma de longitud produce U50 [UG50].
Estadístico UG50
[editar]La longitud del contig más pequeño tal que el 50% del genoma de referencia está contenido en contigs únicos, específicos del objetivo de tamaño UG50 o más grande.
Estadístico UG50%
[editar]La duración estimada de la cobertura de la UG50 en relación directa con la longitud del genoma de referencia. .
Referencias
[editar]- ↑ Castro, Christina J.; Ng, Terry Fei Fan (de noviembre de 2017). «U 50 : A New Metric for Measuring Assembly Output Based on Non-Overlapping, Target-Specific Contigs». Journal of Computational Biology 24 (11): 1071-1080. doi:10.1089/cmb.2017.0013.
- ↑ Jauhal, April A.; Newcomb, Richard D. (de julio de 2021). «Assessing genome assembly quality prior to downstream analysis: N50 versus BUSCO». Molecular Ecology Resources 21 (5): 1416-1421. doi:10.1111/1755-0998.13364.
- Arachne wiki at Broad Institute
- "Assembly algorithms for next-generation sequencing data", Miller JR, Koren S, Sutton G
- L50-vs-N50 blog post (13-Sept-2022)
- What's N50? (14-Sept-2022)
Enlaces externos
[editar]- Esta obra contiene una traducción derivada de «N50 statistic» de Wikipedia en inglés, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.