Teoría de la secuenciación de ADN

De Wikipedia, la enciclopedia libre

La teoría de la secuenciación de ADN es el amplio cuerpo de trabajo que intenta sentar las bases analíticas para determinar el orden de nucleótidos específicos en una secuencia de ADN, también conocida como secuenciación de ADN. Los aspectos prácticos giran en torno al diseño y la optimización de proyectos de secuenciación (conocidos como "genómica estratégica"), la predicción del rendimiento del proyecto, la resolución de problemas de los resultados experimentales, la caracterización de factores como el sesgo de secuencia y los efectos de los algoritmos de procesamiento de software y la comparación de varios métodos de secuenciación entre sí. En este sentido, podría considerarse una rama de la ingeniería de sistemas o la investigación de operaciones. El archivo permanente de trabajo es principalmente matemático, aunque a menudo también se realizan cálculos numéricos para problemas particulares. La teoría de la secuenciación del ADN aborda los procesos físicos relacionados con la secuenciación del ADN y no debe confundirse con las teorías del análisis de secuencias de ADN resultantes, por ejemplo, alineación de secuencias. Las publicaciones[1]​ veces no hacen una distinción cuidadosa, pero estas últimas se ocupan principalmente de cuestiones algorítmicas. La teoría de la secuenciación se basa en elementos de las matemáticas, la biología y la ingeniería de sistemas, por lo que es altamente interdisciplinaria. El tema puede estudiarse en el contexto de la biología computacional.

Teoría y estrategias de secuenciación[editar]

Secuenciación como problema de cobertura[editar]

Todos los métodos principales de secuenciación de ADN se basan en la lectura de pequeños fragmentos de ADN y, posteriormente, en la reconstrucción de estos datos para inferir el ADN objetivo original, ya sea mediante ensamblaje o alineación con una referencia. La abstracción común a estos métodos es la de un problema matemático de cobertura.[2]​ Por ejemplo, uno puede imaginar un segmento de línea que represente el objetivo y un proceso posterior en el que se "suelten" segmentos más pequeños en ubicaciones aleatorias del objetivo. El objetivo se considera "secuenciado" cuando se acumula una cobertura adecuada (por ejemplo, cuando no quedan espacios).

Las propiedades abstractas del recubrimiento han sido estudiadas por matemáticos durante más de un siglo.[3]​ Sin embargo, la aplicación directa de estos resultados generalmente no ha sido posible. Las soluciones matemáticas de forma cerrada, especialmente para distribuciones de probabilidad, a menudo no se pueden evaluar fácilmente. Es decir, implican cantidades excesivamente grandes de tiempo de computadora para parámetros característicos de la secuenciación del ADN. La configuración de Stevens es un ejemplo.[4]​ Los resultados obtenidos desde la perspectiva de las matemáticas puras tampoco tienen en cuenta factores que son realmente importantes en la secuenciación, por ejemplo, superposición detectable en fragmentos de secuenciación, doble hebra, efectos de borde y multiplicidad de objetivos. En consecuencia, el desarrollo de la teoría de la secuenciación ha avanzado más de acuerdo con la filosofía de las matemáticas aplicadas. En particular, se ha centrado en problemas y hace un uso conveniente de aproximaciones, simulaciones, etc.

Usos tempranos derivados de la teoría de probabilidad elemental[editar]

El resultado más temprano puede obtenerse directamente de la teoría de probabilidad elemental. Supongamos que modelamos el proceso anterior tomando y como la longitud del fragmento y la longitud objetivo, respectivamente. La probabilidad de "cubrir" cualquier ubicación dada en el objetivo con un fragmento en particular es entonces. (Esto supone, que es válido a menudo, pero no para todos los casos del mundo real.) La probabilidad de que un solo fragmento no cubra una ubicación determinada en el objetivo es, por tanto, y para fragmentos. Por tanto, la probabilidad de cubrir una ubicación determinada del objetivo con al menos un fragmento es

Esta ecuación se utilizó por primera vez para caracterizar bibliotecas de plásmidos[5]​ pero puede aparecer en una forma modificada. Para la mayoría de proyectos , de modo que, en un buen grado de aproximación

donde se llama redundancia. Tenga en cuenta la importancia de la redundancia como representación del número promedio de veces que una posición se cubre con fragmentos. Tenga en cuenta también que al considerar el proceso de cobertura en todas las posiciones en el objetivo, esta probabilidad es idéntica al valor esperado de la variable aleatoria , la fracción de la cobertura objetivo. El resultado final,

sigue siendo de uso generalizado como un estimador de "reverso del sobre" y predice que la cobertura para todos los proyectos evoluciona a lo largo de una curva universal que es una función solo de la redundancia.

Teoría de Lander-Waterman[editar]

En 1988, Eric Lander y Michael Waterman[6]​ examinaron el problema de la cobertura desde el punto de vista de las lagunas. Aunque se centraron en el problema del mapeo, la abstracción de la secuenciación es muy parecida. Proporcionaron una serie de resultados útiles que se adoptaron como teoría estándar desde los primeros días de la secuenciación del genoma "a gran escala".enoma Humano y continúa desempeñando un papel importante en la secuenciación del ADN.

En última instancia, el objetivo principal de un proyecto de secuenciación es cerrar todas las brechas, por lo que la "perspectiva de la brecha" fue una base lógica para desarrollar un modelo de secuenciación. Uno de los resultados de este modelo más utilizados es el número esperado de cóntigos, dado el número de fragmentos secuenciados. Si uno descuida la cantidad de secuencia que es esencialmente "desperdiciada" al tener que detectar superposiciones, su teoría cede

En 1995, Roach[7]​ publicó mejoras a esta teoría, lo que le permitió aplicarla a proyectos de secuenciación en los que el objetivo era secuenciar completamente un genoma objetivo. Michael Wendl y Bob Waterston[8]​ confirmaron, basándose en el método de Stevens,[4]​ que ambos modelos produjeron resultados similares cuando el número de contigs era sustancial, como en proyectos de secuenciación o mapeo de baja cobertura. A medida que los proyectos de secuenciación se intensificaron en la década de 1990 y los proyectos se acercaban a su finalización, las aproximaciones de baja cobertura se volvieron inadecuadas y se necesitaba el modelo exacto de Roach. Sin embargo, a medida que disminuyó el costo de la secuenciación, los parámetros de los proyectos de secuenciación se volvieron más fáciles de probar directamente de manera empírica y el interés y la financiación de la genómica estratégica disminuyeron.

Las ideas básicas de la teoría de Lander-Waterman llevaron a una serie de resultados adicionales para variaciones particulares en las técnicas de mapeo.[9][10][11]​ Sin embargo, los avances tecnológicos han hecho que las teorías cartográficas sean en gran medida obsoletas, excepto en organismos distintos de los organismos modelo altamente estudiados (por ejemplo, levaduras, moscas, ratones y humanos).

Estrategia de estacionamiento[editar]

La estrategia de estacionamiento para secuenciar se asemeja al proceso de estacionar autos a lo largo de una acera. Cada coche es un clon secuenciado y la acera es el objetivo genómico.[12]​ Cada clon secuenciado se criba para asegurar que los clones secuenciados posteriormente no se solapen con ningún clon secuenciado previamente. Ningún esfuerzo de secuenciación es redundante en esta estrategia. Sin embargo, al igual que los espacios entre autos estacionados, los espacios no secuenciados menores que la longitud de un clon se acumulan entre los clones secuenciados. Puede haber un costo considerable para cerrar esas brechas.

Secuenciación final por pares[editar]

En 1995,[13]​ se propuso y demostró mediante simulaciones una generalización de un conjunto de estrategias exploradas anteriormente.[14]​ Este método de secuenciación del genoma completo se hizo inmensamente popular. Hoy en día, la mayoría de los proyectos de secuenciación emplean esta estrategia, a menudo denominada secuenciación de extremos emparejados.

Avances posteriores al Proyecto Genoma Humano[editar]

Los procesos físicos y los protocolos de secuenciación del ADN han seguido evolucionando, impulsados en gran medida por los avances en los métodos bioquímicos, la instrumentación y las técnicas de automatización. En la actualidad, existe una amplia gama de problemas en los que la secuenciación de ADN se ha abierto camino, incluida la metagenómica y la secuenciación médica (cáncer). Hay factores importantes en estos escenarios que la teoría clásica no tiene en cuenta. El trabajo reciente ha comenzado a centrarse en resolver los efectos de algunos de estos problemas. El nivel de matemáticas se vuelve proporcionalmente más sofisticado.

Varios artefactos de secuenciación de insertos grandes[editar]

Los biólogos han desarrollado métodos para filtrar regiones de genomas altamente repetitivas y esencialmente no secuenciables. Estos procedimientos son importantes para organismos cuyos genomas consisten principalmente en dicho ADN, por ejemplo, maíz. Producen multitud de pequeñas islas de productos de ADN secuenciables. Wendl y Barbazuk[15]​ propusieron una extensión de la teoría de Lander-Waterman para tener en cuenta las "brechas" en el objetivo debido al filtrado y el llamado "efecto de borde". Este último es un sesgo de muestreo específico de la posición, por ejemplo, la posición base del terminal tiene solo una posibilidad de ser cubierto, a diferencia de para posiciones interiores. Para , la teoría clásica de Lander-Waterman todavía ofrece buenas predicciones, pero la dinámica cambia para obtener redundancias más altas.

Los métodos de secuenciación modernos suelen secuenciar ambos extremos de un fragmento más grande, lo que proporciona información de enlace para el ensamblaje de novo y mejores probabilidades de alineación con la secuencia de referencia. Los investigadores generalmente creen que las longitudes de datos más largas (longitudes de lectura) mejoran el rendimiento de los objetivos de ADN muy grandes, una idea coherente con las predicciones de los modelos de distribución.[16]​ Sin embargo, Wendl[17]​ mostró que los fragmentos más pequeños proporcionan una mejor cobertura en objetivos lineales pequeños porque reducen el efecto de borde en moléculas lineales. Estos hallazgos tienen implicaciones para la secuenciación de los productos de los procedimientos de filtrado de ADN. El emparejamiento de lecturas y el tamaño de los fragmentos tienen evidentemente una influencia insignificante para los objetivos de clase grandes de genoma completo.

Secuenciación individual y poblacional[editar]

La secuenciación está emergiendo como una herramienta importante en medicina, por ejemplo en la investigación del cáncer. Aquí, la capacidad de detectar mutaciones heterocigotas es importante y esto solo se puede hacer si se obtiene la secuencia del genoma diploide. En los esfuerzos pioneros para secuenciar individuos, Levy et al.[18]​ y Wheeler et al.,[19]​ quien secuenció a Craig Venter y Jim Watson, respectivamente, describió modelos para cubrir ambos alelos en un genoma. Wendl y Wilson[20]​ siguieron con una teoría más general que permitía un número arbitrario de cubiertas de cada alelo y una ploidía arbitraria. Estos resultados apuntan a la conclusión general de que la cantidad de datos necesarios para tales proyectos es significativamente mayor que la de los proyectos haploides tradicionales. Generalmente, ahora es estándar una redundancia de al menos 30 veces, es decir, cada nucleótido abarcado por un promedio de 30 lecturas de secuencia.[21]​ Sin embargo, los requisitos pueden ser incluso mayores, dependiendo de los tipos de eventos genómicos que se encuentren. Por ejemplo, en el llamado "método de pares de lectura discordantes", se pueden inferir inserciones de ADN si la distancia entre pares de lectura es mayor de lo esperado. Los cálculos muestran que se necesita una redundancia de alrededor de 50 veces para evitar errores de falso positivo en un umbral del 1%.[22]

El advenimiento de la secuenciación de próxima generación también ha hecho factible la secuenciación de poblaciones a gran escala, por ejemplo, el Proyecto 1000 Genomas para caracterizar la variación en grupos de población humana. Si bien la variación común se captura fácilmente, la variación rara plantea un desafío de diseño: muy pocas muestras con una redundancia de secuencia significativa corre el riesgo de no tener una variante en el grupo de muestra, pero las muestras grandes con una redundancia leve no capturan una variante en el conjunto de lectura que realmente está en el grupo de muestra. Wendl y Wilson[23]​ informan de un conjunto simple de reglas de optimización que maximizan la probabilidad de descubrimiento para un conjunto dado de parámetros. Por ejemplo, para observar un alelo raro al menos dos veces (para eliminar la posibilidad es única de un individuo), se debe usar una redundancia de un poco menos de 4 veces, independientemente del tamaño de la muestra.

Secuenciación metagenómica[editar]

Los instrumentos de próxima generación ahora también permiten la secuenciación de comunidades metagenómicas no cultivadas enteras. El escenario de secuenciación es más complicado aquí y hay varias formas de enmarcar las teorías de diseño para un proyecto dado. Por ejemplo, Stanhope[24]​ desarrolló un modelo probabilístico para la cantidad de secuencia necesaria para obtener al menos un contig de un tamaño dado de cada organismo nuevo de la comunidad, mientras que Wendl et al. informó un análisis para el tamaño medio del contig o la probabilidad de recuperar completamente un organismo nuevo para una rareza determinada dentro de la comunidad.[25]​ Por el contrario, Hooper et al. proponen un modelo semi-empírico basado en la distribución gamma.[26]

Limitaciones[editar]

Las teorías de secuenciación del ADN a menudo invocan la suposición de que ciertas variables aleatorias en un modelo son independientes y están distribuidas de manera idéntica. Por ejemplo, en la teoría de Lander-Waterman, se supone que un fragmento secuenciado tiene la misma probabilidad de cubrir cada región de un genoma y se supone que todos los fragmentos son independientes entre sí. En realidad, los proyectos de secuenciación están sujetos a varios tipos de sesgos, incluidas las diferencias de qué tan bien se pueden clonar las regiones, las anomalías de secuenciación, los sesgos en la secuencia objetivo (que no es aleatoria) y los errores y sesgos que dependen del software. En general, la teoría concordará bien con la observación hasta el punto en que se hayan generado suficientes datos para exponer sesgos latentes.[20]​ Los tipos de sesgos relacionados con la secuencia objetivo subyacente son particularmente difíciles de modelar, ya que la secuencia en sí puede no ser conocida a priori. Esto presenta un tipo de problema Catch-22 (lógico).

Véase también[editar]

Referencias[editar]

  1. Waterman, Michael S. (1995). Introduction to Computational Biology. Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-99391-6. 
  2. Hall, P. (1988). Introduction to the Theory of Coverage Processes. New York: Wiley. ISBN 978-0-471-85702-0. 
  3. Solomon, H. (1978). Geometric Probability. Philadelphia: Society for Industrial and Applied Mathematics. ISBN 978-0-898-71025-0. 
  4. a b Stevens WL (1939). «Solution to a Geometrical Problem in Probability». Annals of Eugenics 9 (4): 315-320. doi:10.1111/j.1469-1809.1939.tb02216.x. 
  5. «A colony bank containing synthetic Col-El hybrid plasmids representative of the entire E. coli genome». Cell 9 (1): 91-99. 1976. PMID 788919. doi:10.1016/0092-8674(76)90055-6. 
  6. Lander ES, Waterman MS (1988). «Genomic mapping by fingerprinting random clones: a mathematical analysis». Genomics 2 (3): 231-239. PMID 3294162. doi:10.1016/0888-7543(88)90007-9. 
  7. Roach JC (1995). «Random subcloning». Genome Research 5 (5): 464-473. PMID 8808467. doi:10.1101/gr.5.5.464. 
  8. Wendl MC, Waterston RH (2002). «Generalized gap model for bacterial artificial chromosome clone fingerprint mapping and shotgun sequencing». Genome Research 12 (12): 1943-1949. PMC 187573. PMID 12466299. doi:10.1101/gr.655102. 
  9. Arratia R (1991). «Genomic mapping by anchoring random clones: a mathematical analysis». Genomics 11 (4): 806-827. PMID 1783390. doi:10.1016/0888-7543(91)90004-X. 
  10. Port E (1995). «Genomic mapping by end-characterized random clones: a mathematical analysis». Genomics 26 (1): 84-100. PMID 7782090. doi:10.1016/0888-7543(95)80086-2. 
  11. «Genome mapping by nonrandom anchoring: a discrete theoretical analysis». Proceedings of the National Academy of Sciences 90 (2): 600-604. 1993. Bibcode:1993PNAS...90..600Z. PMC 45711. PMID 8421694. doi:10.1073/pnas.90.2.600. 
  12. Roach JC (2000). «Parking strategies for genome sequencing». Genome Research 10 (7): 1020-1030. PMC 310895. PMID 10899151. doi:10.1101/gr.10.7.1020. 
  13. Roach JC, Boysen C, Wang K, Hood L (1995). «Pairwise end sequencing: a unified approach to genomic mapping and sequencing». Genomics 26 (2): 345-353. PMID 7601461. doi:10.1016/0888-7543(95)80219-C. 
  14. Edwards, A.; Caskey, T. (1991). Closure strategies for random DNA sequencing 3. A Companion to Methods in Enzymology. pp. 41-47. 
  15. Wendl MC, Barbazuk WB (2005). «Extension of Lander–Waterman Theory for sequencing filtered DNA libraries». BMC Bioinformatics 6: article 245. PMC 1280921. PMID 16216129. doi:10.1186/1471-2105-6-245. 
  16. Wendl MC (2006). «Occupancy modeling of coverage distribution for whole genome shotgun DNA sequencing». Bulletin of Mathematical Biology 68 (1): 179-196. PMID 16794926. doi:10.1007/s11538-005-9021-4. 
  17. Wendl MC (2006). «A general coverage theory for shotgun DNA sequencing». Journal of Computational Biology 13 (6): 1177-1196. PMID 16901236. doi:10.1089/cmb.2006.13.1177. 
  18. Levy S (2007). «The diploid genome sequence of an individual human». PLOS Biology 5 (10): article e254. PMC 1964779. PMID 17803354. doi:10.1371/journal.pbio.0050254. 
  19. Wheeler DA (2008). «The complete genome of an individual by massively parallel DNA sequencing». Nature 452 (7189): 872-876. Bibcode:2008Natur.452..872W. PMID 18421352. doi:10.1038/nature06884. 
  20. a b Wendl MC, Wilson RK (2008). «Aspects of coverage in medical DNA sequencing». BMC Bioinformatics 9: article 239. PMC 2430974. PMID 18485222. doi:10.1186/1471-2105-9-239. 
  21. Ley TJ (2008). «DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome». Nature 456 (7218): 66-72. Bibcode:2008Natur.456...66L. PMC 2603574. PMID 18987736. doi:10.1038/nature07485. 
  22. Wendl MC, Wilson RK (2009). «Statistical aspects of discerning indel-type structural variation via DNA sequence alignment». BMC Genomics 10: article 359. PMC 2748092. PMID 19656394. doi:10.1186/1471-2164-10-359. 
  23. Wendl MC, Wilson RK (2009). «The theory of discovering rare variants via DNA sequencing». BMC Genomics 10: article 485. PMC 2778663. PMID 19843339. doi:10.1186/1471-2164-10-485. 
  24. Stanhope SA (2010). «Occupancy modeling maximum contig size probabilities and designing metagenomics experiments». PLOS ONE 5 (7): article e11652. Bibcode:2010PLoSO...511652S. PMC 2912229. PMID 20686599. doi:10.1371/journal.pone.0011652. 
  25. Wendl MC (2012). «Coverage theories for metagenomic DNA sequencing based on a generalization of Stevens' theorem». Journal of Mathematical Biology 67 (5): 1141-1161. PMC 3795925. PMID 22965653. doi:10.1007/s00285-012-0586-x. 
  26. Hooper SD (2010). «Estimating DNA coverage and abundance in metagenomes using a gamma approximation». Bioinformatics 26 (3): 295-301. PMC 2815663. PMID 20008478. doi:10.1093/bioinformatics/btp687.