Diferencia entre revisiones de «Biología computacional»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Aarón Mayo (discusión · contribs.)
Formato de referencias
Aarón Mayo (discusión · contribs.)
Desarrollar apartado "Biología de sistemas"
Línea 22: Línea 22:
=== Biología de sistemas ===
=== Biología de sistemas ===
{{Artículo principal|Biología de sistemas}}
{{Artículo principal|Biología de sistemas}}
[[Archivo:Signal transduction pathways.svg|miniaturadeimagen|357x357px|Ejemplos de rutas de [[Transducción de señal|transducción de señales]] a nivel intracelular, que en conjunto pueden suponer un [[sistema biológico]]. Diferentes moléculas (ej.: [[Hormona|hormonas]], [[Citoquina|citocinas]], [[Factor de crecimiento|factores de crecimiento]] etc.) pueden actuar en sus respectivos [[Receptor celular|receptores diana]] en la célula de destino. Esto puede generar una serie de reacciones en cadena entre diferentes proteínas intracelulares, provocando una respuesta (ej.: activación/desactivación de la [[expresión génica]], promover la [[proliferación celular]] o la [[apoptosis]].]]
La biología de sistemas es el análisis computacional de [[Sistema biológico|sistemas biológicos]], desde el nivel molecular hasta poblaciones completas, vía el modelado matemático de sus componentes, sus interacciones intra- e intersistemas y [[Emergencia (filosofía)|propiedades emergentes]].<ref>{{Cita libro|apellidos=L. Snoep|nombre=Jacky|título=From isolation to integration, a systems biology approach for building the Silicon Cell|url=https://link.springer.com/chapter/10.1007/b106456|fechaacceso=7 de septiembre de 2022|año=11 de enero de 2005|editorial=Springer|isbn=978-3-540-22968-1|editor=Springer|ubicación=Berlin, Heidelberg|idioma=inglés|apellidos2=V. Westerhoff|nombre2=Hans|doi=10.1007/b106456|volumen=13}}</ref> Se caracteriza por basarse en un enfoque [[Holismo|holístico]] o integral del estudio de los procesos biológicos, en contraposición del [[reduccionismo]], el cual ha sido históricamente la aproximación más utilizada para comprender la [[organización biológica]].<ref>{{Cita publicación|url=https://portlandpress.com/essaysbiochem/article-abstract/62/4/487/78513/Systems-biology-primer-the-basic-methods-and|título=Systems biology primer: the basic methods and approaches|apellidos=Tavassoly|nombre=Iman|apellidos2=Goldfarb|nombre2=Joseph|publicación=Essays in Biochemistry|editorial=Essays in Biochemistry|fechaacceso=7 de septiembre de 2022|doi=10.1042/EBC20180003|apellidos3=Iyengar|nombre3=Ravi}}</ref> Si bien este campo abarca variedad de sistemas biológicos, los más típicamente estudiados son las [[Ruta metabólica|rutas metabólicas]], por ejemplo la [[glucólisis]] para la obtención de energía a partir de moléculas de [[glucosa]] a nivel celular, y de [[Comunicación celular|señalización]] y [[Transducción de señal|transducción de señales celulares]], por ejemplo la vía de señalización del [[Factor de crecimiento epidérmico|factor de crecimiento epidérmico (EGF)]] al unirse a su receptor diana y la consecutiva cascada de modificaciones bioquímicas a nivel celular.


=== Biología evolutiva===
=== Biología evolutiva===

Revisión del 17:19 7 sep 2022

La biología computacional es el uso de algoritmos y computadores para facilitar el entendimiento de problemas biológicos. Rama de las ciencias que estudia sistemas biológicos mediante el diseño, estudio y aplicación de algoritmos computacionales. Se focaliza en el análisis de datos, modelado matemático y simulación computacional.[1]​ Los sistemas estudiados abarcan desde la escala molecular a los ecosistemas, pasando por las células, el sistema nervioso, y los sistemas sociales. La biología computacional abarca varios campos ya establecidos: química, bioquímica, genética, matemáticas, ingeniería de sistemas, física, estadísticas, etc.

Introducción

La biología computacional es a veces definida como sinónimo de Bioinformática y a veces como una disciplina emparentada, pero distinta, de esta. El NIH define a ambas disciplinas como distintas aunque con cierto grado de solapamiento, según esta definición la bioinformática esta más relacionada con el desarrollo de herramientas computacionales con el fin de analizar y procesar datos y la biología computacional con el estudio por medios computacionales de sistemas biológicos.[1]

Subcampos

Bioinformática

La bioinformática es el campo de la biología computacional centrado en la investigación, desarrollo y aplicación de herramientas computacionales para la adquisición, almacenamiento, organización, análisis y visualización de datos biológicos.[1]​ Se trata de un área de trabajo multidisciplinar, donde se utiliza una gran variedad de métodos y herramientas de minería de datos, reconocimiento de patrones, machine learning o procesamiento digital de imágenes para resolver cuestiones biológicas como alineamiento de secuencias, predicción de genes, comparación de genomas de diferentes especies, predicción de la estructura de proteínas o modelado de interacciones moleculares, entre muchas otras.

Ejemplo de alineamiento múltiple de secuencias de la proteína ZNF226, procedentes de 20 especies diferentes en un estudio de búsqueda de patrones conservados evolutivamente.

Los temas de estudio más relevantes en la bioinformática son el análisis de secuencias y el análisis de expresión génica y su regulación.

El análisis de secuencias suele comprender la identificación de una serie determinada de bases nucleotídicas, búsqueda de patrones o secuencias repetitivas e identificación de características genéticas y genómicas (ej.: genes que codifican proteínas o ARN, promotores, sitios de unión de factores de transcripción o de histonas, variantes genéticas etc.). Todos estos elementos tienen implicaciones estructurales y funcionales para los sistemas biológicos a diferentes niveles: ADN, cromatina, proteínas y su expresión, composición y organización celular o regulación de rutas metabólicas esenciales para el desarrollo celular o de un organismo completo. La creación de bases de datos como RefSeq, GenBank, Ensembl o ENCODE y de herramientas computacionales como BLAST, FASTA y ClustalW, para alineamiento de secuencias, o GLIMMER, GENSCAN, análisis de k-meros o métodos de aprendizaje automático supervisado, para la identificación de genes y otros elementos genómicos, han supuesto importantes avances en el campo de la bioinformática.[2][3][4][5]

El análisis de expresión génica se aborda, o bien, cuantificando los niveles celulares de ARNm, para lo cual los métodos experimentales más relevantes son RNA-Seq, microarrays de ADN, secuenciación de EST, entre otras, o bien, cuantificando los niveles de proteínas, mediante microarrays de proteínas y la espectrometría de masas. En ambos casos, la bioinformática tiene un papel clave en el desarrollo de herramientas y métodos de control de calidad de los datos obtenidos y asegurar una generación de datos robusta y reproducible. Debido a factores experimentales, es muy común obtener una variabilidad muy alta de señales, ya se correspondan con lecturas de secuencias de ARN o secuencias de proteínas, con un alto ratio de ruido de fondo/señales, siendo necesario limpiar este ruido para obtener señales claras y específicas de las moléculas de estudio. En estos métodos es fundamental la normalización de los datos para una cuantificación correcta de las secuencias; en RNA-Seq, el alineamiento de secuencias cortas de ARN contra un genoma de referencia presenta retos bioinformáticos específicos para no generar falsos positivos; o en espectrometría de masas, es necesario diferenciar secuencias originarias de proteínas con estructura, función y localización celular muy diferentes y de proporciones variables. Algunos ejemplos, entre muchos otros, de herramientas computacionales más relevantes para estos análisis son: STAR, para alineamiento de secuencias cortas obtenidas en RNA-Seq, Picard para control de calidad de secuencias, métodos de agrupamiento jerárquico con aprendizaje automático no supervisado para clasificar familias de proteínas y cuantificar su abundancia celular.[6][7][8]

El análisis de la regulación de la expresión génica también se puede abordar, o bien, identificando secuencias reguladoras y secuencias motivo asociadas en el ADN (ej.: promotores, enhancers, sitios de unión de factores de transcripción o de histonas etc.), o bien, identificando modificaciones epigenéticas (ej.: apertura de la cromatina y modificaciones de histonas), modificaciones post-transcripcionales del ARNm (ej.: splicing alternativo, adición de cadenas de poli-A etc.) y post-traduccionales de proteínas (ej.: adición de grupos funcionales: fosfato, metilo etc.) y modificaciones químicas del ADN (ej.: metilación). En estos casos, la bioinformática ha sido fundamental para el desarrollo de bases de datos de secuencias motivo y sitios de unión de factores de transcripción como JASPAR o TFBSshape y para el análisis de datos obtenidos por métodos experimentales de identificación de interacciones entre regiones reguladoras, mediante la comprensión de la organización tridimensional del ADN en el núcleo celular. Estos últimos se engloban en los denominados métodos de captura de la conformación de cromosomas o métodos 3C.[9][10][11]

Biomodelado computacional

Biología de sistemas

Ejemplos de rutas de transducción de señales a nivel intracelular, que en conjunto pueden suponer un sistema biológico. Diferentes moléculas (ej.: hormonas, citocinas, factores de crecimiento etc.) pueden actuar en sus respectivos receptores diana en la célula de destino. Esto puede generar una serie de reacciones en cadena entre diferentes proteínas intracelulares, provocando una respuesta (ej.: activación/desactivación de la expresión génica, promover la proliferación celular o la apoptosis.

La biología de sistemas es el análisis computacional de sistemas biológicos, desde el nivel molecular hasta poblaciones completas, vía el modelado matemático de sus componentes, sus interacciones intra- e intersistemas y propiedades emergentes.[12]​ Se caracteriza por basarse en un enfoque holístico o integral del estudio de los procesos biológicos, en contraposición del reduccionismo, el cual ha sido históricamente la aproximación más utilizada para comprender la organización biológica.[13]​ Si bien este campo abarca variedad de sistemas biológicos, los más típicamente estudiados son las rutas metabólicas, por ejemplo la glucólisis para la obtención de energía a partir de moléculas de glucosa a nivel celular, y de señalización y transducción de señales celulares, por ejemplo la vía de señalización del factor de crecimiento epidérmico (EGF) al unirse a su receptor diana y la consecutiva cascada de modificaciones bioquímicas a nivel celular.

Biología evolutiva

Las herramientas computacionales/estadísticas permiten el estudio de las relaciones evolutivas entre moléculas (como proteínas) y/o entre individuos.

Genómica computacional

Ideograma del cromosoma X del genoma humano (extraído del NCBI)

La genómica computacional es el estudio de la secuencia de los genomas, tanto de ADN como de ARN mediante herramientas computacionales y estadísticas. Dos de los tipos de estudios más frecuentes en este campo son el alineamiento de secuencias y la secuenciación del ADN. Para el primero, se han desarrollado diferentes algoritmos como el algoritmo Needleman-Wunsch y BLAST para comparar dos o más secuencias y cuantificar el grado de similitud entre estas.[14]

Para el segundo, existe una gran variedad de métodos experimentales desde la secuenciación por el Método de Sanger hasta los más utilizados actualmente de tipo "Next Generation Sequencing" o NGS. El constante progreso en el desarrollo y aplicación de estos métodos experimentales a llevado consigo un desarrollo paralelo de herramientas computacionales capaces de tratar conjuntos de datos cada vez más masivos. Etapas clave en un análisis de datos de secuenciación, como pueden ser la identificación de las bases nucleotídicas para la lectura de una secuencia, el alineamiento de esta contra un genoma de referencia o la identificación de variantes genéticas, requieren de potentes algoritmos como redes neuronales, algoritmos SVM o métodos de inferencia Bayesiana.[15][16]

El Proyecto Genoma Humano es un ejemplo de genómica computacional realizada a una escala internacional, en el cual se consiguió secuenciar por primera vez el 99% de la eucromatina del genoma humano con una precisión del 99.99% en el año 2003. [17]​ Tras posteriores estudios, se han publicado diferentes versiones del genoma humano, cada cual más completa que la anterior, hasta que en enero de 2022 el Consorcio Telomere-to-Telomere (T2T)[18]​ publicó los resultados de la secuenciación completa.[19][20]

Tras el éxito histórico que supuso este proyecto, se han llevado a cabo otros muchos centrados en la secuenciación de genomas. Algunos ejemplos: el Proyecto 1000 Genomas, con el objetivo de estudiar la variabilidad del genoma humano a escala mundial, identificar frecuencias de variantes raras en poblaciones humanas y mejorar los resultados del genoma de referencia humano obtenido en el Proyecto Genoma Humano;[21][22]​ el Proyecto 1000 000 Genomas, centrado en investigar variantes genéticas asociadas con enfermedades raras, cancer y enfermedades infecciosas y potenciar el diagnóstico clínico de pacientes del Reino Unido;[23]​ el Proyecto Earth BioGenome, dedicado en la secuenciación de todos los organismos eucariotas en la Tierra con el propósito de generar genomas de referencia para cada familia taxonómica y así promover iniciativas de conservación de la biodiversidad.[24][25]

Neurociencia computacional

Farmacología

Software y herramientas

Los biólogos computacionales usan un amplio rango de herramientas computacionales. Desde programas que se ejecutan en la línea de comandos a programas con entorno gráfico y aplicaciones web. Es común que los biólogos computacionales escriban su propio software. La complejidad de este software varía ampliamente desde pequeños _scripts_ para facilitar la comunicación entre programas o el análisis de datos a programas realmente complejos con miles de líneas de código.

Software de código abierto

Programas de Código abierto (y de Software libre) proveen de una plataforma ideal para el desarrollo de métodos biológicos. El código abierto permite que cualquier persona tenga acceso y pueda corregir y modificar el código fuente de un programa. La revista PLOS Computational Biology cita cuatro principales razones para utilizar código abierto en ciencia:

  • Reproducibilidad: Esto permite a los investigadores usar exactamente los mismos métodos para el análisis y/o modelado de datos biológicos.
  • Desarrollo más rápido: En vez de re-inventar la rueda los científicos pueden hacer uso de código pre-existente y adaptarlo a sus necesidades.
  • Mayor calidad: Al hacer el código accesible a terceros, se hace más fácil que se encuentren y corrijan errores, que de otra forma podrían pasar inadvertidos.
  • Disponibilidad a largo plazo: El código abierto (y el software libre) no están atados a una empresa en particular o a patentes, lo que fomenta su diseminación a lo largo de la web y aumenta las chances de que el código este disponible en el futuro. [26]

Centros e instituciones proveedores de recursos en Biología Computacional

A nivel europeo, las instituciones más relevantes centradas en investigación en biología computacional y otros campos asociados son:

A nivel americano, las instituciones más relevantes son:

En España:

Sociedades y organizaciones relevantes

Revistas especializadas

Conferencias de interés

Bases de datos relevantes en Bioinformática y Biología Computacional

Campos relacionados

Algunos de los campos de estudio relacionados con la biología computacional son:

Referencias

  1. a b c Huerta M., Haseltine F., Liu Y., Downing G. & Seto B. (17 de julio de 2000). «NIH working definition of Bioinformatics and Computational Biology». web.archive.org. Consultado el 26 de julio de 2022. 
  2. Korf, Ian (14 de mayo de 2004). «Gene finding in novel genomes». BMC bioinformatics 5: 59. ISSN 1471-2105. PMID 15144565. doi:10.1186/1471-2105-5-59. Consultado el 27 de julio de 2022. 
  3. «The ENCODE (ENCyclopedia Of DNA Elements) Project». Science (en inglés) 306 (5696): 636-640. 22 de octubre de 2004. ISSN 0036-8075. doi:10.1126/science.1105136. Consultado el 27 de julio de 2022. 
  4. Yandell, Mark; Ence, Daniel (2012-05). «A beginner's guide to eukaryotic genome annotation». Nature Reviews Genetics (en inglés) 13 (5): 329-342. ISSN 1471-0064. doi:10.1038/nrg3174. Consultado el 27 de julio de 2022. 
  5. Prjibelski, Andrey D.; Korobeynikov, Anton I.; Lapidus, Alla L. (1 de enero de 2019). Ranganathan, Shoba, ed. Sequence Analysis (en inglés). Academic Press. pp. 292-322. ISBN 978-0-12-811432-2. Consultado el 27 de julio de 2022. 
  6. Ji, Fei; Sadreyev, Ruslan I. (2018-10). «RNA-seq: Basic Bioinformatics Analysis». Current Protocols in Molecular Biology 124 (1): e68. ISSN 1934-3647. PMC 6168365. PMID 30222249. doi:10.1002/cpmb.68. Consultado el 29 de julio de 2022. 
  7. Bittremieux, Wout; Tabb, David L.; Impens, Francis; Staes, An; Timmerman, Evy; Martens, Lennart; Laukens, Kris (2018-09). «Quality control in mass spectrometry-based proteomics». Mass Spectrometry Reviews 37 (5): 697-711. ISSN 1098-2787. PMID 28802010. doi:10.1002/mas.21544. Consultado el 29 de julio de 2022. 
  8. Chen, Chen; Hou, Jie; Tanner, John J.; Cheng, Jianlin (20 de abril de 2020). «Bioinformatics Methods for Mass Spectrometry-Based Proteomics Data Analysis». International Journal of Molecular Sciences 21 (8): E2873. ISSN 1422-0067. PMC 7216093. PMID 32326049. doi:10.3390/ijms21082873. Consultado el 29 de julio de 2022. 
  9. Wasserman, Wyeth W.; Sandelin, Albin (2004-04). «Applied bioinformatics for the identification of regulatory elements». Nature Reviews Genetics (en inglés) 5 (4): 276-287. ISSN 1471-0064. doi:10.1038/nrg1315. Consultado el 31 de julio de 2022. 
  10. Stormo, Gary D. (2013-06). «Modeling the specificity of protein-DNA interactions». Quantitative Biology (Beijing, China) 1 (2): 115-130. ISSN 2095-4689. PMC 4101922. PMID 25045190. doi:10.1007/s40484-013-0012-4. Consultado el 31 de julio de 2022. 
  11. Chiu, Tsu-Pei; Xin, Beibei; Markarian, Nicholas; Wang, Yingfei; Rohs, Remo (30 de octubre de 2019). «TFBSshape: an expanded motif database for DNA shape features of transcription factor binding sites». Nucleic Acids Research. ISSN 0305-1048. PMC 7145579. PMID 31665425. doi:10.1093/nar/gkz970. Consultado el 31 de julio de 2022. 
  12. L. Snoep, Jacky; V. Westerhoff, Hans (11 de enero de 2005). Springer, ed. From isolation to integration, a systems biology approach for building the Silicon Cell (en inglés) 13. Berlin, Heidelberg: Springer. ISBN 978-3-540-22968-1. doi:10.1007/b106456. Consultado el 7 de septiembre de 2022. 
  13. Tavassoly, Iman; Goldfarb, Joseph; Iyengar, Ravi. «Systems biology primer: the basic methods and approaches». Essays in Biochemistry (Essays in Biochemistry). doi:10.1042/EBC20180003. Consultado el 7 de septiembre de 2022. 
  14. T.A. Brown (1999). Genomes. John Wiley & Sons. ISBN 0-471-31618-0. 
  15. Dolled-Filhart, Marisa P.; Lee, Michael; Ou-Yang, Chih-wen; Haraksingh, Rajini Rani; Lin, Jimmy Cheng-Ho (2013). «Computational and bioinformatics frameworks for next-generation whole exome and genome sequencing». TheScientificWorldJournal 2013: 730210. ISSN 1537-744X. PMC 3556895. PMID 23365548. doi:10.1155/2013/730210. Consultado el 17 de julio de 2022. 
  16. Wick, Ryan R.; Judd, Louise M.; Holt, Kathryn E. (24 de junio de 2019). «Performance of neural network basecalling tools for Oxford Nanopore sequencing». Genome Biology 20 (1): 129. PMID 31234903. doi:10.1186/s13059-019-1727-y. Consultado el 14 de julio de 2022. 
  17. Schmutz, J.; Wheeler, J.; Grimwood, J.; Dickson, M.; Yang, J.; Caoile, C. et al. (mayo 2004). «Quality assessment of the human genome sequence». Nature. 429 (6990): 365–68. PMID 20016572. doi:10.1038/nature02390. Consultado el 12-07-2022. 
  18. NHGRI. «Consorcio Telomere-to-Telomere (T2T)». NHGRI. 
  19. Nurk, Sergey; Koren, Sergey; Rhie, Arang; Rautiainen, Mikko; Bzikadze, Andrey V.; Mikheenko, Alla; Vollger, Mitchell R.; Altemose, Nicolas et al. (2022-04). «The complete sequence of a human genome». Science (en inglés) 376 (6588): 44-53. ISSN 0036-8075. PMC 9186530. PMID 35357919. doi:10.1126/science.abj6987. Consultado el 21 de julio de 2022. 
  20. T2T Consortium (24 de enero de 2022). «Genoma de referencia humano versión T2T-CHM13v2.0». NCBI. Consultado el 16 de julio de 2022. 
  21. 1000 Genomes Project Consortium; Auton, A.; Brooks, L. D.; Durbin, R. M.; Garrison, E. P.; Kang, H. M.; Korbel, J. O.; Marchini, J. L. et al. (2015). «A global reference for human genetic variation». Nature (526(7571): 68–74.). PMID 26432245. doi:10.1038/nature15393. Consultado el 16 de julio de 2022. 
  22. Sudmant, P. H.; Rausch, T.; Gardner, E. J.; Handsaker, R. E.; Abyzov, A.; Huddleston, J.; Zhang, Y.; Ye, K. et al. (2015). «An integrated map of structural variation in 2,504 human genomes». Nature. 526(7571), 75–81. PMID 26432246. doi:10.1038/nature15394. Consultado el 16 de julio de 2022. 
  23. «DNA mapping to better understand cancer, rare diseases and infectious diseases». GOV.UK. Consultado el 16 de julio de 2022. 
  24. Lewin, H. A.; Robinson, G. E.; Kress, W. J.; Baker, W. J.; Coddington, J.; Crandall, K. A.; Durbin, R.; Edwards, S. V. et al. (2018). «Earth BioGenome Project: Sequencing life for the future of life». Proceedings of the National Academy of Sciences of the United States of America (115(17), 4325–4333 edición). PMID 29686065. doi:10.1073/pnas.1720115115. Consultado el 16 de julio de 2022. 
  25. «Earth BioGenome Project». Earth BioGenome Project. Consultado el 16 de julio de 2022. 
  26. Prlić A,; Lapp H (2012). «The PLOS Computational Biology Software Section.». PLOS Computational Biology 8 (11). p. e1002799. doi:10.1371/journal.pcbi.1002799. 

Enlaces externos