Diferencia entre revisiones de «Aprendizaje automático en bioinformática»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Eliminada seccion muy complicada
Funcionamiento e imagen
Línea 3: Línea 3:


Se trata de un campo emergente debido al gran crecimiento de la cantidad de conjuntos de datos biológicos disponibles, necesarios para entrenar algoritmos con un nivel de detalle alto.<ref>{{cita publicación|título=Machine learning in bioinformatics|nombre1=Pedro|apellidos2=Calvo|nombre2=Borja|fecha=1 de marzo de 2006|publicación=Briefings in Bioinformatics|volumen=7|número=1|páginas=86–112|doi=10.1093/bib/bbk007|apellidos3=Santana|nombre3=Roberto|apellidos4=Bielza|nombre4=Concha|apellidos5=Galdiano|nombre5=Josu|apellidos6=Inza|nombre6=Iñaki|apellidos7=Lozano|nombre7=José A.|apellidos8=Armañanzas|nombre8=Rubén|apellidos9=Santafé|nombre9=Guzmán|nombre11=Victor|apellidos11=Robles|nombre10=Aritz|apellidos10=Pérez|apellidos1=Larrañaga}}</ref>
Se trata de un campo emergente debido al gran crecimiento de la cantidad de conjuntos de datos biológicos disponibles, necesarios para entrenar algoritmos con un nivel de detalle alto.<ref>{{cita publicación|título=Machine learning in bioinformatics|nombre1=Pedro|apellidos2=Calvo|nombre2=Borja|fecha=1 de marzo de 2006|publicación=Briefings in Bioinformatics|volumen=7|número=1|páginas=86–112|doi=10.1093/bib/bbk007|apellidos3=Santana|nombre3=Roberto|apellidos4=Bielza|nombre4=Concha|apellidos5=Galdiano|nombre5=Josu|apellidos6=Inza|nombre6=Iñaki|apellidos7=Lozano|nombre7=José A.|apellidos8=Armañanzas|nombre8=Rubén|apellidos9=Santafé|nombre9=Guzmán|nombre11=Victor|apellidos11=Robles|nombre10=Aritz|apellidos10=Pérez|apellidos1=Larrañaga}}</ref>
== Funcionamiento ==
== Métodos de clasificación y predicción ==
Los algoritmos de aprendizaje automático en bioinformática pueden utilizarse para la predicción, la clasificación y la selección de características. Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas; los más conocidos son el aprendizaje automático y la estadística. Las tareas de clasificación y predicción tienen como objetivo construir modelos que describan y distingan clases o conceptos para su futura predicción. Las diferencias entre ellas son las siguientes:
* La clasificación y la predicción son las tareas más utilizadas en el análisis de datos.

* Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas, siendo las más conocidas el aprendizaje automático y la estadística.
* La clasificación produce una [[Variable discreta y variable continua|variable discreta]], mientras que la predicción produce una característica de [[Variable continua|valor numérico]].
* La clasificación predice una clase valorada categóricamente.
* El tipo de algoritmo o proceso utilizado para construir los modelos de predicción a partir de los datos utilizando analogías, reglas, redes neuronales, probabilidades y/o estadísticas.
* La predicción predice una característica con valor numérico.

* Las tareas de clasificación y predicción tienen como objetivo la construcción de modelos que describen y distinguen clases o conceptos para predicciones futuras.
Debido al crecimiento exponencial de las tecnologías de la información y de los modelos aplicables, incluyendo la inteligencia artificial y la minería de datos, además del acceso a conjuntos de datos cada vez más amplios, se han creado nuevas y mejores técnicas de análisis de la información, basadas en su capacidad de aprendizaje. Dichos modelos permiten ir más allá de la descripción y proporcionan conocimientos en forma de modelos comprobables. Algunos de los enfoques más usados son:
* Lo que diferencia entre los métodos es el tipo de algoritmo o proceso utilizado para construir los modelos predictivos a partir de datos, ya sea que se basen en analogías, reglas, redes neuronales, probabilidades o estadísticas.

=== Clasificación ===
En este tipo de tareas de aprendizaje automático, la salida es una variable discreta. Un ejemplo de este tipo de tarea en bioinformática es el etiquetado de nuevos datos genómicos (como genomas de bacterias no cultivables) basado en un modelo de datos ya etiquetados.<ref name=":0">{{cite journal|url=https://arxiv.org/pdf/1510.06621. pdf|title=Aprendizaje automático para metagenómica: métodos y herramientas|date=2019|journal=Metagenomics|volume=1|issue=|pages=|doi=10.1515/metgen-2016-0001|pmc=|pmid=|vauthors=Soueidan H, Nikolski M|arxiv=1510. 06621|s2cid=17418188}}</ref>

==== Modelos ocultos de Markov ====
Los [[modelos ocultos de Markov]] son un tipo de [[modelos estadísticos]] para datos secuenciales. Un Modelo de Markov está compuesto por dos objetos matemáticos: un proceso observado dependiente del estado , y un proceso de estado no observado u oculto. Así, el proceso en estudio no se observa directamente, sino que se realizan observaciones sobre un proceso dependiente del proceso de interés, y cuyos cambios sirven como una medida ruidosa de los estados del sistema de interés. <ref>{Cite journal| vauthors = Rabiner L, Juang B |date=Enero 1986|title=Una introducción a los modelos de Markov ocultos|url=https://ieeexplore.ieee.org/document/1165342%7Cjournal=IEEE<nowiki> ASSP Magazine|volume=3|issue=1|pages=4-16|doi=10.1109/MASSP.1986 .1165342|s2cid=11358505|issn=1558-1284}}</nowiki></ref> Así, pueden utilizarse para perfilar y convertir un alineamiento de secuencias múltiples en un sistema de puntuación específico para cada posición, adecuado para buscar secuencias homólogas en las bases de datos de forma remota.<ref><nowiki>{cite journal | vauthors = Eddy SR | title = Profile hidden Markov models | journal = Bioinformatics | volume = 14 | issue = 9 | pages = 755-63 | date = 1 October 1998 | pmid = 9918945 | doi = 10.1093/bioinformatics/14.9. 755 | doi-access = free }}</nowiki></ref>

==== Redes neuronales convolucionales ====
Las [[redes neuronales convolucionales]] son una clase de redes neuronales profundas cuya arquitectura se en una serie de perceptores con varias capas, que posteriormente se conectan entre sí. Estas redes fueron [[Biología matemática|inspiradas]] por procesos biológicos<ref name="fukuneoscholar">{{cite journal|title=Neocognitron|journal=Scholarpedia|volume=2|issue=1|page=1717|bibcode=2007SchpJ...2. 1717F|doi=10.4249/scholarpedia.1717|year=2007|vauthors=Fukushima K|doi-access=free}}</ref><ref name="hubelwiesel1968">{{cite journal|title=Receptive fields and functional architecture of monkey striate cortex|date=March 1968|journal=The Journal of Physiology|volume=195|issue=1|pages=215-43|doi=10.1113/jphysiol.1968 .sp008455|pmc=1557912|pmid=4966457|vauthors=Hubel DH, Wiesel TN}}</ref><ref name="intro"><nowiki>{cite journal | vauthors = Fukushima K | title = Neocognitron: a self organizing neural network model for a mechanism of pattern recognition unffected by shift in position | journal = Biological Cybernetics | volume = 36 | issue = 4 | pages = 193-202 | year = 1980 | pmid = 7370364 | doi = 10. 1007/BF00344251 | s2cid = 206775608 }}</nowiki></ref><ref name="robust face detection">{{cite journal|title=Reconocimiento de la expresión facial independiente del sujeto con detección facial robusta utilizando una red neuronal convolucional|journal=Neural Networks|volume=16|issue=5-6|pages=555-9|doi=10. 1016/S0893-6080(03)00115-1|pmid=12850007|year=2003|vauthors=Matsugu M, Mori K, Mitari Y, Kaneda Y}}</ref> en los que el patrón de conectividad entre [[Neurona artificial|neuronas]] se asemeja a la organización de la [[corteza visual]] animal, y utilizan relativamente poco preprocesamiento en comparación con otros algoritmos. Así, la red aprende a optimizar sus filtros a través del aprendizaje automatizado, mientras que en los algoritmos tradicionales requieren que estos filtros sean diseñados a mano.

==== Bosque aleatorio ====
Los bosques aleatorios clasifican construyendo un conjunto de [[árboles de decisión]], y emitiendo la predicción media de los árboles individuales.<ref>{{cite conferencia|vauthors=Ho TK|title=Bosques de decisión aleatorios|conferencia=Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14-16 August 1995.|date=1995|pages=278-282}}</ref> Desde el punto de vista computacional, los bosques aleatorios son atractivos porque manejan de forma natural tanto la regresión como la clasificación, son relativamente rápidos de entrenar y predecir, dependen sólo de uno o dos parámetros de ajuste, tienen una estimación incorporada del error de generalización, pueden utilizarse directamente para problemas de alta dimensión y pueden implementarse fácilmente en paralelo. Desde el punto de vista estadístico, los bosques aleatorios son atractivos para las características adicionales, como las medidas de importancia de las variables, la ponderación diferencial de las clases, la imputación de valores perdidos, la visualización, la detección de valores atípicos y el aprendizaje no supervisado.<ref name="Zhang_2012">{{cite book|vauthors=Zhang C, Ma Y|title=Ensemble machine learning: methods and applications|date=2012|publisher=Springer New York Dordrecht Heidelberg London|location=New York|isbn=978-1-4419-9325-0|pages=157-175}}</ref>

=== Agrupamiento ===
La agrupación (clustering) de un conjunto de datos en subconjuntos, de modo que los datos de cada subconjunto estén lo más cerca posible entre sí y lo más distantes posible de los datos de cualquier otro subconjunto, es una técnica común para el análisis estadístico de datos. El clustering es fundamental para muchas investigaciones bioinformáticas, y sirve como un poderoso método computacional para analizar datos no estructurados y de alta dimensión en forma de secuencias, expresiones, textos, imágenes, etc. El clustering también se utiliza para obtener información sobre los procesos biológicos a nivel genómico, por ejemplo, las funciones de los genes, los procesos celulares, los subtipos de células, la [[regulación génica]] y los procesos metabólicos.<ref><nowiki>{cite journal | vauthors = Karim MR, Beyan O, Zappa A, Costa IG, Rebholz-Schuhmann D, Cochez M, Decker S | title = Deep learning-based clustering approaches for bioinformatics | journal = Briefings in Bioinformatics | volume = 22 | issue = 1 | pages = 393-415 | date = January 2021 | pmid = 32008043 | pmc = 7820885 | doi = 10.1093/bib/bbz170 }}</nowiki></ref> Existen dos tipos de algoritmos de agrupamiento, a grandes rasgos:

* Los algoritmos jerárquicos encuentran grupos usando grupos previamente establecidos, de forma aglomerativa (bottom-up, poniendo cada elemento en un grupo propio, y fusionándolos sucesivamente en otros más grandes) o divisiva (top-down, dividiendo el conjunto en subgrupos). Un ejemplo es BIRC, que es particularmente bueno en bioinformática por su [[complejidad de tiempo]] casi lineal dado conjuntos de datos generalmente grandes.<ref name="Variations on the Clustering Algori">{{cite journal|title=Variations on the Clustering Algorithm BIRCH|date=1 March 2018|journal=Big Data Research|volume=11|pages=44-53|doi=10.1016/j.bdr.2017 .09.002|vauthors=Lorbeer B, Kosareva A, Deva B, Softić D, Ruppel P, Küpper A|doi-access=free}}</ref>
* Los algoritmos particionales determinan todos los clusters a la vez, pues se basan en especificar un número inicial de grupos, y reasignar iterativamente los objetos entre los grupos hasta la convergencia; por ejemplo, [[k-means]] o [[k-medoids]]. <ref>{{cite journal|title=Un marco computacional para explorar la diversidad biosintética a gran escala|date=January 2020|journal=Nature Chemical Biology|volume=16|issue=1|pages=60-68|doi=10. 1038/s41589-019-0400-9|pmc=6917865|pmid=31768033|display-authors=6|vauthors=Navarro-Muñoz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, De Los Santos EL, Yeong M, Cruz-Morales P, Abubucker S, Roeters A, Lokhorst W, Fernandez-Guerra A, Cappelini LT, Goering AW, Thomson RJ, Metcalf WW, Kelleher NL, Barona-Gomez F, Medema MH}}</ref>

== Aplicaciones ==
== Aplicaciones ==
[[Archivo:Growth_of_GenBank.png|miniaturadeimagen|El crecimiento de la base de datos de secuencias genómicas de GenBank en las últimas décadas.
[[Archivo:Growth_of_GenBank.png|miniaturadeimagen|El crecimiento de la base de datos de secuencias genómicas de GenBank en las últimas décadas.
Línea 39: Línea 58:


=== Minería de textos ===
=== Minería de textos ===
[[Archivo:Tripletsnew2012.png|miniaturadeimagen|224x224px|La [[minería de textos]] se puede usar para establecer relaciones entre conjuntos de datos, ya sean biológios o políticos. En la imagen, un mapa narrativo de las [[Elecciones presidenciales de Estados Unidos de 2012|elecciones de 2012 en Estados Unidos]]]]
El aumento de las publicaciones científicas dificulta la búsqueda y compilación de toda la información relevante disponible sobre un tema determinado. Esto, a su vez, dificulta la recopilación de datos biológicos necesaria para todas las aplicaciones anteriormente mencionadas.<ref name=":5">{{Cite journal|url=http://www.sciencedirect.com/science/article/pii/S1359644605033763|title=Text-mining approaches in molecular biology and biomedicine|last2=Erhardt|first2=Ramon Alonso-Allende|date=15 de marzo de 2005|journal=Drug Discovery Today|volume=10|issue=6|pages=439–445|doi=10.1016/S1359-6446(05)03376-3|last3=Valencia|first3=Alfonso|last=Krallinger|first=Martin}}</ref> El [[procesamiento del lenguaje natural]] permite extraer la información útil dentro de los informes generados por humanos en una base de datos dada. Además, como las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido, se puede extraer información adicional de la literatura biomédica, permitiendo funciones como la anotación automática, la determinación de la [[Hipótesis de la señal|localización subcelular de una proteína]], el análisis de interacción de proteínas a gran escala o la detección y visualización de regiones que comparten un alto grado de semejanza.<ref name="sing">{{Cita publicación|url=https://link.springer.com/chapter/10.1007/978-3-319-58838-4_26|título=Visualization of Distinct DNA Regions of the Modern Human Relatively to a Neanderthal Genome|apellidos2=Hosseini, M|fecha=June 20–23, 2017|publicación=Iberian Conference on Pattern Recognition and Image Analysis. Springer|páginas=235–242|apellidos3=Silva, R|apellidos4=Pinho, A|apellidos5=Ferreira, P}}</ref>
El aumento de las publicaciones científicas dificulta la búsqueda y compilación de toda la información relevante disponible sobre un tema determinado. Esto, a su vez, dificulta la recopilación de datos biológicos necesaria para todas las aplicaciones anteriormente mencionadas.<ref name=":5">{{Cite journal|url=http://www.sciencedirect.com/science/article/pii/S1359644605033763|title=Text-mining approaches in molecular biology and biomedicine|last2=Erhardt|first2=Ramon Alonso-Allende|date=15 de marzo de 2005|journal=Drug Discovery Today|volume=10|issue=6|pages=439–445|doi=10.1016/S1359-6446(05)03376-3|last3=Valencia|first3=Alfonso|last=Krallinger|first=Martin}}</ref> El [[procesamiento del lenguaje natural]] permite extraer la información útil dentro de los informes generados por humanos en una base de datos dada. Además, como las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido, se puede extraer información adicional de la literatura biomédica, permitiendo funciones como la anotación automática, la determinación de la [[Hipótesis de la señal|localización subcelular de una proteína]], el análisis de interacción de proteínas a gran escala o la detección y visualización de regiones que comparten un alto grado de semejanza.<ref name="sing">{{Cita publicación|url=https://link.springer.com/chapter/10.1007/978-3-319-58838-4_26|título=Visualization of Distinct DNA Regions of the Modern Human Relatively to a Neanderthal Genome|apellidos2=Hosseini, M|fecha=June 20–23, 2017|publicación=Iberian Conference on Pattern Recognition and Image Analysis. Springer|páginas=235–242|apellidos3=Silva, R|apellidos4=Pinho, A|apellidos5=Ferreira, P}}</ref>



Revisión del 22:32 20 nov 2021

Predicción (en azul) de la estructura de la proteína TOP7 (en rojo) usando Rosetta@Home, un proyecto para el cual se ha sugerido integrar Aprendizaje Automático en casos donde no hay suficientes datos para los métodos tradicionales.[1]

El aprendizaje automático en bioinformática consiste en la aplicación de algoritmos de aprendizaje automático, en entornos de bioinformática, como, por ejemplo, la genómica, la proteómica, los microarrays, la biología de sistemas, la biología evolutiva y la minería de textos.[2]​ Esto permite automatizar la búsqueda de patrones complejos en series de datos, facilitando la comprensión de procesos biológicos tan complejos como la estructura de las proteínas,[3]​ lo que diferencia a esta disciplina de los enfoques tradicionales de bioinformática, que requieren supervisión y que dificultan la aparición de patrones inesperados u ocultos. [4]

Se trata de un campo emergente debido al gran crecimiento de la cantidad de conjuntos de datos biológicos disponibles, necesarios para entrenar algoritmos con un nivel de detalle alto.[5]

Funcionamiento

Los algoritmos de aprendizaje automático en bioinformática pueden utilizarse para la predicción, la clasificación y la selección de características. Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas; los más conocidos son el aprendizaje automático y la estadística. Las tareas de clasificación y predicción tienen como objetivo construir modelos que describan y distingan clases o conceptos para su futura predicción. Las diferencias entre ellas son las siguientes:

  • La clasificación produce una variable discreta, mientras que la predicción produce una característica de valor numérico.
  • El tipo de algoritmo o proceso utilizado para construir los modelos de predicción a partir de los datos utilizando analogías, reglas, redes neuronales, probabilidades y/o estadísticas.

Debido al crecimiento exponencial de las tecnologías de la información y de los modelos aplicables, incluyendo la inteligencia artificial y la minería de datos, además del acceso a conjuntos de datos cada vez más amplios, se han creado nuevas y mejores técnicas de análisis de la información, basadas en su capacidad de aprendizaje. Dichos modelos permiten ir más allá de la descripción y proporcionan conocimientos en forma de modelos comprobables. Algunos de los enfoques más usados son:

Clasificación

En este tipo de tareas de aprendizaje automático, la salida es una variable discreta. Un ejemplo de este tipo de tarea en bioinformática es el etiquetado de nuevos datos genómicos (como genomas de bacterias no cultivables) basado en un modelo de datos ya etiquetados.[6]

Modelos ocultos de Markov

Los modelos ocultos de Markov son un tipo de modelos estadísticos para datos secuenciales. Un Modelo de Markov está compuesto por dos objetos matemáticos: un proceso observado dependiente del estado , y un proceso de estado no observado u oculto. Así, el proceso en estudio no se observa directamente, sino que se realizan observaciones sobre un proceso dependiente del proceso de interés, y cuyos cambios sirven como una medida ruidosa de los estados del sistema de interés. [7]​ Así, pueden utilizarse para perfilar y convertir un alineamiento de secuencias múltiples en un sistema de puntuación específico para cada posición, adecuado para buscar secuencias homólogas en las bases de datos de forma remota.[8]

Redes neuronales convolucionales

Las redes neuronales convolucionales son una clase de redes neuronales profundas cuya arquitectura se en una serie de perceptores con varias capas, que posteriormente se conectan entre sí. Estas redes fueron inspiradas por procesos biológicos[9][10][11][12]​ en los que el patrón de conectividad entre neuronas se asemeja a la organización de la corteza visual animal, y utilizan relativamente poco preprocesamiento en comparación con otros algoritmos. Así, la red aprende a optimizar sus filtros a través del aprendizaje automatizado, mientras que en los algoritmos tradicionales requieren que estos filtros sean diseñados a mano.

Bosque aleatorio

Los bosques aleatorios clasifican construyendo un conjunto de árboles de decisión, y emitiendo la predicción media de los árboles individuales.[13]​ Desde el punto de vista computacional, los bosques aleatorios son atractivos porque manejan de forma natural tanto la regresión como la clasificación, son relativamente rápidos de entrenar y predecir, dependen sólo de uno o dos parámetros de ajuste, tienen una estimación incorporada del error de generalización, pueden utilizarse directamente para problemas de alta dimensión y pueden implementarse fácilmente en paralelo. Desde el punto de vista estadístico, los bosques aleatorios son atractivos para las características adicionales, como las medidas de importancia de las variables, la ponderación diferencial de las clases, la imputación de valores perdidos, la visualización, la detección de valores atípicos y el aprendizaje no supervisado.[14]

Agrupamiento

La agrupación (clustering) de un conjunto de datos en subconjuntos, de modo que los datos de cada subconjunto estén lo más cerca posible entre sí y lo más distantes posible de los datos de cualquier otro subconjunto, es una técnica común para el análisis estadístico de datos. El clustering es fundamental para muchas investigaciones bioinformáticas, y sirve como un poderoso método computacional para analizar datos no estructurados y de alta dimensión en forma de secuencias, expresiones, textos, imágenes, etc. El clustering también se utiliza para obtener información sobre los procesos biológicos a nivel genómico, por ejemplo, las funciones de los genes, los procesos celulares, los subtipos de células, la regulación génica y los procesos metabólicos.[15]​ Existen dos tipos de algoritmos de agrupamiento, a grandes rasgos:

  • Los algoritmos jerárquicos encuentran grupos usando grupos previamente establecidos, de forma aglomerativa (bottom-up, poniendo cada elemento en un grupo propio, y fusionándolos sucesivamente en otros más grandes) o divisiva (top-down, dividiendo el conjunto en subgrupos). Un ejemplo es BIRC, que es particularmente bueno en bioinformática por su complejidad de tiempo casi lineal dado conjuntos de datos generalmente grandes.[16]
  • Los algoritmos particionales determinan todos los clusters a la vez, pues se basan en especificar un número inicial de grupos, y reasignar iterativamente los objetos entre los grupos hasta la convergencia; por ejemplo, k-means o k-medoids. [17]

Aplicaciones

El crecimiento de la base de datos de secuencias genómicas de GenBank en las últimas décadas.
     Genbank
     WGS

Genómica

Aunque los datos de genómica han sido históricamente escasos debido a la dificultad técnica de secuenciar un fragmento de ADN, en los últimos años el número de secuencias indexadas en bases de datos está creciendo exponencialmente.[18]​ Sin embargo, la interpretación de estos datos está ocurriendo a un ritmo mucho más lento,[19]​ por lo que existe una necesidad creciente de desarollar sistemas que puedan determinar automáticamente qué partes de una secuencia de ADN dada codifican proteínas y cuáles no: se trata de la predicción de gen.

Esta predicción se puede realizar mediante búsqueda extrínseca e intrínseca:

  • En la extrínseca, una secuencia de ADN se pasa por una base de datos de secuencias anotadas, buscando homólogos a genes ya existentes
  • En la intrínseca, se buscan regiones codificantes en la cadena "por sí misma", sin ayuda de agentes externos.

El aprendizaje automático también puede usarse para la alineación de secuencias, que junta regiones de semejanza para detectar una historia evolutiva compartida, así como regiones recombinantes.[20]

Proteómica

Las proteínas son cadenas de aminoácidos cuya funcionalidad depende en gran medida de su estructura tridimensional. Esta estructura se va "plegando" progresivamente, pasando desde la estructura primaria (la cadena lineal de aminoácidos) a la estructura secundaria que predice la terciaria, y si se asocia con otras cadenas peptídicas, la cuaternaria. Así, la predicción de la estructura secundaria directamente desde la primaria es un campo con grandes aplicaciones en el área de la farmacodinámica, aunque se trata de un proceso increíblemente costoso y que requiere mucho tiempo, y que, hasta la llegada del aprendizaje automático, debía realizarse manualmente.[21]

Hoy en día, mediante el uso del aprendizaje automático se puede alcanzar una precisión del 82-84%, usando redes neuronales artificiales para clasificar regiones del ADN en función de si codifican para una hélice alfa, lámina beta o espiral).[22]​ El aprendizaje automático también se puede usar para la predicción de cadenas laterales, el modelado de bucles de proteínas, y la generación de mapas de contacto.

Microarrays

Los microarrays son un tipo de chip de laboratorio utilizado para recopilar datos de forma automática sobre grandes cantidades de material biológico. Esta tecnología permite controlar la expresión diferencial de genes, ayudando a diagnosticar enfermedades como el cáncer.[23]​ Sin embargo, debido a la enorme cantidad de datos recopilados, se hace necesario discernir cuales son de interés y cuales no para el diagnóstico, para lo que se pueden usar métodos de aprendizaje automático tales como el aprendizaje profundo o los árboles de decisión.

Biología de sistemas

La biología de sistemas se centra en el estudio de las interacciones complejas de componentes biológicos simples en un sistema.[24]​ Por ejemplo, se pueden modelar redes génicas y estructuras reguladoras a partir de la expresión de los genes individuales usando modelos gráficos probabilistas, identificar sitios de unión de factores de transcripción utilizando la optimización de cadena de Markov o identificar la sensibilidad de los genes NCR (encargados de desatar la citotoxicidad)[25]​ en levadura.[26]

Minería de textos

La minería de textos se puede usar para establecer relaciones entre conjuntos de datos, ya sean biológios o políticos. En la imagen, un mapa narrativo de las elecciones de 2012 en Estados Unidos

El aumento de las publicaciones científicas dificulta la búsqueda y compilación de toda la información relevante disponible sobre un tema determinado. Esto, a su vez, dificulta la recopilación de datos biológicos necesaria para todas las aplicaciones anteriormente mencionadas.[27]​ El procesamiento del lenguaje natural permite extraer la información útil dentro de los informes generados por humanos en una base de datos dada. Además, como las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido, se puede extraer información adicional de la literatura biomédica, permitiendo funciones como la anotación automática, la determinación de la localización subcelular de una proteína, el análisis de interacción de proteínas a gran escala o la detección y visualización de regiones que comparten un alto grado de semejanza.[28]

Bases de datos

Una parte importante de la bioinformática es la gestión de grandes conjuntos de datos, conocidos como bases de datos de referencia. Existen bases de datos para cada tipo de datos biológicos, por ejemplo para los grupos de genes biosintéticos y los metagenomas.

  • Centro Nacional de Información Biotecnológica: El NCBI ofrece un amplio conjunto de recursos en línea de información y datos biológicos, como la base de datos de secuencias de ácidos nucleicos GenBank y la base de datos de citas y resúmenes de revistas de ciencias de la vida PubMed.[29]​ Muchas de las aplicaciones web se complementan con implementaciones personalizadas del programa BLAST, optimizadas para la búsqueda de conjuntos de datos especializados. Los recursos incluyen la gestión de datos de PubMed, los elementos funcionales de RefSeq, la descarga de datos del genoma, la API de servicios de variación, Magic-BLAST, QuickBLASTp y los grupos de proteínas idénticas. Se puede acceder a todos estos recursos a través del NCBI. [30]
  • antiSMASH: Permite la rápida identificación, anotación y análisis de grupos de genes de biosíntesis de metabolitos secundarios en genomas bacterianos y fúngicos. Se integra y cruza con un gran número de herramientas de análisis in silico de metabolitos secundarios.[31]
  • gutSMASH: Evalúa sistemáticamente el potencial metabólico bacteriano mediante la predicción de clústeres de genes metabólicos (MGC), tanto conocidos como novedosos, del microbioma intestinal.
  • MIBiG: Son las siglas de Minimal Identifier for Biosintetic Gene clusters,[32]​ y proporciona un estándar para las anotaciones y metadatos sobre los clústeres de genes biosintéticos y sus productos moleculares.[33]​ Se trata de un proyecto del Consorcio de Estándares Genómicos que se basa en el marco de información mínima sobre cualquier secuencia (MIxS).[34]
  • SILVA: es un proyecto interdisciplinario entre biólogos e informáticos que reúne una base de datos completa de secuencias de genes de ARN ribosómico (ARNr), tanto de las subunidades pequeñas (16S,18S, SSU) como de las grandes (23S, 28S, LSU),[35]​ que pertenecen a los dominios de las bacterias, las arqueas y las eucariotas. Estos datos están disponibles gratuitamente para uso académico y comercial. [36]
  • Greengenes: es una base de datos de genes de ARN ribosomal 16S de longitud completa que proporciona cribado de quimeras,[37]​ alineación estándar y una taxonomía curada basada en la inferencia de árboles de novo. [38][39]
  • Open Tree of life Taxonomy: Tiene como objetivo construir un Árbol de la Vida completo, dinámico y disponible digitalmente, sintetizando los árboles filogenéticos publicados junto con los datos taxonómicos. Aunque menos utilizada, tiene un mayor número de secuencias clasificadas taxonómicamente hasta el nivel de género en comparación con SILVA y Greengenes.[40]
  • Ribosomal Database Project: Es una base de datos que proporciona secuencias de ARN ribosómico (ARNr) de subunidades pequeñas de dominio bacteriano y arqueológico (16S); y secuencias de ARNr fúngico de subunidades grandes (28S). [41]

Referencias

  1. Farrell, Daniel P.; Anishchenko, Ivan; Shakeel, Shabih; Lauko, Anna; Passmore, Lori A.; Baker, David; DiMaio, Frank (3 de mayo de 2020). Deep learning enables the atomic structure determination of the Fanconi Anemia core complex from cryoEM (en inglés). pp. 2020.05.01.072751. doi:10.1101/2020.05.01.072751v1. Consultado el 11 de noviembre de 2021. 
  2. «Machine learning in bioinformatics». academic.oup.com. Consultado el 11 de noviembre de 2021. 
  3. Yang, Yuedong; Gao, Jianzhao; Wang, Jihua; Heffernan, Rhys; Hanson, Jack; Paliwal, Kuldip; Zhou, Yaoqi (31 de diciembre de 2016). «Sixty-five years of the long march in protein secondary structure prediction: the final stretch?». Briefings in Bioinformatics: bbw129. doi:10.1093/bib/bbw129. 
  4. Chicco, Davide (2017). «Ten quick tips for machine learning in computational biology». BioData Mining 10 (1): 35. doi:10.1186/s13040-017-0155-3. 
  5. Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán; Pérez, Aritz; Robles, Victor (1 de marzo de 2006). «Machine learning in bioinformatics». Briefings in Bioinformatics 7 (1): 86-112. doi:10.1093/bib/bbk007. 
  6. pdf «Aprendizaje automático para metagenómica: métodos y herramientas». Metagenomics 1. 2019. S2CID 17418188. arXiv:06621 1510. 06621. doi:10.1515/metgen-2016-0001.  Parámetro desconocido |vauthors= ignorado (ayuda)
  7. {Cite journal| vauthors = Rabiner L, Juang B |date=Enero 1986|title=Una introducción a los modelos de Markov ocultos|url=https://ieeexplore.ieee.org/document/1165342%7Cjournal=IEEE ASSP Magazine|volume=3|issue=1|pages=4-16|doi=10.1109/MASSP.1986 .1165342|s2cid=11358505|issn=1558-1284}}
  8. {cite journal | vauthors = Eddy SR | title = Profile hidden Markov models | journal = Bioinformatics | volume = 14 | issue = 9 | pages = 755-63 | date = 1 October 1998 | pmid = 9918945 | doi = 10.1093/bioinformatics/14.9. 755 | doi-access = free }}
  9. «Neocognitron». Scholarpedia 2 (1): 1717. 2007. Bibcode:1717F 2007SchpJ...2. 1717F. doi:10.4249/scholarpedia.1717.  Parámetro desconocido |vauthors= ignorado (ayuda); Parámetro desconocido |doi-access= ignorado (ayuda)
  10. «Receptive fields and functional architecture of monkey striate cortex». The Journal of Physiology 195 (1): 215-43. March 1968. PMC 1557912. PMID 4966457. doi:10.1113/jphysiol.1968 .sp008455 |doi= incorrecto (ayuda).  Parámetro desconocido |vauthors= ignorado (ayuda)
  11. {cite journal | vauthors = Fukushima K | title = Neocognitron: a self organizing neural network model for a mechanism of pattern recognition unffected by shift in position | journal = Biological Cybernetics | volume = 36 | issue = 4 | pages = 193-202 | year = 1980 | pmid = 7370364 | doi = 10. 1007/BF00344251 | s2cid = 206775608 }}
  12. «Reconocimiento de la expresión facial independiente del sujeto con detección facial robusta utilizando una red neuronal convolucional». Neural Networks 16 (5-6): 555-9. 2003. PMID 12850007. doi:10. 1016/S0893-6080(03)00115-1 |doi= incorrecto (ayuda).  Parámetro desconocido |vauthors= ignorado (ayuda)
  13. Plantilla:Cite conferencia
  14. Ensemble machine learning: methods and applications. New York: Springer New York Dordrecht Heidelberg London. 2012. pp. 157-175. ISBN 978-1-4419-9325-0.  Parámetro desconocido |vauthors= ignorado (ayuda)
  15. {cite journal | vauthors = Karim MR, Beyan O, Zappa A, Costa IG, Rebholz-Schuhmann D, Cochez M, Decker S | title = Deep learning-based clustering approaches for bioinformatics | journal = Briefings in Bioinformatics | volume = 22 | issue = 1 | pages = 393-415 | date = January 2021 | pmid = 32008043 | pmc = 7820885 | doi = 10.1093/bib/bbz170 }}
  16. «Variations on the Clustering Algorithm BIRCH». Big Data Research 11: 44-53. 1 March 2018. doi:10.1016/j.bdr.2017 .09.002 |doi= incorrecto (ayuda).  Parámetro desconocido |doi-access= ignorado (ayuda); Parámetro desconocido |vauthors= ignorado (ayuda)
  17. «Un marco computacional para explorar la diversidad biosintética a gran escala». Nature Chemical Biology 16 (1): 60-68. January 2020. PMC 6917865. PMID 31768033. doi:10. 1038/s41589-019-0400-9 |doi= incorrecto (ayuda).  Parámetro desconocido |vauthors= ignorado (ayuda)
  18. «GenBank and WGS Statistics». www.ncbi.nlm.nih.gov. Consultado el 19 de noviembre de 2021. 
  19. Mathé, Catherine; Sagot, Marie-France; Schiex, Thomas; Rouzé, Pierre (1 de octubre de 2002). «SURVEY AND SUMMARY: Current methods of gene prediction, their strengths and weaknesses». Nucleic Acids Research 30 (19): 4103-4117. ISSN 0305-1048. PMID 12364589. Consultado el 19 de noviembre de 2021. 
  20. Pratas, D; Silva, R; Pinho, A; Ferreira, P (18 de mayo de 2015). «An alignment-free method to find and visualise rearrangements between pairs of DNA sequences.». Scientific Reports (Group Nature) 5 (10203): 10203. PMC 4434998. PMID 25984837. doi:10.1038/srep10203. 
  21. Pauling, L.; Corey, R. B.; Branson, H. R. (1 de abril de 1951). «The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain». Proceedings of the National Academy of Sciences of the United States of America 37 (4): 205-211. ISSN 0027-8424. PMC 1063337. PMID 14816373. doi:10.1073/pnas.37.4.205. 
  22. Wang, Sheng; Peng, Jian; Ma, Jianzhu; Xu, Jinbo (1 de diciembre de 2015). «Protein secondary structure prediction using deep convolutional neural fields». arXiv:1512.00843. 
  23. Pirooznia, Mehdi; Yang, Jack Y.; Yang, Mary Qu; Deng, Youping (2008). «A comparative study of different machine learning methods on microarray gene expression data». BMC Genomics 9 (1): S13. ISSN 1471-2164. PMC 2386055. PMID 18366602. doi:10.1186/1471-2164-9-S1-S13. 
  24. «Machine Learning in Molecular Systems Biology». Frontiers (en inglés). Consultado el 9 de junio de 2017. 
  25. Guefrachi, Ibtissem; Nagymihaly, Marianna; Pislariu, Catalina I.; Van de Velde, Willem; Ratet, Pascal; Mars, Mohamed; Udvardi, Michael K.; Kondorosi, Eva et al. (25 de agosto de 2014). «Extreme specificity of NCR gene expression in Medicago truncatula». BMC genomics 15: 712. ISSN 1471-2164. PMC 4168050. PMID 25156206. doi:10.1186/1471-2164-15-712. Consultado el 20 de noviembre de 2021. 
  26. «Machine Learning in Systems Biology». BMC Proceedings 2 (4): S1. 2008. ISSN 1753-6561. doi:10.1186/1753-6561-2-S4-S1. 
  27. Krallinger, Martin; Erhardt, Ramon Alonso-Allende; Valencia, Alfonso (15 de marzo de 2005). «Text-mining approaches in molecular biology and biomedicine». Drug Discovery Today 10 (6): 439-445. doi:10.1016/S1359-6446(05)03376-3. 
  28. «Visualization of Distinct DNA Regions of the Modern Human Relatively to a Neanderthal Genome». Iberian Conference on Pattern Recognition and Image Analysis. Springer: 235-242. June 20–23, 2017. 
  29. Information, National Center for Biotechnology. «National Center for Biotechnology Information». www.ncbi.nlm.nih.gov (en inglés). Consultado el 20 de noviembre de 2021. 
  30. {cite journal | vauthors = Agarwala R, Barrett T, Beck J, Benson DA, Bollin C, Bolton E, etal | collaboration = NCBI Resource Coordinators | title = Database resources of the National Center for Biotechnology Information | journal = Nucleic Acids Research | volume = 46 | issue = D1 | pages = D8-D13 | date = January 2018 | pmid = 29140470 | pmc = 5753372 | doi = 10.1093/nar/gkx1095 }}
  31. «antiSMASH database». antismash-db.secondarymetabolites.org. 
  32. {Cite web|title=MIBiG: Información mínima sobre un clúster de genes biosintéticos|url=https://mibig.secondarymetabolites.org/%7Caccess-date=2021-07-30%7Cwebsite=mibig.secondarymetabolites.org%7Clanguage=en}}
  33. «MIBiG 2. 0: a repository for biosynthetic gene clusters of known function». Nucleic Acids Research 48 (D1): D454-D458. January 2020. PMC 7145714. PMID 31612915. doi:10.1093/nar/gkz882.  Parámetro desconocido |vauthors= ignorado (ayuda)
  34. MiBiG
  35. {Cite web|title=Silva|url=https://www.arb-silva.de/%7Caccess-date=2021-07-30%7Cwebsite=www.arb-silva. de}}
  36. {cite journal | vauthors = Quast C, Pruesse E, Yilmaz P, Gerken J, Schweer T, Yarza P, Peplies J, Glöckner FO | display-authors = 6 | title = The SILVA ribosomal RNA gene database project: procesamiento de datos mejorado y herramientas basadas en la web | journal = Nucleic Acids Research | volume = 41 | issue = Database issue | pages = D590-6 | date = January 2013 | pmid = 23193283 | pmc = 3531112 | doi = 10. 1093/nar/gks1219 }}
  37. «greengenes.secondgenome.com». greengenes.secondgenome.com. Consultado el 20 de noviembre de 2021. 
  38. {cite journal | vauthors = DeSantis TZ, Hugenholtz P, Larsen N, Rojas M, Brodie EL, Keller K, Huber T, Dalevi D, Hu P, Andersen GL | display-authors = 6 | title = Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB | journal = Applied and Environmental Microbiology | volume = 72 | issue = 7 | pages = 5069-72 | date = July 2006 | pmid = 16820507 | pmc = 1489311 | doi = 10. 1128/AEM.03006-05 | Código de barras = 2006ApEnM..72. 5069D | doi-access = free }}
  39. {cite journal | vauthors = McDonald D, Price MN, Goodrich J, Nawrocki EP, DeSantis TZ, Probst A, Andersen GL, Knight R, Hugenholtz P | display-authors = 6 | title = Una taxonomía Greengenes mejorada con rangos explícitos para los análisis ecológicos y evolutivos de bacterias y arqueas | journal = The ISME Journal | volume = 6 | issue = 3 | pages = 610-8 | date = March 2012 | pmid = 22134646 | pmc = 3280142 | doi = 10. 1038/ismej.2011 .139 }}
  40. «Síntesis de la filogenia y la taxonomía en un árbol completo de la vida». Proceedings of the National Academy of Sciences of the United States of America 112 (41): 12764-9. October 2015. Bibcode:2015PNAS..11212764H. PMC 4611642. PMID 26385966. doi:10. 1073/pnas.1423041112 |doi= incorrecto (ayuda).  Parámetro desconocido |vauthors= ignorado (ayuda); Parámetro desconocido |doi-access= ignorado (ayuda)
  41. «Ribosomal Database Project: Datos y herramientas para el análisis de ARNr de alto rendimiento». Nucleic Acids Research 42 (Base de datos): D633-42. enero de 2014. PMC 3965039. PMID 24288368. doi:10. 1093/nar/gkt1244 |doi= incorrecto (ayuda).  Parámetro desconocido |vauthors= ignorado (ayuda)