Proyecto Anatomía del Genoma del Cáncer

De Wikipedia, la enciclopedia libre

El Proyecto Anatomía del Genoma del Cáncer (CGAP por sus siglas en inglés), creado por el Instituto Nacional del Cáncer (NCI) en 1997 y presentado por Al Gore, es una base de datos en línea sobre genomas normales, precancerosos y cancerosos. También proporciona herramientas para la visualización y el análisis de los datos, lo que permite identificar genes implicados en diversos aspectos de la progresión tumoral. El objetivo del CGAP es caracterizar el cáncer a nivel molecular proporcionando una plataforma con datos actualizados de fácil acceso y un conjunto de herramientas tales que los investigadores puedan relacionar fácilmente sus hallazgos con los conocimientos existentes. También se hace hincapié en el desarrollo de herramientas informáticas que mejoren el uso de conjuntos de datos grandes y complejos.[1][2]​ El proyecto está dirigido por Daniela S. Gerhard e incluye subproyectos o iniciativas, entre las que destacan el Proyecto de Aberraciones Cromosómicas del Cáncer (CCAP) y la Iniciativa de Anotaciones Genéticas (GAI). El CGAP contribuye a muchas bases de datos y organizaciones como el NCBI contribuyen a las bases de datos del CGAP.

Entre los posibles resultados del CGAP figuran el establecimiento de una correlación entre la progresión de un cáncer concreto y su resultado terapéutico, la mejora de la evaluación del tratamiento y el desarrollo de técnicas novedosas de prevención, detección y tratamiento. Esto se consigue mediante la caracterización de productos de ARNm de tejidos biológicos.

Investigación[editar]

Contexto[editar]

La causa fundamental del cáncer es la incapacidad de una célula para regular su expresión génica. Para caracterizar un tipo concreto de cáncer, pueden examinarse las proteínas que se producen a partir de la expresión génica alterada o el ARNm precursor de la proteína. El CGAP trabaja para asociar el perfil de expresión, la firma molecular o el transcriptoma de una célula concreta, que es esencialmente la huella dactilar de la célula, con el fenotipo de la célula. Por lo tanto, existen perfiles de expresión que tienen en cuenta el tipo de cáncer y la fase de progresión.[3]

Secuenciación[editar]

El objetivo inicial del CGAP era establecer un Índice de Genes Tumorales (TGI) para almacenar los perfiles de expresión. De este modo se contribuiría tanto a las bases de datos nuevas como a las ya existentes.[4]​ Esto contribuyó a dos tipos de bibliotecas, la dbEST y más tarde la dbSAGE. Esto se llevó a cabo en una serie de pasos[3]

  • El contenido celular se lava sobre placas con secuencias poli T. Esto se unirá a las colas Poly-A que sólo existen en las moléculas de ARNm, por lo que se mantendrá selectivamente el ARNm.
  • El ARNm aislado se transforma en un transcrito de ADNc mediante transcripción inversa y reacciones de polimerización del ADN.
  • El ADN de doble cadena resultante se incorpora a los plásmidos de E. coli. Cada bacteria contiene ahora un ADNc único y se replica para producir clones con la misma información genética. Esto se denomina biblioteca de ADNc.
  • A continuación, la biblioteca puede secuenciarse mediante técnicas de secuenciación de alto rendimiento. Esto permite caracterizar tanto los diferentes genes expresados por la célula original como la cantidad de expresión de cada gen.

El TGI se centró al principio en los cánceres de próstata, mama, ovario, pulmón y colon, y el CGAP amplió sus investigaciones a otros tipos de cáncer. En la práctica, surgieron problemas que el CGAP tuvo en cuenta a medida que se disponía de nuevas tecnologías. Muchos cánceres se producen en tejidos con múltiples tipos de células. Las técnicas tradicionales tomaban toda la muestra de tejido y producían bibliotecas de ADNc de tejido a granel. Esta heterogeneidad celular hacía que la información sobre la expresión génica en términos de biología del cáncer fuera menos precisa. Un ejemplo es el tejido de cáncer de próstata, en el que las células epiteliales, que se ha demostrado que son el único tipo celular que da lugar al cáncer, sólo constituyen el 10% del recuento celular. Esto condujo al desarrollo de la microdisección por captura láser (LCM), una técnica que permite aislar tipos celulares individuales, lo que dio lugar a bibliotecas de ADNc de tipos celulares específicos.[4]

La secuenciación del ADNc producirá el transcrito completo del ARNm que lo generó. En la práctica, sólo se necesita una parte de la secuencia para identificar de forma unívoca el ARNm o la proteína asociada. La parte resultante de la secuencia se denomina etiqueta de secuencia expresada (EST) y se encuentra siempre al final de la secuencia, cerca de la cola poli A. Los datos EST se almacenan en una base de datos denominada dbEST. Las EST sólo tienen que tener unas 400 bases de longitud, pero con las técnicas de secuenciación NGS esto sigue produciendo lecturas de baja calidad. Por lo tanto, también se utiliza un método mejorado llamado análisis en serie de la expresión génica (SAGE). Este método identifica, para cada molécula de transcrito de ADNc producida a partir de la expresión génica de una célula, regiones de sólo 10-14 bases de longitud en cualquier parte de la secuencia de lectura, suficientes para identificar de forma única ese transcrito de ADNc. Estas bases se recortan y se unen, y después se incorporan a plásmidos bacterianos como se ha mencionado anteriormente. Las bibliotecas SAGE tienen una mejor calidad de lectura y generan una mayor cantidad de datos cuando se secuencian, y puesto que los transcritos se comparan en niveles absolutos en lugar de relativos, SAGE tiene la ventaja de no requerir la normalización de los datos mediante la comparación con una referencia.[1][4]

Recursos[editar]

Tras la secuenciación y la creación de bibliotecas, el CGAP incorpora los datos junto con las fuentes de datos existentes y proporciona diversas bases de datos y herramientas para el análisis. En el sitio web del CGAP del NCI puede encontrarse una descripción detallada de las herramientas y bases de datos creadas o utilizadas por el CGAP. A continuación se presentan algunas de las iniciativas o herramientas de investigación proporcionadas por el CGAP.

Iniciativa de anotación genómica[editar]

El objetivo de la Iniciativa de Anotación Genómica del Proyecto de Anatomía Genómica del Cáncer (CGAP-GAI) es descubrir y catalogar los polimorfismos de un solo nucleótido (SNP) que se correlacionan con el inicio y la progresión del cáncer.[4]​ CGAP-GAI ha creado una serie de herramientas para el descubrimiento, análisis y visualización de SNPs. Los SNP son valiosos en la investigación del cáncer, ya que pueden utilizarse en varios estudios genéticos diferentes, comúnmente para rastrear la transmisión, identificar formas alternativas de genes y analizar complejas vías moleculares que regulan el metabolismo, el crecimiento o la diferenciación celular.[5]

Los SNP en el CGAP-GAI se encuentran como resultado de la resecuenciación de genes de interés en diferentes individuos o buscando en bases de datos EST humanas existentes y haciendo comparaciones.[2]​ Examina transcritos de individuos sanos, individuos con enfermedades, tejido tumoral y líneas celulares de un gran conjunto de individuos; por lo tanto, es más probable que la base de datos incluya mutaciones raras de enfermedades además de variantes de alta frecuencia.[6]​ Un reto común en la detección de SNP es la diferenciación entre errores de secuenciación y polimorfismos reales. Los SNP que se encuentran se someten a un análisis estadístico utilizando la canalización de SNP del CGAP para calcular la probabilidad de que la variante sea de hecho un polimorfismo. Los SNP de alta probabilidad se validan y hay herramientas disponibles que hacen predicciones sobre si la función está alterada.[2]

Para facilitar el acceso a los datos, CGAP-GAI cuenta con una serie de herramientas que pueden mostrar tanto una alineación de secuencias como una visión general del ensamblaje con el contexto de las secuencias a partir de las cuales se predijeron. Los SNP se anotan y a menudo se determinan mapas genéticos/físicos integrados.[6]

Proyecto de Aberraciones Cromosómicas del Cáncer (CCAP)[editar]

La inestabilidad genómica es una característica común del cáncer, por lo que comprender las anomalías estructurales y cromosómicas puede dar una idea de la progresión de la enfermedad. El Proyecto de Aberraciones Cromosómicas del Cáncer (cCAP) es una iniciativa apoyada por el CGAP que se utiliza para definir la estructura cromosómica y caracterizar los reordenamientos asociados a la transformación maligna.[4][7]​ Incorpora la versión en línea de la base de datos de Mitelman, creada por Felix Mitelman, Bertil Johansson y Fredrik Mertens antes de la creación del CGAP, otra recopilación de reordenamientos cromosómicos conocidos. El CCAP tiene varios objetivos:[7]

  • Integración de mapas citogenéticos y físicos del genoma humano
  • Generar un repositorio de clones BAC de todo el genoma que estén cartografiados genética y físicamente.
  • Desarrollar una plataforma para la correlación paralela de bases de datos de aberraciones asociadas al cáncer (base de datos de clones BAC mapeados mediante hibridación fluorescente in situ (FISH))
  • Integrar tres técnicas de análisis citogenético (cariotipo espectral, hibridación comparativa del genoma y FISH) para refinar la nomenclatura definitoria de las aberraciones cariotípicas.

La base de datos contiene información citogenética de más de 64.000 casos de pacientes, incluidas más de 2.000 fusiones génicas.[1]

Como parte de este proyecto existe un repositorio de clones BAC cartografiados física y citogenéticamente para el genoma humano que están disponibles físicamente a través de una red de distribuidores.[1]​ Los mapas de clones del CCAP se han cartografiado citogenéticamente mediante FISH con una resolución de 1-2Mb en todo el genoma humano, y físicamente mediante sitios marcados con secuencias (STS).[8]​ Los datos de los clones BAC también están disponibles a través de las bases de datos CGAP y NCBI.

Otros recursos[editar]

A continuación se enumeran algunos otros recursos disponibles a través de CGAP.[9]

Indicador diferencial digital[editar]

Una de las primeras técnicas utilizadas por el CGAP es la visualización diferencial digital (DDD), que utiliza la prueba exacta de Fisher para comparar las bibliotecas entre sí, con el fin de encontrar una diferencia significativa entre las poblaciones. El CGAP se aseguró de que la DDD pudiera comparar todas las bibliotecas de ADNc de dbEST, y no sólo las generadas por el CGAP.[4]

Colección de genes de mamíferos (MGC)[editar]

El MGC proporciona a los investigadores información sobre proteínas de longitud completa a partir de ADNc, a diferencia de las bases de datos EST o SAGE, que sólo proporcionan la etiqueta identificativa. El proyecto incluye genes humanos y de ratón, y posteriormente se añadieron los ADNc de vaca generados por Genome Canada.[9]

SAGEmapa[editar]

SAGEmap es la base de datos utilizada para almacenar las bibliotecas SAGE. En 2001 existían más de 3,4 millones de etiquetas SAGE. Se pueden utilizar herramientas para asignar etiquetas SAGE a grupos UniGene, una base de datos que almacena transcriptomas. Esto permite identificar más fácilmente la secuencia correspondiente a una etiqueta SAGE. Además, existen herramientas asociadas a SAGEmaps.[10]

  • Digital Northern se utiliza para medir el nivel de expresión de genes específicos,[9]
  • SAGE Anatomic Viewer muestra esta información visualmente y la compara entre células normales y cancerosas,
  • Ludwig Transcript (LT) Viewer muestra transcripciones alternativas y sus posibles etiquetas SAGE asociadas,
  • mSAGE Expression Matrix ( mSEM ) muestra los niveles de expresión génica a lo largo del desarrollo del ratón para diferentes tipos de tejidos.

Localizador de genes[editar]

El CGAP localiza un gen o una lista de genes basándose en criterios de búsqueda específicos y proporciona enlaces a diferentes bases de datos del NCI y del NCBI. Se puede buscar un gen específicamente utilizando un identificador único, como los símbolos del gen y el número del gen Entrez, así como generalmente por función, tejido o palabra clave.[11]

Otras herramientas genéticas accesibles a través de la interfaz web del CGAP son el Navegador de Ontología Genética (GO) y la herramienta Nucleotide BLAST.

Herramientas de expresión génica[editar]

cDNA xProfiler y cDNA Digital gene expression displayer (DGED) se utilizan conjuntamente para encontrar genes de interés estadísticamente significativos que se expresan de forma diferencial dentro de dos grupos de bibliotecas de cDNA, normalmente se realiza una comparación entre tejidos normales y cancerosos.[12]​ El DGED determina la significación estadística mediante una combinación de estadística bayesiana y un cociente de probabilidades de secuencia para calcular una probabilidad. El DGED de ADNc se basa en la base de datos relacional UniGene, mientras que el xProfiler de ADNc utiliza una base de datos de archivos planos que no está disponible en línea.[13]

Resultados y Futuro[editar]

El CGAP es ahora una ubicación centralizada para varias herramientas genómicas y bases de datos genéticos y se emplea ampliamente en la investigación del cáncer y la biología molecular. Las bases de datos creadas por el CGAP siguen contribuyendo al conocimiento de los cánceres en cuanto a sus vías y progresión. Las bases de datos del transcriptoma también pueden utilizarse en investigaciones no relacionadas con el cáncer, ya que contienen información que puede emplearse para identificar rápida y fácilmente determinados genes secuenciados. Los datos también tienen repercusiones clínicas, ya que los ADNc pueden utilizarse para crear microarrays con fines de diagnóstico y comparación de tratamientos. El CGAP se ha utilizado en muchos estudios, con ejemplos como:[1][4]

  • Caracterización de las diferencias en la expresión génica de células endoteliales normales y cancerosas[14]
  • Identificación de la expresión génica irregular como marcador de glioblastomas[15]​ y cáncer de ovario[16]
  • Identificación de la expresión génica específica del tejido prostático[17]
  • Comparación de proteínas expresadas en tejido reproductivo normal y canceroso[18]

Además, la gran cantidad de datos generados por CGAP ha impulsado la mejora de las técnicas de análisis y minería de datos, con ejemplos que incluyen:[9]

  • Comparación de la expresión génica de múltiples bibliotecas de ADNc[19]
  • Técnicas mejoradas para extraer bibliotecas EST[20]
  • Estudios integrales a gran escala del análisis del transcriptoma humano[21]

Véase también[editar]

Referencias[editar]

  1. a b c d e Riggins, G. J. (2001). «Genome and genetic resources from the Cancer Genome Anatomy Project». Human Molecular Genetics 10 (7): 663-667. ISSN 1460-2083. PMID 11257097. doi:10.1093/hmg/10.7.663. 
  2. a b c Strausberg, Robert L.; Buetow, Kenneth H.; Emmert-Buck, Michael R.; Klausner, Richard D. (2000). «The Cancer Genome Anatomy Project: building an annotated gene index». Trends in Genetics 16 (3): 103-106. ISSN 0168-9525. PMID 10689348. doi:10.1016/S0168-9525(99)01937-X. 
  3. a b «Understanding Cancer». Archivado desde el original el 5 de agosto de 2014. Consultado el 4 de septiembre de 2014. 
  4. a b c d e f g Krizman, David B.; Wagner, Lukas; Lash, Alex; Strausberg, Robert L.; Emmert-Buck, Michael R. (1999). «The Cancer Genome Anatomy Project: EST Sequencing and the Genetics of Cancer Progression». Neoplasia 1 (2): 101-106. ISSN 1476-5586. PMC 1508126. PMID 10933042. doi:10.1038/sj.neo.7900002. 
  5. Clifford, R. (2000). «Expression-based Genetic/Physical Maps of Single-Nucleotide Polymorphisms Identified by the Cancer Genome Anatomy Project». Genome Research 10 (8): 1259-1265. ISSN 1088-9051. PMC 310932. PMID 10958644. doi:10.1101/gr.10.8.1259. 
  6. a b Clifford, Robert J.; Edmonson, Michael N.; Nguyen, Cu; Scherpbier, Titia; Hu, Ying; Buetow, Kenneth H. (2004). «Bioinformatics Tools for Single Nucleotide Polymorphism Discovery and Analysis». Annals of the New York Academy of Sciences 1020 (1): 101-109. Bibcode:2004NYASA1020..101C. ISSN 0077-8923. PMID 15208187. S2CID 19088027. doi:10.1196/annals.1310.011. 
  7. a b «The Cancer Chromosome Aberration Project (CCAP)». Consultado el 5 de septiembre de 2014. 
  8. «All About the FISH-mapped BACs». Consultado el 7 de septiembre de 2014. 
  9. a b c d Riggins, G. J. (2001). «Genome and genetic resources from the Cancer Genome Anatomy Project». Human Molecular Genetics 10 (7): 663-667. ISSN 1460-2083. PMID 11257097. doi:10.1093/hmg/10.7.663. 
  10. «SAGE genie». Consultado el 7 de septiembre de 2014. 
  11. «Gene Finder». Consultado el 7 de septiembre de 2014. 
  12. «CGAP How to: Tools». Consultado el 7 de septiembre de 2014. 
  13. Milnthorpe, Andrew T; Soloviev, Mikhail (2011). «Errors in CGAP xProfiler and cDNA DGED: the importance of library parsing and gene selection algorithms». BMC Bioinformatics 12 (1): 97. ISSN 1471-2105. PMC 3094240. PMID 21496233. doi:10.1186/1471-2105-12-97. 
  14. Croix, B. St. (2000). «Genes Expressed in Human Tumor Endothelium». Science 289 (5482): 1197-1202. Bibcode:2000Sci...289.1197S. ISSN 0036-8075. PMID 10947988. doi:10.1126/science.289.5482.1197. 
  15. Loging, W. T. (2000). «Identifying Potential Tumor Markers and Antigens by Database Mining and Rapid Expression Screening». Genome Research 10 (9): 1393-1402. ISSN 1088-9051. PMC 310902. PMID 10984457. doi:10.1101/gr.138000. 
  16. C. D. Hough; C. A. Sherman-Baust; E. S. Pizer; F. J. Montz; D. D. Im; N. B. Rosenshein; K. R. Cho; G. J. Riggins et al. (November 2000). «Large-scale serial analysis of gene expression reveals genes differentially expressed in ovarian cancer». Cancer Research 60 (22): 6281-6287. PMID 11103784. 
  17. G. Vasmatzis; M. Essand; U. Brinkmann; B. Lee; I. Pastan (January 1998). «Discovery of three genes specifically expressed in human prostate by expressed sequence tag database analysis». Proceedings of the National Academy of Sciences of the United States of America 95 (1): 300-304. Bibcode:1998PNAS...95..300V. PMC 18207. PMID 9419370. doi:10.1073/pnas.95.1.300. 
  18. U. Brinkmann; G. Vasmatzis; B. Lee; N. Yerushalmi; M. Essand; I. Pastan (September 1998). «PAGE-1, an X chromosome-linked GAGE-like gene that is expressed in normal and neoplastic prostate, testis, and uterus». Proceedings of the National Academy of Sciences of the United States of America 95 (18): 10757-10762. Bibcode:1998PNAS...9510757B. PMC 27968. PMID 9724777. doi:10.1073/pnas.95.18.10757. 
  19. D. J. Stekel; Y. Git; F. Falciani (December 2000). «The comparison of gene expression from multiple cDNA libraries». Genome Research 10 (12): 2055-2061. PMC 313085. PMID 11116099. doi:10.1101/gr.gr-1325rr. 
  20. Schmitt, A. O.; Specht, T.; Beckmann, G.; Dahl, E.; Pilarsky, C. P.; Hinzmann, B.; Rosenthal, A. (1999). «Exhaustive mining of EST libraries for genes differentially expressed in normal and tumour tissues». Nucleic Acids Research 27 (21): 4251-4260. ISSN 0305-1048. PMC 148701. PMID 10518618. doi:10.1093/nar/27.21.4251. 
  21. V. E. Velculescu; S. L. Madden; L. Zhang; A. E. Lash; J. Yu; C. Rago; A. Lal; C. J. Wang et al. (December 1999). «Analysis of human transcriptomes». Nature Genetics 23 (4): 387-388. PMID 10581018. doi:10.1038/70487. 

Enlaces externos[editar]