ENCODE

Na Galipedia, a Wikipedia en galego.

A Enciclopedia de Elementos do ADN ou ENCODE (polas súas siglas en inglés de Encyclopedia of DNA Elements)[1] é un proxecto de investigación pública que ten o obxectivo de "construír unha lista completa dos elementos funcionais do xenoma humano."[2]

ENCODE tamén apoia investigacións adicionais biomédicas ao "xerar recursos comunitarios de datos xenómicos, software, ferramentas e métodos para a análise xenómica e produtos que son resultado de análises e interpretacións de datos."[3][4]

A fase de ENCODE desenvolvida no período 2016-2019 consistía en adicionar profundidade aos seus recursos aumentando o número de tipos celulares, tipos de datos e ensaios e agora inclúe apoio para o exame do xenoma do rato.[3]

Historia[editar | editar a fonte]

ENCODE lanzouno o Instituto Nacional de Investigación do Xenoma Humano dos Estados Unidos (National Human Genome Research Institute, NHGRI) en setembro de 2003.[5][6][7][8][9] Pretendía ser unha continuación do Proxecto Xenoma Humano e tiña como obxectivo identificar todos os elementos funcionais no xenoma humano.[10]

No proxecto está implicado un consorcio mundial de grupos de investigación e pode accederse aos datos xerados deste proxecto a través de bases de datos públicas. A publicación inicial de ENCODE foi en 2013 e desdes entón foi cambiando de acordo coas recomendacións dos membros do consorcio e a ampla comunidade de científicos que usan o Portal para acceder aos datos de ENCODE. Os dous obxectivos de ENCODE son servir como unha base de datos accesible publicamente para "protocolos experimentais, procedementos analíticos e os propios datos," e "a mesma interface debería servir matadatos coidadosamente verificados que rexistren a procedencia dos datos e xustifiquen a súa interpretación en termos biolóxicos."[11] O proxecto empezou a súa cuarta fase (ENCODE 4) en febreiro de 2017.[12]

Motivación e importancia[editar | editar a fonte]

Estímase que os humanos teñen aproximadamente uns 20.000 xenes codificantes de proteínas, que abranguen só un 1,5% do ADN do xenoma humano. O obxectivo principal do proxecto ENCODE é determinar o papel do compoñente restante do xenoma, gran parte do cal era considerado tradicionalmente como "lixo". A actividade e expresión dos xenes codificantes de proteínas poden ser modulados polo reguloma (unha variedade de elementos de ADN, como os promotores, secuencias reguladoras transcricionais e rexións da estrutura da cromatina e modificación de histonas). Pénsase que os cambios na regulación da actividade dos xenes poden alterar a produción de proteínas e procesos celulares e orixinan doenzas. Determinar a localización destes elementos regulatorios e como inflúen na transcrición de xenes podería revelar as ligazóns que hai entre as variacións na expresión de certos xenes e o desenvolvemento de enfermidades.[13]

ENCODE tamén pretende ser un recurso completo que permita á comunidade científica comprender mellor como o xenoma pode afectar á saúde humana e para "estimular o desenvolvemento de novas terapias para previr e tratar estas enfermidades".[6]

a. Gráfico de tedencia de publicacións da comunidade e do consorcio ENCODE desde 2007 a 2019. b. Tipos de publicacións que usan datos de ENCODE segundo o campo de investigación.[14]

O Consorcio ENCODE[editar | editar a fonte]

O Consorcio ENCODE está composto principalmente de científicos que están financiados polo Instituto Nacional de Investigación do Xenoma Humano dos Estados Unidos (NHGRI). Outros participantes que contribúen ao proxecto incorporáronse ao Consorcio ou Grupo de Traballo de Análise.

A fase piloto constaba de oito grupos de investigación e doce grupos que participaban na Fase de Desenvolvemento de Tecnoloxía de ENCODE. Despois de 2007 o número de participantes ampliouse ata chegar a 440 científicos baseados en 32 laboratorios por todo o mundo e cando a fase piloto estaba oficialmente rematada. Nese momento o consorcio constaba de diferentes centros que realizaban diferentes tarefas.

ENCODE é membro do Consorcio do Epixenoma Humano Internacional (IHEC).[15]

O principal requirimento do NHGRI para os produtos de investigación financiados por ENCODE é compartilos de xeito libre e moi accesible para todos os investigadores para promover a investigación xenómica. A investigación de ENCODE permite a reproducibilidade e así a transparencia do software, métodos, datos e outras ferramentas relacionadas coa análise xenómica.[3]

O Proxecto ENCODE[editar | editar a fonte]

ENCODE está actualmente aplicado en catro fases: a fase piloto e a fase de desenvolvemento de tecnoloxía, que foron iniciadas simultaneamente,[16] e a fase de produción. A cuarta fase é unha continuación da terceira e inclúe a caracterización funcional e unha maior análise integrativa para a enciclopedia.

O obxectivo da fase piloto era identificar un conxunto de procedementos que, en combinación, poderían aplicarse rendiblemente e a alto rendemento para caracterizar completamente e con exactitude grandes rexións do xenoma humano. A fase piloto ten que revelar as carencias do conxunto de ferramentas actuais para detectar secuencias funcionais, e estaba pensada tamén para revelar se algúns métodos usados ata ese momento eran ineficientes ou inadecuados para a utilización a grande escala. Algúns destes problemas tiñan que ser abordados na fase de desenvolvemento de tecnoloxía de ENCODE, que pretendía idear novos laboratorios e métodos computacionais que mellorarían a nosa capacidade de identificar secuencias funcionais coñecidas ou descubrir novos elementos xenómicos funcionais. Os resultados das dúas primeiras fases determinaron cal era o mellor camiño a percorrer para analizar o restante 99% do xenoma humano nunha fase de produción completa e rendible.[6]

O Proxecto en fase I de ENCODE: o proxecto piloto[editar | editar a fonte]

A fase piloto testou e comparou os métodos existentes para analizar rigorosamente unha porción definida da secuencia do xenoma humano. Foi organizado como un consorcio aberto e xuntou investigadores con diversos campos e experiencia para avaliar os méritos relativos de todo un conxunto de técnicas, tecnoloxíass e estratexias. A fase de desenvolvemento de tecnoloxía concorrente do proxecto ten o obxectivo de desenvolver novos métodos de alto rendemento para identificar eleentos funcionais. O obxectivo destes esforzos era identificar un conxunto de enfoques que permitisen a identificación completa de todos os elementos funcionais no xenoma humano. Por medio do proxecto piloto de ENCODE, o Instituto Nacional de Investigación do Xenoma Humano (NHGRI) avaliou as capacidades de diferentes enfoques para ser escalados para analizar o xenoma humano completo e atopar as carencias na capacidade de identificar elementos funcionais na secuencia xenómica.

O proceso do proxecto piloto de ENCODE implica interaccións estreitas entre os científicos experimentais e computacionais para avaliar diversos métodos de anotar o xenoma humano. Selecionouse un conxunto de rexións que representan aproximadamente o 1% (30 Mb) do xenoma humano como diana para o proxecto piloto e foi analizado por todos os investigadores do proxecto piloto de ENCODE. Todos os datos xerados polos participantes de ENCODE sobre estas rexións foron liberados rapidamente nas bases de datos públicas.[8][17]

Selección de dianas[editar | editar a fonte]

Para o seu uso no proxecto piloto de ENCODE, seleccionáronse rexións definidas do xenoma humano (correspondente a 30Mb, aproximadamente o 1% do xenoma humano total). Estas rexións servían como os alicerces sobre os que comprobar e avaliar a efectividade dun diverso conxunto de métodos e tecnoloxías para atopar varios elementos funcionais no ADN humano.

Antes de embarcarse na selección de dianas, decidiuse que o 50% das 30Mb da secuencia sería seleccionada manualmente mentres que a secuencia restante sería seleccionada aleatoriamente. Os dous criterios principais para as rexións seleccionadas manualmente eran: 1) a presenza de xenes ben estudados ou outros elementos de secuencia coñecidos, e 2) a existencia dunha cantidade substancial de datos de secuencia comparativos. Seleccionouse manualmente un total de 14,82Mb da secuencia usando esta estratexia, que constaba de 14 dianas que en tamaño ían de 500kb a 2Mb.

O restante 50% das 30Mb da secuencia estaba composto de trinta rexións de 500kb seleccionadas segundo unha estratexia de mostras aleatorias estratificadas baseada na densidade de xenes e o nivel de conservación non exónica. A decisión de usar estes criterios en particular fíxose para asegurar unha boa mostra de rexións xenómicas que varían amplamente no seu contido de xenes e outros elementos funcioanis. O xenoma humano foi dividido en tres partes: o 20% superior, o 30% intermedio e o 50% inferior, ao longo de dous eixes: 1) densidade de xenes e 2) nivel de conservación non exónica con respecto á secuencia xenómica do rato ortóloga (véxase máis abaixo), nun total de nove estratos. En cada estrato elixíronse tres rexións aleatorias para o proxecto piloto. Para os estratos subrepresentados polas escollas manuais, elixiuse unha cuarta rexión, polo que en total foron 30 rexións. Para todos os estratos deseñouse unha rexión de "backup" para usala no caso de xurdiren problemas técnicos non previstos.

En maior detalle, os criterios de estratificación foron os seguintes:

  • Densidade de xenes: o valor de densidade de xenes dunha rexión era a porcentaxe de bases cubertas polos xenes da base de datros Ensembl ou polos mellores aliñamentos de BLAT (ferramenta de aliñamento similar a BLAST) de ARNm humano na base de datos do UCSC Genome Browser.
  • Conservación non exónica: a rexión foi dividida en subfiestras non solapantes de 125 bases. As subfiestras que mostraron menos do 75% de aliñamento de bases coa secuencia do rato foron descartadas. Para as restantes subfiestras utilizouse como valor de conservación non exónica a porcentaxe con polo menos o 80% de identidade de bases co rato e que non correspondían con xenes de Ensembl, aliñamentos BLASTZ de ARNm de GenBank, predicións de xenes de Fgenesh++, predicións de xenes de TwinScan, aliñamentos EST empalmados, ou secuencias repetidas (ADN).

Os valores anteriores foron computados dentro de fiestras de 500 kb non solapantes de secuencia finalizada ao longo do xenoma, e usados para asignar cada fiestra a un estrato.[18]

Resultados da fase piloto[editar | editar a fonte]

A fase piloto acabou con éxito e os resultados publicáronse en xuño de 2007 na revista Nature[8] e nun número especial de Genome Research;[19] os resultados publicados no primeiro artigo mencionado adiantaron o coñecemento colectivo sobre a función do xenoma humano en varias áreas principais, incluídas as seguintes máis salientables:[8]

  • O xenoma humano é transcrito de forma xeneralizada, de tal xeito que a maioría dos seus pares de bases están asociados con polo menos un transcrito primario e moitos transcritos líganse con rexións distais a loci codificantes de proteínas establecidos.
  • Moitos transcritos non codificantes de proteínas novos foron identificados, con moitos destes loci codificantes de proteínas solapantes e outros localizados en rexións do xenoma que previamente se pensaba que eran transcricionalmente silenciosas.
  • Identificáronse numerosos sitios de inicio da transcrición previamente non recoñecidos, moitos dos cales mostran a estrutura da cromatina e propiedades de unión a proteínas específicas de secuencia similares a promotores ben coñecidos.
  • As secuencias regulatorias que rodean os sitios de iniciación da transcrición están distribuídas simetricamente, sen ningún nesgo cara a rexións augas arriba.
  • A accesibilidade á cromatina e os padróns de modificación de histonas son altamente preditivos tanto da presenza coma da actividade dos sitios de inicio da transcrición.
  • Os sitios hipersensibles á DNaseI distais teñen padróns de modificacións de histonas características que os distinguen fiablemente dos promotores; algúns destes sitios distais mostran marcas consistentes coa función do illador (insulator).
  • O momento da replicación do ADN está correlacionado coa estrutura da cromatina.
  • Un total do 5% das bases do xenoma poden ser identificadas con fiabilidade como que están baixo unha restrición evolutiva en mamíferos; e para aproximadamente o 60% desas bases restrinxidas hai evidencias de función baseándose nos resultados de ensaios experimentais realizados ata agora.
  • Aínda que hai un solapamento xeral entre rexións xenómicas identificadas como funcionais en ensaios experimentais e as que están en restrición evolutiva, non todas as bases nesas rexións definidas experimentalmente mostran evidencias de restrición.
  • Os elementos funcionais diferentes varían moito na súa variabilidade de secuencia na poboación humana e na súa probabilidade de residir dentro da rexión estruturalmente variable do xenoma.
  • Sorprendentemente, moitos elementos funcionais parecen non estar restrinxidos na evolución dos mamíferos. Isto suxire a posibilidade dunha gran poza de elementos neutros que son activos bioquimicamente pero proporcionan beneficios non específicos ao organismo. Esta poza pode servir como un 'almacén' para a selección natural, actuando potencialmente como unha fonte de elementos de liñaxe específica e conservados funcionalmente pero non elementos ortólogos entre especies.

Proxecto en fase II de ENCODE: o proxecto da fase de produción[editar | editar a fonte]

Imaxe de datos de ENCODE no UCSC Genome Browser. Mostra varias pistas que conteñen información sobre a regulación xénica. O xene da esquerda (ATP2B4) é transcrito nunha ampla variedade de células, (ver tamén os datos de H3K4me1). O xene da dereita só é transcrito nuns poucos tipos de células, incluíndo as células nais embrionais.

En setembro de 2007 o Instituto Nacional de Investigación do Xenoma Humano (NHGRI) empezou a financiar a fase de produción do proxecto ENCODE. Nesta fase o obsectivo era analizar todo o xenoma e realizar "estudos a escala piloto adicionais".[20]

Como no proxecto piloto, os esforzos de produción están organizados como un consorcio aberto. En outubro de 2007, o NHGRI concedeu bolsas de investigación que totalizaban máis de 80 millóns de dólares en catro anos.[21] A fase de produción tamén inclúe un Centro de Coordinación de Datos, un Centro de Análise de Datos e un Esforzo de Desenvolvemento Tecnolóxico.[22] Nese momento o proxeco evolucionou nunha empresa verdadeiramente global, que implica 440 científicos de 32 laboratorios de todo o mundo. Unha vez que se completou a fase piloto, o proxecto "ampliouse" en 2007, aproveitándose enormemente de máquinas de secuenciación de nova xeración. E o volume de datos era verdadeiramente grande; xeráranse uns 15 terabytes de datos sen procesar.

En 2010 o proxecto ENCIRE xa producira un conxunto de datos de 1.000 xenomas completos. En conxunto, estes conxuntos de datos mostran qué rexións son transcritas a ARN, qué rexións son probablemente para controlar os xenes que se usan nun tipo determinado de célula, e qué rexións están asociadas cunha ampla variedade de proteínas. Os ensaios primarios usados en ENCODE son ChIP-seq, hipersensibilidade de DNaseI, RNA-seq, e ensaios de metilación do ADN.

Resultados da fase de produción[editar | editar a fonte]

En setembro de 2012 o proxecto publicou un conxunto moito máis extenso de resultados, que apareceron en 30 artigos publicados simultaneamente en varias revistas, incluíndo seis en Nature, seis en Genome Biology e nun número especial con 18 publicacións de Genome Research.[23]

Os autores describiron a produción e a análise inicial de 1.640 conxuntos de datos deseñados para anotar elementos funcionais en todo o xenoma humano, integrando resultados de diversos experimentos en 147 tipos celulares e todos os datros de ENCODE con outros recursos, como as rexións candidatas de estudos de asociación en todo o xenoma (GWAS) e rexións restrinxidas evolutivamente. Xuntos, estes esforzos revelaron importantes características sobre a organización e función do xenoma humano, que se resumiron nun artigo sumario da seguinte maneira:[24]

  1. A gran maioría (80,4%) do xenoma humano participa en polo menos un evento bioquímico asociado ao ARN e/ou á cromatina en polo menos un tipo celular. Gran parte do xenoma encóntrase preto do lugar dun evento regulatorio: 95% do xenoma está a 8kb de distancia dunha interacción ADN-proteína (como se observou en ensaios de motivos ChIP-seq unidos ou pegadas de DNaseI) e o 99% estaba a unha distancia de 1,7kb de polo menos un dos eventos bioquímicos medidos por ENCODE.
  2. Os elementos específicos de primates, así como elementos sen restrición detectable de mamíferos mostraron, en conxunto, evidencias dunha selección negativa; así algúns deles espérase que sexan funcionais.
  3. A clasificación do xenoma en sete estados da cromatina suxire un conxunto inicial de 399.124 rexións con características similares a amplificadores (enhancers) e 70.292 rexións con características de promotores, así como centos de miles de rexións quiescentes. As análises de alta resolución subdividiron o xenoma en miles de estados estreitos con distintivas propiedades funcionais.
  4. É posible correlacionar cuantitativamente a produción de secuencias de ARN e procesalas con marcas da cromatina e unión de factores de transcrición a promotores, o que indica que a funcionalidade do promotor pode explicar a maioría das variacións na expresión do ARN.
  5. Moitas variantes non codificantes en secuencias de xenomas individuais sitúanse en rexións funcionais anotadas de ENCODE; este número é polo menos tan grande coma o dos que se sitúan en xenes codificantes de proteínas.
  6. Os SNPs asociados cunha enfermidade por GWAS están enriquecidos dentro de elementos funcionais non codificantes, e unha maioría residen en ou preto de rexións definidas por ENCODE que están fóra dos xenes codificantes de proteíans. En moitos casos, os fenotipos de enfermidades poden asociarse con tipos celulares específicos ou factores de transcrición.

O descubrimento máis impactante foi que a fracción do ADN humano que é bioloxicamentre activa é considerablementre maior incluso que as estimacións previas máis optimistas. Nun artigo resumo, o Consorcio ENCODE informou que os seus membros conseguiran asignar funcións bioquímicas a un 80% do xenoma.[24] Gran parte deste estaba implicado no control nos niveis de expresión do ADN codificante, o cal constitúe menos do 1% do xenoma.

Os elementos novos máis importantes da "enciclopedia" eran:

  • Un mapa completo de sitios de hipersensibilidade á DNaseI, que son marcadores para o ADN regulatorio que están tipicamente localizados a carón de xenes e permiten que os factores químicos inflúan na súa expresión. O mapa identificou case 3 millóns de sitios deste tipo, incluíndo case todos os que eran previamente coñecidos e moitos que eran novos.[25]
  • Un léxico de secuencias de ADN curtas que forman motivos de recoñecemento de proteínas de unión ao ADN. Atopáronse aproximadamente 8,4 millóns de tales secuencias, que comprenden unha fracción do ADN total dunhas dúas veces o tamaño do exoma. Atopáronse miles de promotores de transcrición que facían uso dunha soa pegada de 50 pares de bases estereotipada.[26]
  • Un borrador preliminar da arquitectura da rede de factores de transcrición humanos, é dicir, factores que se unen ao ADN para promover ou inhibir a expresión de xenes. A rede era bastante complexa, con factores que operan a diferentes niveis, así como numerosos bucles de retroalimentación de varios tipos.[27]
  • Unha medida da fracción do xenoma humano que pode transcribirse a ARN. Estimouse que esta fracción suma máis do 75% do ADN total, un valor moito maior que as estimacións previas. O proxecto tamén empezou a caracterizar os tipos de transcritos de ARN que se xeran en varias localizacións.[28]

Xestión e análise de datos[editar | editar a fonte]

Capturar, almacenar, integrar e mostrar os diversos datos xerados é todo un reto. O Centro de Coordinación de Datos de ENCODE (DCC ou Data Coordination Center) organiza e presenta os datos xerados polos laboratorios do consorcio e asegúrase de que os datos cumpran cos estándares de calidade específicos cando se fan públicos. Antesde que un laboratorio envíe calquera dato, o DCC e o laboratorio redactan un acordo de datos que define os parámetros experimentais e metadatos asociados. O DCC valida os datos entrantes para asegurarse da consistencia co acordo. Asegúrase tamén de que todos os datos son anotados usando Ontoloxías apropiadas.[29] Despois carga os datos nun servidor de tests para unha inspección preliminar e coordínase cos laboratorios para organizar os datos nun conxunto consistente de pistas. Cando as pistas están listas, o equipo de Garantía da Calidade do DCC realiza unha serie de comprobacións de integridade, verifica que os datos se presenten de maneira consistente con outros datos do buscador e, o que quizais é máis importante, verifica que os metadatos e textos descritivos que os acompañan están presentados dun xeito que sexa útil para os usuarios. Os datos soamente son liberados ao público no sitio web do UCSC Genome Browser despois de que están realizadas todas estas comprobacións. En paralelo, os datos analízanse polo Centro de Análise de Datos de ENCODE, un consorcio de equipos de análise dos diversos laboratorios de produción e outros investigadores. Estes equipos desenvolven protocolos estandarizados para analizar os datos de novos ensaios, determinan as mellores prácticas e producen un conxunto consistente de métodos analíticos como os peak callers estandarizados e a xeración de sinais de pile-ups de aliñamentos.[30]

O Instituto Nacional de Investigación do Xenoma Humano (NHGRI) identificou ENCODE como un "proxecto de recursos da comunidade". Este importante concepto definiuse nunha xuntanza internacional celebrada en Fort Lauderdale en xaneiro de 2003 como un proxecto de investigación ideado especificamente e aplicado para crear un conxunto de datos, reactivos ou outros materiais cuxa utilidade primaria será ser un recurso para a ampla comunidade científica. Por conseguinte, a política de publicación de datos de ENCODE estipula que os datos, unha vez verificados, serán depositados en bases de datos públicas e postos a disposición de todos para o seu uso sen restricións.[30]

Outros proxectos[editar | editar a fonte]

Coa continuación da terceira fase, o Consorcio ENCODE implicouse en proxectos adicionais cuxos obxectivos van en paralelo co proxecto ENCODE. Algúns destes proxectos formaban parte da segunda fase de ENCODE.

Proxecto modENCODE[editar | editar a fonte]

O proxecto Enciclopedia de Organismos Modelo de Elementos do ADN ou modENCODE (do inglés Model organism ENCyclopedia Of DNA Elements) é unha continuación do proxecto ENCODE orixinal que ten como propósito a identificación de elementos funcionais en xenomas de organismos modelo seleccionados, concretamente na mosca Drosophila melanogaster e no verme Caenorhabditis elegans.[31] A ampliación a organismos modelo permite a validación biolóxica de descubrimentos computacionais e experimentais do proxecto ENCODE, algo que é difícil ou imposible facer en humanos.[31] O financiamento do proxecto modENCODE anunciárona os National Institutes of Health (NIH) dos Estados Unidos en 2007 e incluía varias institucións de investigación nos Estados Unidos.[32][33] O proxecto completou o seu traballo en 2012.

A finais da décda de 2010 o consorcio modENCODE presentou o seu primeiro conxunto de resultados con publicacións sobre anotación e análise integrativa dos xenomas da mosca e do verme en Science.[34][35] Os datos destas publicacións están dispoñibles no sitio web de modENCODE.[36]

modENCODE púxose en marcha como unha Rede de Investigación e o consorcio estaba formado por 11 proxectos primarios, divididos entre o verme e a mosca. Os proxectos abranguían os seguintes aspectos:

  • Estrutura xénica.
  • Perfil de expresión de ARNm e ARNnc .
  • Sitios de unión de factores de transcrición.
  • Modificacións e substitucións de histonas.
  • Estrutura da cromatina.
  • Iniciación e temporización da iniciación da replicación do ADN.
  • Variación no número de copias.[37]

modERN[editar | editar a fonte]

modERN, abreviación de enciclopedia de redes regulatorias de organismos modelo, é unha ramificación do proxecto modENCODE. O proxecto fusionou os grupos de C. elegans e Drosophila e céntrase na identificación de sitios de unión adicionais de factores de transcrición dos respectivos organismos. O proxecto empezou ao mesmo tempo que a fase III de ENCODE e tiña previsto rematar en 2017.[38] O proxecto tiña previsto realizar centos de experimentos, algúns dos cales xa estaban rematados[39] e outros foran entregados pero aínda estaban sendo procesados polo DCC.

Xenómica da Regulación Xénica[editar | editar a fonte]

A inicios de 2015, os NIH lanzaron o programa Xenómica da Regulación Xénica (GGR, Genomics of Gene Regulation).[40] O obxectivo do programa, que duraría tres anos, é estudar redes xénicas e vías en diferentes sistemas do corpo, coa esperanza de comprender mellor nos mecanismos controlando as expresións xénicas. Aínda que o proxecto ENCODE está separado do GGR, o DCC de ENCODE estivo albergando datos de GGR no portal de ENCODE.[41]

Roadmap[editar | editar a fonte]

En 2008 os NIH empezaron o Roadmap Epigenomics Mapping Consortium, cuxo propósito era producir "unha fonte pública de datos epixenómicos para catalizar a investigación en bioloxía básica e orientada a enfermidades".[42] En febreiro de 2015 o consorcio publicou un artigo titulado "Análise integrativa de 111 epixenomas humanos de referencia" que cumpría cos obxectivos do consorcio. O consorcio integrou información e anotou elementos regulatorios de 127 epixenomas de referencia, 16 dos cales formaban parte do proxecto ENCODE.[43] Os datos do proxecto Roadmap poden encontrarse no portal de Roadmap ou no de ENCODE.

Liña de tempo que salienta o inicio do Roadmap Epigenome e o International Human Encode Consortium (IHEC).[44]

Proxecto fruitENCODE[editar | editar a fonte]

O fruitENCODE: unha enciclopedia de elementos de ADN para a maduración de froitos é un proxecto ENCODE para plantas que trata de xerar bases de datos de metilación do ADN, modificación de histonas, DHS, expresión xénica e unión de factores de trranscricióin para todas as especies de froitos carnosos en diferentes estadios de maduración. Os datos prepublicados poden encontrarse no portal de fruitENCODE.

Críticas ao proxecto[editar | editar a fonte]

Aínda que o consorcio afirma que o proxecto ENCODE está lonxe de finalizar, moitas das reaccións aos papeis publicados e as novas cobertutas que acompañaban a publicación foron favorables. Os editores de Nature e os autores de ENCODE "... colaboraron durante moitos meses para causar a maior expectación posible e captar a atención non só da comunidade de investigadores senón tamén do público en xeral".[45] As afirmacións do proxecto ENCODE de que o 80% do xenoma humano tiña unha función bioquímica[24] foron rapidamente recollidas pola prensa popular que dicía que os resultados do proxecto levarían á morte da idea do ADN lixo.[46][47]

Porén, a conclusión de que a maior parte do xenoma é "funcional" foi criticada baseándose en que o proxecto ENCODE utilizou unha definición moi ampla de "funcional", concretamente que algo que é transcrito debe ser funcional. A esta conclusión chegouse a pesar da idea amplamente aceptada, baseada en estimacións de conservación xenómica da xenómica comparada, de que moitos elementos do ADN como os pseudoxenes que son transcritos son, non obstante, non funcionais. Ademais, o proxectro ENCODE salientou a sensibilidade fronte á especificidade, o que posiblemente levou á detección de moitos falsos positivos.[48][49][50] Outras críticas a ENCORE foron a elección un tanto arbitraria de liñas celulares e factores de transcrición así como a falta dun control apropiado dos experimentos, xa que o ADN aleatorio imita o comportamento 'funcional' de ENCODE.[51]

En resposta a algunhas das críticas outros científicos argumentaron que a ampla extensión da transcrición e empalme que se observa no xenoma humano directamente por tests bioquímicos é un indicador máis preciso da función xenética que as estimacións da conservación xenómica, porque as estimacións da conservación son todas relativas e difíciles de aliñar debido ás incribles variacións nos tamaños do xenoma incluso de especies relacionadas; ademais é parcialmente tautolóxica, e estas estimacións non están baseadas en tests directos da funcionalidade do xenoma.[52][53] As estimación da conservación poden usarse para proporcionar pistas para identificar posibles elementos funcionais no xenoma, pero non limitan ou poñen tope á contidade total de elementos funcionais que posiblemente poderían existir no xenoma.[53] Ademais, gran parte do xenoma que está sendo discutido polos críticos parece estar implicado na regulación epixenética, como a expresión xénica e parece ser necesario para o desenvolvemento de organismos complexos.[52][54] Os resultados de ENCODE non eran necesariamente inesperados, xa que varias décadas de investigacións previas prexariaban un incremento na atribución de funcionalidades.[52][54] Adicionalmente, outros sinalaron que o proxecto ENCODE desde o principio tiña un obxectivo baseado en buscar elementos funcionais relevantes biomedicamente no xenoma e non elementos funcionais evolutivos, que non son necesariamente a mesma cousa, xa que a selección evolutiva nin é suficiente nin necesaria para establecer unha función. É un proxy moi útil para funcións relevantes, pero imperfecta e non a única.[55]

En resposta ás queixas sobre a definición da palabra "función" algúns indicaron que ENCODE definía o que significaba e dado que o obxectivo de ENCODE era buscar elementos funcionais relevantes medicamente no xenoma, entón a conclusión do proxecto debería ser interpretada "como dicir que o 80 % do xenoma está implicado en actividades bioquimicas relevantes que é moi probable que teñan papeis causais en fenomenos xulgados relevantes para a investigación biomédica." [55] Ewan Birney, un dos investigadores de ENCODE, comentou que "función" utilizouse pragmaticamente para significar "actividade bioquímica específica" que incluía diferentes clases de ensaios: ARN, modificacións de histonas "amplas", modificacións de histonas "estreitas", sitios hipersensibles á DNaseI, picos de ChIP-seq de factores de transcrición, pegadas de DNaseI, motivos unidos a factores de transcrición e exóns.[56]

En 2014 os investigadores de ENCODE salientaron que na literatura, as partes funcionais do xenoma foron identificadas diferencialmente en estudos previos dependendo da estratexia utilizada. Houbo tres estratexias xerais que se usaron para identificar as partes funcionais do xenoma humano: as estratexias xenéticas (que se basean en cambios no fenotipo), as estratexias evolutivas (que se basean na conservación) e as estratexias bioquimicas (que se basean en tests bioquímicos e eran usadas por ENCODE). As tres teñen limitacións: as estratexias xenéticas poden non detectar elementos funcionais que non se manifestan fisicamente no organismo, as estratexias evolutivas teñen dificultades usando aliñamentos de secuencias multiespecies precisos, xa que incluso os xenomas de especies relacionadas varían considerablemente, e as estratexias bioquímicas, aínda que teñen unha alta reproducibilidade, nelas as sinaturas bioquimicas non sempre significan automaticamente que hai unha función. Concluíron que, en contraste coas evidencias evolutivas e xenéticas, os datos bioquimicos ofrecen pistas sobre a función molecular realizada por elementos do ADN subxacentes e os tipos celulares no cal actúan e finalmente as tres estratexias poden utilizarse de maneira complementaria para identificar rexións que poden ser funcionais na bioloxía humana e enfermidades. Ademais, indicaron que os mapas bioquímicos proporcionados por ENCODE eran as cousas mais valiosas do proxecto porque proporcionaban un punto de comezo para testar como estas sinaturas se relacionaban coa función molecular, celular e do organismo.[53]

O proxecto tamén foi criticado polo seu alto custo (uns 400 millóns de dólares en total) e favorecer a gran ciencia que quita diñeiro ás investigacións iniciadas por investigadores altamente produtivas.[57] O proxecto piloto de ENCODE estímase que costou 55 millóns de dólares; a ampliación costou 130 millóns e o Instituto Nacional de Investigación do Xenoma Humano NHGRI dos Estados Unidos podería asignar ata 123 millóns para a seguinte fase. Algúns investigadores argumentan que xa se empeza a ver un retorno sólido dese investimento. Houbo intentos de explorar a literatura para ver a cantidade de artigos nos cales ENCODE xoga un papel significativo e desde 2012 producíronse 300 artigos, 110 dos cales proceden de laboratorios sen financiamento de ENCODE. Un problema adicional é que ENCODE non é un nome único dedicado ao proxecto ENCODE exclusivamente, así que a palabra 'encode' aparece en moita literatura xenética e xenómica.[58]

Outra crítica importante é que os resultados non xustifican a cantidade de tempo empregada no proxecto e que o propio proxecto é esencialmente inacabable. Aínda que a miúdo é comparado ao Proxeco Xenoma Humano e incluso denominado como o seguinte paso do Proxecto Xenoma Humano, o Proxecto Xenoma Humano tiña un claro punto final do que ENCODE carece.

Os autores parecen simpatizar coas preocupacións científicas e ao mesmo tempo tratan de xustificar os seus esforzos dando entrevistas e explicando detalles de ENCODE non só ao público científico, mais tamén aos medios de comunicación. Tamén afirman que foi preciso máis de medio século desde que se demostrou que o ADN era o material hereditario da vida ata conseguir secuenciar o xenoma humano, así que o seu plan para o seguinte século sería comprender realmente a propia secuencia.[58]

FactorBook[editar | editar a fonte]

A análise de datos de unión de factores de transcrición xerados polo proxecto ENCODE está dispoñible actualmente no repositorio accesible por web FactorBook.[59] Esencialmente, Factorbook.org é unha base de datos baseada en Wiki para datos de unión de factores de transcrición xerados polo consorcio ENCODE. Na súa primeira publicación Factorbook contiña:

  • 457 conxuntos de datos ChIP-seq sobre 119 factores de transcrición de varias liñas celulares humanas.
  • Os perfís medios de modificacións de histonas e posición de nucleosomas arredor de rexións ás que se unen os factores de transcrición.
  • Motivos de secuencia enriquecidos nas rexións e a distancia e preferencias de orientación entre os sitios dos motivos.[60]

Notas[editar | editar a fonte]

  1. Hong EL, Sloan CA, Chan ET, Davidson JM, Malladi VS, Strattan JS, Hitz BC, Gabdank I, Narayanan AK, Ho M, Lee BT, Rowe LD, Dreszer TR, Roe GR, Podduturi NR, Tanaka F, Hilton JA, Cherry JM (xaneiro de 2016). "Principles of metadata organization at the ENCODE data coordination center. (2016 update)". Database 2016: baw001. PMC 4792520. PMID 26980513. doi:10.1093/database/baw001. 
  2. "The ENCODE Project: Project Overview". www.endodeproject.org. Consultado o 2023-02-23. 
  3. 3,0 3,1 3,2 "Data Use, Software, and Analysis Release Policies – ENCODE". www.encodeproject.org. Consultado o 2021-12-18. 
  4. "The ENCODE Project: Project Overview". www.endodeproject.org. Consultado o 2023-02-23. 
  5. Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K, Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H, Zweig AS, Kirkup V, Fujita PA, Rhead B, Smith KE, Pohl A, Kuhn RM, Karolchik D, Haussler D, Kent WJ (xaneiro de 2011). "ENCODE whole-genome data in the UCSC genome browser (2011 update)". Nucleic Acids Res. 39 (Database issue): D871–5. PMC 3013645. PMID 21037257. doi:10.1093/nar/gkq1017. 
  6. 6,0 6,1 6,2 The ENCODE Project Consortium (2004). "The ENCODE (ENCyclopedia Of DNA Elements) Project". Science 306 (5696): 636–640. Bibcode:2004Sci...306..636E. PMID 15499007. doi:10.1126/science.1105136. 
  7. ENCODE Project Consortium (2011). Becker PB, ed. "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)". PLOS Biology 9 (4): e1001046. PMC 3079585. PMID 21526222. doi:10.1371/journal.pbio.1001046. 
  8. 8,0 8,1 8,2 8,3 ENCODE Project Consortium, Birney E, Stamatoyannopoulos JA, Dutta A, Guigó R, Gingeras TR, Margulies EH, Weng Z, Snyder M, Dermitzakis ET, et al. (2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project". Nature 447 (7146): 799–816. Bibcode:2007Natur.447..799B. PMC 2212820. PMID 17571346. doi:10.1038/nature05874. 
  9. Guigó R, Flicek P, Abril JF, Reymond A, Lagarde J, Denoeud F, Antonarakis S, Ashburner M, Bajic VB, Birney E, Castelo R, Eyras E, Ucla C, Gingeras TR, Harrow J, Hubbard T, Lewis SE, Reese MG (2006). "EGASP: The human ENCODE Genome Annotation Assessment Project". Genome Biology 7 (Suppl 1): S2.1–31. PMC 1810551. PMID 16925836. doi:10.1186/gb-2006-7-s1-s2. 
  10. "The ENCODE Project: Project Overview". www.endodeproject.org. Consultado o 2023-02-23. 
  11. Davis, Carrie A.; Hitz, Benjamin C.; Sloan, Cricket A.; Chan, Esther T.; Davidson, Jean M.; Gabdank, Idan; Hilton, Jason A.; Jain, Kriti; Baymuradov, Ulugbek K.; Narayanan, Aditi K.; Onate, Kathrina C. (2018-01-04). "The Encyclopedia of DNA elements (ENCODE): data portal update". Nucleic Acids Research 46 (D1): D794–D801. ISSN 1362-4962. PMC 5753278. PMID 29126249. doi:10.1093/nar/gkx1081. 
  12. "The ENCODE Project: ENCyclopedia Of DNA Elements". www.genome.gov. Consultado o 2016-05-13. 
  13. Saey, Tina Hesman (6 de outubro de 2012). "Team releases sequel to the human genome". Society for Science & the Public. Arquivado dende o orixinal o 23 de outubro de 2012. Consultado o 18 de outubro de 2012. 
  14. "Fig. 3: Publications using ENCODE data. | Nature". Natureevents Directory (en inglés). ISSN 1476-4687. 
  15. GmbH, Eurice. "United States of America · IHEC". ihec-epigenomes.org (en inglés). Consultado o 2017-07-18. 
  16. "ENCODE Project". www.genome.gov. Arquivado dende o orixinal o 2016-05-17. Consultado o 2016-05-16. 
  17. ENCODE Program Staff (2012-10-18). "ENCODE: Pilot Project: overview". National Human Genome Research Institute. 
  18. ENCODE Program Staff (2012-02-19). "ENCODE: Pilot Project: Target Selection". National Human Genome Research Institute. 
  19. Weinstock GM (2007). "ENCODE: More genomic empowerment". Genome Research 17 (6): 667–668. PMID 17567987. doi:10.1101/gr.6534207. 
  20. "Genome.gov | ENCODE and modENCODE Projects". The ENCODE Project: ENCyclopedia Of DNA Elements. United States National Human Genome Research Institute. 2011-08-01. Consultado o 2011-08-05. 
  21. "National Human Genome Research Institute - Organization". The NIH Almanac. United States National Institutes of Health. Consultado o 2011-08-05. 
  22. "Genome.gov | ENCODE Participants and Projects". The ENCODE Project: ENCyclopedia Of DNA Elements. United States National Human Genome Research Institute. 2011-08-01. Consultado o 2011-08-05. 
  23. Ecker JR, Bickmore WA, Barroso I, Pritchard JK, Gilad Y, Segal E (setembro de 2012). "Genomics: ENCODE explained". Nature 489 (7414): 52–5. Bibcode:2012Natur.489...52E. PMID 22955614. doi:10.1038/489052a. 
  24. 24,0 24,1 24,2 Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (setembro de 2012). "An integrated encyclopedia of DNA elements in the human genome". Nature 489 (7414): 57–74. Bibcode:2012Natur.489...57T. PMC 3439153. PMID 22955616. doi:10.1038/nature11247. 
  25. Thurman RE, Rynes E, Humbert R, Vierstra J, Maurano MT, Haugen E, Sheffield NC, Stergachis AB, Wang H, et al. (setembro de 2012). "The accessible chromatin landscape of the human genome". Nature 489 (7414): 75–82. Bibcode:2012Natur.489...75T. PMC 3721348. PMID 22955617. doi:10.1038/nature11232. 
  26. Neph S, Vierstra J, Stergachis AB, Reynolds AP, Haugen E, Vernot B, Thurman RE, John S, Sandstrom R, et al. (setembro de 2012). "An expansive human regulatory lexicon encoded in transcription factor footprints". Nature 489 (7414): 83–90. Bibcode:2012Natur.489...83N. PMC 3736582. PMID 22955618. doi:10.1038/nature11212. 
  27. Gerstein MB, Kundaje A, Hariharan M, Landt SG, Yan KK, Cheng C, Mu XJ, Khurana E, Rozowsky J, et al. (setembro de 2012). "Architecture of the human regulatory network derived from ENCODE data". Nature 489 (7414): 91–100. Bibcode:2012Natur.489...91G. PMC 4154057. PMID 22955619. doi:10.1038/nature11245. 
  28. Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, Tanzer A, Lagarde J, Lin W, et al. (setembro de 2012). "Landscape of transcription in human cells". Nature 489 (7414): 101–8. Bibcode:2012Natur.489..101D. PMC 3684276. PMID 22955620. doi:10.1038/nature11233. 
  29. Malladi VS, Erickson DT, Podduturi NR, Rowe LD, Chan ET, Davidson JM, Hitz BC, Ho M, Lee BT, Miyasato S, Roe GR, Simison M, Sloan CA, Strattan JS, Tanaka F, Kent WJ, Cherry JM, Hong EL (2015). "Ontology application and use at the ENCODE DCC". Database (Oxford) 2015. PMC 4360730. PMID 25776021. doi:10.1093/database/bav010. 
  30. 30,0 30,1 Brian J. Raney; et al. (2010-10-30). "ENCODE whole-genome data in the UCSC genome browser (2011 update)". Nucleic Acids Res. (Nucleic Acids Research) 39 (Database issue): D871–5. PMC 3013645. PMID 21037257. doi:10.1093/nar/gkq1017. 
  31. 31,0 31,1 "The modENCODE Project: Model Organism ENCyclopedia Of DNA Elements (modENCODE)". sitio web do NHGRI. Consultado o 2008-11-13. 
  32. "modENCODE Participants and Projects". NHGRI website. Consultado o 2008-11-13. 
  33. "Berkeley Lab Life Sciences Awarded NIH Grants for Fruit Fly, Nematode Studies". Lawrence Berkeley National Laboratory website. 2007-05-14. Arquivado dende o orixinal o 21 de setembro de 2008. Consultado o 2008-11-13. 
  34. Gerstein MB, Lu ZJ, Van Nostrand EL, Cheng C, Arshinoff BI, Liu T, Yip KY, Robilotto R, Rechtsteiner A, et al. (2010). "Integrative Analysis of the Caenorhabditis elegans Genome by the modENCODE Project". Science 330 (6012): 1775–1787. Bibcode:2010Sci...330.1775G. PMC 3142569. PMID 21177976. doi:10.1126/science.1196914. 
  35. modENCODE Consortium, Roy S, Ernst J, Kharchenko PV, Kheradpour P, Negre N, Eaton ML, Landolin JM, Bristow CA, Ma L, et al. (2010). "Identification of Functional Elements and Regulatory Circuits by Drosophila modENCODE". Science 330 (6012): 1787–1797. Bibcode:2010Sci...330.1787R. PMC 3192495. PMID 21177974. doi:10.1126/science.1198374. 
  36. "modENCODE". The National Human Genome Research Institute. Arquivado dende o orixinal o 27 de decembro de 2010. Consultado o 26 de febreiro de 2023. 
  37. Celniker S (2009-06-11). "Unlocking the secrets of the genome". Nature 459 (7249): 927–930. Bibcode:2009Natur.459..927C. PMC 2843545. PMID 19536255. doi:10.1038/459927a. 
  38. "RePORT ⟩ RePORTER". 
  39. "Search – ENCODE". 
  40. "2015 Release: NIH grants aim to decipher the language of gene regulation". www.genome.gov. Arquivado dende o orixinal o 2016-04-06. 
  41. "Search – ENCODE". 
  42. "Roadmap Epigenomics Project - Home". Arquivado dende o orixinal o 08 de abril de 2021. Consultado o 26 de febreiro de 2023. 
  43. Kundaje, Anshul; Meuleman, Wouter; Ernst, Jason; Bilenky, Misha; Yen, Angela; Heravi-Moussavi, Alireza; Kheradpour, Pouya; Zhang, Zhizhuo; Wang, Jianrong; Ziller, Michael J.; Amin, Viren; Whitaker, John W.; Schultz, Matthew D.; Ward, Lucas D.; Sarkar, Abhishek; Quon, Gerald; Sandstrom, Richard S.; Eaton, Matthew L.; Wu, Yi-Chieh; Pfenning, Andreas R.; Wang, Xinchen; Claussnitzer, Melina; Liu, Yaping; Coarfa, Cristian; Harris, R. Alan; Shoresh, Noam; Epstein, Charles B.; Gjoneska, Elizabeta; Leung, Danny; et al. (2015). "Integrative analysis of 111 reference human epigenomes". Nature 518 (7539): 317–330. Bibcode:2015Natur.518..317.. PMC 4530010. PMID 25693563. doi:10.1038/nature14248. 
  44. Cho, Young-Dan; Kim, Woo-Jin; Ryoo, Hyun-Mo; Kim, Hong-Gee; Kim, Kyoung-Hwa; Ku, Young; Seol, Yang-Jo (2021-04-26). "Current advances of epigenetics in periodontology from ENCODE project: a review and future perspectives". Clinical Epigenetics 13 (1): 92. ISSN 1868-7083. PMC 8077755. PMID 33902683. doi:10.1186/s13148-021-01074-w. 
  45. Maher B (2012-09-06). "Fighting about ENCODE and junk". News Blog. Nature Publishing Group. Arquivado dende o orixinal o 06 de agosto de 2013. Consultado o 26 de febreiro de 2023. 
  46. Kolata G (2012-09-05). "Far From 'Junk,' DNA Dark Matter Proves Crucial to Health". The New York Times. 
  47. Gregory TR (2012-09-06). "The ENCODE media hype machine". Genomicron. Arquivado dende o orixinal o 06 de abril de 2015. Consultado o 26 de febreiro de 2023. 
  48. Graur D, Zheng Y, Price N, Azevedo RB, Zufall RA, Elhaik E (2013). "On the immortality of television sets: "function" in the human genome according to the evolution-free gospel of ENCODE". Genome Biol Evol 5 (3): 578–90. PMC 3622293. PMID 23431001. doi:10.1093/gbe/evt028. 
  49. Moran LA (2013-03-15). "Sandwalk: On the Meaning of the Word "Function"". Sandwalk. 
  50. Gregory TR (2013-04-11). "Critiques of ENCODE in peer-reviewed journals. « Genomicron". Genomicron. Arquivado dende o orixinal o 21 de abril de 2013. 
  51. White MA, Myers CA, Corbo JC, Cohen BA (xullo de 2013). "Massively parallel in vivo enhancer assay reveals that highly local features determine the cis-regulatory function of ChIP-seq peaks". Proc. Natl. Acad. Sci. U.S.A. 110 (29): 11952–7. Bibcode:2013PNAS..11011952W. PMC 3718143. PMID 23818646. doi:10.1073/pnas.1307449110. 
  52. 52,0 52,1 52,2 Mattick JS, Dinger ME (2013). "The extent of functionality in the human genome". The HUGO Journal 7 (1): 2. PMC 4685169. doi:10.1186/1877-6566-7-2. 
  53. 53,0 53,1 53,2 Kellis M, et al. (2014). "Defining functional DNA elements in the human genome". Proc. Natl. Acad. Sci. U.S.A. 111 (17): 6131–8. Bibcode:2014PNAS..111.6131K. PMC 4035993. PMID 24753594. doi:10.1073/pnas.1318948111. 
  54. 54,0 54,1 Carey, Nessa (2015). Junk DNA: A Journey Through the Dark Matter of the Genome. Columbia University Press. ISBN 9780231170840. 
  55. 55,0 55,1 Germain, Pierre-Luc; Ratti, Emanuele; Boem, Federico (novembro de 2014). "Junk or Functional DNA? ENCODE and the Function Controversy". Biology & Philosophy 29 (6): 807–831. doi:10.1007/s10539-014-9441-3. 
  56. Birney, Ewan (5 de setembro de 2012). "ENCODE: My own thoughts". Ewan's Blog: Bioinformatician at large. 
  57. Timpson T (2013-03-05). "Debating ENCODE: Dan Graur, Michael Eisen". Mendelspod. Arquivado dende o orixinal o 11 de abril de 2015. Consultado o 26 de febreiro de 2023. 
  58. 58,0 58,1 Maher B (setembro de 2012). "ENCODE: The human encyclopaedia". Nature 489 (7414): 46–8. PMID 22962707. doi:10.1038/489046a. 
  59. FactorBook
  60. Wang J (2012-11-29). "Factorbook.org: a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium". Nucleic Acids Research 41 (Database issue): D171–6. PMC 3531197. PMID 23203885. doi:10.1093/nar/gks1221. 

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]