Secuenciación de escopeta: Diferenzas entre revisións

Na Galipedia, a Wikipedia en galego.
Contido eliminado Contido engadido
Miguelferig (conversa | contribucións)
Miguelferig (conversa | contribucións)
Liña 154: Liña 154:


Alternativamente, a [[biblioteca de BACs]] pode ser dixerido por [[encima de restrición|restrición]]. Dous clons que teñen varios tamaños de fragmentos en común infírese que se solapan porque conteñen múltiples sitios de restrición espallados regularmente en común.<ref name="genome map" /> Este método de mapado xenómico denomínase pegada dactilar de restrición porque identifica un conxunto de sitios de restrición contidos en cada clon. Unha vez que se atopou o solapamento entre os clons e se coñece a súa orde relativa no xenoma, secuénciase polo mátodo da escopeta un armazón dun subconxunto mínimo destes cóntigos que cobre todo o xenoma.<ref name="textbook" />
Alternativamente, a [[biblioteca de BACs]] pode ser dixerido por [[encima de restrición|restrición]]. Dous clons que teñen varios tamaños de fragmentos en común infírese que se solapan porque conteñen múltiples sitios de restrición espallados regularmente en común.<ref name="genome map" /> Este método de mapado xenómico denomínase pegada dactilar de restrición porque identifica un conxunto de sitios de restrición contidos en cada clon. Unha vez que se atopou o solapamento entre os clons e se coñece a súa orde relativa no xenoma, secuénciase polo mátodo da escopeta un armazón dun subconxunto mínimo destes cóntigos que cobre todo o xenoma.<ref name="textbook" />

<!--
Como implica que primeiro hai que crear un mapa de baixa resolución do xenoma, a secuenciación de escopeta xerárquica é máis lenta que a sdecuenciación de escopeta de xenoma completo, pero depende menos fortemente de [[algoritmo]]s de computación que a secuenciación de escopeta de xenoma completo. O proceso da creación de bibliotecas de BACs amplas e a selección do camiño de baldosas, porén, facer unha secuenciación de escopeta xerárquica é lenta e require moito traballo. Agora que se dispón da tecnoloxía e da fiabilidade dos datos está demostrada,<ref name="venter" /> e a velocidade e eficiencia de custo da secuenciación de escopeta de xenoma completo converteuno no método primario para a secuenciación de xenomas.
Because it involves first creating a low-resolution map of the genome, hierarchical shotgun sequencing is slower than whole-genome shotgun sequencing, but relies less heavily on computer algorithms than whole-genome shotgun sequencing. The process of extensive BAC library creation and tiling path selection, however, make hierarchical shotgun sequencing slow and labor-intensive. Now that the technology is available and the reliability of the data demonstrated,<ref name="venter" /> and the speed and cost efficiency of whole-genome shotgun sequencing has made it the primary method for genome sequencing.
-->


== Secuenciación de seguinte xeración ==
== Secuenciación de seguinte xeración ==

Revisión como estaba o 12 de febreiro de 2019 ás 21:58

En xenética, a secuenciación de escopeta ou secuenciación shotgun é un método utilizado para secuenciar febras de ADN longas. Denomínase así por analoxía co padrón de disparo case aleatorio e de rápida expansión dunha escopeta.

O mérodo de terminación da cadea de secuenciación de ADN ("secuenciación de Sanger") só pode utilizarse para febras de ADN curtas de 100 a 1000 pares de bases. Debido a este límite de tamaño, as secuencias máis longas poden ser divididas en fragmentos máis pequenos que se poidan secuenciar separadamente, e estas secuencias son despois ensambladas para dar a secuencia completa.

Hai dous métodos principais para este proceso de fragmentación e secuenciación. O Primer walking (ou "chromosome walking") progresa ao longo do anaco enteiro de febra, anaco por anaco, mentres que a secuenciación de escopeta é un proceso máis rápido pero máis complexo, que usa fragmentos ao chou.

Na secuenciación de escopeta,[1][2] o ADN fragméntase de forma aleatoria orixinando numerosos segmentos pequenos, que son secuenciados usando o método de terminación de cadea para obter lecturas. Obtéñense múltiples lecturas que se solapan para o ADN diana realizando varias roldas desta fragmentación e secuenciación. Certos programas informáticos utilizan despois os extremos solapantes de diferentes lecturas para ensamblalas formando unha secuencia continua.[1]

A secuenciación de escopeta ou shotgun foi unha das tecnoloxias precursoras que permitiu realizar unha secuenciación de xenoma completo.

Exemplo

Por exemplo, consideremos as seguintes dúas roldas de lecturas de escopeta:

Febra Secuencia
Orixinal AGCATGCTGCAGTCATGCTTAGGCTA
Primeira secuencia de escopeta AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Segunda secuencia de escopeta AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Reconstrución AGCATGCTGCAGTCATGCTTAGGCTA

Neste exemplo extremadamente simplificado, ningunha das lecturas cobre a lonxitude total da secuencia orixinal, pero as catro lecturas poden ensamblarse na secuencia orixinal usando o solapamento dos seus extremos para alinealas e ordenalas. En realidade, este proceso usa enormes cantidades de información que son rife con ambigüidades e erros de secuenciación. A ensamblaxe de xenomas complexos é ademais complicado pola grande abundancia de secuencias repetitivas, o que significa que as lecturas curtas proceden de partes completamente diferentes da secuencia.

Cómpre utilizar moitas lecturas solapantes para cada segmento do ADN orixinal para superar estas dificultades e ensamblar con exzactitude a secuencia. Por exemplo, para completar o Proxecto Xenoma Humano, a maioría do xenoma humano foi secuenciado a unha cobertura de 12X ou maior; é dicir, cada base da secuencia final estaba presente como media en 12 lecturas diferentes. Incluso así, os métodos correntes non conseguiran en 2004 illar ou ensamblar secuencias fiables para o aproximadamente o 1% do xenoma humano (eucromático).[3]

Secuenciación de escopeta de xenoma completo

Historia

A secuenciación de escopeta de xenoma completo de pequenos xenomas (de 4000 a 7000 pares de bases) foi suxerido por primeira vez en 1979.[1] O primeiro xenoma secuenciado por secuenciación de escopeta foi o do virus do mosaico da coliflor, publicado en 1981.[4][5]

Secuenciación de extremos apareados

Unha aplicación máis ampla da técnica beneficiouse da secuenciación de extremos apareados, coñecida coloquialmente como secuenciación de escopeta de dobre canón. A medida que os proxectos de secuenciación empezaron a tratar con secuencias de ADN máis longas e complicadas, moitos grupos empezaron a decatarse de que podía obterse información útil secuenciando ambos os extremos dun fragmento de ADN. Aínda que secuenciar ambos os extremos do mesmo fragmento e facer un seguimento dos datos apareados era máis laborioso que secuenciar un só extremo de dous fragmentos distintos, o coñecemento de que as dúas secuencias estaban orientadas en direccións opostas e eran de aproximadamente a lonxitude dun fragmento era valioso para reconstruír a secuencia do fragmento diana orixinal.

Historia. A primeira descrición publicada do uso de extremos apareados é do ano 1990[6] e era parte da secuenciación do locus HGPRT humano, aínda que o uso de extremos apareados estaba limitado a pechar ocos (na secuencia) despois da aplicación da estratexia tradicional de escopeta. A primeira descrición teórica dunha estratexia de secuenciación apareada pura, asumindo que fragmentos de lonxitude constante, fíxose en 1991.[7] Nesa época, había un consenso na comunidade de investigadores de que a lonxitude de fragmento óptimo para a secuenciación de extremos apareados sería de tres veces a lonxitude da lectura de secuencia. En 1995 Roach et al.[8] introduciron a innovación de usar fragmentos de varios tamaños e demostraron que unha estratexia de secuenciación de extremos apareados pura sería posible en dianas grandes. A estratexia foi adoptada seguidamente por The Institute for Genomic Research (TIGR) para secuenciar o xenoma da bacteria Haemophilus influenzae en 1995,[9] e despois por Celera Genomics para secuenciar o xenoma da mosca do vinagre Drosophila melanogaster en 2000,[10] e seguidamente o xenoma humano.

Estratexia

Para aplicar a estratexia, unha febra de ADN de alto peso molecular rómpese en fragmentos ao chou, de tamaño seleccionado (xeralmente de 2, 10, 50 e 150 kb), e clónase nun vector apropiado. Os clons son despois secuenciados desde ambos os extremos usando o método de terminación da cadea rendendo dúas curtas secuencias. Cada secuencia denomínase lectura de extremo ou lectura e dúas lecturas de cada clon denomínanse pares apareados (mate pairs). Como o método de terminación da cadea xeralmente só pode producir lecturas de entre 500 e 1000 bases de longo, en todos menos nos clons máis pequenos, os pares apareados raramente se solapan.

Ensamblaxe

A secuencia orixinal reconstrúese a partir doas lecturas usando software para a ensamblaxe de secuencias. Primeiro, as lecturas que se solapan recóllense formando secuencias compostas máis longas denominadas cóntigos (contigs). Os cóntigos poden ser ligados en armazóns seguindo as conexións entre os paresapareados. A distancia entre cóntigos pode inferirse a partir das posicións dos pares apareados se coñece cal é a lonxitude do fragmento media da biblioteca e ten unha fiestra estreita de desviación. Dependendo do tamaño do oco entre cóntigos, poden utilizarse diferentes técnicaspara encontrar a secuecia que hai nos ocos. Se o oco é pequeno (5-20kb) entón cómpre utilizar a PCR para amplificar a rexión, seguido de secuenciación. Se o oco é grande (>20kb) entón clónase o fragmento grande en vectores especiais como un BAC (cromosoma bacteriano artificial) e seguidamente secuénciase o vector.

Pros e contras

Os que propoñen esta estratexia argumentan que é posible secuenciar o xenoma completo dunha vez usando grandes conxuntos de secuenciadores, o que fai o proceso total moito máis eficiente que as estratexias máis tradicionais. Os detractores argumentan que, aínda que a técnica secuencia rapidamente grandes rexións do ADN, a súa capacidade de ligar correstamente estas rexións é dubidosa, especialmente para xenomas con rexións repetitivas. A medida que os programas de ensmblaxe de secuencias sefan máis sofisticados e o poder de computaión se fai máis barato, é posible superar esta limitación.[11]

Cobertura

A cobertura (profundidade de lectura ou profundidade) é o número medio delecturas que representan un determinado nucleótido na secuencias reconstruída. Pode calcularse a partir da lonxitude do xenoma orixinal (G), o número delecturas (N), e a lonxitude media das lecturas (L) como . Por exemplo, un xenoma hipotético de 2.000 pares de bases reconstruído a partir de 8 lecturas cunha lonxitude media de 500 nucleótidos terá unha redundancia de 2x. Este prámetro tamén permite estimar outras cantidades, como a porcentaxe do xenoma cuberto polas lecturas (ás veces tamén chamada cobertura). Unha alta cobertura na secuenciación de escopeta é moi interesante porque pode superar os erros na chamada de bases (ou base calling, a asignación de nucleobases a picos do cromatograma) e de ensamblaxe. A teoría de secuenciación do ADN trata das relacións estes estas cantidades.

Ás veces faise unha distinción entre a cobertura da secuencia e a cobertura física. A cobertura da secuencia é o número medio de veces que se le unha base (como se describiu antes). A cobertura física é o número medio de veces que se le unha base ou é abranguida por lecturas de pares apareados.[12]

Secuenciación de escopeta xerárquica

Na secuenciacion de escopeta de xenoma completo (arriba), o xenoma enteiro é roto aleatoriamente en pequenos fragmentos (do tamaño axeitado para a secuenciación) e despois reensamblado Na secuenciación de escopeta xerárquica (abaixo), o xenoma rómpese primeiro en segmentos máis grandes. Despois de que se deduce a orde destes segmentos, son despois rotos en fragmentos de tamaño axeitado para secuenciar.

Aínda que a secuenciación de escopeta pode en teoría aplicarse a unn xenoma de calquera tamaño, a súa aplicación directa á secuenciación de xenomas grandes (por exemplo, o xenoma humano) estivo limitada ata finais da década de 1990, cando os avances tecnolóxicos fan que sexa práctico manexar enormes cantidades de datos complexos implicados no proceso.[13] Historicalmente, a secuenciación de escopeta de xenoma completo críase que estaba limitada polo tamaño do fragmento de grandes xenomas e pola complexidade engadida pola alta porcentaxe de ADN repetitivo (maior do 50% para o xenoma humano) presente en grandes xenomas.[14] Non estaba amplamente aceptado que a secuencia de escopeta de xenomas completos proporcionase datos fiables. Por estas razóns, idearon outras estratexias que rebaixaban a carga computacional de ensamblaxe de secuencias que tiña que ser utilizada antes da secuenciación de escopeta.[14] Na secuenciación xerárquica, tamén coñecida como secuenciación de arriba a abaixo, faise un mapa físico de baixa resolución do xenoma antes da secuenciación real. A partir deste mapa, selecciónanse para a secuenciación un número mínimo de fragmentos que cobre o cromosoma enteiro.[15] Deste modo, requírese a mínima cantidade de secuenciación de alto rendemento e ensamblae.

O xenoma amplificado é primeiramente fragmentado en anacos máis grandes (de 50-200kb) e clonado nun hóspede bacteriano usando BACs ou PACs. Como se fragmentaron múltiples copias de xenomas de forma aleatoria, os fragmentos contidos neses clons teñen extremos diferentges, e con suficiente cobertura (ver sección máis arriba) atopando un armazón de cóntigos de BAC que cobre o xenome enteiro é teoricamente posible. Esta armazón denomínase camiño de baldosas. Unha vez que se encontra un camiño de baldosas, os BACs que forman este camiño son fragmentados ao chou en pequenos fragmentos e pode secuenciarse usando o método de escopeta a escala menor.

Un cóntigo BAC que cobre a área xenómica enteira de interese constitúe o camiño de baldosas.

Aínda que as secuencias completas de cóntigos de BACs non se coñecen, as súas orientacións relativas entre eles si se saben. Hai varios métodos para deducir esta orde e seleccionando os BACs que constitúen o camiño de baldosas. A estratexia xeral supón identificar as posicións de clons unha en relación doutra e despois seleccionando o menor número de clons necesarios para formar un armazón contiguo que cubra toda a área de interese. A orde dos clons dedúcese determinando o modo no cal se solapan.[16] Os clons que se solapan poden ser identificados de varias maneiras. Unha pequena sonda etiquetada radioactivamente ou quimicamente que contén un sitio etiquetado por secuencia (STS ou sequence-tagged site) poden hibridarse nunha micromatriz sobre o cal se imprimen os clons.[16] Deste modo, identifícanse todos os clons que conteñen un secuencia determinada no xenoma. O extremo dun destes clons pode despois ser secuenciado para render unha nova sonda e o proceso repetido nun método chamado chromosome walking.

Alternativamente, a biblioteca de BACs pode ser dixerido por restrición. Dous clons que teñen varios tamaños de fragmentos en común infírese que se solapan porque conteñen múltiples sitios de restrición espallados regularmente en común.[16] Este método de mapado xenómico denomínase pegada dactilar de restrición porque identifica un conxunto de sitios de restrición contidos en cada clon. Unha vez que se atopou o solapamento entre os clons e se coñece a súa orde relativa no xenoma, secuénciase polo mátodo da escopeta un armazón dun subconxunto mínimo destes cóntigos que cobre todo o xenoma.[15]

Como implica que primeiro hai que crear un mapa de baixa resolución do xenoma, a secuenciación de escopeta xerárquica é máis lenta que a sdecuenciación de escopeta de xenoma completo, pero depende menos fortemente de algoritmos de computación que a secuenciación de escopeta de xenoma completo. O proceso da creación de bibliotecas de BACs amplas e a selección do camiño de baldosas, porén, facer unha secuenciación de escopeta xerárquica é lenta e require moito traballo. Agora que se dispón da tecnoloxía e da fiabilidade dos datos está demostrada,[14] e a velocidade e eficiencia de custo da secuenciación de escopeta de xenoma completo converteuno no método primario para a secuenciación de xenomas.

Secuenciación de seguinte xeración

A secuenciación de escopeta clásica estaba b aseada no método de secuenciación de Sanger: esta foi a técnica máis avanzada para a secuenciación de xenomas aproximadamente durante o período 1995–2005. A estratexia de escopeta ou shotgun aínda se aplica hoxe en día; porén, usando outras tecnoloxías de secuenciación, chamadas secuenciación de seguinte xeración. Estas tecnoloxías producen lecturas máis curtas (de aproximadamente 25–500 pares de bases), pero moitos milleiros ou millóns de lecturas nun tempo relativamente curto (da orde dun día).[17] Isto ten como resultado unha alta cobertura, pero o proceso de ensamblaxe require un uso máis intensivo da computación. Estas tecnoloxías son moi superiores á secuenciación de Sanger debido ao alto volume de datos e o tempo relativamente curto que se tarda en secuenciar un xenoma completo.[18]

Secuenciación de escopeta metaxenómica

Ter lecturas de 400-500 pares de bases é dabondo para determinar a especie/cepa do organismo do cal procede o ADN, con tal qe o seu xenoma sexa xa coñecido, usando por exemplo un software de clasificación taxonómica baseado en k-mer. Con millóns de lecturas da secuenciación de seguinte xeración de mostras ambientais, é posible ter unha visión completa de calquera microbioma complexo con miles de especies, como a flora intestinal. As vantaxes sobre a secuenciación de amplicón de ARNr de 16S son: non está limitado a bacterias; clasificación ao nivel de cepas, onde a secuenciación amplicón só o fai a nivel de xénero; e a posibilidade de extraer xenes completos e especificar as súas funcións como parte do metaxenoma.[19] A sensibilidade da secuenciación metaxenómica faina unha elección atractiva para o uso clínico.[20] Porén, enfatiza o problema da contaminación da mostra ou a pipeline de secuenciación.[21]

Notas

  1. 1,0 1,1 1,2 Staden, R (1979). "A strategy of DNA sequencing employing computer programs". Nucleic Acids Research 6 (70): 2601–10. PMC 327874. PMID 461197. doi:10.1093/nar/6.7.2601. 
  2. Anderson, S (1981). "Shotgun DNA sequencing using cloned DNase I-generated fragments". Nucleic Acids Research 9 (13): 3015–27. PMC 327328. PMID 6269069. doi:10.1093/nar/9.13.3015. 
  3. Human Genome Sequencing Consortium, International (21 October 2004). "Finishing the euchromatic sequence of the human genome". Nature 431 (7011): 931–945. Bibcode:2004Natur.431..931H. PMID 15496913. doi:10.1038/nature03001. 
  4. Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Shepherd, Robert J.; Messing, Joachim (1981-06-25). "The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing". Nucleic Acids Research (en inglés) 9 (12): 2871–2888. ISSN 0305-1048. PMC 326899. PMID 6269062. doi:10.1093/nar/9.12.2871. 
  5. Doctrow, Brian (2016-07-19). "Profile of Joachim Messing". Proceedings of the National Academy of Sciences (en inglés) 113 (29): 7935–7937. ISSN 0027-8424. PMC 4961156. PMID 27382176. doi:10.1073/pnas.1608857113. 
  6. Edwards, A; Caskey, T (1991). "Closure strategies for random DNA sequencing". Methods: A Companion to Methods in Enzymology 3 (1): 41–47. doi:10.1016/S1046-2023(05)80162-8. 
  7. Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. (1990). "Automated DNA sequencing of the human HPRT locus". Genomics 6 (4): 593–608. PMID 2341149. doi:10.1016/0888-7543(90)90493-E. 
  8. Roach, JC; Boysen, C; Wang, K; Hood, L (1995). "Pairwise end sequencing: a unified approach to genomic mapping and sequencing". Genomics 26 (2): 345–353. PMID 7601461. doi:10.1016/0888-7543(95)80219-C. 
  9. Fleischmann, RD; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800. 
  10. Adams, MD; et al. (2000). "The genome sequence of Drosophila melanogaster" (PDF). Science 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. PMID 10731132. doi:10.1126/science.287.5461.2185.  Parámetro descoñecido |citeseerx= ignorado (Axuda)
  11. Kenner, Richardson; et al. (2010). "Shotgun sequencing: Review of progress in sequence assembly developments". Methods in Biomolecular Research 38 (4): 1022–1035. 
  12. Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Advances in understanding cancer genomes through second-generation sequencing". Nature Reviews Genetics 11 (10): 685–696. PMID 20847746. doi:10.1038/nrg2841. 
  13. Dunham, I. Genome Sequencing. Encyclopedia of Life Sciences, 2005. doi 10.1038/npg.els.0005378
  14. 14,0 14,1 14,2 Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ Encyclopedia of Life Sciences, 2006.
  15. 15,0 15,1 Gibson, G. and Muse, S. V. A Primer of Genome Science. 3rd ed. P.84
  16. 16,0 16,1 16,2 Dear, P. H. Genome Mapping. Encyclopedia of Life Sciences, 2005. doi 10.1038/npg.els.0005353.
  17. Karl, V; et al. (2009). "Next Generation Sequencing: From Basic Research to Diagnostics". Clinical Chemistry 55 (4): 41–47. PMID 19246620. doi:10.1373/clinchem.2008.112789. 
  18. Metzker, Michael L. (2010). "Sequencing technologies - the next generation" (PDF). Nat Rev Genet 11 (1): 31–46. PMID 19997069. doi:10.1038/nrg2626.  Parámetro descoñecido |citeseerx= ignorado (Axuda)
  19. Roumpeka, Despoina D.; et al. (2017). "A review of bioinformatics tools for bio-prospecting from metagenomic sequence data". Frontiers in Genetics 8: 23. PMC 5337752. PMID 28321234. doi:10.3389/fgene.2017.00023. 
  20. Gu, Wei; et al. (2018). "Clinical Metagenomic Next-Generation Sequencing for Pathogen Detection". Annual Review of Pathology: Mechanisms of Disease 14: 319–338. PMC 6345613. PMID 30355154. doi:10.1146/annurev-pathmechdis-012418-012751. 
  21. Thoendel, Matthew; et al. (2017). "Impact of contaminating DNA in whole genome amplification kits used for metagenomic shotgun sequencing for infection diagnosis". Journal of Clinical Microbiology 55 (6): 1789–1801. PMC 5442535. PMID 28356418. doi:10.1128/JCM.02402-16. 

Véxase tamén

Outros artigos

Bibliografía

Ligazóns externas

Este artigo incorpora material en dominio público do documento do National Center for Biotechnology Information "NCBI Handbook".