Secuenciación de escopeta: Diferenzas entre revisións

Na Galipedia, a Wikipedia en galego.
Contido eliminado Contido engadido
Miguelferig (conversa | contribucións)
Miguelferig (conversa | contribucións)
Liña 138: Liña 138:
=== Cobertura ===
=== Cobertura ===
A [[cobertura (xenética)|cobertura]] (profundidade de lectura ou profundidade) é o número medio delecturas que representan un determinado [[nucleótido]] na secuencias reconstruída. Pode calcularse a partir da lonxitude do xenoma orixinal (''G''), o número delecturas (''N''), e a lonxitude media das lecturas (''L'') como <math>N\times L/G</math>. Por exemplo, un xenoma hipotético de 2.000 pares de bases reconstruído a partir de 8 lecturas cunha lonxitude media de 500 nucleótidos terá unha redundancia de 2x. Este prámetro tamén permite estimar outras cantidades, como a porcentaxe do xenoma cuberto polas lecturas (ás veces tamén chamada cobertura). Unha alta cobertura na secuenciación de escopeta é moi interesante porque pode superar os erros na chamada de bases (ou ''[[base calling]]'', a asignación de nucleobases a picos do [[cromatograma]]) e de ensamblaxe. A [[teoría de secuenciación do ADN]] trata das relacións estes estas cantidades.
A [[cobertura (xenética)|cobertura]] (profundidade de lectura ou profundidade) é o número medio delecturas que representan un determinado [[nucleótido]] na secuencias reconstruída. Pode calcularse a partir da lonxitude do xenoma orixinal (''G''), o número delecturas (''N''), e a lonxitude media das lecturas (''L'') como <math>N\times L/G</math>. Por exemplo, un xenoma hipotético de 2.000 pares de bases reconstruído a partir de 8 lecturas cunha lonxitude media de 500 nucleótidos terá unha redundancia de 2x. Este prámetro tamén permite estimar outras cantidades, como a porcentaxe do xenoma cuberto polas lecturas (ás veces tamén chamada cobertura). Unha alta cobertura na secuenciación de escopeta é moi interesante porque pode superar os erros na chamada de bases (ou ''[[base calling]]'', a asignación de nucleobases a picos do [[cromatograma]]) e de ensamblaxe. A [[teoría de secuenciación do ADN]] trata das relacións estes estas cantidades.

<!--
Ás veces faise unha distinción entre a ''cobertura da secuencia'' e a ''cobertura física''. A cobertura da secuencia é o número medio de veces que se le unha base (como se describiu antes). A cobertura física é o número medio de veces que se le unha base ou é abranguida por lecturas de pares apareados.<ref name="MeyersonFig1">{{Cite journal | last1 = Meyerson | first1 = M. | last2 = Gabriel | first2 = S. | last3 = Getz | first3 = G. | doi = 10.1038/nrg2841 | title = Advances in understanding cancer genomes through second-generation sequencing | journal = Nature Reviews Genetics | volume = 11 | issue = 10 | pages = 685–696 | year = 2010 | pmid = 20847746| pmc = }}</ref>
Ás veces faise unha distinción entre a ''cobertura da secuencia'' e a ''cobertura física''. A cobertura da secuencia é o número medio de veces que se le unha base (como se describiu antes). A cobertura física é o número medio de veces que se le unha base ou é abranguida por lecturas de pares apareados.<ref name="MeyersonFig1">{{Cite journal | last1 = Meyerson | first1 = M. | last2 = Gabriel | first2 = S. | last3 = Getz | first3 = G. | doi = 10.1038/nrg2841 | title = Advances in understanding cancer genomes through second-generation sequencing | journal = Nature Reviews Genetics | volume = 11 | issue = 10 | pages = 685–696 | year = 2010 | pmid = 20847746| pmc = }}</ref>


== Secuenciación de escopeta xerárquica ==
== Secuenciación de escopeta xerárquica ==
<!--
[[File:Whole genome shotgun sequencing versus Hierarchical shotgun sequencing.png|thumb|In whole genome shotgun sequencing (top), the entire genome is sheared randomly into small fragments (appropriately sized for sequencing) and then reassembled. In hierarchical shotgun sequencing (bottom), the genome is first broken into larger segments. After the order of these segments is deduced, they are further sheared into fragments appropriately sized for sequencing.]]


[[Ficheiro:Whole genome shotgun sequencing versus Hierarchical shotgun sequencing.png|miniatura|Na secuenciacion de escopeta de xenoma completo (arriba), o xenoma enteiro é roto aleatoriamente en pequenos fragmentos (do tamaño axeitado para a secuenciación) e despois reensamblado Na secuenciación de escopeta xerárquica (abaixo), o xenoma rómpese primeiro en segmentos máis grandes. Despois de que se deduce a orde destes segmentos, son despois rotos en fragmentos de tamaño axeitado para secuenciar.]]
<!--
Although shotgun sequencing can in theory be applied to a genome of any size, its direct application to the sequencing of large genomes (for instance, the [[human genome]]) was limited until the late 1990s, when technological advances made practical the handling of the vast quantities of complex data involved in the process.<ref name="genome sequencing">Dunham, I. ''Genome Sequencing''. Encyclopedia of Life Sciences, 2005. {{doi|10.1038/npg.els.0005378}}</ref> Historically, full-genome shotgun sequencing was believed to be limited by both the sheer size of large genomes and by the complexity added by the high percentage of repetitive DNA (greater than 50% for the human genome) present in large genomes.<ref name="venter">Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ Encyclopedia of Life Sciences, 2006.</ref> It was not widely accepted that a full-genome shotgun sequence of a large genome would provide reliable data. For these reasons, other strategies that lowered the computational load of sequence assembly had to be utilized before shotgun sequencing was performed.<ref name="venter" />
Although shotgun sequencing can in theory be applied to a genome of any size, its direct application to the sequencing of large genomes (for instance, the [[human genome]]) was limited until the late 1990s, when technological advances made practical the handling of the vast quantities of complex data involved in the process.<ref name="genome sequencing">Dunham, I. ''Genome Sequencing''. Encyclopedia of Life Sciences, 2005. {{doi|10.1038/npg.els.0005378}}</ref> Historically, full-genome shotgun sequencing was believed to be limited by both the sheer size of large genomes and by the complexity added by the high percentage of repetitive DNA (greater than 50% for the human genome) present in large genomes.<ref name="venter">Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ Encyclopedia of Life Sciences, 2006.</ref> It was not widely accepted that a full-genome shotgun sequence of a large genome would provide reliable data. For these reasons, other strategies that lowered the computational load of sequence assembly had to be utilized before shotgun sequencing was performed.<ref name="venter" />
In hierarchical sequencing, also known as top-down sequencing, a low-resolution [[Gene mapping#Physical Mapping|physical map]] of the genome is made prior to actual sequencing. From this map, a minimal number of fragments that cover the entire chromosome are selected for sequencing.<ref name="textbook">Gibson, G. and Muse, S. V. ''A Primer of Genome Science''. 3rd ed. P.84</ref> In this way, the minimum amount of high-throughput sequencing and assembly is required.
In hierarchical sequencing, also known as top-down sequencing, a low-resolution [[Gene mapping#Physical Mapping|physical map]] of the genome is made prior to actual sequencing. From this map, a minimal number of fragments that cover the entire chromosome are selected for sequencing.<ref name="textbook">Gibson, G. and Muse, S. V. ''A Primer of Genome Science''. 3rd ed. P.84</ref> In this way, the minimum amount of high-throughput sequencing and assembly is required.

Revisión como estaba o 12 de febreiro de 2019 ás 20:47

En xenética, a secuenciación de escopeta ou secuenciación shotgun é un método utilizado para secuenciar febras de ADN longas. Denomínase así por analoxía co padrón de disparo case aleatorio e de rápida expansión dunha escopeta.

O mérodo de terminación da cadea de secuenciación de ADN ("secuenciación de Sanger") só pode utilizarse para febras de ADN curtas de 100 a 1000 pares de bases. Debido a este límite de tamaño, as secuencias máis longas poden ser divididas en fragmentos máis pequenos que se poidan secuenciar separadamente, e estas secuencias son despois ensambladas para dar a secuencia completa.

Hai dous métodos principais para este proceso de fragmentación e secuenciación. O Primer walking (ou "chromosome walking") progresa ao longo do anaco enteiro de febra, anaco por anaco, mentres que a secuenciación de escopeta é un proceso máis rápido pero máis complexo, que usa fragmentos ao chou.

Na secuenciación de escopeta,[1][2] o ADN fragméntase de forma aleatoria orixinando numerosos segmentos pequenos, que son secuenciados usando o método de terminación de cadea para obter lecturas. Obtéñense múltiples lecturas que se solapan para o ADN diana realizando varias roldas desta fragmentación e secuenciación. Certos programas informáticos utilizan despois os extremos solapantes de diferentes lecturas para ensamblalas formando unha secuencia continua.[1]

A secuenciación de escopeta ou shotgun foi unha das tecnoloxias precursoras que permitiu realizar unha secuenciación de xenoma completo.

Exemplo

Por exemplo, consideremos as seguintes dúas roldas de lecturas de escopeta:

Febra Secuencia
Orixinal AGCATGCTGCAGTCATGCTTAGGCTA
Primeira secuencia de escopeta AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Segunda secuencia de escopeta AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Reconstrución AGCATGCTGCAGTCATGCTTAGGCTA

Neste exemplo extremadamente simplificado, ningunha das lecturas cobre a lonxitude total da secuencia orixinal, pero as catro lecturas poden ensamblarse na secuencia orixinal usando o solapamento dos seus extremos para alinealas e ordenalas. En realidade, este proceso usa enormes cantidades de información que son rife con ambigüidades e erros de secuenciación. A ensamblaxe de xenomas complexos é ademais complicado pola grande abundancia de secuencias repetitivas, o que significa que as lecturas curtas proceden de partes completamente diferentes da secuencia.

Cómpre utilizar moitas lecturas solapantes para cada segmento do ADN orixinal para superar estas dificultades e ensamblar con exzactitude a secuencia. Por exemplo, para completar o Proxecto Xenoma Humano, a maioría do xenoma humano foi secuenciado a unha cobertura de 12X ou maior; é dicir, cada base da secuencia final estaba presente como media en 12 lecturas diferentes. Incluso así, os métodos correntes non conseguiran en 2004 illar ou ensamblar secuencias fiables para o aproximadamente o 1% do xenoma humano (eucromático).[3]

Secuenciación de escopeta de xenoma completo

Historia

A secuenciación de escopeta de xenoma completo de pequenos xenomas (de 4000 a 7000 pares de bases) foi suxerido por primeira vez en 1979.[1] O primeiro xenoma secuenciado por secuenciación de escopeta foi o do virus do mosaico da coliflor, publicado en 1981.[4][5]

Secuenciación de extremos apareados

Unha aplicación máis ampla da técnica beneficiouse da secuenciación de extremos apareados, coñecida coloquialmente como secuenciación de escopeta de dobre canón. A medida que os proxectos de secuenciación empezaron a tratar con secuencias de ADN máis longas e complicadas, moitos grupos empezaron a decatarse de que podía obterse información útil secuenciando ambos os extremos dun fragmento de ADN. Aínda que secuenciar ambos os extremos do mesmo fragmento e facer un seguimento dos datos apareados era máis laborioso que secuenciar un só extremo de dous fragmentos distintos, o coñecemento de que as dúas secuencias estaban orientadas en direccións opostas e eran de aproximadamente a lonxitude dun fragmento era valioso para reconstruír a secuencia do fragmento diana orixinal.

Historia. A primeira descrición publicada do uso de extremos apareados é do ano 1990[6] e era parte da secuenciación do locus HGPRT humano, aínda que o uso de extremos apareados estaba limitado a pechar ocos (na secuencia) despois da aplicación da estratexia tradicional de escopeta. A primeira descrición teórica dunha estratexia de secuenciación apareada pura, asumindo que fragmentos de lonxitude constante, fíxose en 1991.[7] Nesa época, había un consenso na comunidade de investigadores de que a lonxitude de fragmento óptimo para a secuenciación de extremos apareados sería de tres veces a lonxitude da lectura de secuencia. En 1995 Roach et al.[8] introduciron a innovación de usar fragmentos de varios tamaños e demostraron que unha estratexia de secuenciación de extremos apareados pura sería posible en dianas grandes. A estratexia foi adoptada seguidamente por The Institute for Genomic Research (TIGR) para secuenciar o xenoma da bacteria Haemophilus influenzae en 1995,[9] e despois por Celera Genomics para secuenciar o xenoma da mosca do vinagre Drosophila melanogaster en 2000,[10] e seguidamente o xenoma humano.

Estratexia

Para aplicar a estratexia, unha febra de ADN de alto peso molecular rómpese en fragmentos ao chou, de tamaño seleccionado (xeralmente de 2, 10, 50 e 150 kb), e clónase nun vector apropiado. Os clons son despois secuenciados desde ambos os extremos usando o método de terminación da cadea rendendo dúas curtas secuencias. Cada secuencia denomínase lectura de extremo ou lectura e dúas lecturas de cada clon denomínanse pares apareados (mate pairs). Como o método de terminación da cadea xeralmente só pode producir lecturas de entre 500 e 1000 bases de longo, en todos menos nos clons máis pequenos, os pares apareados raramente se solapan.

Ensamblaxe

A secuencia orixinal reconstrúese a partir doas lecturas usando software para a ensamblaxe de secuencias. Primeiro, as lecturas que se solapan recóllense formando secuencias compostas máis longas denominadas cóntigos (contigs). Os cóntigos poden ser ligados en armazóns seguindo as conexións entre os paresapareados. A distancia entre cóntigos pode inferirse a partir das posicións dos pares apareados se coñece cal é a lonxitude do fragmento media da biblioteca e ten unha fiestra estreita de desviación. Dependendo do tamaño do oco entre cóntigos, poden utilizarse diferentes técnicaspara encontrar a secuecia que hai nos ocos. Se o oco é pequeno (5-20kb) entón cómpre utilizar a PCR para amplificar a rexión, seguido de secuenciación. Se o oco é grande (>20kb) entón clónase o fragmento grande en vectores especiais como un BAC (cromosoma bacteriano artificial) e seguidamente secuénciase o vector.

Pros e contras

Os que propoñen esta estratexia argumentan que é posible secuenciar o xenoma completo dunha vez usando grandes conxuntos de secuenciadores, o que fai o proceso total moito máis eficiente que as estratexias máis tradicionais. Os detractores argumentan que, aínda que a técnica secuencia rapidamente grandes rexións do ADN, a súa capacidade de ligar correstamente estas rexións é dubidosa, especialmente para xenomas con rexións repetitivas. A medida que os programas de ensmblaxe de secuencias sefan máis sofisticados e o poder de computaión se fai máis barato, é posible superar esta limitación.[11]

Cobertura

A cobertura (profundidade de lectura ou profundidade) é o número medio delecturas que representan un determinado nucleótido na secuencias reconstruída. Pode calcularse a partir da lonxitude do xenoma orixinal (G), o número delecturas (N), e a lonxitude media das lecturas (L) como . Por exemplo, un xenoma hipotético de 2.000 pares de bases reconstruído a partir de 8 lecturas cunha lonxitude media de 500 nucleótidos terá unha redundancia de 2x. Este prámetro tamén permite estimar outras cantidades, como a porcentaxe do xenoma cuberto polas lecturas (ás veces tamén chamada cobertura). Unha alta cobertura na secuenciación de escopeta é moi interesante porque pode superar os erros na chamada de bases (ou base calling, a asignación de nucleobases a picos do cromatograma) e de ensamblaxe. A teoría de secuenciación do ADN trata das relacións estes estas cantidades.

Ás veces faise unha distinción entre a cobertura da secuencia e a cobertura física. A cobertura da secuencia é o número medio de veces que se le unha base (como se describiu antes). A cobertura física é o número medio de veces que se le unha base ou é abranguida por lecturas de pares apareados.[12]

Secuenciación de escopeta xerárquica

Na secuenciacion de escopeta de xenoma completo (arriba), o xenoma enteiro é roto aleatoriamente en pequenos fragmentos (do tamaño axeitado para a secuenciación) e despois reensamblado Na secuenciación de escopeta xerárquica (abaixo), o xenoma rómpese primeiro en segmentos máis grandes. Despois de que se deduce a orde destes segmentos, son despois rotos en fragmentos de tamaño axeitado para secuenciar.

Notas

  1. 1,0 1,1 1,2 Staden, R (1979). "A strategy of DNA sequencing employing computer programs". Nucleic Acids Research 6 (70): 2601–10. PMC 327874. PMID 461197. doi:10.1093/nar/6.7.2601. 
  2. Anderson, S (1981). "Shotgun DNA sequencing using cloned DNase I-generated fragments". Nucleic Acids Research 9 (13): 3015–27. PMC 327328. PMID 6269069. doi:10.1093/nar/9.13.3015. 
  3. Human Genome Sequencing Consortium, International (21 October 2004). "Finishing the euchromatic sequence of the human genome". Nature 431 (7011): 931–945. Bibcode:2004Natur.431..931H. PMID 15496913. doi:10.1038/nature03001. 
  4. Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Shepherd, Robert J.; Messing, Joachim (1981-06-25). "The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing". Nucleic Acids Research (en inglés) 9 (12): 2871–2888. ISSN 0305-1048. PMC 326899. PMID 6269062. doi:10.1093/nar/9.12.2871. 
  5. Doctrow, Brian (2016-07-19). "Profile of Joachim Messing". Proceedings of the National Academy of Sciences (en inglés) 113 (29): 7935–7937. ISSN 0027-8424. PMC 4961156. PMID 27382176. doi:10.1073/pnas.1608857113. 
  6. Edwards, A; Caskey, T (1991). "Closure strategies for random DNA sequencing". Methods: A Companion to Methods in Enzymology 3 (1): 41–47. doi:10.1016/S1046-2023(05)80162-8. 
  7. Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. (1990). "Automated DNA sequencing of the human HPRT locus". Genomics 6 (4): 593–608. PMID 2341149. doi:10.1016/0888-7543(90)90493-E. 
  8. Roach, JC; Boysen, C; Wang, K; Hood, L (1995). "Pairwise end sequencing: a unified approach to genomic mapping and sequencing". Genomics 26 (2): 345–353. PMID 7601461. doi:10.1016/0888-7543(95)80219-C. 
  9. Fleischmann, RD; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800. 
  10. Adams, MD; et al. (2000). "The genome sequence of Drosophila melanogaster" (PDF). Science 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. PMID 10731132. doi:10.1126/science.287.5461.2185.  Parámetro descoñecido |citeseerx= ignorado (Axuda)
  11. Kenner, Richardson; et al. (2010). "Shotgun sequencing: Review of progress in sequence assembly developments". Methods in Biomolecular Research 38 (4): 1022–1035. 
  12. Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Advances in understanding cancer genomes through second-generation sequencing". Nature Reviews Genetics 11 (10): 685–696. PMID 20847746. doi:10.1038/nrg2841. 

Véxase tamén

Outros artigos

Bibliografía

Ligazóns externas

Este artigo incorpora material en dominio público do documento do National Center for Biotechnology Information "NCBI Handbook".