Secuenciación de proteínas

A secuenciación de proteínas é o proceso práctico de determinar a secuencia de aminoácidos de toda ou dunha parte dunha proteína ou un péptido. Isto pode servir para identificar a proteína ou caracterizar as súas modificacións postraducionais. Normalmente, a secuenciación parcial dunha proteína proporciona información suficiente (unha ou máis etiquetas de secuencia) para identificala en referencia a bases de datos de secuencias de proteínas derivadas da tradución conceptual de xenes.

Os dous métodos directos principais de secuenciación de proteínas son a espectrometría de masas e a degradación de Edman usando secuenciadores de proteínas. Os métodos de espectrometría de masas son agora os máis amplamente utilizados para a secuenciación e identificación de proteínas, pero a degradación de Edman segue sendo unha ferramenta valiosa para caracterizar o N-terminal das proteínas.

Determinación da composición de aminoácidos

Con frecuencia deséxase coñecer a composición non ordenada de aminoácidos dunha proteína antes de intentar descubrir a súa secuencia ordenada, xa que este dato pode utilizarse para facilitr o descubrimento de erros no proceso de secuenciación ou para distinguir entre resultados ambiguos. O coñecemento da frecuencia de certos aminoácidos pode usarse tamén para elixir que protease usar para a dixestión da proteína. A incorporación incorrecta de baixos niveis de aminoácidos non estándar (por exemplo, norleucina) nas proteínas pode determinarse tamén.^[1] Un método xeneralizado para determinar a frecuencia de aminoácidos xeralmente denominado análise de aminoácidos^[2] é o seguinte:

Hidrolizar unha cantidade coñecida de proteína nos seus aminoácidos constituíntes.
Separar e cuantificar os aminoácidos dalgunha maneira.

Hidrólise

A hidrólise faise quentando unha mostra da proteína en ácido clorhídrico 6M a 100–110 °C durante 24 horas ou máis. As proteínas con moitos grupos voluminosos hidrófobos poden requirir períodos de quentamento máis longos. Porén, estas condicións son tan vigorosas que se degradan algúns aminoácidos (serina, treonina, tirosina, triptófano, glutamina e cisteína). Para evitar este problema, Biochemistry Online suxire quentar mostras por separado durante diferente tempo, analizar a solución resultante e extrapolar ao tempo de hidrólise cero. Rastall suxire o uso de diversos reactivos para impedir ou reducir a degradación, como reactivos tiol ou fenol para protexer o triptófano e a tirosina do ataque do cloro, e preoxidar a cisteína. Tamén suxire medir a cantidade de amoníaco orixinado para determinar a extensión da hidrólise de amidas.

Separación e cuantificación

Os aminoácidos poden ser separados por cromatografía de intercambio iónico despois derivados para facilitar a súa detección. O máis habitual é que os aminoácidos se deriven e despois se resolvan por HPLC en fase inversa.

Un exemplo de cromatografía de intercambio iónico é o do NTRC usando polistireno sulfonado como matriz, engadindo os aminoácidos en solución ácida e facendo pasar un tampón de pH que se incrementa establemente a través dunha columna. Os aminácidos elúense cando o pH alcanza os seus respectivos puntos isoeléctricos. Unha vez que os aminoácidos se separaron, determínanse as súas respectivas cantidades engadindo un reactivo que formará un derivado coloreado. Se as cantidades de aminoácidos están nun exceso de 10 nmol, pode usarse a ninhidrina para isto; orixina unha cor amarela cando reacciona con prolina, e un púrpura vívido con outros aminoácidos. A concentración de aminoácidos é propocional á absorbancia da disolución resultante. Con cantidades moi pequenas, por debaixo de 10 pmol, poden formarse derivados fluorescentes usando reactivos como o orto-ftaldehido (OPA) ou fluorescamina.

Na derivación precolumna pode usarse o reactivo de Edman para producir un derivado que se detecta con luz UV. Conséguese unha maior sensibilidade usando un reactivo que xera un derivado fluorescente. Os aminoácidos derivados son sometidos a cromatografía de fase inversa, normalemnte usando unha columna cromatográfica de sílice do C8 ou C18 e un gradiente de elución optimizado. Os aminoácidos que elúen detéctanse usando un detector UV ou de fluorescencia e as áreas de pico comparadas coas dos estándares derivados para cuantificar cada aminoácido da mostra.

Análise de aminoácidos N-terminais

Determinar que aminoácido forma o N-terminal dunha cadea peptídica é útil por dúas razóns: para axudar a ordenar secuencias de fragmentos de péptidos individuais na cadea completa, e porque a primeira rolda da degradación de Edman está a miúdo contaminada por impurezas e, polo tanto, non dá lugar a unha deteminación exacta do aminoácido N-terminal. Un método xeneralizado para a análise do aminoácido N-terminal é o seguinte:

Facer reaccionar o péptido cun reactivo que etiquetará selectivamente o aminoácido terminal.
Hidrólise da proteína.
Determinar o aminoácido por cromatografía e comparación cos estándares.

Hai moitos reactivos que se poden usar para etiquetar os aminoácidos terminais. Todos eles reaccionan con grupos amino e, polo tanto, únense tamén aos grupos amino da cadea lateral de aminoácidos como a lisina, e por esta razón cómpre ser coidadoso ao interpretar cromatogramas para asegurarse que se elixiu o lugar correcto. Os dous reactivos máis comúns son o reactivo de Sanger (1-fluoro-2,4-dinitrobenceno) e os derivados dansilo como o cloruro de dansilo. Tamén se pode usar o fenilisotiocianato, o reactivo usado para a degradación de Edman. Aquí aplícanse as mesmas cuestións que na determinación da composición de aminoácidos, coa excepción de que non se necesita tinguidura, xa que os reactivos producen derivados coloreados e só cómpre facer unha análise cualitativa. Deste xeito, o aminoácido non ten que ser eluído da columna cromatográfica, só comparado cun estándar. Outra consideración a ter en conta é que, como todos os grupos amino terán reaccionado co reactivo etiquetador, non se pode utilizar a cromatografía de intercambio iónico e deberían utilizarse no seu lugar a cromatografía en capa fina ou a cromatografía líquida de alta presión.

Análise de aminoácidos C-terminais

O número de métodos dispoñibles para a análise dos aminoácidos C-terminais é moito menor que o dos que analizan os N-terminais. O método máis común é engadir carboxipeptidases á solución da proteína, tomar mostras a intervalos regulares e determinar o aminoácido terminal analizando un gráfico de concentración de aminoácidos fronte ao tempo. Este método será moi útil no caso de N-terminais bloqueados de polipéptidos e proteínas. A secuenciación C-terminal pode ser de grande axuda na verificación de estruturas primarias de proteínas preditas a partir de secuencias de ADN e para detectar calquera procesamento postraducional dos produtos do xene a partir de secuencias de codóns coñecidas.

Degradación de Edman

A degradación de Edman é unha reacción moi importante para a secuenciación de proteínas, porque permite dilucidar cal é a composición ordenada de aminoácidos da proteína. Os secuenciadores de Edman automatizados son agora de uso habitual, e poden secuenciar péptidos de ata uns 50 aminoácidos de longo. Un esquema da reacción para secuenciar unha proteína pola degradación de Edman é a seguinte; algúns dos pasos son explicados con máis detalle máis adiante.

Romper todas s pontes disulfuro da proteína cun axente redutor como o 2-mercaptoetanol. Pode ser necesario un grupo protector como o ácido iodoacético para impedir que se volvan formar os enlaces disulfuro.
Separar e purificar as cadeas individuais do complexo proteico, se hai máis dunha.
Determinar a composición de aminoácidos de cada cadea.
Determinar os aminoácidos terminais de cada cadea.
Romper cada cadea en fragmentos de menos de 50 aminoácidos de longo.
Separar e purificar os fragmentos.
Determinar a secuencia de cada fragmento.
Repetir cun padrón de corte diferente.
Construír as secuencias da proteína completa.

Dixestión en fragmentos peptídicos

Os péptidos mairoes de 50–70 aminoácidos non se poden secuenciar fiablemente pola degradación de Edman. Debido a isto, as cadeas proteicas longas deben romperse en fragmentos pequenos que poden despois secuenciarse individualmente. A dixestión faise por endopeptidases como a tripsina ou pepsina ou por reactivos químicos como o bromuro de cianóxeno. Diferentes encimas dan lugar a distintos padróns de corte, e pode utilizarse o solapamento entre fragmentos para construír a secuencia completa.

Reacción

O péptido que hai que secuenciar é adsorbido nunha superficie sólida. Un substrato común é a fibra de vidro cuberta con polibreno, un polímero catiónico. O reactivo de Edman, o fenilisotiocianato (PITC), engádese ao péptido adsorbido, xunto cunha solución tamponada debilmente básica de trimetilamina ao 12 %. Este reacciona co grupo amino do aminoácido N-terminal.

O aminoácido terminal pode despois ser separado selectivamente pola adición de ácido anhidro. O derivado despois isomerízase para dar unha feniltiohidantoína substituída, que pode ser arrastrada por lavado e identificada por cromatografía, e o ciclo pode repetirse. A eficiencia de cada paso é de aproximadamente o 98 %, o cal permite que se determinen fiablemente uns 50 aminoácidos.

Secuenciador de proteínas

Un secuenciador de proteínas ^[3] é unha máquina que realiza a degradación de Edman de maneira automatizada. Unha mostra da proteína ou péptido inmobilízase no recipiente de reacción do secuenciador de proteínas e realízase a degradación de Edman. Cada ciclo libera e deriva un aminoácido do N-terminal da proteína ou péptido e o derivado de aminoácido liberado é despois identificado por HPLC. O proceso de secuenciación faise repetidamente para o polipéptido completo ata que se establece cal é a secuencia medible completa ou durante un número predeterminado de ciclos.

Identificación por espectrometría de masas

Artigos principais: Espectrometría de masas de proteínas e secuenciación de péptidos de novo.

A identificación proteica é o proceso de asignar un nome a unha proteína de interese, baseándose na súa secuencia de aminoácidos. Tipicamente, só unha parte da secuencia de proteína ten que determinarse experimentalmente para identificar a proteína con referencia a bases de datos de secuencias de proteínas deducidas a partir de secuencias de ADN dos seus xenes. Unha maior caracterización da proteína pode incluír a confirmación dos N- e C-terminais reais da proteína de interese, a determinación de variantes de secuencias e a identificación de calquera modificación postraducional presente.

Dixestión proteolítica

Descríbese un esquema xeral para a identificación da proteína.^[4]^[5]

Íllase a proteína de interese, normalmente por SDS-PAGE ou cromatografía.
A proteína de interese illada pode ser modificada quimicamente para estabilizar residuos de cisteína (por exemplo, por S-amidometilación ou S-carboximetilación).
A proteína de interese dixírese cunha potease específica para xerar péptidos. A tripsina, que corta selectivamente no lado C-terminal de residuos de lisina ou arxinina, é a protease máis usada. As súas vantaxes son: i) a alta frecuencia de residuos de Lys e Arg nas proteínas, ii) a alta especificidade do encima, iii) a estabilidade do encima e iv) a adecuación dos péptidos trípticos para a espectrometria de masas (MS).
Os péptidos poden ser desalgados para eliminar contaminantes ionizables e sometidos a espectrometría de masas MALDI-TOF. A medición directa das masas dos péptidos pode proporcionar información suficiente para identificar a proteína (ver pegada dactilar de masas de péptidos) pero unha maior fragmentación dos péptidos dentro do espectrómetro de masas a miúdo úsase para obter información sobre as secuencias de péptidos. Alternativamente, os péptidos poden ser desalgados e separados por HPLC de fase inversa e introducidos nun espectrómetro de masas por medio dunha fonte de ESI. A LC-ESI-MS pode proporcionar máis información que a MALDI-MS para a identificación de proteínas, pero usa máis tempo de instrumento.
Dependendo do tipo de espectrómetro de masas, a fragmentación de ións peptídicos pode ocorrer por medio dunha variedade de mecanismos como a disociación inducida por colisión (CID) ou o decaimento posfonte (PSD). En cada caso, o padrón do fragmento de ións peptídicos proporciona información sobre a súa secuencia.
A información que inclúe a masa medida dos ións peptídicos supostos e daqueles dos seus fragmentos ionizados confróntase e búscase a concordancia con valores de masas, calculadas a partir da proteólise conceptual (en computador) e fragmentación, de bases de datos de secuencias de proteínas. Atoparase unha concordancia se o seu valor excede un limiar baseado nos parámetros de análise. Incluso se a proteína real non está representada na base de datos, a correspondencia tolerante ao erro permite a identificación suposta dunha proteína baseándose na semellanza con proteínas homólogas. Disponse de diversos paquetes de software para ralizar esta análise.
Os paquetes de software normalmente xeran un informe que mostra a identidade (código de acceso) de cada proteína identificada, o seu valor de coincidencia, e proporcionan unha medida da forza relativa da concordancia, de onde se identifican múltiples proteínas.
A miúdo utilízase un diagrama dos péptidos concordantes coa secuencia da proteína identificada para mostrar a cobertura da secuencia (% da proteína detectada como péptidos). Onde a proteína de interese se pensa que é significativamente máis pequena que a proteína que concorda, o diagrama pode indicar se a proteína de interese é un fragmento N- ou C-terminal da proteína identificada.

Secuenciación de novo

O padrón de fragmentación dun péptido permite a determinación directa da súa secuencia por secuenciación de novo. Esta secuencia pode usarse para establecer a correspondencia con secuencias de proteínas de bases de datos ou para investigar modificacións postraducionais ou modificacións químicas. Pode proporcionar evidencias adicionais para a identificación de proteínas realizadas como se indicou máis arriba.

N- e C-terminais

Os péptidos aos que se lles atopou unha correspondencia durante a identificación de proteínas non necesariamente inclúen os N- ou C-terminais preditos para a proteína en cuestión. Isto pode resultar de que os péptidos N- ou C-terminais sexan difíciles de identificar por espectrometría de masas (por exemplo, por seren demasiado curtos ou demasiado longos), ou por estaren modificados postraducionalmente (por exemplo, por acetilación N-terminal) ou porque difiren realmente da predición. As modificacións postraducionais ou os terminais truncados poden identificarse por un exame detallado dos datos (é dicir, por secuenciación de novo). Unha dixestión repetida usando unha protease de diferente especificidade pode ser tamén útil.

Modificacións postraducionais

Aínda que se pode usar a comparación detallada de datos de espectrometría de masas con predicións baseadas na secuencia proteica coñecida para definir as modificacións postraducionais, poden utilizarse tamén estratexias orientadas para a adquisición de datos. Por exemplo, o enriquecemento específico de fosfopéptidos pode axudar a identificar os sitios de fosforilación dunha proteína. Os métodos alternativos de fragmentación de péptidos no espectrómetro de masas, como a ETD ou a ECD, poden dar información da secuencia complementaria.

Determinación da masa total

A masa total da proteína é a suma das masas dos seus residuos de aminoácidos máis a masa dunha molécula de auga e axustada para calquera modificación postraducional que houber. Aínda que as proteínas se ionizan peor que os péptidos que derivan delas, unha proteína en solución pode ser sometida a ESI-MS e a súa masa medida cunha exactitude dunha parte en 20.000 ou mellor. Isto adoita ser dabondo para confirmar os terminais (así esa masa medida da proteína correspóndese co predito a partir da súa secuencia) e inferir a presenza ou ausencia de moitas modificacións postraducionais.

Limitacións

A proteólise non sempre orixina un conxunto de péptidos doadamente analizables que cubran a secuencia completa da proteína de interese. A fragmentación de péptidos no espectrómetro de masas a miúdo non orixina os ións correspondentes ao corte de cada enlace peptídico. Deste xeito, a secuencia deducida para cada péptido non é necesariamente completa. Os métodos estándar de fragmentación non distinguen entre os residucos de leucina e isoleucina, xa que son isómeros.

Como a degradación de Edman procede empezando polo N-terminal da proteína, non funciona se o N-terminal foi modificado quimicamente (por exemplo, por acetilación ou pola formación de ácido piroglutámico). A degradación de Edman xeralemtne non é útil para determinar as posicións das pontes disulfuro. Tamén require cantidades de péptido de polo menos 1 picomol para ter resultados discernibles, o que a fai menos sensible que a espectrometría de masas.

Predición a partir de secuencias de ADN/ARN

En bioloxía, as proteínas fórmanse pola tradución de ARN mensaxeiro (ARNm) e a secuencia proteica deriva da secuencia de codóns do ARNm. O ARNm fórmase a partir da transcrición de xenes e pode ser modificado posteriormente. Estes procesos son suficientemente comprendidos para podermos usar algoritmos computacionais para automatizar as predicións de secuencias proteicas a partir de secuencias de ADN, como a partir dos proxectos de secuenciación de ADN de xenoma completo, e isto levou á xeración de grandes bases de datos de secuencias de proteínas como UniProt. As secuencias de proteínas preditas son unha fonte importante para a identificaión de proteínas por espectrometría de masas.

Historicamente, as secuencias curtas de proteína (de 10 a 15 residuos) determinadas pola degradación de Edman eran retrotraducidas a secuencias de ADN que podían usarse como sondas ou cebadores para illar clons moleculares do xene correspondente ou ADN complementario. A secuencia do ADN clonado era despois determinada e utilizada para deducir a secuencia de aminoácidos completa da proteína.

Ferramentas bioinformáticas

As ferramentas bioinformáticas axudan a interpretar os espectros de masas (ver secuenciación de péptidos de novo), para comparar ou analizar secuencias proteícas (ver análise de secuencias), ou facer buscas en bases de datos de secuencias de péptidos ou proteínas (ver BLAST).

Aplicacións á criptografía

A dificultade de secuenciar unha proteína foi recentemente proposta como unha base para crear programas de tempo k, que son programas que funcionan exactamente durante un tempo k antes de autodestruírse. Unha cousa como esta é imposible de construír soamente con software porque todo software é inherentemente clonable un número ilimitado de veces.

Notas

↑ Bogosian G, Violand BN, Dorward-King EJ, Workman WE, Jung PE, Kane JF (xaneiro de 1989). "Biosynthesis and incorporation into protein of norleucine by Escherichia coli". The Journal of Biological Chemistry 264 (1): 531–9. PMID 2642478. doi:10.1016/S0021-9258(17)31291-7.
↑ Michail A. Alterman; Peter Hunziker (2 de decembro de 2011). Amino Acid Analysis: Methods and Protocols. Humana Press. ISBN 978-1-61779-444-5.
↑ Edman P, Begg G (marzo de 1967). "A protein sequenator". European Journal of Biochemistry 1 (1): 80–91. PMID 6059350. doi:10.1111/j.1432-1033.1967.tb00047.x.
↑ Shevchenko A, Tomas H, Havlis J, Olsen JV, Mann M (2006). "In-gel digestion for mass spectrometric characterization of proteins and proteomes". Nature Protocols 1 (6): 2856–60. PMID 17406544. doi:10.1038/nprot.2006.468.
↑ Gundry RL, White MY, Murray CI, Kane LA, Fu Q, Stanley BA, Van Eyk JE (outubro de 2009). "Preparation of proteins and peptides for mass spectrometry analysis in a bottom-up proteomics workflow". Current Protocols in Molecular Biology. Chapter 10: Unit10.25. ISBN 978-0471142720. PMC 2905857. PMID 19816929. doi:10.1002/0471142727.mb1025s88.

Véxase tamén

Outros artigos

Bibliografía

Steen H, Mann M (setembro de 2004). "The ABC's (and XYZ's) of peptide sequencing". Nature Reviews Molecular Cell Biology 5 (9): 699–711. PMID 15340378. doi:10.1038/nrm1468.

[1] Bogosian G, Violand BN, Dorward-King EJ, Workman WE, Jung PE, Kane JF (xaneiro de 1989). "Biosynthesis and incorporation into protein of norleucine by Escherichia coli". The Journal of Biological Chemistry 264 (1): 531–9. PMID 2642478. doi:10.1016/S0021-9258(17)31291-7.

[AltermanHunziker2011-2] Michail A. Alterman; Peter Hunziker (2 de decembro de 2011). Amino Acid Analysis: Methods and Protocols. Humana Press. ISBN 978-1-61779-444-5.

[3] Edman P, Begg G (marzo de 1967). "A protein sequenator". European Journal of Biochemistry 1 (1): 80–91. PMID 6059350. doi:10.1111/j.1432-1033.1967.tb00047.x.

[4] Shevchenko A, Tomas H, Havlis J, Olsen JV, Mann M (2006). "In-gel digestion for mass spectrometric characterization of proteins and proteomes". Nature Protocols 1 (6): 2856–60. PMID 17406544. doi:10.1038/nprot.2006.468.

[5] Gundry RL, White MY, Murray CI, Kane LA, Fu Q, Stanley BA, Van Eyk JE (outubro de 2009). "Preparation of proteins and peptides for mass spectrometry analysis in a bottom-up proteomics workflow". Current Protocols in Molecular Biology. Chapter 10: Unit10.25. ISBN 978-0471142720. PMC 2905857. PMID 19816929. doi:10.1002/0471142727.mb1025s88.

[1]

[2]

[3]

[4]

[5]