Aliñamento de secuencias

Na Galipedia, a Wikipedia en galego.

En bioinformática, un aliñamento[1] de secuencias é unha forma de representar e comparar dúas ou máis secuencias ou cadeas de ADN, ARN, ou estruturas primarias proteicas para resaltar as súas zonas de similitude, que poderían indicar relacións funcionais ou evolutivas entre os xenes ou proteínas examinados. As secuencias aliñadas escríbense colocando as letras (que representan aminoácidos ou nucleótidos) en ringleiras formando unha matriz nas que, se é necesario, se insiren espazos para que as zonas con idéntica ou similar estrutura queden aliñadas.

Un aliñamento de secuencias, xerado por ClustalW entre dúas proteínas dedo de cinc identificadas polo número de acceso GenBank (Clave).

Se dúas secuencias nun aliñamento comparten un antepasado común, as non coincidencias observadas poden interpretarse como mutacións puntuais (substitucións), e os ocos como indeis (mutacións de inserción ou deleción) introducidas nunha ou en ambas as liñaxes no tempo que transcurreu desde que diverxiron. No aliñamento de secuencias proteicas, o grao de similitude entre os aminoácidos que ocupan unha posición concreta na secuencia pode interpretarse como unha medida aproximada de conservación nunha rexión particular, ou secuencia motivo, entre liñaxes. A ausencia de substitucións, ou a presenza de substitucións moi conservadas (a substitución de aminoácidos con cadeas laterais con propiedades químicas similares) nunha rexión particular da secuencia indica que esta zona ten importancia estrutural ou funcional. Aínda que as bases nucleotídicas do ADN e ARN son máis similares entre si que os aminoácidos, a conservación do emparellamento de bases podería indicar papeis funcionais ou estruturais semellantes. O aliñamento de secuencias pode utilizarse con secuencias non biolóxicas, como oxorre na identificación de similitudes en series de letras e palabras da linguaxe humana ou en análises de datos financeiros.

As secuencias moi curtas ou moi similares poden aliñarse manualmente. Aínda así, para resolver os problemas máis interesantes cómpre aliñar secuencias longas, moi variables e extremadamente numerosas que non poden ser aliñadas directamente por humanos e cómpre utilizar medios informáticos. O coñecemento humano aplícase principalmente á construción de algoritmos que produzan aliñamentos de alta calidade, e ocasionalmente axustando o resultado final para representar patróns que son difíciles de introducir en algoritmos (especialmente no caso de secuencias de nucleótidos). As aproximacións computacionais ao aliñamento de secuencias divídense en dúas categorías: aliñamento global e aliñamento local. Calcular un aliñamento global é unha forma de optimización global que "forza" ao aliñamento a ocupar a lonxitude total de todas as secuencias introducidas (secuencias problema). Comparativamente, os aliñamentos locais identifican rexións similares dentro de longas secuencias que normalmente son moi diverxentes entre si. A miúdo prefírense os aliñamentos locais, pero poden ser máis difíciles de calcular porque se engade o desafío de identificar as rexións de maior similitude. Ao problema do aliñamento de secuencias aplícanse grande variedade de algoritmos computacionais, como métodos lentos, pero de optimización, como a programación dinámica, e métodos heurísticos ou probabilísticos eficientes, pero non exhautivos, deseñados para a procura a grande escala en bases de datos.

Representacións[editar | editar a fonte]

Os aliñamentos represéntanse normalmente cun formato gráfico e de texto. En case todas as representacións de aliñamentos, as secuencias escríbense en ringleiras de tal xeito que os residuos aliñados aparecen en columnas sucesivas. Nos formatos de texto, as columnas aliñadas conteñen caracteres idénticos ou similares, estes últimos indicados con sistemas de símbolos de conservación. Na imaxe superior utilízase o asterisco para indicar identidade entre dúas columnas. Outros símbolos menos comúns son a coma para substitucións conservativas e o punto para substitucións semiconservativas. Moitos programas de visualización de secuencias utilizan tamén esquemas coloreados para mostrar información das propiedades dos elementos secuencia individuais; en secuencias de ADN e ARN isto significa asignar a cada base a súa propia cor. En aliñamentos de proteínas, como o da imaxe superior, as colores utilízanse para indicar propiedades dos aminoácidos para axudar na caracterización de conservación ou nunha substitución de aminoácidos dada. Cando se introducen múltiples secuencias a última ringleira de cada columna adoita representar a secuencia consenso determinada polo aliñamento. Tamén acostuma a representarse a secuencia consenso nun formato gráfico baixo un logo de secuencias, no que o tamaño da letra de cada nucleótido ou aminoácido é proporcional ao seu grao de conservación.[2]

Os aliñamentos de secuencias poden almacenarse nunha ampla variedade de formatos de ficheiro de texto, moitos dos cales foron desenvolvidos ao mesmo tempo que un programa ou implementación de aliñamento. A maioría das ferramentas web permiten varios formatos de entrada e saída, como o formato FASTA e GenBank. A utilización de ferramentas específicas en cada laboratorio de investigación pode complicarse pola baixa compatibilidade. Existen programas de conversión xenérica en SEQRET (EMBOSS), ou en DNA Baser.

Aliñamentos locais e globais[editar | editar a fonte]

Imaxe dun aliñamento local e outro global demostrando a tendencia a poñer ocos dos aliñamentos globais se as secuencias non son moi similares.

Os aliñamentos globais, que intentan aliñar cada residuo de cada secuencia, son máis útiles cando as secuencias problema iniciais son similares e aproximadamente do mesmo tamaño (isto non quere dicir que os aliñamentos globais non poidan terminar en ocos). Unha estratexia xeral de aliñamento global é o algoritmo de Needleman-Wunsch baseado en programación dinámica. Os aliñamentos locais son máis útiles para secuencias diferenciadas nas que se sospeita que existen rexións moi similares ou motivos de secuencia similares dentro dun contexto maior. O algoritmo de Smith-Waterman é un método xeral de aliñamento local baseado en programación dinámica. Cando as secuencias son suficientemente similares, non existe diferenza entre aliñamentos globais e locais.

Os métodos híbridos, coñecidos como semiglobais ou métodos "glocais" (globais + locais) intentan atopar o mellor aliñamento posible que inclúa o inicio e o final dunha ou outra secuencia. Pode ser especialmente útil cando a parte situada "corrente arriba" dunha secuencia se solapa coa parte situada "corrente abaixo" da outra. Neste caso, nin o aliñamento global nin o local son completamente adecuados: un aliñamento global intentará forzar á aliñación a estenderse máis alá da rexión de solapamento, mientres que o aliñamento local non cubrirá totalmente a rexión solapada.[3] [4]

Aliñamento de pares[editar | editar a fonte]

Os métodos de aliñamento de pares, ou emparellamentos, utilízanse para encontrar a mellor coincidencia en bloque (local) ou aliñamento global de dúas secuencias. Os aliñamentos de pares só poden utilizarse con dúas secuencias á vez, pero son eficientes de calcular, e son utilizados a miúdo en métodos que non requiren precisión extrema, como a procura en bases de datos de secuencias con alta homoloxía de secuencia con respecto a unha petición. Os tres métodos principais de xerar aliñamentos de pares son os de matriz de puntos, os de programación dinámica e os de busca de palabra,[5] aínda que a maioría dos métodos de aliñamento de secuencias múltiple poden funcionar con só dúas secuencias. Aínda que cada método ten os seus propios puntos fortes e fracos, todos eles teñen problemas para aliñar secuencias repetitivas con baixo contido de información, especialmente cando o número de repeticións pode ser diferente nas dúas secuencias que se aliñan. Unha maneira de cuantificar a utilidade dun aliñamento de pares determinado é a "máxima coincidencia individual", ou a maior subsecuencia que se dá en ambas as secuencias en estudo. En xeral, canto maior sexa tal subsecuencia, máis próxima será a súa relación.

Métodos de matriz de puntos[editar | editar a fonte]

Unha matriz de puntos de ADN do factor de transcrición dedo de cinc humano (GenBank ID NM_002383), mostrando autosimilitude rexional. A diagonal principal representa o aliñamento da secuencias consigo mesma; as liñas fóra desta diagonal representan patróns similares ou repetitivos dentro da secuencia. É un exemplo típico de gráfica recorrente.

O enfoque de matriz de puntos (ou matrix-dot), que implicitamente produce unha familia de aliñamentos para rexións individuais da secuencia, é cualitativo e simple, malia que consome moito tempo para análises a grande escala. É doado identificar visualmente determinadas características da secuencia (tales como insercións, delecións, repeticións, ou repeticións invertidas) nunha gráfica de matriz de puntos. Para construír unha gráfica de matriz de puntos, as dúas secuencias colócanse ao longo da ringleira superior e da columna que está máis á esquerda da matriz de dúas dimensións e colócase un punto en calquera lugar no que coincidan os caracteres nas columnas correspondentes (esta é unha típica gráfica recorrente). Algunhas implementacións varían o tamaño ou a intensidade dos puntos en función do grao de similitude dos dous caracteres, para dar cabida ás substitucións conservadas. A gráfica de puntos de secuencias moi estreitamente relacionadas aparece como unha única liña ao longo da diagonal principal da matriz.

As gráficas de puntos tamén poden utilizarse para avaliar a repetitividade nunha soa secuencia: unha secuencia represéntase graficamente co plotter contra si mesma, e as rexións que comparten similitudes significativas aparecerán como liñas fóra da diagonal principal. Este efecto pode darse cando unha proteína consta de múltiples dominios estruturais similares.

Programación dinámica[editar | editar a fonte]

A técnica de programación dinámica pode aplicarse para producir aliñamentos globais por medio do algoritmo de Needleman-Wunsch, e aliñamentos locais por medio do algoritmo de Smith-Waterman. Nunha utilización habitual, nos aliñamentos de proteínas utilízase unha matriz de substitución para asignar puntuacións ás coincidencias e ás diferenzas entre aminoácidos, e unha penalización por gap (literalmente oco, aínda que na literatura se usa moitas veces o termo en inglés) ao facer coincidir un aminoácido dunha secuencia cun oco noutra. En aliñamentos de ADN e ARN pode usarse unha matriz de puntuacións, pero na práctica, a miúdo, asígnase simplemente unha puntuación positiva ás coincidencias, unha negativa ás diferenzas, e outra penalización negativa aos gaps. (Na programación dinámica estándar a puntuación da posición de cada aminoácido é independente da identidade dos seus veciños, polo que os efectos do chamado base stacking non se teñen en conta. Porén, é posible facelo modificando o algoritmo.)

A programación dinámica pode ser útil no aliñamento de nucleótidos con secuencias de proteínas, que é unha tarefa complicada pola necesidade de ter en consideración as mutacións con cambio (insercións ou delecións, normalmente). A busca do marco aberto de lectura proporciona unha serie de aliñamentos de pares locais ou globais entre unha secuencia de nucleótidos a investigar (secuencia problema) e un conxunto de busca de secuencias de proteínas, ou viceversa. A pesar de que o método é moi lento, a súa capacidade para avaliar a compensación dos marcos de lectura para un número arbitrario de nucleótidos covérteo en útil para secuencias que conteñan un bo número de indeis, os cales poden ser moi difíciles de aliñar con métodos heurísticos máis eficaces. Na práctica, o método require moita potencia de cómputo, ou un sistema cuxa arquitectura estea especializada en programación dinámica. As suites BLAST e EMBOSS proporcionan ferramentas básicas para crear aliñamentos adaptados (aínda que algún destes enfoques tira vantaxe dos efectos laterais da capacidade de busca de secuencias das ferramentas). Disponse de métodos máis xerais tanto de fontes comerciais (como “FrameSearch”, distribuído como parte do paquete Accelrys GCG), coma de software de código aberto (como Genewise).

O método de programación dinámica garante encontrar un aliñamento óptimo para unha función de puntuación en particular; porén, identificar una boa función de puntuación é normalmente unha cuestión máis empírica que teórica. Malia que a programación dinámica é extensible a máis de dúas secuencias, é prohibitivamente lenta para aplicala a un número grande de secuencias moi longas.

Métodos de palabra curta[editar | editar a fonte]

Os métodos de palabra curta, tamén chamados métodos de k-tuplas, son métodos heurísticos que non garanten atopar unha solución de aliñamento óptima, mais son significativamente máis eficientes que a programación dinámica. Estes métodos son especialmente útiles en buscas en bases de datos a grande escala, onde se asume que unha grande proporción das secuencias candidatas non terán coincidencias significativas coa secuencia problema. Os métodos de palabra curta son máis coñecidos pola súa implementación nas ferramentas de busca en bases de datos FASTA e a familia BLAST.[5] Estes métodos identifican na secuencia problema unha serie de subsecuencias curtas que non se solapan (“palabras”), e que se contrastan coas secuencias da base de datos. As posicións relativas da palabra nas dúas secuencias a comparar réstanse para obter un valor de desprazamento; manifestarase así unha rexión de aliñamento se varias palabras diferentes producen o mesmo desprazamento. Só cando se detecta esta rexión, estos métodos aplicarán criterios de aliñamento máis sensibles. Desta forma elimínanse moitas comparacións innecesarias entre secuencias con similitude inapreciable.

No método FASTA, o usuario define un valor “k” para definir a lonxitude da palabra coa cal procurar na base de datos. O método é máis lento, pero máis sensible, para valores baixos de “k”, que tamén son preferibles para buscas que impliquen unha secuencia problema moi curta. A familia BLAST de métodos de búsqueda proporciona varios algoritmos optimizados para tipos particulares de problemas, tales como a busca de coincidencias entre secuencias escasamente relacionadas. BLAST desenvolveuse para proporcionar unha alternativa máis rápida a FASTA sen sacrificar demasiada precisión. Igual que FASTA, BLAST utiliza unha palabra de busca de lonxitude “k”, pero só avalía as coincidencias máis significativas das palabras, en lugar de avaliar cada coincidencia como fai FASTA. A maioría das implementacións de BLAST usan unha lonxitude de palabra fixada por defecto que se optimiza para o problema e o tipo de base de datos, e que se cambia só baixo circunstancias específicas tales como buscas con secuencias problema repetitivas ou moi curtas. Poden encontrarse implementacións en varios portais web, como EMBL FASTA e NCBI BLAST.

Aliñamento de secuencias múltiple[editar | editar a fonte]

Aliñamento de 27 secuencias da proteína hemaglutinina da gripe aviaria, coloreado segundo a conservación de residuos (máis escuro canta maior conservación, arriba) e as súas propiedades químicas (abaixo).

O aliñamento de secuencias múltiple (ou aliñamento múltiple de secuencias) é unha ampliación do aliñamento de pares que incorpora máis de dúas secuencias ao mesmo tempo. Os métodos de aliñamento múltiple intentan aliñar todas as secuencias dun conxunto dado. Os aliñamentos múltiples utilízanse con frecuencia na identificación de rexións conservadas nun grupo de secuencias que hipoteticamente están relacionadas evolutivamente. Estes motivos conservados poden utilizarse en conxunto coa estrutura e con información mecanística para localizar sitios activos catalíticos de encimas. Os aliñamentos tamén se utilizan para axudar a establecer relacións evolutivas construíndo árbores filoxenéticas. Os aliñamentos de secuencias múltiples son computacionalmente difíciles de producir e a maioría das formulacións do problema presentan dificultades de optimización combinatorial NP-completos.[6] Porén, a utilidade destes aliñamentos en bioinformática deu lugar ao desenvolvemento dunha variedade de métodos axeitados para a aliñación de tres ou máis secuencias.

Programación dinámica[editar | editar a fonte]

A técnica de programación dinámica é teoricamente aplicable a calquera número de secuencias; non obstante, como é computacionalmente costosa tanto en tempo coma en memoria, raramente se usa na súa forma máis básica para máis de tres ou catro secuencias. Este método require a construción dun equivalente n-dimensional da matriz formada por dúas secuencias, onde “n” é o número de secuencias problema. A programación dinámica estándar úsase primeiro en todos os emparellamentos entre as secuencias problema, polo que o “espazo de aliñamento” se enche considerando posibles coincidencias ou ocos nas posicións intermedias, construíndo, finalmente e en esencia, un aliñamento entre cada aliñamento de dúas secuencias. Aínda que esta técnica é computacionalmente costosa, a garantía que dá dunha solución global óptima é útil en casos onde só se necesita aliñar unhas cantas secuencias con precisión. Un método para reducir as demandas computacionais de programación dinámica, que depende da función obxectivosuma de pares”, implementouse no paquete de software MSA.[7]

Métodos progresivos[editar | editar a fonte]

Os métodos progresivos, xerárquicos, ou por árbore, xeran un aliñamento múltiple de secuencias aliñando primeiro as secuencias máis semellantes, para ir engadindo sucesivamente ao aliñamento secuencias ou grupos menos relacionados, ata que o conxunto problema completo foi incorporado á solución. A árbore inicial que describe o parentesco das secuencias baséase en comparacións de emparellamentos que poderían incluir métodos de emparellamento heurístico para alineamentos similares a FASTA. Os resultados do aliñamento progresivo dependen da elección das secuencias “máis relacionadas”, polo que poden ser sensibles a imprecisións nos aliñamentos de emparellamentos iniciais. A maioría dos métodos progresivos de aliñamento de secuencias múltiple ponderan adicionalmente as secuencias no conxunto problema de acordo co seu parentesco, o que reduce a probabilidad de efectuar unha mala elección das secuencias iniciais e así mellórase a precisión do aliñamento.

Un bo número de variacións da implementación progresiva de Clustal[8][9][10] utilízanse para aliñamentos de secuencias múltiples, construción de árbores filoxenéticas, e como entrada para a predición da estrutura de proteínas. Unha variante do método progresivo máis lenta pero máis precisa denomínase “T-Coffee” (Tree-based Consistency Objective Function For alignment Evaluation),[11] da cal poden atoparse implementacións en ClustalW e T-Coffee.

Métodos iterativos[editar | editar a fonte]

Os métodos iterativos intentan mellorar o punto feble dos métodos progresivos: a súa forte dependencia da precisión dos aliñamentos dos emparellamentos iniciais. Os métodos iterativos optimizan unha función obxectivo baseada nun método seleccionado de puntuación de aliñamento por medio da asignación dun aliñamento global inicial e o posterior realiñamento de subconxuntos de secuencias. Os subconxuntos realiñados son entón aliñados consigo mesmos para producir a seguinte iteración de aliñamento de secuencias múltiple. Estanse a analizar varias formas de selección dos subgrupos de secuencias e da función obxectivo.[12]

Descubrimento de motivos[editar | editar a fonte]

Para o descubrimento de motivos, ou análise de perfís, constrúense aliñamentos múltiples globais de secuencias que intentan aliñar secuencias motivo curtas conservadas entre as secuencias do conxunto problema. Faise xeralmente, construíndo primeiro un aliñamento de secuencias múltiple global, tralo cal as rexións moi conservadas se identifican e se utilizan para construír un conxunto de matrices de perfil (tamén chamadas matrices ponderadas ou matrices de pesos). A matriz do perfil de cada rexión conservada disponse como unha matriz de puntuación, mais as súas cifras de frecuencias para cada aminoácido ou nucleótido en cada posición derívanse da distribución dos caracteres da rexión conservada, en lugar dunha distribución empírica máis xeral. As matrices de perfil úsanse para buscar as aparicións do motivo que caracterizan noutras secuencias. Nos casos nos que o conxunto de datos orixinal contén un pequeño número de secuencias, ou só secuencias moi relacionadas, engádense pseudocontadores para normalizar as distribucións de caracteres representadas no motivo.

Técnicas inspiradas polas ciencias da computación[editar | editar a fonte]

Aplicáronse tamén ao problema do aliñamento de secuencias diversos algoritmos xerais de optimización usados comunmente en ciencias da computación. Os modelos ocultos de Markov utilizáronse para producir rexistros de probabilidades para unha familia de posibles aliñamentos de secuencias múltiples nun determinado conxunto problema. Aínda que os primeiros métodos baseados nestes modelos tiñan pouco rendemento, foron moi efectivos en aplicacións posteriores para detectar secuencias remotamente relacionadas, porque son menos susceptibles ao ruído creado por substitucións conservativas ou semiconservativas.[13] Os algoritmos xenéticos e o aliñamento simulado (simulated annealing) utilizáronse para optimizar as puntuacións de aliñamentos de secuencias múltiples, valorándoos por medio dunha función de puntuación como a do método de suma de pares.

Aliñamento estrutural[editar | editar a fonte]

Artigo principal: Aliñamento estrutural.

Os aliñamentos estruturais, que son específicos das proteínas e, algunhas veces, de secuencias de ARN, usan información sobre a estrutura secundaria e terciaria da proteína ou molécula de ARN como axuda para aliñar as secuencias. Estes métodos poden usarse para dúas ou máis secuencias, e producen tipicamente aliñamentos locais. Porén, como dependen da dispoñibilidade de información estrutural, só poden utilizarse para secuencias con estruturas coñecidas (obtidas, normalmente, por cristalografía de raios X ou espectroscopía de resonancia magnética nuclear). Como a estrutura das proteínas ou do ARN está máis conservada evolutivamente que a súa secuencia,[14] os aliñamentos estruturais poden ser máis fiables entre secuencias que estean moi pouco relacionadas e que diverxiran tanto que por medio da comparación das secuencias non se poida detectar con certeza a súa similitude.

Os aliñamentos estruturais úsanse como o “patrón ouro” para avaliar aliñamentos na predición da estrutura de proteínas baseada na homoloxía,[15] xa que explicitamente aliñan rexións da secuencia da proteína que son estruturalmente similares en lugar de depender exclusivamente da información derivada da secuencia. Non obstante, os aliñamentos estruturais non poden usarse na predición da estrutura porque polo menos unha secuencia no conxunto problema é o obxectivo a modelar, para a cal a estrutura se descoñece. Demostrouse que, dado o aliñamento estrutural entre a secuencia obxectivo e unha secuencia molde, poden producirse modelos moi precisos da proteína obxectivo. Un importante atranco na predición da estrutura baseada en homoloxía é a produción de aliñamentos estruturalmente precisos dada só a información da secuencia.[15]

DALI[editar | editar a fonte]

O método DALI (do inglés, Distance matrix ALIgnment, aliñamento de matriz de distancias), é un método fragmentario para construír aliñamentos estruturais baseados en patróns de similitude de contacto entre sucesivos hexapéptidos nas secuencias problema.[16] Pode xerar emparellamentos ou aliñamentos múltiples, e identificar os veciños estruturais dunha secuencia problema no Protein Data Bank (PDB). Tense utilizado para construír a base de datos de aliñamentos estruturais FSSP (do inglés Families of Structurally Similar Proteins, familias de proteínas estruturalmente similares). Pode accederse a un servidor web de DALI en EBI DALI , e a FSSP localízase na base de datos DALI.

SSAP[editar | editar a fonte]

O SSAP (do inglés Sequential Structure Alignment Program, programa de aliñamento de estrutura secuencial) é un método de aliñamento estrutural baseado en programación dinámica que usa vectores “átomo a átomo” no espazo da estrutura como puntos a comparar. Ampliouse desde a súa descrición orixinal para incluír tanto aliñamentos múltiples coma emparellamentos,[17] e usouse na construción do CATH (do inglés Class, Architecture, Topology, Homology; clase, arquitectura, topoloxía, homoloxía), que é unha base de datos xerárquica de clasificación de pregamentos de proteínas.[18] Pode accederse á base de datos CATH na Clasificación da Estrutura de Proteínas CATH.

Extensión combinatoria[editar | editar a fonte]

O método de extensión combinatoria para aliñamento estrutural xera un aliñamento estrutural de pares usando xeometría local para aliñar fragmentos curtos das dúas proteínas a analizar, e xuntar entón estes fragmentos nun aliñamento maior.[19] Baseándose en medidas como a raíz do erro cuadrático medio en superposición de proteínas como sólidos ríxidos, distancias entre residuos, estrutura secundaria local, e características medioambientais circundantes tales como a hidrofobicidade dos residuos veciños, xéranse aliñamentos locais chamados “pares de fragmentos aliñados” que se usan para construír unha matriz de similitude representando todos os aliñamentos estruturais posibles dentro dun criterio de corte predefinido. Trázase despois unha traxectoria desde un estado da estrutura dunha proteína a outro por medio da matriz, estendendo o crecente aliñamento un fragmento de cada vez. A traxectoria óptima define o aliñamento por extensión combinatoria. Un servidor web que implementa o método e proporciona unha base de datos de emparellamentos de estrutura no Protein Data Bank localízase no sitio de Combinatorial Extension.

Análise filoxenética[editar | editar a fonte]

Artigo principal: Filoxenética computacional.

A filoxenia e o aliñamento de secuencias son campos estreitamente relacionados debido á súa necesidade compartida de avaliar o parentesco entre secuencias. A filoxenia fai un uso intensivo dos aliñamentos de secuencias na construción e interpretación de árbores filoxenéticas, que se usan para clasificar as relacións evolutivas entre xenes homólogos presentes no xenoma de especies diverxentes. O grao no que difiren as secuencias dun conxunto problema está relacionado cualitativamente coa distancia evolutiva entre elas. De forma simplificada, unha identidade de secuencias alta suxire que teñen un "antepasado común máis recente" comparativamente recente, mentres que unha baixa identidade suxire que a diverxencia é máis remota. Esta aproximación, que reflicte a hipótese do “reloxo molecular” (hipótese que asume un ritmo aproximadamente constante de cambio evolutivo, que pode utilizarse para extrapolar o tempo transcorrido desde a primeira diverxencia de dous xenes ou tempo de “coalescencia”), asume que os efectos das mutacións e da selección natural son constantes ao longo de liñaxes de secuencias. Non ten en conta, por tanto, posibles diferenzas entre organismos ou especies nos ritmos de reparación do ADN, ou a posible conservación funcional de rexións específicas nunha secuencia. (No caso de secuencias de nucleótidos, a hipótesis do reloxo molecular na súa forma máis básica tamén deixa de lado a diferenza nas taxas de aceptación entre mutacións silenciosas, que non alteran o significado dun determinado codón, e outras mutacións que dan lugar á incorporación dun aminoácido diferente na proteína. Outros métodos con maior precisión estatística permiten variar o ritmo evolutivo en cada rama da árbore filoxenética, producindo así mellores estimacións dos tempos de coalescencia dos xenes. As técnicas de aliñamento múltiple progresivo producen necesariamente unha árbore filoxenética, xa que van incorporando secuencias no crecente aliñamento segundo a súa orde de parentesco. Outras técnicas que reúnen aliñamentos múltiples de secuencias e árbores filoxenéticas, puntúan e ordenan as árbores en primeiro lugar, e calculan despois un aliñamento múltiple de secuencias a partir da árbore de maior puntuación. Os métodos comúns de construción de árbores filoxenéticas son principalmente heurísticos porque o problema de seleccionar a árbore óptima, igual que o problema de seleccionar o aliñamento de secuencias múltiple óptimo, é NP-complexo.[20]

Valoración da súa significación[editar | editar a fonte]

Os aliñamentos de secuencias son útiles en bioinformática para identificar semellanzas entre secuencias, formar árbores filoxenéticas, e desenvolver modelos de homoloxía sobre estruturas de proteínas. Porén, a relevancia biolóxica dos aliñamentos non sempre é clara. Asúmese a miúdo que os aliñamentos reflicten un grao de cambio evolutivo entre secuencias que descenden dun devanceiro común; mais é formalmente posible que poida darse unha converxencia evolutiva que produza similitudes aparentes entre proteínas que en realidade non estean evolutivamente relacionadas, pero que leven a cabo funcións similares e teñan estruturas parecidas.

En buscas feitas en bases de datos como con BLAST, os métodos estatísticos poden determinar a probabilidade dun aliñamento particular casual entre secuencias, ou rexións de secuencias, dado o tamaño e a composición da base de datos en cuestión. Estes valores poden variar significativamente dependendo do espazo de busca. En particular, a probabilidade de atopar por casualidade un aliñamento dado increméntase se a base de datos consta só de secuencias do mesmo organismo que a secuencia problema. Secuencias repetitivas na base de datos ou na consulta tamén poden distorsionar tanto a busca de resultados coma a valoración da súa significación estatística. BLAST filtra automaticamente tales secuencias repetitivas na consulta para evitar éxitos aparentes que en realidade correspondan a artefactos estatísticos.

Funcións de puntuación[editar | editar a fonte]

Para producir bos aliñamentos é importante a elección dunha función de puntuación que reflicta observacións biolóxicas ou estatísticas sobre secuencias coñecidas. As secuencias de proteínas son aliñadas usando frecuentemente matrices de substitución que reflicten as probabilidades de substitucións carácter por carácter. Unha serie de matrices denominadas matrices PAM (do inglés Point Accepted Mutation, orixinalmente definidas por Margaret Dayhoff, polo que ás veces se denominan matrices Dayhoff) codifican explicitamente as aproximacións evolutivas considerando as frecuencias e probabilidades de mutacións particulares de aminoácidos. Outra serie común de matrices de puntuación, chamadas BLOSUM (do inglés Blocks Substitution Matrix, matriz de substitución de bloques), codifica probabilidades de substitución derivadas empiricamente. Utilízanse variantes de ambos os tipos de matrices para detectar secuencias con diferentes niveis de diverxencia, permitindo así aos usuarios de BLAST ou FASTA restrinxir as súas buscas a coincidencias relacionadas máis estreitamente, ou estendelas para detectar secuencias máis diverxentes. As penalizacións por gaps representan a introdución de ocos (no modelo evolutivo, unha mutación por inserción ou borrado) en secuencias tanto de nucleótidos coma de proteínas, e, por tanto, estes valores de penalización deberían ser proporcionais á frecuencia agardada de tales mutacións. A calidade dos aliñamentos producidos depende, en consecuencia, da calidade da función de puntuación.

Pode ser moi útil e instrutivo intentar o mesmo aliñamento varias veces con diferentes eleccións de matrices de puntuación e/ou diferentes valores de penalización por ocos, e comparar os resultados. As rexións onde a solución sexa pouco consistente, ou non sexa única, poden ser identificadas a miúdo observando que rexións do aliñamento son robustas a variacións nos parámetros de aliñación.

Usos non biolóxicos[editar | editar a fonte]

Os métodos usados para aliñamentos de secuencias biolóxicas poden tamén ter aplicacións noutros campos, e moi notablemente no procesamento de linguaxes naturais. As técnicas que xeran o conxunto de elementos desde o que as palabras se seleccionarán nos algoritmos de xeración de linguaxes naturais pediron prestadas técnicas de aliñamento de secuencias á bioinformática para producir versións lingüísticas de probas matemáticas xeradas por computadora.[21] No campo da lingüística histórica e comparativa, tense usado o aliñamento de secuencias para automatizar parcialmente o método comparativo polo que tradicionalmente os lingüistas reconstrúen linguaxes.[22] Tamén se aplicaron técnicas de aliñamento de secuencias na investigación de negocios e marketing analizando series temporais de compras.[23]

Outros usos biolóxicos[editar | editar a fonte]

O ARN secuenciado, como etiquetas de secuencias expresadas e ARNms de lonxitude completa, poden aliñarse a un xenoma secuenciado para atopar onde hai xenes e obter información sobre o splicing alternativo[24] e a edición do ARN.[25] O aliñamento de secuencia é tamén unha parte da ensamblaxe xenómica, na cal as secuencias se aliñan para encontrar solapamentos para que se poidan formar os chamados contigs (tramos longos de secuencias).[26] Outro uso é na análise de SNP , na que as secuencias de diferentes individuos se aliñan para encontrar pares de bases simples que con frecuencia son diferentes na poboación.[27]

Software[editar | editar a fonte]

Entre as ferramentas de software comúns usadas para tarefas xerais de aliñamento de secuencias están ClustalW e T-coffee para o aliñamento, e BLAST para buscas en bases de datos. Unha lista moito máis completa de software dispoñible, clasificado por algoritmo e tipo de aliñamento, pode encontrarse en Software para aliñamento de secuencias.

Os algoritmos de aliñamento e o software poden ser contrastados directamente usando un conxunto estandarizado de estándares (benchmark) de referencia para aliñamentos múltiples de secuencias denominado BAliBASE.[28] O conxunto de datos consiste en aliñamentos estruturais que poden ser considerados como un estándar con respecto ao cal se comparan os métodos baseados en secuencias. Tabulouse o rendemento relativo de bastantes métodos comúns de aliñamento encontrados frecuentemente en problemas de aliñación, e os resultados máis significativos están publicados en liña en BAliBASE.[29] No banco de traballo de proteínas STRAP pode computarse unha detallada lista de puntuacións de BAliBASE para varias ferramentas diferentes de aliñamento.

Notas[editar | editar a fonte]

  1. DRAG aliñamento
  2. Schneider TD, Stephens RM (1990). "Sequence logos: a new way to display consensus sequences". Nucleic Acids Res 18: 6097-6100. DOI:10.1093/nar/18.20.6097. PMID 2172928. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=2172928.
  3. Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S. "Glocal alignment: finding rearrangements during alignment". Bioinformatics 19 Suppl 1: i54–62. DOI:10.1093/bioinformatics/btg1005. PMID 12855437. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12855437.
  4. Brudno M, Poliakov A, Salamov A, Cooper GM, Sidow A, Rubin EM, Solovyev V, Batzoglou S, Dubchak I. "Automate whole-genome multiple alignment of rat, mouse, and human". Genome Research 14: 685–692. DOI:10.1101/gr.2067704. http://www.genome.org/cgi/reprint/14/4/685.pdf.
  5. 5,0 5,1 Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis 2nd ed.. ISBN 0-87969-608-7.
  6. Wang L, Jiang T. (1994). "On the complexity of multiple sequence alignment". J Comput Biol 1: 337-48. PMID 8790475.
  7. Lipman DJ, Altschul SF, Kececioglu JD (1989). "A tool for multiple sequence alignment". Proc Natl Acad Sci U S A 86: 4412-5. DOI:10.1073/pnas.86.12.4412. PMID 2734293. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=2734293.
  8. Higgins DG, Sharp PM (1988). "CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". Gene 73 (1): 237-44. DOI:10.1016/0378-1119(88)90330-7. PMID 3243435. http://linkinghub.elsevier.com/retrieve/pii/0378-1119(88)90330-7.
  9. Thompson JD, Higgins DG, Gibson TJ. (1994). "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice". Nucleic Acids Res 22: 4673-80. DOI:10.1093/nar/22.22.4673. PMID 7984417. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=7984417.
  10. Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003). "Multiple sequence alignment with the Clustal series of programs". Nucleic Acids Res 31: 3497-500. DOI:10.1093/nar/gkg500. PMID 12824352. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=12824352.
  11. Notredame C, Higgins DG, Heringa J. (2000). "T-Coffee: A novel method for fast and accurate multiple sequence alignment". J Mol Biol 302 (1): 205-17. DOI:10.1006/jmbi.2000.4042. PMID 10964570. http://linkinghub.elsevier.com/retrieve/pii/S0022-2836(00)94042-7.
  12. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M. (1995). "Comprehensive study on iterative algorithms of multiple sequence alignment". Comput Appl Biosci 11: 13-8. DOI:10.1093/bioinformatics/11.1.13. PMID 7796270. http://bioinformatics.oxfordjournals.org/cgi/content/abstract/11/1/13.
  13. Karplus K, Barrett C, Hughey R. (1998). "Hidden Márkov models for detecting remote protein homologies". Bioinformatics 14 (10): 846-856. DOI:10.1093/bioinformatics/14.10.846. PMID 9927713. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9927713.
  14. Chothia C, Lesk AM. (1986). "The relation between the divergence of sequence and structure in proteins". EMBO J 5 (4): 823-6. PMID 3709526. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=3709526.
  15. 15,0 15,1 Zhang Y, Skolnick J. (2005). "The protein structure prediction problem could be solved using the current PDB library". Proc Natl Acad Sci U S A 102: 1029-34. DOI:10.1073/pnas.0407152101. PMID 15653774. http://www.pnas.org/cgi/pmidlookup?view=long&pmid=15653774.
  16. Holm L, Sander C (1996). "Mapping the protein universe". Science 273: 595-603. PMID 8662544. http://www.sciencemag.org/cgi/pmidlookup?view=long&pmid=8662544.
  17. Taylor WR, Flores TP, Orengo CA. (1994). "Multiple protein structure alignment". Protein Sci 3: 1858-70. PMID 7849601. http://web.archive.org/web/http://www.proteinscience.org/cgi/pmidlookup?view=long&pmid=7849601.
  18. Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH--a hierarchic classification of protein domain structures". Structure 5: 1093-108. DOI:10.1016/S0969-2126(97)00260-8. PMID 9309224.
  19. Shindyalov IN, Bourne PE. (1998). "Protein structure alignment by incremental combinatorial extension (CE) of the optimal path". Protein Eng 11: 739-47. DOI:10.1093/protein/11.9.739. PMID 9796821. http://peds.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=9796821.
  20. Felsenstein J. (2004). Inferring Phylogenies. Sinauer Associates: Sunderland, MA. ISBN 0-87893-177-5.
  21. Barzilay R, Lee L. (2002). "Bootstrapping Lexical Choice via Multiple-Sequence Alignment". Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): 164–171. http://www.cs.cornell.edu/home/llee/papers/gen-msa.pdf.
  22. Kondrak, Grzegorz (2002) (PDF). Algorithms for Language Reconstruction. University of Toronto, Ontario. http://www.cs.ualberta.ca/~kondrak/papers/thesis.pdf. Consultado o 2007-01-21.
  23. Prinzie A., D. Van den Poel. "Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM". Decision Support Systems 42 (2): 508–526. DOI:10.1016/j.dss.2005.02.004. http://econpapers.repec.org/paper/rugrugwps/05_2F292.htm. Ver tamén a publicación de Prinzie e Van den Poel "Predicting home-appliance acquisition sequences: Márkov/Márkov for Discrimination and survival analysis for modeling sequential information in NPTB models". Decision Support Systems 44 (1): 28–45. 2007. DOI:10.1016/j.dss.2007.02.008. http://econpapers.repec.org/paper/rugrugwps/07_2F442.htm.
  24. Kim N, Lee C (2008). "Bioinformatics detection of alternative splicing". Methods Mol. Biol.. Methods in Molecular Biology™ 452: 179–97. DOI:10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. PMID 18566765.
  25. Li JB, Levanon EY, Yoon JK, et al. (May 2009). "Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing". Science 324 (5931): 1210–3. DOI:10.1126/science.1170995. PMID 19478186.
  26. Blazewicz J, Bryja M, Figlerowicz M, et al. (June 2009). "Whole genome assembly from 454 sequencing output via modified DNA graph concept". Comput Biol Chem 33 (3): 224–30. DOI:10.1016/j.compbiolchem.2009.04.005. PMID 19477687.
  27. Duran C, Appleby N, Vardy M, Imelfort M, Edwards D, Batley J (May 2009). "Single nucleotide polymorphism discovery in barley using autoSNPdb". Plant Biotechnol. J. 7 (4): 326–33. DOI:10.1111/j.1467-7652.2009.00407.x. PMID 19386041.
  28. Thompson JD, Plewniak F, Poch O (1999). "BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs". Bioinformatics 15: 87-8. DOI:10.1093/bioinformatics/15.1.87. PMID 10068696. http://bioinformatics.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=10068696.
  29. Thompson JD, Plewniak F, Poch O. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Res 27: 2682-90. DOI:10.1093/nar/27.13.2682. PMID 10373585. http://nar.oxfordjournals.org/cgi/pmidlookup?view=long&pmid=10373585.

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]