Repeticións en tándem en proteínas
Un conxunto de repeticións en tándem en proteínas defínese como varias copias (polo menos dúas) adxacentes dunha secuencia de aminoácidos iguais ou similares (motivo de secuencia) presentes nunha proteína. Estas secuencias periódicas xéranse por duplicacións internas en secuencias xenómicas codificantes ou non codificantes. As unidades repetitivas das repeticións en tándem en proteínas son considerablemente diversas, e van desde a repetición dun só aminoácido ata dominios de 100 ou máis residuos.[1][2]
"Repeticións" en proteínas
[editar | editar a fonte]Nas proteínas, unha "repetición" é calquera bloque de secuencia que aparece máis dunha vez na secuencia, xa sexa sendo de forma idéntica ou moi similar. O grao de semellanza pode ser moi variable, e algunhas repeticións manteñen soamente unhas poucas posicións de aminoácidos conservadas e unha lonxitude característica. As repeticións altamente dexeneradas poden ser moi difíciles de detectar a partir só da secuencia. A semellanza estrutural pode axudar a identificar padróns repetitivos na secuencia.
Estrutura
[editar | editar a fonte]A repetitividade non indica nada por si soa sobre a estrutura da proteína. Como "regra de ouro", as secuencias repetidas curtas (por exemplo as dunha lonxitude inferior a 10 aminoácidos) poden ser intrinsecamente desordenadas, e non parte de ningún dominio proteico pregado. As repeticións que son de polo menos de 30 a 40 aminoácidos de longo é moito máis probable que estean pregadas como parte dun dominio. Ditas repeticións longas son frecuentemente indicativas da presenza dun dominio solenoide na proteína.
Aproximadamente a metade das rexións de repetición en tándem teñen conformación intrinsecamente desordenada estando de forma natural non pregada.[3][4][5] Exemplos de secuencias repetitivas desordenadas inclúen repeticións de péptidos de 7 mer atopados na subunidade RPB1 da ARN polimerase II,[6] ou a beta-catenina en tándem ou os motivos liñais que se unen á axina na APC (adenomatous polyposis coli).[7] A outra metade das rexións coa estrutura 3D estable ten unha plétora de formas e funcións.[8][9] Exemplos de repeticións curtas que mostran estruturas ordenadas incluíndo a repetición de coláxeno de tres residuos ou a repetición pentapéptido de cinco residuos que forma unha estrutura de hélice beta.
Clasificación
[editar | editar a fonte]Dependendo da lonxitude das unidades repetidas, as súas estruturas proteicas poden subdividirse en cinco clases:[8][9]
- agregados cristalinos formados por rexións con repeticións cun ou dous residuos de longo, rexións de baixa complexidade arquetípicas
- estruturas fibrosas estabilizadas por interaccións intercadeas con repeticións de 3 a 7 residuos
- estruturas alongadas con repeticións de 5 a 40 residuos dominados por proteínas solenoides
- estruturas pechadas (non alongadas) con repeticións de 30 a 60 residuos como repeticións toroide
- estruturas de corda de doas cun tamaño típico de repeticións duns 50 residuos, que son xa suficientemente grandes para pregarse independentemente en dominios estables.
Función
[editar | editar a fonte]Algúns exemplos coñecidos de proteínas con repeticións en tándem son o coláxeno, o cal ten un papel clave na organización da matriz extracelular; as hélices alfa superenroladas, que teñen funcións estruturais e de oligomerización; as proteínas con repetición rica en leucina, que se unen especificamente a algunhas proteínas globulares polas súas superficies cóncavas; e as proteínas dedo de cinc, que regulan a expresión de xenes ao unirse ao ADN.
As proteínas con repeticións en tándem funcionan frecuentemente como módulos de interacción proteína-proteína. A repetición WD40 é un bo exemplo desta función.[10]
Distribución en proteomas
[editar | editar a fonte]As repeticións en tándem son ubicuas nos proteomas e aparcen en polo menos o 14 % de todas as proteínas.[11] Por exemplo, están presentes en case unha de cada tres proteínas humanas e mesmo nunha de cada dúas proteínas de Plasmodium falciparum ou Dictyostelium discoideum.[11][12] As repeticións en tándem con unidades repetidas curtas (especialmente homorrepeticións) son máis frecuentes que outras.[11]
Métodos de anotación
[editar | editar a fonte]As repeticións en tándem en proteínas poden detctarse a partir da secuencia ou anotarse a partir da súa estrutura. Ideáronse métodos especializados para a identificación de proteínas con repeticións.[13]
As estratexias baseadas na secuencia, baseadas na investigación de homoloxía [14] ou asignación de dominios,[15][16] na maioría dos casos subestiman as repeticións en tándem debido á presenza de unidades repetidas altamente dexeneradas.[17] Un estudo recente para comprender e mellorar a cobertura de Pfam do proteoma humano [17] mostrou que cinco de dada dez dos clusters de secuencia máis grandes non anotados con Pfam son rexións repetidas. Alternativamente, os métodos que non requiren un coñecemento previo para a detección de subsecuencias (substrings) repetidas pode estar baseada na autocomparación,[18][19] o agrupamento [20] [21] ou modelos de Markov ocultos.[22][23] Algúns outros dependen de medidas de complexidade [13] ou aproveitan as metabuscas para combinar os resultados de diferentes fontes.[24][25]
Ao contrario, os métodos baseados na estrutura aproveitan a modularidade de estruturas PDB dispoñibles para recoñecer elementos repetitivos recoñecidos.[26][27][28][29][30]
Notas
[editar | editar a fonte]- ↑ Heringa J (xuño de 1998). "Detection of internal repeats: how common are they?". Current Opinion in Structural Biology 8 (3): 338–45. PMID 9666330. doi:10.1016/s0959-440x(98)80068-7.
- ↑ Andrade MA, Ponting CP, Gibson TJ, Bork P (maio de 2000). "Homology-based method for identification of protein repeats using statistical significance estimates". Journal of Molecular Biology 298 (3): 521–37. PMID 10772867. doi:10.1006/jmbi.2000.3684.
- ↑ Tompa P (setembo de 2003). "Intrinsically unstructured proteins evolve by repeat expansion". BioEssays 25 (9): 847–55. PMID 12938174. doi:10.1002/bies.10324.
- ↑ Simon M, Hancock JM (2009). "Tandem and cryptic amino acid repeats accumulate in disordered regions of proteins". Genome Biology 10 (6): R59. PMC 2718493. PMID 19486509. doi:10.1186/gb-2009-10-6-r59.
- ↑ Jorda J, Xue B, Uversky VN, Kajava AV (xuño de 2010). "Protein tandem repeats - the more perfect, the less structured" (PDF). The FEBS Journal 277 (12): 2673–82. PMC 2928880. PMID 20553501. doi:10.1111/j.1742-4658.2010.07684.x.
- ↑ Meyer PA, Ye P, Zhang M, Suh MH, Fu J (xuño de 2006). "Phasing RNA polymerase II using intrinsically bound Zn atoms: an updated structural model". Structure 14 (6): 973–82. PMID 16765890. doi:10.1016/j.str.2006.04.003.
- ↑ Liu J, Xing Y, Hinds TR, Zheng J, Xu W (xuño de 2006). "The third 20 amino acid repeat is the tightest binding site of APC for beta-catenin". J. Mol. Biol. 360 (1): 133–44. PMID 16753179. doi:10.1016/j.jmb.2006.04.064.
- ↑ 8,0 8,1 Kajava AV (setembro de 2012). "Tandem repeats in proteins: from sequence to structure". Journal of Structural Biology 179 (3): 279–88. PMID 21884799. doi:10.1016/j.jsb.2011.08.009.
- ↑ 9,0 9,1 Paladin L, Hirsh L, Piovesan D, Andrade-Navarro MA, Kajava AV, Tosatto SC (xaneiro de 2017). "RepeatsDB 2.0: improved annotation, classification, search and visualization of repeat protein structures". Nucleic Acids Research 45 (D1): D308–D312. PMC 5210593. PMID 27899671. doi:10.1093/nar/gkw1136.
- ↑ Stirnimann CU, Petsalaki E, Russell RB, Müller CW (outubro de 2010). "WD40 proteins propel cellular networks". Trends in Biochemical Sciences 35 (10): 565–74. PMID 20451393. doi:10.1016/j.tibs.2010.04.003.
- ↑ 11,0 11,1 11,2 Marcotte EM, Pellegrini M, Yeates TO, Eisenberg D (outubro de 1999). "A census of protein repeats". Journal of Molecular Biology 293 (1): 151–60. PMID 10512723. doi:10.1006/jmbi.1999.3136.
- ↑ Pellegrini M (2015). "Tandem Repeats in Proteins: Prediction Algorithms and Biological Role". Frontiers in Bioengineering and Biotechnology (en inglés) 3: 143. PMC 4585158. PMID 26442257. doi:10.3389/fbioe.2015.00143.
- ↑ 13,0 13,1 Pellegrini M, Renda ME, Vecchio A (2012). "Ab initio detection of fuzzy amino acid tandem repeats in protein sequences.". BMC Bioinformatics 13 (Suppl 3): S8. PMC 3402919. PMID 22536906. doi:10.1186/1471-2105-13-S3-S8.
- ↑ Andrade MA, Ponting CP, Gibson TJ, Bork P (2000). "Homology-based method for identification of protein repeats using statistical significance estimates.". J Mol Biol 298 (3): 521–37. PMID 10772867. doi:10.1006/jmbi.2000.3684.
- ↑ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC; et al. (2019). "The Pfam protein families database in 2019.". Nucleic Acids Res 47 (D1): D427–D432. PMC 6324024. PMID 30357350. doi:10.1093/nar/gky995.
- ↑ Mitchell AL, Attwood TK, Babbitt PC, Blum M, Bork P, Bridge A; et al. (2019). "InterPro in 2019: improving coverage, classification and access to protein sequence annotations.". Nucleic Acids Res 47 (D1): D351–D360. PMC 6323941. PMID 30398656. doi:10.1093/nar/gky1100.
- ↑ 17,0 17,1 Mistry J, Coggill P, Eberhardt RY, Deiana A, Giansanti A, Finn RD; et al. (2013). "The challenge of increasing Pfam coverage of the human proteome.". Database (Oxford) 2013: bat023. PMC 3630804. PMID 23603847. doi:10.1093/database/bat023.
- ↑ Heger A, Holm L (2000). "Rapid automatic detection and alignment of repeats in protein sequences.". Proteins 41 (2): 224–37. PMID 10966575. doi:10.1002/1097-0134(20001101)41:2<224::aid-prot70>3.0.co;2-z.
- ↑ Szklarczyk R, Heringa J (2004). "Tracking repeats using significance and transitivity.". Bioinformatics 20 (Suppl 1): i311–7. PMID 15262814. doi:10.1093/bioinformatics/bth911.
- ↑ Newman AM, Cooper JB (2007). "XSTREAM: a practical algorithm for identification and architecture modeling of tandem repeats in protein sequences.". BMC Bioinformatics 8: 382. PMC 2233649. PMID 17931424. doi:10.1186/1471-2105-8-382.
- ↑ Jorda J, Kajava AV (2009). "T-REKS: identification of Tandem REpeats in sequences with a K-meanS based algorithm.". Bioinformatics 25 (20): 2632–8. PMID 19671691. doi:10.1093/bioinformatics/btp482.
- ↑ Söding J, Remmert M, Biegert A (2006). "HHrep: de novo protein repeat detection and the origin of TIM barrels.". Nucleic Acids Res 34 (Web Server issue): W137–42. PMC 1538828. PMID 16844977. doi:10.1093/nar/gkl130.
- ↑ Biegert A, Söding J (2008). "De novo identification of highly diverged protein repeats by probabilistic consistency.". Bioinformatics 24 (6): 807–14. PMID 18245125. doi:10.1093/bioinformatics/btn039. hdl:11858/00-001M-0000-0017-DADF-9.
- ↑ Gruber M, Söding J, Lupas AN (2005). "REPPER--repeats and their periodicities in fibrous proteins.". Nucleic Acids Res 33 (Web Server issue): W239–43. PMC 1160166. PMID 15980460. doi:10.1093/nar/gki405.
- ↑ Schaper E, Anisimova M (2015). "The evolution and function of protein tandem repeats in plants.". New Phytol 206 (1): 397–410. PMID 25420631. doi:10.1111/nph.13184.
- ↑ Abraham AL, Rocha EP, Pothier J (2008). "Swelfe: a detector of internal repeats in sequences and structures.". Bioinformatics 24 (13): 1536–7. PMC 2718673. PMID 18487242. doi:10.1093/bioinformatics/btn234.
- ↑ Sabarinathan R, Basu R, Sekar K (2010). "ProSTRIP: A method to find similar structural repeats in three-dimensional protein structures.". Comput Biol Chem 34 (2): 126–30. PMID 20430700. doi:10.1016/j.compbiolchem.2010.03.006.
- ↑ Walsh I, Sirocco FG, Minervini G, Di Domenico T, Ferrari C, Tosatto SC (2012). "RAPHAEL: recognition, periodicity and insertion assignment of solenoid protein structures.". Bioinformatics 28 (24): 3257–64. PMID 22962341. doi:10.1093/bioinformatics/bts550.
- ↑ Hrabe T, Godzik A (2014). "ConSole: using modularity of contact maps to locate solenoid domains in protein structures.". BMC Bioinformatics 15: 119. PMC 4021314. PMID 24766872. doi:10.1186/1471-2105-15-119.
- ↑ Do Viet P, Roche DB, Kajava AV (2015). "TAPO: A combined method for the identification of tandem repeats in protein structures.". FEBS Lett 589 (19 Pt A): 2611–9. PMID 26320412. doi:10.1016/j.febslet.2015.08.025.