Gene Ontology

Na Galipedia, a Wikipedia en galego.

Gene Ontology, abreviada como GO (Ontoloxía Xénica), é unha importante iniciativa bioinformática para unificar a representación dos atributos dos xenes e produtos xénicos de todas as especies de seres vivos.[1] O proxecto ten os seguintes obxectivos concretos: 1) Manter e desenvolver o seu vocabulario controlado de atributos de xenes e produtos xénicos; 2) anotar xenes e produtos xénicos, e asimilar e diseminar os datos de anotación; e 3) proporcionar ferramentas para un acceso doado a todos os aspectos dos datos proporcionados polo proxecto, e permitir a interpretación funcional de datos experimentais usando o GO, por exemplo por medio da análise de enriquecemento.

GO forma parte dun gran esforzo de clasificación, chamado Open Biomedical Ontologies (OBO).[2] Contén as ferramentas de busca AmiGO e OBO-Edit

Aínda que de modo xeral a nomenclatura de xenes pretende manter e desenvolver un vocabulario controlado de xenes e produtos xénicos, a ontoloxía xénica, en concreto, amplía os esforzos usando unha linguaxe de marcas para facer que os datos (e non só os de xenes e os seus produtos senón tamén de todos os atributos) sexan lexibles por máquinas, e para facer isto de modo unificado para todas as especies (mentres que as convencións da nomenclatura de xenes varía segundo o taxon biolóxico).

Termos e ontoloxía[editar | editar a fonte]

Desde un punto de vista práctico, unha ontoloxía é unha representación de algo que se coñece. As “ontoloxías" consisten nunha representación de cousas que son detectables ou directamente observables, e as relacións entre ditas cousas. Non hai unha terminoloxía universal estándar en bioloxía e dominios relacionados, e os usos dos termos poden ser específicos dunha especie, áreas de investigación ou mesmo dun grupo investigador determinado. Isto fai que a comunicación e compartición de datos sexa máis difícil. O proxecto Gene Ontology proporciona unha ontoloxía de termos definidos que representan as propiedades dos produtos xénicos. A ontoloxía abrangue tres dominios:

  • compoñentes celulares, as partes da célula ou o seu ambiente extracelular;
  • funcións moleculares, as actividades elementais dun produto xénico a nivel molecular, como a unión a outras moléculas ou a catálise;
  • procesos biolóxicos, operacións ou conxuntos de eventos moleculares cun comezo e final definidos, pertinentes a unidades vivas integradas ou en funcionamento: células, tecidos, órganos, e organismos.

Cada termo de GO da ontoloxía ten un nome de termo, que pode ser unha palabra ou unha cadea de palabras; un único identificador alfanumérico; unha definición con fontes citadas; e un espazo de nome (namespace) que indica o domino ao que pertence. Os termos poden tamén ter sinónimos, os cales están clasificados como exactamente equivalentes ao nome de termo, cun significado máis amplo, máis estreito ou relacionado; referencias a conceptos equivalentes noutras bases de datos; e comentarios sobre o uso dos termos. A ontoloxía GO está estruturada como un gráfico acíclico dirixido, e cada termo ten relacións definidas cou outro ou outros termos do mesmo dominio, e ás veces doutros dominios. O vocabulario GO está deseñado para ser neutral con respecto da especie, e inclúe termos aplicables a procariotas e eucariotas, organismos unicelulares e multicelulares.

GO non é estático, e as adcións, correccións e alteracións son suxeridas e solicitada por membros de comunidades científicas que se dedican á anotación e investigación, e tamén polos que están directamente implicados no proxecto GO. Por exemplo, un anotador pode requirir un termo específico para representar unha vía metabólica, ou unha sección da ontoloxía pode ser revisada coa axuda de expertos da comunidade (por exemplo [3]). As edicións suxeridas son revisadas polos editores de ontoloxías, e aplicadas cando é apropiado.

O ficheiro da ontoloxía GO está dispoñible gratuitamente na páxina web de GO[4] en varios formatos, ou pode accederse a ela en liña usando o buscador GO AmiGO. O proxdecto Gene Ontology tamén proporciona mapados descargables dos seus termos para outros sistemas de clasificación.

Exemplo de termo[editar | editar a fonte]

id: GO:0000016
nome: lactase activity (actividade de lactase)
espazo de nome (namespace): molecular_function
def: "Catálise da reacción: lactosa + H2O = D-glicosa + D-galactosa." [EC:3.2.1.108]
sinónimo: "lactase-phlorizin hydrolase activity" (acitividade de lactase-florticina hidrolase) AMPLO [EC:3.2.1.108]
sinónimo: "lactose galactohydrolase activity" (actividade de lactosa galactrohidrolase) EXACTO [EC:3.2.1.108]
xref: EC:3.2.1.108
xref: MetaCyc:LACTASE-RXN
xref: Reactome:20536
is_a: GO:0004553 ! actividade de hidrolase, hidrolizando compostos O-glicosilo

Fonte de datos:[5]

Anotación[editar | editar a fonte]

A anotación do xenoma é a práctica de capturar datos sobre un produto xénico, e as anotacións GO usan termos da ontoloxía GO para facelo. Os membros do Consorcio GO envían as súas anotacións para que se integren e diseminen na páxina web de GO, desde onde poden ser descargadas directamente ou vistas en liña usando AmiGO. Ademais do identificador do produto xénico e do termo GO relevante, as anotacións GO teñen os seguintes datos: A referencia utilizada para facer a anotación (por exemplo, un artigo de revista científica; Un código de evidencias que indica o tipo de evidencias probatorias sobre as que se basea a anotación en cuestión; Os datos e o creador da anotación.

O código de evidencias procede da Ontoloxía do Código de Evidencias, que é un vocabulario controlado de códigos que abranguen métodos de anotación manuais e automáticos. Por exemplo, o termo Traceable Author Statement (TAS ou Afirmación de Autor Rastrexable) significa que un curador leu un artigo científico publicado e os metadatos desa anotación levan unha cita de dito artigo; Inferred from Sequence Similarity (ISS ou Inferido da Semellanza de Secuencia) significa que un curador humano revisou os datos de saída dunha busca de semellanza de secuencias e verificou que é bioloxicamente significativa. Ás anotacións dos procesos automatizados (por exemplo, remapar anotacións creadas usando outro vocabulario de anotación) dáselle o código Inferred from Electronic Annotation (IEA ou Inferido de Anotación Electrónica). O 1 de abril de 2010, o 98% de todas as anotacións GO eran inferidas computacionalmente, non por curadores.[6] Como esas anotacións non están comprobadas por unha persoa, o Consorcio GO considéraas menos fiables e inclúe só unha parte delas nos datos dispoñibles en liña en AmiGO. Os conxuntos de datos de anotacións completos poden descargarse da páxina web de GO. Para apoiar o desenvolvemento da anotación, o ConsorcioGO proporciona campamentos de estudo e mentores para novos grupos de desenvolvedores.

Exemplo de anotación[editar | editar a fonte]

Produto xénico: Actin, alpha cardiac muscle 1, (actina de músculo cardíaco alfa) UniProtKB:P68032

Termo GO: contracción muscular ; GO:0060047 (proceso biolóxico)
Código de evidencia: Inferred from Mutant Phenotype (IMP ou Inferido do Fenotipo Mutante )
Referencia: PMID 17611253
Asignado por: UniProtKB, xuño 6, 2008

Fonte de datos:[7]

Ferramentas[editar | editar a fonte]

Hai un gran número de ferramentas dispoñibles[8] tanto en liña coma para descargar que usan os datos proporcionados polo proxecto GO. A gran maioría destes proceden de terceiras partes; o Consorcio GO desenvolve e apoia dúas ferramentas, AmiGO e OBO-Edit.

AmiGO[9] é unha aplicación baseada en web que permite aos usuarios consultar, buscar e visualizar ontoloxías e datos de anotacións de produtos xénicos. Ademais, ten tamén unha ferramenta BLAST,[10] ferramentas que permiten a análise de grandes conxuntos de datos,[11][12] e unha interface para consultar a base de datos GO directamente.[13]

AmiGO pode utilizarse en liña na páxina web de GO para acceder aos datos proporcionados polo Consorcio GO, ou pode descargarse e instalarse para o seu uso local en calquera base de datos que empregue o esquema da base de datos GO (por exemplo [14]). É unha fonte de sotware de código aberto e está dispoñible como parte da distribución de software go-dev.[15]

OBO-Edit[16] é un editor de ontoloxías independente de plataforma de código aberto desenvolvido e mantido polo Consorcio Gene Ontology. Utiliza a linguaxe de programación Java, e usa unha estratexia orientada a gráficos para mostrar e editar as ontoloxías. OBO-Edit inclúe unha busca comprensiva e interface de filtro, coa opción de facer subconxuntos de termos que se visualizan; a interface de usuario pode tamén personalizarse segundo as preferencias do usuario. OBO-Edit tamén ten un razoador semántico que pode inferir ligazóns que non foron explicitamente establecidas, baseándose nas relacións existentes e as súas propiedades. Aínda que foi desenvolvido para ontoloxías biomédicas, OBO-Edit pode utilizarse para ver, procurar e editar calquera ontoloxía. Esta dispoñible gratuitamente para a súa descarga.[15]

Consorcio[editar | editar a fonte]

O Consorcio Gene Ontology é o conxunto de bases de datos biolóxicas e grupos de investigación que están implicados activamente no proxecto de ontoloxía de xenes.[17] Inclúe varias bases de datos de organismos modelo e bases de datos de proteínas de múltiples especies, grupos de desenvolvemento de programas informáticos aplicables, e unha oficina editorial.

Historia[editar | editar a fonte]

Gene Ontology foi construído orixinalmente en 1998 por un consorciode investigadores que estudaban o xenoma de tres organismos modelo: Drosophila melanogaster (a mosca do vinagre), Mus musculus (rato caseiro), e Saccharomyces cerevisiae (lévedo de panadería).[18] Despois uníronse ao consorcio GO moitas outras bases de datos de organismos modelo, contribuíndo non só con datos de anotacións, senón tamén co desenvolvemento de ontoloxías e ferramentas para ver e aplicar os datos. Ata agora, a maioría das principais bases de datos de plantas, animais e microorganismos están a facer unha contribución a este proxecto. En xaneiro de 2008, GO contiña uns 24.500 termos aplicables a unha ampla variedade de organismos biolóxicos. Hai un corpo significativo de literatura para o desenvolvemento e uso de GO, e converteuse nunha ferramenta estándar no arsenal da bioinformática. Os seus obxectivos abranguen tres aspectos: a construción dun ontoloxía xénica, axudar á ontoloxía de xenes/produtos xénicos e desenvolver programas informáticos e bases de datos para os dous anteriores obxectivos.

Notas[editar | editar a fonte]

  1. The Gene Ontology Consortium (January 2008). "The Gene Ontology project in 2008". Nucleic Acids Res. 36 (Database issue): D440–4. PMC 2238979. PMID 17984083. doi:10.1093/nar/gkm883. 
  2. Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (November 2007). "The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration". Nat. Biotechnol. 25 (11): 1251–5. PMC 2814061. PMID 17989687. doi:10.1038/nbt1346. 
  3. Diehl AD, Lee JA, Scheuermann RH, Blake JA (April 2007). "Ontology development for biological systems: immunology". Bioinformatics 23 (7): 913–5. PMID 17267433. doi:10.1093/bioinformatics/btm029. 
  4. "Gene Ontology Database". Gene Ontology Consortium. 
  5. The GO Consortium (07-10-2015). "gene_ontology.1_2.obo" (OBO 1.2 flat file). Consultado o 2009-03-16. 
  6. "The what, where, how and why of gene ontology—a primer for bioinformaticians — Brief Bioinform". doi:10.1093/bib/bbr002. Consultado o 07-10-2015. 
  7. The GO Consortium (2009-03-16). "AmiGO: P68032 Associations". Consultado o 2009-03-16. 
  8. Mosquera JL, Sánchez-Pla A (July 2008). "SerbGO: searching for the best GO tool". Nucleic Acids Res. 36 (Web Server issue): W368–71. PMC 2447766. PMID 18480123. doi:10.1093/nar/gkn256. 
  9. Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S; AmiGO Hub; Web Presence Working Group (2008). "AmiGO: Online access to ontology and annotation data". Bioinformatics 25 (2): 288–289. PMC 2639003. PMID 19033274. doi:10.1093/bioinformatics/btn615. 
  10. AmiGO BLAST tool
  11. AmiGO Term Enrichment tool; finds significant shared GO terms in an annotation set
  12. AmiGO Slimmer; maps granular annotations up to high-level terms
  13. GOOSE, GO Online SQL Environment; allows direct SQL querying of the GO database
  14. The Plant Ontology Consortium (2009-03-16). "Plant Ontology Consortium". Consultado o 2009-03-16. 
  15. 15,0 15,1 "Gene Ontology downloads at SourceForge". Consultado o 2009-03-16. 
  16. Day-Richter, J.; Harris, M. A.; Haendel, M.; Lewis, S. (2007). "OBO-Edit an ontology editor for biologists". Bioinformatics 23 (16): 2198–2200. PMID 17545183. doi:10.1093/bioinformatics/btm112. 
  17. "The GO Consortium". Consultado o 2009-03-16. 
  18. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (May 2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium". Nat. Genet. 25 (1): 25–9. PMC 3037419. PMID 10802651. doi:10.1038/75556. 

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]

  • SimCT: ferramenta baseada en páxina web para mostrar as relacións entre obxectos biolóxicos anotados a unha ontoloxía, en forma dunha árbore de agrupamento.
  • SerbGO. a ferramenta GO compara as capacidades de diferentes programas para mostrar as súas características comúns e as súas diferenzas e para atopar aquelas ferramentas, se as hai, que teñan as capacidades específicas requiridas polos usuarios para unha análise GO.
  • Domain-centric Gene Ontology: base de datos de ontoloxías centradas nos domnios sobre funcións, fenotipos, doenzas entre outras.