Tesouro Medieval Informatizado da Lingua Galega

Na Galipedia, a Wikipedia en galego.
Saltar ata a navegación Saltar á busca

O Tesouro Medieval Informatizado da Lingua Galega (TMILG) é un corpus lingüístico froito dun proxecto de investigación homónimo realizado no Instituto da Lingua Galega, a cargo de Xavier Varela, en convenio coa Secretaría Xeral de Política Lingüística da Xunta de Galicia.

Este recurso permite buscas variadas na documentación galega medieval. Non ten parangón na historia de ningunha das linguas románicas. As obras que ofrece son moi variadas, e van dende a lírica profana ou relixiosa (lírica trobadoresca galego-portuguesa, Cantigas de Santa María) ata a prosa técnica (Arte de Trovar, Tratado de Albeitaria), pasando pola prosa literaria (Crónica Troiana, Historia Troiana, Livro de Tristán), a prosa histórica (Crónica Xeral e Crónica de Castela, Xeral Historia), a prosa relixiosa (Miragres de Santiago, Crónica de Santa María de Iria) e a prosa xurídica (Flores de Dereito, fragmentos da Partidas, Ordenamento de Alcalá de Henares...). Lugar preferente é o da prosa notarial, abranxente de copiosas coleccións relixiosas e civís, entre as que destacan especialmente as monásticas.

Equipo, historia e patrocinio[editar | editar a fonte]

O equipo, dirixido por Xavier Varela, está formado por investigadores, bolseiros e colaboradores da Universidade de Santiago de Compostela e da Universidade de Vigo. Desde 1993, e en coordinación co equipo do TILG, vén enriquecendo permanentemente as súas bases textuais. Nestes anos modificáronse en varias ocasións os procedementos de etiquetaxe e de lematización para refinalos. Ao cabo da terceira revisión, incorpóranse os textos ao recurso on-line. O proxecto puido realizarse polo esforzo institucional do ILG e polo patrocinio da Dirección Xeral de Política Lingüística a través da Secretaría Xeral de Política Lingüística da Xunta de Galicia.

Características e datos[editar | editar a fonte]

En outubro de 2005 a base do TMILG contén a totalidade das obras non notariais publicadas da Galicia medieval (literarias, históricas, relixiosas, xurídicas e técnicas). Das obras notariais xa está incluída unha boa parte das publicadas (aproximadamente o 85 % das coñecidas) e están moi avanzados os traballos para a carga das restantes, prevista para mediados de 2006. En número, os documentos colectados son máis de 12.500. O arco cronolóxico vai do século XIII a principios do XVI (con rexistros romances desde o VIII).

Os textos non foron modificados, agás na unión de palabras cortadas ao final da liña, polo que o usuario non queda eximido de bater cos erros inevitables na lectura e edición de textos medievais. Respectáronse as grafías da edición impresa empregada como base (os diferentes tipos de "s", o signo tironiano ou o til de nasalidade sobre vogais e consoantes).

O etiquetado dos textos axeitouse a cada tipoloxía textual. Na versión para a internet excluíronse algunhas etiquetas para facela máis homoxénea e manexable. Quedaron as seguintes: nome estandarizado, indicacións para a localización dos exemplos (volume, capítulo e páxina), referencias cronolóxicas (ano ou rango de anos, século e, no caso dos documentos notariais, tamén o mes), autoría, localización xeográfica, tipoloxía textual (ata tres niveis xerárquicos), carácter orixinal ou non do texto e lingua orixinal se se trata dunha tradución.

Estatísticas[editar | editar a fonte]

  • En número de palabras o TMILG pasa na actualidade dos nove millóns, que dan arredor de 170.000 formas gráficas distintas.
  • As dez máis frecuentes son, por esta orde, d(e), e(t), a, que, o, en, por, el, os e se; constitúen o 29,62% de todo o corpus.
  • Os primeiros substantivos comúns son carta, parte, rrey, lugar e terra.
  • Os primeiros antropónimos son Fernando e Afonso.
  • Os primeiros topónimos galegos son Lugo, Orzellon, Oseira e Tuy.
  • Os foráneos son Castella, Troya, Toledo, Cordoua e Leõ.
  • As formas gráficas de ocorrencia única rondan as 95.000.
  • Polo número de sílabas as máis frecuentes son as bisílabas, seguidas de cerca polas trisílabas, monosílabas, tetrasílabas e pentasílabas.

Consultas e utilidade[editar | editar a fonte]

O corpus é de acceso libre, previo rexistro como usuario. O sistema de consulta permite buscar unha ou varias palabras, facer buscas booleanas e utilizar comodíns. Pódense refinar as buscas facendo restricións cronolóxicas, por xénero, por subxénero ou por obra.

Este corpus foi fabricado para a elaboración dunha gramática histórica. Ten utilidade en todas as ramas lingüísticas e literarias da filoloxía, así como en moitas outras disciplinas, entre as que destacan a historia, a paleografía, a xeografía, o dereito e a política, a antropoloxía, as ciencias da saúde, a náutica, a botánica, a zooloxía etc.

Véxase tamén[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]