WordNet
WordNet é un léxico semántico para a lingua inglesa. Agrupa palabras inglesas en grupos de sinónimos chamados synsets, prové de definicións curtas e almacena as distintas relacións semánticas entre estes grupos de sinónimos. O propósito é dobre: producir unha combinación de dicionario e tesauro que se puidese empregar dunha forma máis intuitiva, e co obxectivo de soporta-la análise automática de textos e as apliacións da intelixencia artificial. A base de datos e ferramentas software son públicas baixo unha licenza tipo BSD e poden ser descargadas e empregadas libremente. A base de datos tamén pode ser consultada en liña.
WordNet foi creado e mantido polo Laboratorio de Ciencias Cognitivas da Universidade de Princeton baixo a dirección do profesor de psicoloxía George A. Miller. O seu densenvolvemento comezou en 1985. Ao longo dos anos, o proxecto recibiu preto de 3 millóns de dólares en doazóns, principalmente de axencias gobernamentais interesadas na tradución automática.
Contidos da base de datos
[editar | editar a fonte]No ano 2005, a base de datos contiña 150.000 palabras organizadas en 115.000 synsets para un total de 203.000 pares con significados; comprimidos ocupan arredor de 12 megabytes de tamaño.
WordNet distingue entre nomes, verbos, adxectivos e adverbios, asumindo que estes son aloxados no cerebro humano dunha forma distinta. Cada synset contén un grupo de palabras sinónimas ou collocations (unha colocación é unha secuencia de palabras que van xuntas para formar un significado específico, tal como "préstamo de coche"); normalmente as palabras forman parte de varios synsets. O significado de cada synset é explicado en profundidade a través de glosas curtas. Un synset tipico de exemplo con glosa e:
- bo, correcto, oportuno -- (o máis adecuado ou correcto para un propósito particular; "un bo momento para plantar tomates"; "o momento correcto para actuar"; "o momento é oportuno para grandes cambios sociais")
Cada synset esta conectado a outros synsets a través de varias relacións. Estas relacións poden variar dependendo do tipo de palabra:
- Nomes
- sinónimos: synsets con significados similares
- hiperónimos: Y é un hiperónimo de X se cada X é un (tipo de) Y
- hipónimos: Y é un hipónimo de X se cada Y é un (tipo de) X
- termos coordinados: Y é un termo coordinado de X se X é Y comparten un hiperónimo
- holónimo: Y é un holónimo de X se X é parte de Y
- merónimo: Y é un merónimo de X se Y é parte de X
- Verbos
- sinónimos
- hiperónimo: o nome Y é un hiperónimo do verbo X se a actividade X é un (tipo de) Y
- termos coordinados: aqueles termos compartindo un hiperónimo
- Adxectivos
- sinónimos e nomes relacionados
- antónimos: adxectivos de significados opostos
- Adverbios
- sinónimos e adxectivos raíz
- antónimos
WordNet tamén proporciona o polysemy count (contador polisémico) dunha palabra: o número de synsets que contén a palabra. Se unha palabra está presente en varios synsets (p.ex. ten varios significados), entón tipicamente algúns significados son máis comúns ca outros. WordNet contabiliza isto a través da frequency score (puntuación de frecuencia): nalgúns textos de exemplo todas as palabras foron semanticamente anotadas co synset correspondente, ademais de contabilizado con que frecuencia unha palabra aparecía cun sentido.
A interface da base de datos é quen de deducir a forma raíz dunha palabra a partir da entrada do usuario; soamente a forma principal se almacena na base de datos.
Limitacións
[editar | editar a fonte]O contrario que outros dicionarios, WordNet non inclúe información acerca da etimoloxía, pronuncia e as formas dos verbos irregulares e contén soamente información limitada acerca do uso.
A información lexicográfica e semántica é mantida na actualidade en arquivos lexicograficos, os cales son procesados por un programa chamado muinho para producir a base de datos distribuída. Tanto o muinho como os arquivos lexicográficos están dispoñibles libremente, pero modificar e manter a base de datos é sen dúbida difícil.
Proxectos relacionados
[editar | editar a fonte]O proxecto EuroWordNet ten producidas WordNets para varias linguas europeas relacionándoas entre elas; estas non son libremente accesibles a pesar de todo. O proxecto Wordnet Global intenta coordinar a produción e relación das WorNets en todas as linguas. Oxford University Press, que publica o Dicionario Oxford de Inglés ten anunciado plans para producir a súa propia WordNet.
O eXtended WordNet é un proxecto da Universidade de Texas en Dallas que pretende mellorar WordNet, facendo así a información contada nestas definicións dispoñible para sistemas de procesamento automático do coñecemento. Esta é libremente accesible baixo unha licenza similar á de WordNet.
O proxecto GCIDE produce un dicionario combinando o dicionario de dominio público Webster de 1913 con varias definicións de WordNet e material proporcionado por voluntarios. Ofrécese baixo a licenza copyleft GPL.
A WordNet en galego
[editar | editar a fonte]A Galnet é a WordNet da lingua galega http://sli.uvigo.gal/galnet/ Arquivado 03 de outubro de 2017 en Wayback Machine. e está desenvolvida polo Seminario de Lingüística Informática.
Véxase tamén
[editar | editar a fonte]Outros artigos
[editar | editar a fonte]- Corpus Lingüístico da Universidade de Vigo
- Corpus Técnico do Galego
- Web Semántica
- Taxonomía
- WordWeb: WordWeb (freeware) e a versión comercial WordWeb Pro empregan a base de datos WordNet
Ligazóns externas
[editar | editar a fonte]- The WordNet Home Page
- Global Wordnet
- eXtended WordNetArquivado 08 de xaneiro de 2006 en Wayback Machine.
- Article about Miller and WordNet in the Star Ledger, 22 de xaneiro de 2002
- A nice implementation of WordNet and Wikipedia
- WordNet 2.0 files in MySQL format
- WordNet 2.0 in RDF/OWL format (synsets), WordNet 2.0 in RDF/OWL format (words)
- WordNet 2.0 one touch interface—thesaurus dictionary with WordNet 2.0 one touch interface available.