WordNet

Na Galipedia, a Wikipedia en galego.

WordNet é un léxico semántico para a lingua inglesa. Agrupa palabras inglesas en grupos de sinónimos chamados synsets, provee definicións curtas, e almacena as distintas relacións semánticas entre estes grupos de sinónimos. O propósito é dobre: producir unha combinación de dicionario e tesauro que se puidese empregar dunha forma máis intuitiva, e co obxectivo de soporta-la analise automática de textos e as apliacións da intelixencia artificial. A base de datos e ferramentas software son públicas baixo unha licenza tipo BSD e poden ser descargadas e empregadas libremente. A base de datos tamén pode ser consultada en liña.

WordNet foi creado e mantido polo Laboratorio de Ciencias Cognitivas da Universidade de Princeton baixo a dirección do profesor de psicoloxía George A. Miller. O seu densenvolvemento comezou en 1985. Ao longo dos anos, o proxecto recibiu preto de 3 millóns de dólares en doazóns, principalmente de axencias gobernamentais interesadas na tradución automática.

Contidos da base de datos[editar | editar a fonte]

No ano 2005, a base de datos contiña 150.000 palabras organizadas en 115.000 synsets para un total de 203.000 pares con significados; comprimidos ocupan arredor de 12 megabytes de tamaño.

WordNet distingue entre nomes, verbos, adxectivos e adverbios, asumindo que estes son aloxados no cerebro humano dunha forma distinta. Cada synset contén un grupo de palabras sinónimas ou collocations (unha colocación é unha secuencia de palabras que van xuntas para formar un significado específico, tal como "préstamo de coche"); normalmente as palabras forman parte de varios synsets. O significado de cada synset é explicado en profundidade a través de glosas curtas. Un synset tipico de exemplo con glosa e:

bo, correcto, oportuno -- (o máis adecuado ou correcto para un propósito particular; "un bo momento para plantar tomates"; "o momento correcto para actuar"; "o momento é oportuno para grandes cambios sociais")

Cada synset esta conectado a outros synsets a través de varias relacións. Estas relacións poden variar dependendo do tipo de palabra:

  • Nomes
    • sinónimos: synsets con significados similares
    • hiperónimos: Y é un hiperónimo de X se cada X é un (tipo de) Y
    • hipónimos: Y é un hipónimo de X se cada Y é un (tipo de) X
    • termos coordinados: Y é un termo coordinado de X se X é Y comparten un hiperónimo
    • holónimo: Y é un holónimo de X se X é parte de Y
    • merónimo: Y é un merónimo de X se Y é parte de X
  • Verbos
    • sinónimos
    • hiperónimo: o nome Y é un hiperónimo do verbo X se a actividade X é un (tipo de) Y
    • termos coordinados: aqueles termos compartindo un hiperónimo
  • Adxectivos
    • sinónimos e nomes relacionados
    • antónimos: adxetivos de significados opostos
  • Adverbios
    • sinónimos e adxetivos raíz
    • antónimos

WordNet tamén proporciona o polysemy count (contador polisémico) dunha palabra: o número de synsets que contén a palabra. Se unha palabra está presente en varios synsets (p.ex. ten varios significados), entón tipicamente algúns significados son máis comúns ca outros. WordNet contabiliza isto a través da frequency score (puntuación de frecuencia): en algúns textos de exemplo todas as palabras foron semanticamente anotadas co synset correspondente, ademais de contabilizado con que frecuencia unha palabra aparecía cun sentido.

A interface da base de datos é quen de deducir a forma raíz dunha palabra a partir da entrada do usuario; soamente a forma principal se almacena na base de datos.

Limitacións[editar | editar a fonte]

O contrario que outros dicionarios, WordNet non inclúe información acerca da etimoloxía, pronuncia e as formas dos verbos irregulares e contén soamente información limitada acerca do uso.

A información lexicográfica e semántica é mantida na actualidade en arquivos lexicograficos, os cales son procesados por un programa chamado muinho para producir a base de datos distribuída. Tanto o muinho como os arquivos lexicográficos están dispoñibles libremente, pero modificar e manter a base de datos é sen dúbida difícil.

Proxectos relacionados[editar | editar a fonte]

O proxecto EuroWordNet ten producidas WordNets para varias linguas europeas relacionándoas entre elas; estas non son libremente accesibles a pesar de todo. O proxecto Wordnet Global intenta coordinar a produción e relación das WorNets en todas as linguas. Oxford University Press, que publica o Dicionario Oxford de Inglés ten anunciado plans para producir a súa propia WordNet.

O eXtended WordNet é un proxecto da Universidade de Texas en Dallas que pretende mellorar WordNet, facendo así a información contada nestas definicións dispoñible para sistemas de procesamento automático do coñecemento. Esta é libremente accesible baixo unha licenza similar á de WordNet.

O proxecto GCIDE produce un dicionario combinando o dicionario de dominio publico Webster de 1913 con varias definicións de WordNet e material proporcionado por voluntarios. Ofrécese baixo a licenza copyleft GPL.

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]