Procesamento da linguaxe natural

Na Galipedia, a Wikipedia en galego.

O Procesamento da Linguaxe Natural (PLN, ou NLP; Natural Language Processing) é unha subdisciplina da intelixencia artificial e unha das aplicacións máis útiles da lingüística computacional. O PLN ocúpase da formulación e investigación de mecanismos eficaces computacionalmente para a comunicación entre persoas ou entre persoas e máquinas por medio de linguaxe natural. O PLN non trata da comunicación por medio de linguaxes naturais dunha forma abstracta, senón que procura deseñar mecanismos para comunicarse que sexan eficaces computacionalmente -que se poidan realizar por medio de programas que executen ou simulen a comunicación. Os modelos aplicados enfócanse non só á comprensión da linguaxe de por si, senón a aspectos xerais cognitivos humanos e á organización da memoria. A linguaxe natural serve só de medio para estudar estes fenómenos.

Historia[editar | editar a fonte]

O Procesamento da Linguaxe Natural (PLN) é unha das pedras angulares temperás da intelixencia artificial (IA). A tradución automática, por exemplo, naceu a fins da década dos corenta, antes de que se acuñara a propia expresión «Intelixencia Artificial». Non obstante, o PLN desempeñou múltiples papeis no contexto da IA, e a súa importancia dentro deste campo ten crecido e decrecido a consecuencia de cambios tecnolóxicos e científicos. Os primeiros intentos de traducir textos por ordenador a fins dos anos corenta e durante os cincuenta fracasaron debido á escasa potencia dos ordenadores e á escasa sofistificación lingüística. Porén, os esforzos realizados nas décadas dos sesenta e os setenta para producir interfaces en linguaxe natural para bases de datos e outras aplicacións informáticas obtiveron un certo grao significativo de éxito. A década dos oitenta e a principios dos noventa veu rexurdir a investigación no terreo da Tradución Automática.

Dificultades no procesamento de linguaxes naturais[editar | editar a fonte]

Ambigüidade[editar | editar a fonte]

A linguaxe natural é inherentemente ambigua a diferentes niveis:

  • A nivel léxico, unha mesma palabra pode ter varios significados, e a selección do apropiado debese deducir a partir do contexto oracional ou coñecemento básico. Moitas investigacións no campo do procesamento de linguaxes naturais teñen estudado métodos de resolver as ambigüidades léxicas mediante dicionarios, gramáticas, bases do coñecemento e correlacións estatísticas.
  • A nivel referencial, a resolución de anáforas e catáforas implica determinar a entidade lingüística previa ou posterior á que fan referencia.
  • A nivel estrutural, requírese da semántica para desambiguar a dependencia dos sintagmas preposicionais que conducen á construción de distintas árbores sintácticas.
  • A nivel pragmático, unha oración, a miúdo, non significa o que realmente se está a dicir. Elementos tales como a ironía teñen un papel importante na interpretación da mensaxe.

Para resolver estes e outros tipos de ambigüidades, o problema central no PLN é a tradución de entradas en linguaxe natural a unha representación interna sen ambigüidade, como árbores de análise.

Detección de separación entre as palabras[editar | editar a fonte]

Na lingua falada, non se acostuman facer pausas entre palabra e palabra. O lugar no que se debe separar as palabras a miúdo depende de cal é a posibilidade que manteña un sentido lóxico tanto gramatical como contextual. Na lingua escrita, idiomas como o chinés mandarín tampouco teñen separacións entre as palabras.

Recepción imperfecta de datos[editar | editar a fonte]

Acentos estranxeiros, rexionalismos ou dificultades na produción da fala, erros de mecanografado ou expresións non gramaticais, erros na lectura de textos mediante OCR

Compoñentes[editar | editar a fonte]

A análise das palabras para extraer raíces, trazos flexivos, unidades léxicas compostas e outros fenómenos.

A análise da estrutura sintáctica da frase mediante unha gramática da lingua en cuestión.

A extracción do significado da frase, e a resolución de ambigüidades léxicas e estruturais.

A análise do texto máis alá dos límites da frase, por exemplo, para determinar os antecedentes referenciais dos pronomes.

  • Planificación da frase

Estruturar cada frase do texto co fin de expresar o significado adecuado.

  • Xeración da frase

A xeración da cadea lineal de palabras a partir da estrutura xeral da frase, coas súas correspondentes flexións, concordancias e restantes fenómenos sintácticos e morfolóxicos.

Aplicacións[editar | editar a fonte]

As principais tarefas de traballo na área do PLN son:

Notas[editar | editar a fonte]

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]