Procesamento da linguaxe natural
O Procesamento da Linguaxe Natural (PLN, ou NLP; Natural Language Processing) é unha subdisciplina da intelixencia artificial e unha das aplicacións máis útiles da lingüística computacional. O PLN ocúpase da formulación e investigación de mecanismos eficaces computacionalmente para a comunicación entre persoas ou entre persoas e máquinas por medio de linguaxe natural. O PLN non trata da comunicación por medio de linguaxes naturais dunha forma abstracta, senón que procura deseñar mecanismos para comunicarse que sexan eficaces computacionalmente -que se poidan realizar por medio de programas que executen ou simulen a comunicación. Os modelos aplicados enfócanse non só á comprensión da linguaxe de por si, senón a aspectos xerais cognitivos humanos e á organización da memoria. A linguaxe natural serve só de medio para estudar estes fenómenos.
Historia[editar | editar a fonte]
O Procesamento da Linguaxe Natural (PLN) é unha das pedras angulares temperás da intelixencia artificial (IA). A tradución automática, por exemplo, naceu a fins da década dos corenta, antes de que se acuñara a propia expresión «Intelixencia Artificial». Non obstante, o PLN desempeñou múltiples papeis no contexto da IA, e a súa importancia dentro deste campo ten crecido e decrecido a consecuencia de cambios tecnolóxicos e científicos. Os primeiros intentos de traducir textos por ordenador a fins dos anos corenta e durante os cincuenta fracasaron debido á escasa potencia dos ordenadores e á escasa sofistificación lingüística. Porén, os esforzos realizados nas décadas dos sesenta e os setenta para producir interfaces en linguaxe natural para bases de datos e outras aplicacións informáticas obtiveron un certo grao significativo de éxito. A década dos oitenta e a principios dos noventa veu rexurdir a investigación no terreo da Tradución Automática.
Dificultades no procesamento de linguaxes naturais[editar | editar a fonte]
Ambigüidade[editar | editar a fonte]
A linguaxe natural é inherentemente ambigua a diferentes niveis:
- A nivel léxico, unha mesma palabra pode ter varios significados, e a selección do apropiado debese deducir a partir do contexto oracional ou coñecemento básico. Moitas investigacións no campo do procesamento de linguaxes naturais teñen estudado métodos de resolver as ambigüidades léxicas mediante dicionarios, gramáticas, bases do coñecemento e correlacións estatísticas.
- A nivel referencial, a resolución de anáforas e catáforas implica determinar a entidade lingüística previa ou posterior á que fan referencia.
- A nivel estrutural, requírese da semántica para desambiguar a dependencia dos sintagmas preposicionais que conducen á construción de distintas árbores sintácticas.
- A nivel pragmático, unha oración, a miúdo, non significa o que realmente se está a dicir. Elementos tales como a ironía teñen un papel importante na interpretación da mensaxe.
Para resolver estes e outros tipos de ambigüidades, o problema central no PLN é a tradución de entradas en linguaxe natural a unha representación interna sen ambigüidade, como árbores de análise.
Detección de separación entre as palabras[editar | editar a fonte]
Na lingua falada, non se acostuman facer pausas entre palabra e palabra. O lugar no que se debe separar as palabras a miúdo depende de cal é a posibilidade que manteña un sentido lóxico tanto gramatical como contextual. Na lingua escrita, idiomas como o chinés mandarín tampouco teñen separacións entre as palabras.
Recepción imperfecta de datos[editar | editar a fonte]
Acentos estranxeiros, rexionalismos ou dificultades na produción da fala, erros de mecanografado ou expresións non gramaticais, erros na lectura de textos mediante OCR
Compoñentes[editar | editar a fonte]
A análise das palabras para extraer raíces, trazos flexivos, unidades léxicas compostas e outros fenómenos.
A análise da estrutura sintáctica da frase mediante unha gramática da lingua en cuestión.
A extracción do significado da frase, e a resolución de ambigüidades léxicas e estruturais.
A análise do texto máis alá dos límites da frase, por exemplo, para determinar os antecedentes referenciais dos pronomes.
- Planificación da frase
Estruturar cada frase do texto co fin de expresar o significado adecuado.
- Xeración da frase
A xeración da cadea lineal de palabras a partir da estrutura xeral da frase, coas súas correspondentes flexións, concordancias e restantes fenómenos sintácticos e morfolóxicos.
Aplicacións[editar | editar a fonte]
As principais tarefas de traballo na área do PLN son:
- Síntese do discurso
- Análise da linguaxe
- Comprensión da linguaxe
- Recoñecemento da fala
- Tradución automática
- Extracción de información
Notas[editar | editar a fonte]
- Lingüística computacional. Xavier Gómez Guinovart. Manual de Ciencias da Linguaxe, pp. 221–268. Edicións Xerais de Galicia, Vigo, 2000
- Tecnoloxías da lingua galega e normalización lingüística. Xavier Gómez Guinovart. Lingua e investigación: II Xornadas sobre lingua e usos. Universidade da Coruña, A Coruña, 2006
- El procesamiento del lenguaje natural, tecnología en transición. Jaime Carbonell. Congreso de la Lengua Española, Sevilla, 1992
- Lenguas y tecnologías de la información. Ángel G. Jordán. Congreso de la Lengua Española, Sevilla, 1992
Véxase tamén[editar | editar a fonte]
Outros artigos[editar | editar a fonte]
- Linguaxes naturais
- Xeración de linguaxe natural
- Modelo de texto a imaxe
- GATE General Architecture for Text Engineering
Ligazóns externas[editar | editar a fonte]
- Seminario de Lingüística Informática (SLI) na Universidade de Vigo
- PLN na Universidade Politécnica de Madrid
- Grupo COLE (Compiladores e Linguaxes) que agrupa a investigadores en PLN das universidades da Coruña e Vigo
- Grupo LYS (Lingua e Sociedade da Información) da Universidade da Coruña
- Rede Galega de Procesamento da Linguaxe e Recuperación da Información (RedPLIR)