Recoñecemento da fala

Na Galipedia, a Wikipedia en galego.

O Recoñecemento Automático do Fala (RAH) ou de voz é unha parte da intelixencia artificial que ten como obxectivo permitir a comunicación falada entre seres humanos e computadoras. O problema que se suscita nun sistema de RAH é o de facer cooperar un conxunto de informacións que proceden de diversas fontes de coñecemento (acústica, fonética, fonolóxica, léxica, morfosintáctica, semántica e pragmática), en presenza de ambigüidades, incertezas e erros inevitables para chegar a obter unha interpretación aceptable da mensaxe acústica recibida.

Deseño dun sistema de RAH[editar | editar a fonte]

Aprendizaxe[editar | editar a fonte]

Un aspecto crucial no deseño dun sistema de RAH é a elección do tipo de aprendizaxe que se utilice para construír as diversas fontes de coñecemento. Basicamente, existen dous tipos:

  • As técnicas de aprendizaxe dedutiva baséanse na transferencia dos coñecementos que un experto humano posúe a un sistema informático. Un exemplo paradigmático das metodoloxías que utilizan tales técnicas constitúeno os "Sistemas baseados no coñecemento" e, en particular, os "Sistemas expertos"
  • As técnicas de aprendizaxe indutiva baséanse en que o sistema poida, automaticamente, conseguir os coñecementos necesarios a partir de exemplos reais sobre a tarefa que se desexa modelizar. Neste segundo tipo, os exemplos constitúenos aquelas partes dos sistemas baseados nos modelos ocultos de Markov ou nas redes neuronais artificiais que son configuradas automaticamente a partir de mostras de aprendizaxe.

Na práctica, non existen metodoloxías que estean baseadas unicamente na aprendizaxe indutiva, de feito, asúmese un compromiso dedutivo-indutivo no que os aspectos xerais fornécense dedutivamente e a caracterización da variabilidade indutivamente.

Decodificador acústico-fonético[editar | editar a fonte]

As fontes de información acústica, fonética, fonolóxica e posiblemente léxica, cos correspondentes procedementos interpretativos, dan lugar a un módulo coñecido como decodificador acústico-fonético (ou en ocasións a un decodificador léxico). A entrada ao decodificador acústico-fonético é o sinal vocal convenientemente representado; para iso, é necesario que este sufra un preproceso de parametrización. Nesta etapa previa é necesario asumir algún modelo físico, contándose con modelos auditivos e modelos articulatorios.

Modelo da linguaxe[editar | editar a fonte]

As fontes de coñecemento sintáctico, semántico e pragmático dan lugar ao modelo da linguaxe do sistema. Cando a representación da sintaxe e da semántica tende a integrarse, desenvólvense sistemas de RAH de gramática restrinxida para tarefas concretas.

Recoñecemento dunha gramática restrinxida[editar | editar a fonte]

O recoñecemento da gramática restrinxida traballa reducindo as típicas frases recoñecidas a un tamaño máis pequeno cá gramática formal. Este tipo de recoñecemento traballa mellor cando o falante proporciona respostas breves a cuestións ou preguntas específicas: as preguntas "si" ou "non", ao elixir unha opción do menú, un artigo dunha lista determinada, etc. A gramática especifica as palabras e frases máis típicas que unha persoa diría como resposta rápida e despois asocia esas palabras ou frases a un concepto semántico. Por exemplo, un “si” pode entenderse cando se oe un “sip”, “vale”, “yes” ou “okey”, e un “non” cun “nop”, “nada” ou “en absoluto”.

Se o falante di algo que gramaticalmente non ten sentido, o recoñecemento fallará. Normalmente, se o recoñecemento falla, a aplicación incitará ao usuario a repetir o que dixo e o recoñecemento intentarase de novo. Se o sistema está correctamente deseñado e é repetidamente incapaz de entender ao usuario (debido a que non se entendeu ben a pregunta, un acento pechado, interferencias ou demasiado ruído ao redor), retirarase e desviará a chamada a outro operador.

Os modelos da linguaxe máis complexos necesitan para o seu correcto funcionamento grandes corpos de voz e de texto escrito para a aprendizaxe e a avaliación dos correspondentes sistemas. Grazas a eles, pódense abordar gramáticas máis complexas e achegarse ao procesamento de linguaxes naturais.

Características dos sistemas existentes[editar | editar a fonte]

Os sistemas comerciais estiveron dispoñibles dende o ano 1990. A pesar do aparente éxito destas tecnoloxías, moi poucas persoas utilizan o sistema do recoñecemento do fala nas súas computadoras. Parece ser que moitos dos usuarios utilizan o rato e o teclado para gardar ou redactar documentos, porque lles resulta máis cómodo e rápido a pesar do feito de que todos podemos falar a máis velocidade da que tecleamos. Así a todo, mediante o uso de ambos, o teclado e o recoñecemento do fala, o noso traballo será moito máis efectivo.

Este sistema onde está sendo máis utilizado é en aplicacións telefónicas: axencias de viaxes, atención ao cliente, información etc. A melloría destes sistemas de recoñecemento da fala foron aumentando e a súa eficacia cada vez é maior.

Os programas comerciais máis famosos son IBM ViaVoice e Dragon NaturallySpeaking.

En software libre hai CVoiceControl (grávase a orde como adestramento) e PerlBox (sen adestramento, pero en inglés).

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]