Transformador (modelo de aprendizaxe automática)

Na Galipedia, a Wikipedia en galego.
Transformer
Publicación inicial2017
Última versión2023
Tipomodelo de aprendizaxe automática

Transformer ou transformador é un modelo de aprendizaxe profunda, que adopta un mecanismo de autoponderación, ponderando de forma diferencial a importancia de cada parte dos datos de entrada. Úsase principalmente en certos campos, como o procesamento da linguaxe natural (NLP)[1] e a visión por ordenador (AR).[2]

Do mesmo xeito que as redes neuronais recorrentes (LNA), os transformadores están deseñados para procesar datos de entrada secuenciais, como a linguaxe natural, con aplicacións para tarefas como a tradución e o resumo de textos. Con todo, a diferenza dos LNA, os transformadores procesan toda a entrada simultaneamente. O mecanismo de altura proporciona un contexto para calquera posición na secuencia de entrada. Por exemplo, se os datos de entrada son unha frase en linguaxe natural, o transformador non necesita procesar unha palabra sobre outra. Isto permite un maior paralelismo que os LNA e, polo tanto, reduce os tempos de adestramento.[3]

Unha das técnicas máis populares no campo da aprendizaxe profunda é o modelo Transformer. Desde a súa introdución en 2017, revolucionou o procesamento da linguaxe natural (NLP) e tamén atopou aplicacións noutros campos como a visión por computadora.[4]

Definición[editar | editar a fonte]

Un Transformer é un modelo de aprendizaxe profunda que utiliza un mecanismo chamado "atención autodirixida" para procesar datos. Este mecanismo permítelle ao modelo ponderar diferentes partes dos datos de entrada, permitindo que se centre en diferentes aspectos dos datos en función da tarefa que se lle pida realizar.[5]

Está composto por un codificador e un descodificador, cada un deles formado por múltiples capas. O codificador procesa a entrada de datos e crea unha representación intermedia, centrándose nos aspectos máis relevantes para a tarefa en cuestión. Esta representación é logo usada polo descodificador para xerar a saída desexada. Ambas partes, o codificador e o descodificador, utilizan atención autodirixida e redes neuronais de avance rápido para transformar os datos. Esta arquitectura permite aos Transformer procesar grandes cantidades de información simultaneamente, o que é crucial para tarefas como o procesamento da linguaxe natural.

Importancia[editar | editar a fonte]

Antes dos Transformers, os modelos populares de NLP, como as redes neuronais recorrentes (RNNs) e a memoria de longo prazo (LSTM), procesaban os datos secuencialmente. Isto significaba que tiñan dificultades para manexar secuencias moi longas de datos, un problema que os Transformers solucionaron ao procesar todos os datos simultaneamente.

Ademais, os Transformers foron pioneiros na aplicación de técnicas de atención autodirixida á aprendizaxe profunda. Estas técnicas permiten aos modelos centrarse en diferentes partes dos datos de entrada, o que é especialmente útil para tarefas como a tradución automática, a xeración de texto ou mesmo a previsión de emocións.[4]

Exemplos[editar | editar a fonte]

Dende a súa introdución, os Transformers foron usados para crear varios modelos de NLP de alto rendemento. Estes inclúen ChatGPT, un modelo que pode xerar textos realistas, e BERT, un modelo que pode entender o contexto das palabras nunha frase e que se usa para mellorar os resultados dos motores de busca.[6]

Notas[editar | editar a fonte]

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]


Este artigo tan só é un bosquexo
 Este artigo sobre informática é, polo de agora, só un bosquexo. Traballa nel para axudar a contribuír a que a Galipedia mellore e medre.
 Existen igualmente outros artigos relacionados con este tema nos que tamén podes contribuír.