Transformador (modelo de aprendizaxe automática)

Transformer
Publicación inicial	2017
Última versión	2023
Tipo	modelo de aprendizaxe automática

Transformer ou transformador é un modelo de aprendizaxe profunda, que adopta un mecanismo de autoponderación, ponderando de forma diferencial a importancia de cada parte dos datos de entrada. Úsase principalmente en certos campos, como o procesamento da linguaxe natural (NLP)^[1] e a visión por ordenador (AR).^[2]

Do mesmo xeito que as redes neuronais recorrentes (LNA), os transformadores están deseñados para procesar datos de entrada secuenciais, como a linguaxe natural, con aplicacións para tarefas como a tradución e o resumo de textos. Con todo, a diferenza dos LNA, os transformadores procesan toda a entrada simultaneamente. O mecanismo de altura proporciona un contexto para calquera posición na secuencia de entrada. Por exemplo, se os datos de entrada son unha frase en linguaxe natural, o transformador non necesita procesar unha palabra sobre outra. Isto permite un maior paralelismo que os LNA e, polo tanto, reduce os tempos de adestramento.^[3]

Unha das técnicas máis populares no campo da aprendizaxe profunda é o modelo Transformer. Desde a súa introdución en 2017, revolucionou o procesamento da linguaxe natural (NLP) e tamén atopou aplicacións noutros campos como a visión por computadora.^[4]

Definición[editar | editar a fonte]

Un Transformer é un modelo de aprendizaxe profunda que utiliza un mecanismo chamado "atención autodirixida" para procesar datos. Este mecanismo permítelle ao modelo ponderar diferentes partes dos datos de entrada, permitindo que se centre en diferentes aspectos dos datos en función da tarefa que se lle pida realizar.^[5]

Está composto por un codificador e un descodificador, cada un deles formado por múltiples capas. O codificador procesa a entrada de datos e crea unha representación intermedia, centrándose nos aspectos máis relevantes para a tarefa en cuestión. Esta representación é logo usada polo descodificador para xerar a saída desexada. Ambas partes, o codificador e o descodificador, utilizan atención autodirixida e redes neuronais de avance rápido para transformar os datos. Esta arquitectura permite aos Transformer procesar grandes cantidades de información simultaneamente, o que é crucial para tarefas como o procesamento da linguaxe natural.

Importancia[editar | editar a fonte]

Antes dos Transformers, os modelos populares de NLP, como as redes neuronais recorrentes (RNNs) e a memoria de longo prazo (LSTM), procesaban os datos secuencialmente. Isto significaba que tiñan dificultades para manexar secuencias moi longas de datos, un problema que os Transformers solucionaron ao procesar todos os datos simultaneamente.

Ademais, os Transformers foron pioneiros na aplicación de técnicas de atención autodirixida á aprendizaxe profunda. Estas técnicas permiten aos modelos centrarse en diferentes partes dos datos de entrada, o que é especialmente útil para tarefas como a tradución automática, a xeración de texto ou mesmo a previsión de emocións.^[4]

Exemplos[editar | editar a fonte]

Dende a súa introdución, os Transformers foron usados para crear varios modelos de NLP de alto rendemento. Estes inclúen ChatGPT, un modelo que pode xerar textos realistas, e BERT, un modelo que pode entender o contexto das palabras nunha frase e que se usa para mellorar os resultados dos motores de busca.^[6]

Notas[editar | editar a fonte]

↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-06-12). "Attention Is All You Need"
↑ "Transformer in CV; The increasing convergence of computer vision and NLP". Towardsdatascience.com (en inglés).
↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-06-12). "Attention Is All You Need"
↑ ^4,0 ^4,1 "Introdução aos Transformers – Acervo Lima". acervolima.com. Consultado o 2023-06-30.
↑ Sanz, Francisco (2021-01-01). "🤖 Transformer; domina el mundo (NLP): explicación SENCILLA". The Machine Learners (en castelán). Consultado o 2023-06-30.
↑ Budhathoki, Sangita (2023-03-09). "ChatGPT Vs. BERT: Battle Of The Transformer". The Nature Hero (en inglés). Consultado o 2023-06-30.

Véxase tamén[editar | editar a fonte]

Outros artigos[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]

Se necesita un cuerpo para entender el mundo: por qué ChatGPT y las IA de otros idiomas no saben lo que dicen [Publicado orixinalmente en The Conversation en abril de 2023] ; SciELO en Perspectiva (en castelán)

Este artigo sobre informática é, polo de agora, só un bosquexo. Traballa nel para axudar a contribuír a que a Galipedia mellore e medre.
Existen igualmente outros artigos relacionados con este tema nos que tamén podes contribuír.

[1] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-06-12). "Attention Is All You Need"

[2] "Transformer in CV; The increasing convergence of computer vision and NLP". Towardsdatascience.com (en inglés).

[3] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-06-12). "Attention Is All You Need"

[:0-4] 4,0 ^4,1 "Introdução aos Transformers – Acervo Lima". acervolima.com. Consultado o 2023-06-30.

[5] Sanz, Francisco (2021-01-01). "🤖 Transformer; domina el mundo (NLP): explicación SENCILLA". The Machine Learners (en castelán). Consultado o 2023-06-30.

[6] Budhathoki, Sangita (2023-03-09). "ChatGPT Vs. BERT: Battle Of The Transformer". The Nature Hero (en inglés). Consultado o 2023-06-30.

[1]

[2]

[3]

[4]

[5]

[6]