Stable Diffusion

Na Galipedia, a Wikipedia en galego.
Stable Diffusion
Imaxe xerada por Stable Diffusion mediante modelo text-to image.
Repositoriogithub.com/CompVis/stable-diffusion
Sitio webstability.ai/stable-image

Stable Diffusion é un modelo de aprendizaxe automática de texto a imaxe publicado no 2022. Desenvolvido por StabilityAI, en colaboración con EleutherAI e LAION [1], para xerar imaxes dixitais a partir de descricións en linguaxe natural introducidas polo usuario. O modelo tamén se pode usar para outras tarefas, como xerar traducións de imaxe a imaxe guiadas por unha solicitude de texto.[2]

Pode funcionar na maioría do hardware de consumo equipado cunha GPU modesta e PC World aclamaba como "a próxima killer app (aplicación asasina) para o teu PC".[3]

Licenza[editar | editar a fonte]

A diferenza de modelos da competencia como DALL-E, Stable Diffusion fai que o seu código fonte estea dispoñible.[4] A súa licenza prohibe certos casos de uso prexudicial.[5][6] Os críticos expresaron preocupacións sobre a ética da IA, afirmando que o modelo pode usarse para crear deepfakes[7] e tamén cuestionaron a legalidade de xerar imaxes cun modelo adestrado nun conxunto de datos que contén contido protexido por dereitos de autor sen o consentimento dos artistas orixinais.[8]

Adestramento[editar | editar a fonte]

Stable Diffusion adestrouse nun subconxunto do conxunto de datos LAION-Aesthetics V2.[9] Adestrouse usando 256 GPU Nvidia A100 cun custo de 600.000 dólares.[10]

Nos primeiros meses as imaxes dun astronauta montando un cabalo foron moi icónicas, xa que o software non entendía os prompts (enunciados) de "un cabalo montado a un astronauta", e sempre o interpretaba como a imaxe máis obvia (o astronauta montando ao cabalo).[11]

Notas[editar | editar a fonte]

Véxase tamén[editar | editar a fonte]

Ligazóns externas[editar | editar a fonte]