Redes adversárias generativas e suas deficiências
Há apenas alguns anos, modelos de última geração nestes
No entanto, devido à natureza competitivaOs modelos GAN são muito instáveis no treinamento e não mostram uma variedade muito grande de tipos de imagem quando gerados. Além disso, são pouco aplicáveis na tarefa de gerar imagens a partir de texto, embora existam exemplos disso.
Resultados da geração de imagem pelo modelo StyleGAN 3
O boom dos modelos de difusão
Os modelos de difusão, ao contrário, têmvariabilidade suficiente das imagens geradas e são bastante estáveis. Sua principal desvantagem é a velocidade de aprendizado e geração. Dezenas ou até centenas de placas de vídeo são necessárias para treinar um modelo, e gerar uma imagem usando um modelo já treinado leva vários segundos, ao contrário do GAN, onde a contagem chega a dezenas de milissegundos.
A geração resulta do modelo de difusão de Ho et al
O boom em torno dos modelos de difusão é alimentado pela saídagrandes modelos geradores de texto para imagem. Certamente muitos leitores já viram os resultados gerados por DALL·E 2, MidJourney, Imagen ou Stable Diffusion. Alguns artistas e ilustradores temem que as redes neurais tirem seu trabalho, enquanto outros acreditam que isso só ajudará no processo criativo. Programadores e artistas dominam a engenharia de prompts - a arte de selecionar texto para obter resultados de geração mais precisos - e compartilham solicitações interessantes e resultados não menos interessantes.
Invasão alienígena Lofi para relaxar e estudar (rede neural Midjourney)
Pintura dos Beatles do século 17 (Model Stable Diffusion 2.1)
Uma fruta do dragão usando cinto de karatê na neve (modelo Imagen)
Como funcionam os modelos de difusão?
Os modelos de difusão são modelos iterativos queaceitar ruído aleatório como entrada. Para começar, considere o modelo de difusão mais básico, DDPM (Denoising Diffusion Probabilistic Model), apresentado por Ho et al. Esse modelo é treinado passo a passo em uma amostra de centenas de milhares de imagens, onde ruído aleatório de alguma força conhecida é aplicado à imagem da amostra a cada passo, e o modelo aprende a reverter esse ruído, melhorando assim a qualidade da imagem. Se aplicarmos iterativamente o modelo treinado dessa maneira a uma imagem de ruído completamente aleatório, invertendo o ruído "fraco" a cada etapa, o modelo pode gerar uma imagem completamente nova, eliminando gradualmente o ruído aleatório - usando difusão reversa.
Ilustração do processo básico de difusão (do tutorial CVPR 2022)
Ruído aleatório a partir do qual é geradoa imagem pode ser combinada com uma condição - um requisito para um resultado, expresso em texto ou outro exemplo de imagem. Primeiro, vejamos um exemplo do artigo SDEdit, onde o usuário indica à rede neural um desenho composto por traços grandes. Este desenho é ainda mais barulhento a ponto de não poder ser distinguido, por exemplo, de uma fotografia barulhenta, e então um processo iterativo de retrodifusão é aplicado, que reconstrói uma imagem de alta qualidade com base no desenho fornecido.
Uma ilustração do processo de difusão orientado a padrões (do artigo SDEdit)
Outra forma de direcionar a geração para o desejadoo resultado é o condicionamento do modelo pelo texto. Para isso, são utilizados modelos de linguagem, treinados em pares de imagens e legendas a elas, que são capazes de compreender o significado de imagens e textos ao mesmo tempo. Um exemplo desse modelo é o CLIP (Contrastive Language - Image Pre-training) lançado pela OpenAI. Este modelo é capaz de traduzir imagens e textos em um espaço vetorial latente comum (onde um vetor é apenas uma coluna de alguns valores). Neste espaço torna-se possível, por exemplo, encontrar as imagens mais próximas de alguma consulta de texto, já que esta é apenas uma operação algébrica sobre vetores.
Modelo de difusão latente,introduzido em 2021 condiciona um modelo em um espaço vetorial de textos para gerar imagens a partir de ruído direcional. Este modelo usa as propriedades do espaço latente comum de textos e imagens. Stable Diffusion, Imagen e outras grandes redes neurais de texto para imagem trabalham com esse princípio.
Outra técnica importante que melhora a qualidadeA geração usada no treinamento de modelos de difusão condicionada é a orientação livre do classificador. Em termos simples, quanto maior o valor do parâmetro de orientação livre do classificador, mais o resultado se assemelha a uma consulta de texto, o que geralmente se traduz em menor variabilidade nos resultados.
Problemas de modelos de difusão
É claro que os modelos de difusão não sãosolução universal para o problema de geração de imagens. Eles ainda estão sujeitos aos mesmos problemas que os GANs - à primeira vista, as imagens reais têm desvantagens significativas - as pessoas geradas podem ter mais de cinco dedos ou 32 dentes. Além disso, esses modelos são muito ruins em gerar texto em imagens e até inventam sua própria “linguagem”.
Artistas culpam a IA do meio da jornada e da estabilidade(a empresa por trás da Stable Diffusion) por violação de direitos autorais na preparação de dados de treinamento - alegam que as empresas baixaram imagens da Internet sem o consentimento dos artistas ou a devida compensação. Há também uma preocupação crescente de que as redes generativas, incluindo a Difusão Estável, reforcem estereótipos negativos sobre raça, gênero e outras questões sociais porque são treinadas com base em dados tendenciosos obtidos na Internet.
A história de Adão e Eva, Noé e Zeus no estilo DC Comics (modelo DALL·E 2)
Como experimentar gratuitamente
Ao contrário de muitos desenvolvimentos anteriores emEm áreas da visão computacional que muitas vezes eram acessíveis apenas aos programadores, as novas tecnologias no campo das redes de difusão podem muitas vezes ser experimentadas por todos. A tendência geral de software de código aberto e publicação de versões de demonstração de redes neurais permite que startups como Hugging Face agreguem muitas versões de modelos, por exemplo, Stable Diffusion 2.1. Eles também estão desenvolvendo a biblioteca difusores, projetada para simplificar o uso de modelos no código.
O serviço Google Colab permite que você execute código emGPU e TPU, por isso muitos entusiastas utilizam para publicar suas versões do modelo, por exemplo, o modelo Disco Diffusion Warp, que é capaz de mudar o estilo do vídeo.
Existem também interfaces convenientes para os modelos.Portanto, a rede neural MidJourney tem uma versão de avaliação gratuita para várias dezenas de gerações, o que é suficiente para experimentar modelos de texto para imagem. A OpenAI também está fornecendo acesso de teste ao modelo DALL·E 2.
O que vem
Podemos dizer com segurança que estamos vivendo uma era de ouroa era da geração de imagens de redes neurais. A comunidade aguarda ansiosamente os futuros produtos do Google, que lançou o modelo de difusão privada Imagen e um grande número de artigos sobre edição e geração de imagens, incluindo o uso de outras tecnologias de inteligência artificial.
Novas startups estão surgindo na área de criação eedição de imagens que compete com sucesso com gigantes como OpenAI ou Google. Novos artigos sobre modelos de difusão são publicados quase semanalmente, e o escopo de sua aplicação hoje não se limita às tarefas listadas de visão computacional 2D - eles são usados em tarefas de imagens médicas, geração de vídeo e texto 3D.
Consulte Mais informação:
O mistério das listras vermelhas no satélite de Júpiter é revelado
Planeta "impossível" encontrado. Ela desafia a ciência moderna
Misteriosos "favos de mel" hexagonais em desertos de sal encontraram uma explicação