O que é DALL-E?
DALL-E (estilizado como DALL.E) é uma ferramenta de inteligência artificial (IA) generativa que permite aos usuários criar imagens realistas e arte a partir de comandos de texto dados em linguagem natural. A OpenAI lançou-a para o público em janeiro de 2021.
DALL-E é uma variação do modelo de linguagem chamado transformador generativo pré-treinado (GPT) que alimenta o GPT-3 e o ChatGPT. Mas o DALL-E é especificamente projetado para geração de imagens. Ele usa uma versão menor do GPT-3 e é treinado em pares de texto-imagem retirados da internet para criar arte original por conta própria em qualquer estilo.
O nome DALL-E é uma combinação dos nomes do artista surrealista espanhol Salvador Dalí e do filme da Pixar sobre um robô ecológico, WALL-E.
O gerador de imagens DALL-E e seu sucessor DALL-E 2, lançado em 2022, fazem parte do software de mídia sintética. Ferramentas de mídia sintética são tecnologias de IA generativa que criam imagens, textos e vídeos com base em comandos. Geradores de texto para imagem antes do DALL-E não mostraram o nível de precisão ou controle no desenho de múltiplos objetos ou as habilidades de raciocínio espacial do DALL-E, tornando-o um divisor de águas no campo.
Os concorrentes do DALL-E incluem Midjourney, Stable Diffusion e DALL-E Mini, um gerador de arte de IA de código aberto.
Componentes tecnológicos do DALL-E
Para os usuários, o funcionamento do DALL-E parece simples: Insira um comando e clique em “gerar”. Mas nos bastidores, o DALL-E usa várias tecnologias de IA juntas. Isso inclui:
- GPT-3: GPT-3 é um grande modelo de linguagem que usa processamento de linguagem natural e geração de linguagem natural para criar texto. O DALL-E usa um subconjunto da arquitetura GPT-3. Ele utiliza 12 bilhões de parâmetros que são otimizados para geração de imagens dos mais de 175 bilhões de parâmetros que o GPT-3 possui.
- Pré-treinamento de linguagem-imagem contrastiva (CLIP): CLIP é uma rede neural artificial treinada em 400 milhões de pares de imagens com legendas de texto da internet. Ele prevê o trecho de texto mais relevante para uma imagem dada. O CLIP analisa e classifica as inúmeras saídas do DALL-E para selecionar a imagem mais adequada para um comando.
- Autoencoder variacional discreto (dVAE): dVAE é uma rede neural para aprendizado não supervisionado que usa um codificador e decodificador para comprimir e transformar uma entrada no formato desejado da saída. No DALL-E, o dVAE é usado para decodificar texto em uma imagem.
Como o DALL-E funciona
Usando as tecnologias mencionadas acima, veja como o DALL-E funciona:
- Codificação: Quando um usuário fornece um comando, o DALL-E entende o texto usando o GPT-3. Ele codifica o texto em tokens que capturam o significado semântico e o contexto da entrada.
- Decodificação: o dVAE então gera a saída de imagem para o texto codificado com base em padrões de seus conjuntos de dados de treinamento.
- Refinamento: A saída de imagem é refinada em várias etapas, adicionando mais detalhes e complexidade, resultando em uma imagem final de alta qualidade.
O DALL-E gera imagens únicas através deste processo iterativo de codificação, decodificação e refinamento.
Aplicações do DALL-E
Como um gerador de imagens de IA, o DALL-E tem uma ampla gama de aplicações potenciais em diferentes campos. Alguns casos de uso notáveis são:
- Inspiração criativa: O modelo fornece a artistas, designers e criadores de conteúdo uma ferramenta para gerar rapidamente visuais para fins criativos, como obras de arte, ilustrações ou elementos de design. Pode ser uma ferramenta para inspiração rápida ou pode complementar o processo criativo existente.
- Visualização de conceitos: O DALL-E ajuda a visualizar conceitos abstratos e complexos. Ele gera imagens de ideias, cenários ou objetos que são desafiadores de serem representados diretamente.
- Design de produto e prototipagem: O DALL-E auxilia nas fases iniciais do design de produto, gerando representações visuais de designs potenciais com base em descrições de texto. Ao contrário das tecnologias tradicionais de design auxiliado por computador (CAD), os designers podem explorar rapidamente diferentes conceitos de produto antes de partir para um protótipo físico.
- Publicidade e marketing: Os profissionais de marketing podem usar o DALL-E para criar e adaptar imagens visualmente atraentes para campanhas publicitárias, promoções de produtos ou propósitos de branding.
- Publicações, mídia e criação de conteúdo: O DALL-E cria facilmente ilustrações, gráficos e imagens que podem ser usados em livros, revistas, blogs e outras publicações de mídia. Pode até ser usado para criar materiais visuais e educacionais.
- Entretenimento, mídia e jogos: O gerador de imagens DALL-E pode criar visuais que vão além da usual imagem gerada por computador (CGI) para jogos, animações, filmes, realidade virtual (VR) e experiências de realidade aumentada (AR).
- Moda: É uma ferramenta útil para designers para brainstorm e gerar centenas de trajes de moda em diferentes estilos e cores.
- Arte: Qualquer pessoa, que não esteja familiarizada com pintura ou arte, pode criar sua própria arte gerada por IA usando o DALL-E.
Como usar o DALL-E e o DALL-E 2
Siga estas etapas para usar os geradores de imagens de IA da OpenAI e criar imagens de IA:
- Vá para o site da OpenAI e inscreva-se para uma conta usando um endereço de e-mail. Usuários com contas no Google, Microsoft ou Apple podem usar a respectiva opção e criar sua conta na OpenAI.
- Alternativamente, os usuários podem navegar até a página de produtos da OpenAI, como DALL-E e DALL-E 2, e se inscrever a partir dessa página. Nota: os usuários precisam verificar seu endereço de e-mail e seu número de telefone para uma verificação única como parte do processo de inscrição.
- Uma vez criada uma conta na OpenAI, os usuários podem explorar qualquer um dos produtos da OpenAI, como DALL-E e ChatGPT.
- No DALL-E, os usuários recebem uma tela com uma aba para inserir um comando e um botão “gerar”. Insira um comando de texto e clique em “gerar”.
Deve-se notar que o DALL-E opera em um sistema de créditos para medir o uso. Cada solicitação de texto para imagem precisa de um crédito que deve ser comprado da OpenAI. Usuários que se inscreveram no DALL-E antes de 6 de abril de 2023, no entanto, recebem créditos gratuitos mensalmente como primeiros adotantes.
Benefícios do DALL-E
O DALL-E oferece múltiplas vantagens como um gerador de arte de IA. Ele fornece uma boa solução sempre que visuais criativos precisam ser gerados com base em uma pequena quantidade de entrada de texto. Aqui estão alguns dos benefícios do DALL-E:
- Produção mais rápida: O DALL-E leva de alguns segundos a minutos para gerar uma imagem a partir de um comando de texto. Isso acelera a produção de conteúdo.
- Customização e iteração: O DALL-E permite a criação de imagens altamente personalizadas com descrições de texto detalhadas. As imagens geradas por IA podem ser refinadas ou editadas em iterações subsequentes, modificando os comandos.
- Acessibilidade: Como o modelo usa linguagem natural para entrada, não requer treinamento extenso e é facilmente acessível aos usuários.
- Extensibilidade: Como o DALL-E aceita imagens como entrada, os usuários podem usar a ferramenta para reimaginar uma imagem existente também.
- Aplicações em vários domínios: Como o DALL-E é agnóstico a domínios ou indústrias, ele pode ser usado em diferentes indústrias, desde publicidade e entretenimento até educação e moda, como visto nos casos de uso.
- Baixo custo: A ferramenta reduz significativamente o custo de geração de conteúdo visual, pois requer apenas a ferramenta e comandos de texto.
Limitações e desafios do DALL-E
Embora o DALL-E tenha benefícios significativos, ele também possui certas limitações que são importantes considerar.
- Desafios técnicos: Mesmo que o DALL-E seja treinado em um grande conjunto de dados, a compreensão de linguagem do modelo é limitada. Muitas vezes, ele não gera visuais apropriados para uma variedade de comandos.
- Viés algorítmico dos dados de treinamento: Como o DALL-E depende fortemente dos dados em que é treinado, é possível que o modelo reproduza vieses presentes nos dados de treinamento de forma não intencional.
- Preocupações éticas: Existem preocupações sobre o uso antiético do modelo de IA para gerar imagens digitalmente manipuladas chamadas deep fakes.
- Preocupações legais: Como o DALL-E é treinado em imagens da internet, ainda existem questões não resolvidas sobre os direitos autorais das imagens geradas por IA.
DALL-E vs. DALL E-2
DALL-E e DALL-E 2 são ambos geradores de arte de IA proprietários e de código fechado desenvolvidos pela OpenAI.
DALL E é a versão inicial do gerador de texto para imagem da OpenAI e DALL-E 2 é a versão avançada do DALL-E. Comparado ao DALL-E, o DALL E-2 é treinado em aproximadamente 650 milhões de pares de imagem-texto retirados da internet.
Ele também usa um modelo de difusão junto com o CLIP. O modelo de difusão remove qualquer ruído da saída, resultando em imagens muito mais de alta qualidade e fotorrealistas. Como resultado, o DALL-E 2 gera imagens muito mais rápido e fornece imagens superiores.
Quer explorar mais? Saiba mais sobre mídia sintética e seus tipos.

Soundarya Jayaraman
Soundarya Jayaraman is a Content Marketing Specialist at G2, focusing on cybersecurity. Formerly a reporter, Soundarya now covers the evolving cybersecurity landscape, how it affects businesses and individuals, and how technology can help. You can find her extensive writings on cloud security and zero-day attacks. When not writing, you can find her painting or reading.