Adeus DALL-E: ChatGPT agora usa Sora para criar imagens com textos, transparências e histórias em quadrinhos

A OpenAI anunciou hoje a integração do Sora – seu gerador de imagens e vídeos baseado em IA – diretamente no ChatGPT. A novidade, chamada “Images in ChatGPT”, substitui o DALL-E como ferramenta padrão de geração de imagens na plataforma.

Melhorias significativas. A versão de geração de imagens do Sora vem com aprimoramentos importantes em relação às ferramentas anteriores. Gabriel Goh, líder de pesquisa da OpenAI, destacou como principais avanços a capacidade aprimorada de “binding” (relação correta entre atributos e objetos) e a renderização de texto.

“Este modelo é um salto em relação aos anteriores”, afirmou Goh ao site The Verge. “Enquanto a maioria dos modelos de geração de imagens tem dificuldades com a vinculação correta de atributos após 5 a 8 objetos, o Sora consegue manter relações precisas entre 15 e 20 objetos sem confusão.”

🖼️ Foco em utilidade prática. Durante uma demonstração, a equipe apresentou exemplos que mostram as capacidades do sistema, incluindo diagramas científicos como o experimento do prisma de Newton com componentes corretamente rotulados, quadrinhos com personagens consistentes e balões de texto, e pôsteres informativos com texto preciso.

↳ A geração de texto coerente em imagens foi um desafio significativo que exigiu meses de aperfeiçoamento. “Foi apenas um processo de iteração que levou muitos, muitos meses para acertar”, explicou Goh, observando que o sistema ainda pode falhar com textos muito pequenos.

Mudança técnica. O sistema utiliza uma abordagem autorregressiva — gerando imagens sequencialmente da esquerda para a direita e de cima para baixo, semelhante à forma como o texto é escrito — em vez da técnica de modelo de difusão usada pela maioria dos geradores de imagem (como o DALL-E), que criam a imagem inteira de uma vez.

Goh especula que essa diferença técnica pode ser o que confere ao Sora melhores capacidades de renderização de texto e vinculação de atributos.

Disponibilidade. A funcionalidade começa a ser implementada hoje para usuários ChatGPT Plus, Pro, Team e da versão gratuita, com acesso chegando em breve para usuários Enterprise e Edu. Mesmo sendo apenas um recurso de geração de imagens nesta fase, vale lembrar que o Sora foi inicialmente anunciado como um gerador de vídeos com IA.

“Se eu for desenhar uma imagem, faço isso com a limitação da minha própria habilidade… mas também com todo o conhecimento do mundo que acumulei”, explicou Jackie Shannon, líder de produto multimodal do ChatGPT. “O modelo traz conhecimento de mundo para a equação, então quando você pede uma imagem do experimento do prisma de Newton, não precisa explicar o que é isso para obter uma imagem de volta.”

Um detalhe interessante é que o novo sistema leva mais tempo para gerar imagens do que antes, mas a OpenAI sugere que este é um ajuste que vale a pena pela qualidade superior dos resultados.

Para os fãs do DALL-E, a ferramenta anterior continuará disponível através de um GPT dedicado específico. Os desenvolvedores também poderão gerar imagens com o GPT-4o via API, com acesso sendo implementado nas próximas semanas.

Share
Publicador por
Carlos Merigo

Recent Posts

  • Brasil
  • Criatividade

Bauducco transforma embalagens concorrentes em anúncios para sua linha de pães

A Bauducco lançou uma ativação que transforma produtos de outras marcas em publicidade para sua linha de pães de fermentação…

5 dias Atrás
  • Brasil
  • Criatividade

Coral lança projeto que traduz cores em experiências sensoriais para pessoas cegas

No mês em que se celebra o Sistema Braille, a Coral apresenta uma iniciativa que busca democratizar o acesso às…

5 dias Atrás
  • Criatividade

Zendaya e On criam universo retrofuturista em campanha que simula trailer de filme

Zendaya volta a colaborar com a marca suíça de sportswear On em uma campanha que busca quebrar os limites entre…

6 dias Atrás
  • Brasil
  • Criatividade

Boticário aborda dor das tentantes em campanha para o Dia das Mães 2025

Após explorar temas como o cansaço no puerpério e os julgamentos da maternidade nos últimos anos, O Boticário agora direciona…

7 dias Atrás
  • Criatividade

Microsoft celebra 50 anos tentando se reconectar com seu lado visionário em campanha global

A Microsoft completa 50 anos e escolheu o estúdio de design londrino Koto para criar uma campanha que se afasta…

1 semana Atrás
  • Brasil
  • Criatividade

Max e Jeep se unem para promover The Last of Us com Eriberto Leão como versão brasileira de Joel

A Max e a Jeep anunciaram uma parceria para promover a segunda temporada de The Last of Us no Brasil,…

1 semana Atrás