Adeus DALL-E: ChatGPT agora usa Sora para criar imagens com textos, transparências e histórias em quadrinhos

Nova funcionalidade aproveita o modelo GPT-4o para criar imagens com maior precisão textual e capacidade de gerar até 20 objetos sem alucinação

por Carlos Merigo

Capa - Adeus DALL-E: ChatGPT agora usa Sora para criar imagens com textos, transparências e histórias em quadrinhos

Imagem: OpenAI

A OpenAI anunciou hoje a integração do Sora – seu gerador de imagens e vídeos baseado em IA – diretamente no ChatGPT. A novidade, chamada “Images in ChatGPT”, substitui o DALL-E como ferramenta padrão de geração de imagens na plataforma.

Melhorias significativas. A versão de geração de imagens do Sora vem com aprimoramentos importantes em relação às ferramentas anteriores. Gabriel Goh, líder de pesquisa da OpenAI, destacou como principais avanços a capacidade aprimorada de “binding” (relação correta entre atributos e objetos) e a renderização de texto.

“Este modelo é um salto em relação aos anteriores”, afirmou Goh ao site The Verge. “Enquanto a maioria dos modelos de geração de imagens tem dificuldades com a vinculação correta de atributos após 5 a 8 objetos, o Sora consegue manter relações precisas entre 15 e 20 objetos sem confusão.”

Foco em utilidade prática. Durante uma demonstração, a equipe apresentou exemplos que mostram as capacidades do sistema, incluindo diagramas científicos como o experimento do prisma de Newton com componentes corretamente rotulados, quadrinhos com personagens consistentes e balões de texto, e pôsteres informativos com texto preciso.

↳ A geração de texto coerente em imagens foi um desafio significativo que exigiu meses de aperfeiçoamento. “Foi apenas um processo de iteração que levou muitos, muitos meses para acertar”, explicou Goh, observando que o sistema ainda pode falhar com textos muito pequenos.

Mudança técnica. O sistema utiliza uma abordagem autorregressiva — gerando imagens sequencialmente da esquerda para a direita e de cima para baixo, semelhante à forma como o texto é escrito — em vez da técnica de modelo de difusão usada pela maioria dos geradores de imagem (como o DALL-E), que criam a imagem inteira de uma vez.

Adult, FemAle, Person, Woman, Head, Architecture, Fountain, Water, face, Clothing, Footwear, Shoe, happy, Smile, Body Part, Finger, Hand, Nature, Outdoors, Rainbow, sky, Photography

Goh especula que essa diferença técnica pode ser o que confere ao Sora melhores capacidades de renderização de texto e vinculação de atributos.

Disponibilidade. A funcionalidade começa a ser implementada hoje para usuários ChatGPT Plus, Pro, Team e da versão gratuita, com acesso chegando em breve para usuários Enterprise e Edu. Mesmo sendo apenas um recurso de geração de imagens nesta fase, vale lembrar que o Sora foi inicialmente anunciado como um gerador de vídeos com IA.

“Se eu for desenhar uma imagem, faço isso com a limitação da minha própria habilidade… mas também com todo o conhecimento do mundo que acumulei”, explicou Jackie Shannon, líder de produto multimodal do ChatGPT. “O modelo traz conhecimento de mundo para a equação, então quando você pede uma imagem do experimento do prisma de Newton, não precisa explicar o que é isso para obter uma imagem de volta.”

Um detalhe interessante é que o novo sistema leva mais tempo para gerar imagens do que antes, mas a OpenAI sugere que este é um ajuste que vale a pena pela qualidade superior dos resultados.

Para os fãs do DALL-E, a ferramenta anterior continuará disponível através de um GPT dedicado específico. Os desenvolvedores também poderão gerar imagens com o GPT-4o via API, com acesso sendo implementado nas próximas semanas.

Adeus DALL-E: ChatGPT agora usa Sora para criar imagens com textos, transparências e histórias em quadrinhos

Nova funcionalidade aproveita o modelo GPT-4o para criar imagens com maior precisão textual e capacidade de gerar até 20 objetos sem alucinação

transforme sua marca em conversa
conte com o b9

20 anos de pioneirismo digital

Newsletter

SIGA B9

Comentários

Adeus DALL-E: ChatGPT agora usa Sora para criar imagens com textos, transparências e histórias em quadrinhos

Nova funcionalidade aproveita o modelo GPT-4o para criar imagens com maior precisão textual e capacidade de gerar até 20 objetos sem alucinação

Relacionados

transforme sua marca em conversa conte com o b9

20 anos de pioneirismo digital

Obrigado!

transforme sua marca em conversa
conte com o b9