ByteDance lança Goku, IA que gera vídeos realistas sem atores
A ByteDance, empresa proprietária do TikTok, recentemente apresentou uma inovação surpreendente no campo da inteligência artificial: o modelo Goku. Esta tecnologia avançada é capaz de gerar vídeos realistas de pessoas interagindo com produtos, sem a necessidade de atores humanos, potencialmente transformando a indústria de criação de conteúdo publicitário.
O Goku foi desenvolvido utilizando um conjunto de dados massivo, composto por aproximadamente 160 milhões de pares de imagem-texto e 36 milhões de pares de vídeo-texto. Essas informações foram coletadas de diversas fontes, incluindo conjuntos de dados acadêmicos, conteúdos da internet e parcerias com organizações, garantindo uma base robusta para o aprendizado do modelo.
Diferentemente de outros modelos de geração de vídeo, o Goku se destaca por sua capacidade de criar tanto imagens estáticas quanto vídeos a partir de descrições textuais. Esta versatilidade é possibilitada por uma nova arquitetura de transformador que utiliza entre 2 e 8 bilhões de parâmetros, permitindo o processamento simultâneo de diferentes formatos visuais.
Tecnologia inovadora por trás do Goku
O coração do sistema Goku é uma arquitetura que comprime imagens e vídeos em um formato unificado através de um codificador compartilhado (VAE), similar a um processo de compressão de dados. Este formato comprimido é então processado por um transformador personalizado, utilizando um processo generativo especializado chamado Rectified Flow, que substitui o método de difusão comumente utilizado em outros modelos.
O treinamento do Goku ocorre em fases distintas, começando com o aprendizado da correspondência entre texto e imagens, seguido por um treinamento conjunto de imagens e vídeos. A fase final otimiza o modelo especificamente para a saída de imagens ou vídeos, dependendo do objetivo desejado.
Para lidar com a complexidade deste processo de treinamento, a ByteDance desenvolveu uma infraestrutura especializada que faz uso eficiente dos recursos computacionais disponíveis através de paralelização. O sistema também é capaz de salvar o progresso de forma eficaz e retomar rapidamente em caso de problemas, permitindo um treinamento estável em grandes clusters de computadores.
![]() |
Inteligência artificial avança na criação de conteúdo visual, desafiando limites entre real e virtual. (Imagem: Reprodução/Canva) |
Impacto e aplicações do Goku na indústria criativa
A ByteDance vislumbra aplicações amplas para o Goku, abrangendo desde a produção de mídia e publicidade até os setores de jogos e modelagem de mundos virtuais. Uma versão especializada, denominada Goku+, foi desenvolvida com foco específico na criação de conteúdo publicitário apresentando pessoas e produtos.
O Goku+ é capaz de gerar vídeos realistas de humanos com movimentos naturais das mãos, expressões faciais e gestos baseados em descrições textuais. Além disso, pode transformar imagens de produtos em clipes de vídeo que mostram interações humanas, potencialmente reduzindo os custos de produção de vídeos publicitários em até 99%.
Esta tecnologia pode representar uma mudança significativa na forma como as empresas criam conteúdo publicitário, especialmente considerando o atual investimento em criadores de conteúdo para redes sociais que produzem vídeos aparentemente autênticos de produtos.
Desafios e perspectivas futuras para o Goku
Embora o Goku represente um avanço significativo na geração de conteúdo visual por IA, sua implementação e adoção generalizada enfrentam desafios. Questões éticas relacionadas à criação de deepfakes e a potencial disseminação de desinformação são preocupações relevantes que precisam ser abordadas.
A ByteDance provavelmente aproveitará sua plataforma TikTok para oferecer essas ferramentas de criação de vídeo aos anunciantes, embora possa enfrentar complicações potenciais devido a sanções do governo dos EUA. O equilíbrio entre inovação tecnológica e responsabilidade ética será crucial para o sucesso e aceitação do Goku no mercado global.
À medida que a tecnologia continua a evoluir, é provável que vejamos uma integração cada vez maior de modelos como o Goku em diversos setores criativos. Isso pode levar a uma transformação radical na produção de conteúdo digital, oferecendo novas oportunidades para criadores e marcas, mas também exigindo uma reflexão cuidadosa sobre as implicações éticas e sociais dessas tecnologias avançadas de IA.