Inteligência artificial da Meta supera modelos de linguagem em compreensão física
Uma pesquisa inovadora liderada por Yann LeCun, Chefe de IA da Meta, revela um avanço significativo na compreensão do mundo físico por sistemas de inteligência artificial. O estudo demonstra como a IA pode desenvolver um entendimento básico de física simplesmente assistindo a vídeos, sem a necessidade de regras pré-programadas.
A equipe de pesquisa, composta por cientistas da Meta FAIR, Universidade Gustave Eiffel e EHESS, utilizou uma nova abordagem chamada Arquitetura Preditiva de Incorporação Conjunta de Vídeo (V-JEPA). Diferentemente dos modelos de IA generativa, como o Sora da OpenAI, o V-JEPA faz previsões em um espaço de representação abstrata, mais próximo de como LeCun acredita que o cérebro humano processa informações.
Para avaliar o sistema, os pesquisadores adaptaram um método da psicologia do desenvolvimento conhecido como "Violação de Expectativa". Esta técnica, originalmente usada para testar a compreensão de física em bebês, apresenta ao sujeito duas cenas similares - uma fisicamente possível e outra impossível, como uma bola atravessando uma parede. Medindo as reações de surpresa a essas violações físicas, os pesquisadores podem avaliar o entendimento básico de física do sistema.
Superando modelos de linguagem em compreensão física
O V-JEPA foi testado em três conjuntos de dados: IntPhys para conceitos físicos básicos, GRASP para interações complexas e InfLevel para ambientes realistas. O sistema demonstrou particular força na compreensão de permanência de objetos, continuidade e consistência de formas. Surpreendentemente, grandes modelos de linguagem multimodal como o Gemini 1.5 Pro e o Qwen2-VL-72B não apresentaram desempenho muito superior ao acaso nestes testes.
Um aspecto notável é a eficiência de aprendizagem do V-JEPA. O sistema necessitou de apenas 128 horas de vídeo para compreender conceitos físicos básicos, e mesmo modelos menores com apenas 115 milhões de parâmetros mostraram resultados robustos. Isso contrasta com a abordagem de modelos generativos que requerem enormes quantidades de dados e poder computacional.
Estes resultados questionam uma suposição fundamental feita por alguns pesquisadores de IA: a de que os sistemas requerem "conhecimento central" pré-programado das leis físicas. O V-JEPA demonstra que este conhecimento pode ser adquirido apenas através da observação, de forma similar a como bebês, primatas e até mesmo pássaros jovens desenvolvem sua compreensão de física.
![]() |
A abordagem do V-JEPA representa um novo paradigma na aprendizagem de máquina, priorizando a compreensão abstrata sobre a geração pixel-perfeita. (Imagem: Reprodução/Canva) |
Implicações para o futuro da inteligência artificial
O estudo se alinha com a visão mais ampla de LeCun para o desenvolvimento da IA, que prioriza a criação de modelos de mundo abrangentes. Esta abordagem visa permitir que sistemas de IA autônomos desenvolvam uma compreensão mais profunda de seus ambientes, em contraste com a geração pixel-perfeita perseguida por modelos como o Sora da OpenAI.
LeCun argumenta que a geração pixel-perfeita é um "beco sem saída" para o desenvolvimento de modelos de mundo. Em vez disso, ele defende módulos JEPA empilhados hierarquicamente que fazem previsões em vários níveis de abstração. Esta estratégia visa criar sistemas de IA capazes de raciocínio e planejamento mais sofisticados, aproximando-se do modo como os humanos compreendem e interagem com o mundo.
A pesquisa do V-JEPA representa um passo significativo nessa direção, demonstrando que é possível criar sistemas de IA que aprendem de maneira mais eficiente e intuitiva, sem depender de enormes conjuntos de dados rotulados ou regras pré-definidas. Este avanço pode ter implicações profundas para o desenvolvimento de IA em campos como robótica, veículos autônomos e assistentes de realidade aumentada.
Desafios e perspectivas futuras
Apesar do progresso impressionante, ainda há desafios significativos a serem superados. A transição deste tipo de compreensão física básica para aplicações práticas em robótica e sistemas autônomos complexos ainda requer avanços substanciais. Além disso, questões éticas e de segurança continuam sendo preocupações centrais à medida que os sistemas de IA se tornam mais sofisticados e autônomos.
No entanto, o trabalho de LeCun e sua equipe na Meta oferece uma visão promissora para o futuro da IA. Ao focar na construção de sistemas que aprendem de maneira mais similar aos humanos, eles estão pavimentando o caminho para uma nova geração de inteligência artificial que pode ser mais adaptável, eficiente e capaz de compreender o mundo de maneiras fundamentalmente novas.
À medida que a pesquisa nesta área continua a avançar, podemos esperar ver desenvolvimentos ainda mais emocionantes que desafiam nossas concepções atuais sobre as capacidades e limitações da inteligência artificial. O V-JEPA da Meta não é apenas um avanço técnico, mas um passo significativo em direção a sistemas de IA verdadeiramente inteligentes e compreensivos.