O chefe de IA da Meta, Yann LeCun, pode estar certo novamente sobre o futuro da inteligência artificial. Um novo estudo conduzido por pesquisadores da Meta FAIR, Universidade Gustave Eiffel e EHESS revelou que sistemas de IA podem aprender conceitos básicos de física intuitiva simplesmente assistindo a vídeos, sem necessidade de regras pré-programadas.
A pesquisa desafia a abordagem tradicional dos modelos generativos, como o Sora, da OpenAI, ao propor um método alternativo baseado na Arquitetura Preditiva de Embedding Conjunto para Vídeo (V-JEPA).
IA Pode Aprender Física Observando o Mundo
Diferente de sistemas que preveem cada pixel de uma cena futura, como faz o Sora, o V-JEPA trabalha em um espaço de representações abstratas, refletindo melhor a forma como o cérebro humano processa informações.
Os pesquisadores testaram o modelo com um método inspirado na psicologia do desenvolvimento infantil, chamado “Violação da Expectativa”. Essa técnica avalia a surpresa da IA ao ver situações impossíveis, como uma bola atravessando uma parede, permitindo medir sua compreensão da física do mundo real.
Desempenho Superior a Modelos Multimodais
Os testes foram conduzidos em três conjuntos de dados:
- IntPhys (conceitos básicos de física)
- GRASP (interações complexas entre objetos)
- InfLevel (ambientes realistas)
Os resultados mostraram que o V-JEPA se destacou na compreensão de conceitos como permanência de objetos, continuidade e consistência de formas. Em comparação, grandes modelos multimodais, como Gemini 1.5 Pro e Qwen2-VL-72B, tiveram desempenho próximo ao acaso.
Além disso, o V-JEPA aprendeu esses conceitos com apenas 128 horas de vídeo, e até versões reduzidas do modelo, com apenas 115 milhões de parâmetros, demonstraram resultados impressionantes.
Um Novo Caminho para a Inteligência Artificial
Os achados do estudo reforçam a visão de Yann LeCun, que defende que IA pode aprender regras do mundo por meio da observação, sem precisar de um conhecimento programado sobre física.
Esse conceito faz parte de um esforço maior da Meta para desenvolver a arquitetura JEPA (Joint Embedding Predictive Architecture), uma alternativa aos modelos generativos como GPT-4 e Sora.
LeCun argumenta que prever cada pixel, como faz Sora, não é o caminho ideal para criar modelos de mundo realistas. Em vez disso, ele propõe uma IA baseada em módulos hierárquicos de JEPA, capazes de fazer previsões abstratas em vários níveis, permitindo um entendimento mais profundo do ambiente.
O estudo sugere que o futuro da IA pode estar menos na geração de imagens e mais na construção de sistemas que compreendam o mundo como nós fazemos. Se LeCun estiver certo, o caminho para a inteligência artificial verdadeiramente autônoma pode passar por uma abordagem muito diferente daquela adotada por empresas como OpenAI e Google DeepMind.