Ciência e tecnologia

O mundo inteiro é um palco de robôs para empreendedores de tecnologia que criam ‘IA física’


ARQUIVO – O cientista da computação Fei-Fei Li fala durante a Clinton Global Initiative em Nova York em 24 de setembro de 2024.

Andrés Cudacki/AP Photo/Andrés Cudacki

PROVIDENCE, RI (AP) – O cientista da computação Lewis Castricato estava em seu oitavo ano estudando grandes modelos de linguagem – a tecnologia de inteligência artificial por trás de chatbots como ChatGPT e Cloud – quando começou a sentir que estava chegando a um beco sem saída.

“Basicamente ultrapassamos o ponto de fazer pesquisas realmente fundamentais de LLM”, disse Castricato. “Agora, estes são apenas aplicativos.”

O artigo continua abaixo deste anúncio

O pesquisador abandonou os estudos na Brown University e abriu uma nova empresa chamada Overworld. A sua ambição está no seu nome: IA que pode compreender e navegar pelo mundo, não apenas palavras.

Ainda há muito dinheiro a ser ganho com chatbots de IA – os investidores estão contando com isso, pois prometem trilhões de dólares a desenvolvedores líderes como Anthropic e OpenAI. Mas um número crescente de empreendedores de IA está a dedicar-se ao que consideram ser a próxima fronteira: “modelos mundiais” que ensinam aos sistemas de IA, e por vezes aos robôs, como reagir em ambientes físicos.

Estes incluem alguns dos cientistas mais proeminentes na área, como a “madrinha da IA” Fei-Fei Li, que descreve o conceito de modelos mundiais como “um dos termos mais importantes e mais sobrecarregados da IA ​​hoje”.

Cientistas estão aplicando IA a novas dimensões com ‘modelos mundiais’

No cerne da pesquisa de modelos mundiais está a ideia de que uma IA não pode ser verdadeiramente inteligente se apenas puder ler um livro. Ele também precisa ler a sala.

O artigo continua abaixo deste anúncio

“Onde os modelos de linguagem aprendem a estrutura estatística do texto, os modelos mundiais aprendem a estrutura estatística do espaço e do tempo: como a luz incide sobre uma superfície, como é um jardim de um ângulo não capturado por uma câmera, como os objetos respondem às forças e como obedecem às leis da física”, escreveu Lee, fundador da startup World Labs de São Francisco, em um ensaio publicado este mês.

Outro proponente é o pioneiro da IA, Yann LeCun, que deixou seu emprego como cientista-chefe de IA da Meta no ano passado para iniciar o Advanced Machine Intelligence Labs, com sede em Paris.

“Os modelos mundiais estão se tornando cada vez mais um tópico de discussão”, disse LeCun recentemente no podcast “Aprendizagem Não Supervisionada”. Ele disse que vê isso como algo que permite a um agente de IA “prever as consequências de suas próprias ações”.

O artigo continua abaixo deste anúncio

Há muitas maneiras de definir um modelo de mundo, muitas vezes baseado nas tecnologias que se espera criar com ele – sejam robôs ou videogames mais interativos.

Os robôs não conseguem aprender muito com modelos de IA treinados em livros

Toda a leitura de livros, artigos noticiosos e meios visuais pela humanidade, assim como os modelos de linguagem de IA, deu origem a assistentes de IA que estão a mudar a natureza do trabalho de escritório e de alguns campos criativos. Mas alguns proponentes veem limitações nos modelos generativos de IA que funcionam prevendo repetidamente a próxima palavra ou pixel para criar novos diálogos, imagens ou linhas de código.

Os chatbots não conseguem pegar canecas de café, diz Martin Hebert, reitor de ciência da computação da Universidade Carnegie Mellon.

O artigo continua abaixo deste anúncio

“Lá há toda a geometria do mundo, a dinâmica do movimento da minha mão, a interação física do contato com o copo”, disse Hebert. “É muito mais complexo do que prever a próxima palavra de uma frase.”

Para cientistas como Hebert, que passou mais de quatro décadas a investigar robótica, a aplicação mais útil para modelos mundiais é um caminho mais rápido e mais barato para a “IA física” – outra palavra da moda da indústria tecnológica.

“Algumas pessoas podem ter definições diferentes, mas a IA física e tangível é uma espécie de evolução do que costumávamos chamar de robótica”, disse Hebert em entrevista. Ele disse que alguns dos avanços da IA ​​que tornaram os chatbots tão úteis também podem ser aplicados na construção de uma IA com uma consciência mais ampla de seu ambiente para agir como o cérebro de um robô.

“Você tem um modelo muito geral de corpo e coluna sobre como se equilibrar, como andar, e pode se adaptar quando sente dores nos joelhos pela manhã, então agora você anda de forma um pouco diferente”, disse ele. “Você não precisa pensar sobre isso. Existe um modelo geral em algum lugar do seu sistema nervoso e do seu cérebro que permite que seu corpo se adapte muito rapidamente.”

O artigo continua abaixo deste anúncio

O mundo das falsificações está atraindo o interesse dos investidores

Os robôs inteligentes não são o único jogo final para os modelos mundiais. Castricato lançou Overworld no ano passado, e a pequena startup com sede em Rhode Island está agora construindo mundos de videogame onde uma cena, digamos, de uma floresta assustadora, pode ser personalizada à medida que um personagem virtual caminha por ela e interage com os objetos nela contidos.

“Não existe outro modelo de mundo onde você possa simplesmente passar por uma porta ou onde você possa interagir com um ambiente tão detalhado”, disse ele em entrevista. “Otimizamos a conversa acima de qualquer outra coisa.”

Embora as aplicações de curto prazo não sejam tão óbvias como as ferramentas de codificação de IA, o criador de modelos mundiais está a atrair o interesse de capitalistas de risco como Steve Jang, cofundador e sócio-gerente da Kindred Ventures.

O artigo continua abaixo deste anúncio

A empresa está investindo na Overworld e em outras empresas focadas em modelos mundiais, incluindo a Causal Labs, que está construindo modelos de IA para previsão do tempo, e a Xtropic, que está construindo chips de computador especializados adaptados aos modelos mundiais.

“Acho que o futuro consiste em muitos tipos diferentes de modelos com muitas filosofias e arquiteturas diferentes”, disse Jang. “Não acho que será um modelo grande e condensado para governar todos eles.”

No seu ensaio recente, Lee procurou criar uma “taxonomia de modelos mundiais” para ajudar a resolver a confusão sobre pontos de vista concorrentes.

“Um modelo de vídeo que produz chamas lindas, mas fisicamente impossíveis, um modelo de linguagem que melhora os jogos jogáveis ​​e um motor de física que simula fielmente a combustão são todos conhecidos pelo mesmo nome”, escreveu ela.

O artigo continua abaixo deste anúncio

Ele dividiu os modelos mundiais em três categorias. Os mais comercialmente viáveis ​​hoje são os “renderizadores”, que priorizam a fidelidade visual dos mundos virtuais que criam, mas não se pode confiar neles para ensinar muita coisa aos robôs.

Depois, existem “simuladores” que criam campos de treinamento virtuais que representam fielmente a estrutura física do mundo; e “planejadores” que tentam prever o que um agente ou robô de IA deveria fazer em um mundo não estruturado.

Ele escreveu: “Um robô que pode planejar é um robô que pode trabalhar, e indústrias inteiras estão correndo para chegar lá primeiro”.



Link da fonte