Emoções de robôs mais inteligentes a partir de modelos de linguagem visual – The Hyper

Este artigo faz parte de nossa série exclusiva IEEE Journal Watch em parceria com IEEE Xplore.

À medida que os robôs avançam em destreza e outras habilidades físicas, é mais provável que os humanos trabalhem ao lado deles. Se isso acontecer, como as capacidades emocionais de um robô precisarão melhorar para poder colaborar com sucesso com os humanos?

Num estudo recente, os investigadores treinaram um robô colaborativo para interpretar as emoções humanas, considerando não apenas as expressões faciais, mas também fatores contextuais nas interações. Por meio de experimentos com 40 voluntários, os pesquisadores avaliaram a capacidade do robô de interpretar as emoções humanas e ajustar seu comportamento, o que por sua vez afeta a percepção que os humanos têm do robô e sua capacidade de realizar tarefas de forma colaborativa entre os dois. Os resultados mostram que as capacidades emocionais dos robôs só são comparáveis às dos humanos. Os resultados foram publicados em 18 de maio Cartas de Robótica e Automação IEEE.

Seung Chan Hong liderou a pesquisa como parte de sua tese de graduação enquanto estudava na Monash University em Melbourne, Austrália. Ele observou que, embora tenha havido muita publicidade sobre os avanços nas capacidades físicas dos robôs, essa é apenas uma peça do quebra-cabeça. “Também precisamos inovar no que diz respeito às suas interações reais com os humanos, não apenas às suas capacidades físicas”, disse ele.

Isso o levou a se aprofundar no lado emocional da interação humano-computador. Primeiro, Hong e seus coautores decidiram treinar o robô para ler emoções humanas usando um modelo de linguagem visual (VLM), que é semelhante a grandes modelos de linguagem (LLM), como ChatGPT, mas também pode aceitar entrada visual.

Treinamento VLM para reconhecimento de emoções humanas

Para avaliar seu VLM usando o Gemini 2.5, os pesquisadores fizeram voluntários assistirem a vídeos de robôs entregando objetos a humanos (com vários graus de sucesso) e descreverem as emoções expressadas pelos humanos. É importante ressaltar que os voluntários que rotularam esses vídeos foram capazes de considerar mais o contexto nessas interações do que apenas relatar as expressões faciais dos humanos nos vídeos. Por exemplo, uma pessoa que está carrancuda e parando para pensar pode simplesmente estar focada na tarefa que tem em mãos e não necessariamente com raiva. Fatores situacionais, como bater os dedos, lábios franzidos ou outros comportamentos, podem apontar o verdadeiro motivo pelo qual uma pessoa está carrancuda.

Os pesquisadores então compararam seu VLM com sistemas tradicionais de inteligência artificial, que dependem de análise facial padrão e rastreamento de objetos usados na interação humano-computador. Eles descobriram que o VLM superou os métodos tradicionais. Numa escala de 0 (nenhuma semelhança de significado com a emoção reconhecida por voluntários humanos) a 1 (correspondência exata de significado), o sistema convencional de IA obteve pontuação de 0,77. Em comparação, o VLM pontua 0,86.

“Acho que (VLM) é mais capaz de se alinhar com o que um observador humano vê porque não se trata apenas de olhar para o rosto de uma pessoa em um curto período de tempo, mas de ver a cena inteira – onde a pessoa está, o que está fazendo e como está interagindo com o robô”, disse Hong.

Num segundo experimento, a equipe pediu a 40 voluntários que interagissem com o robô usando VLM, mas programou propositalmente o robô para cometer erros. O robô deve então fornecer um pedido de desculpas emocionalmente adaptado que explique a resposta percebida de um humano ao erro, ou fornecer um pedido de desculpas verbal pré-escrito.

A esmagadora maioria dos participantes preferiu respostas emocionalmente adaptativas, com 31 em 40 preferindo esta abordagem a um pedido de desculpas padronizado.

No entanto, as suas descobertas destacam que esta adaptabilidade emocional é muito menos importante do que a funcionalidade do robô. Depois de trabalhar com um robô que falhou em uma tarefa, muitos participantes confiaram menos no robô, por mais que ele se desculpasse por seus erros. “Um pedido de desculpas personalizado pode funcionar como um lubrificante social, mas não pode reparar a confiança perdida por um robô que não conseguiu completar uma tarefa física”, disse Hong.

Curiosamente, o VLM classificou as emoções dos parceiros humanos de forma semelhante às dos voluntários humanos que observaram a interação a partir de uma perspectiva de terceiros. No entanto, quando a avaliação do VLM foi medida numa segunda experiência contra emoções auto-relatadas por humanos (a descrição mais precisa de emoções reais), a sua capacidade de prever emoções com precisão caiu significativamente.

“Embora o VLM seja bom em observar sinais sociais externos, não é um leitor de mentes”, disse Hong. “Combina bem com observadores humanos de terceira pessoa, mas nem sempre com os sentimentos internos e auto-relatados dos usuários”.

Tomados em conjunto, estes resultados mostram que os robôs não são perfeitos na interpretação das emoções humanas. Portanto, embora as pessoas possam apreciar os seus esforços, em última análise, ainda precisam de colegas capazes.

Este artigo foi atualizado em 15 de junho de 2026, para corrigir o local onde o estudo foi realizado e para esclarecer que os pesquisadores avaliaram o desempenho dos modelos pré-treinados.

Artigos do seu site

Treinamento VLM para reconhecimento de emoções humanas

Related Articles

Qual verificador gramatical é o melhor (2022)?

O que é tiro com arco consciente? Por dentro da nova tendência de bem-estar

A NASA está avançando com os planos da base lunar, distribuindo quase US$ 600 milhões em novos contratos

Deixe um comentário Cancelar resposta