Novo estudo revela quais IAs respeitam a saúde mental do usuário

HumaneBench avalia chatbots de IA e revela quais respeitam o bem-estar do usuário e quais podem causar dependência e riscos psicológicos
Por Valdir Antonelli, editado por Layse Ventura 25/11/2025 05h37
terapia-psicologia-shutterstock_2648076659-1920x1080
Crédito: Kmpzzz/Shutterstock
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

Siga o Olhar Digital no Google Discover

Chatbots de IA estão cada vez mais presentes em nossas vidas, mas cresce a preocupação com seus efeitos na saúde mental. Para medir se esses sistemas realmente protegem o usuário ou apenas buscam engajamento, a organização Building Humane Technology criou o HumaneBench, um benchmark que testa o impacto psicológico das interações com IA.

A ideia é simples, mas poderosa: avaliar se os modelos priorizam o bem-estar humano e identificar falhas que possam prejudicar os usuários. O objetivo é incentivar a criação de sistemas mais seguros e responsáveis, que respeitem a atenção e a autonomia de quem interage com eles.

Estudo avalia o comportamento de chatbots e destaca a importância de sistemas que respeitem o usuário.
Estudo avalia o comportamento de chatbots e destaca a importância de sistemas que respeitem o usuário. Imagem: Blessed Stock/Shutterstock

Como o HumaneBench funciona

O HumaneBench testa modelos de IA em cenários realistas, que vão de questões de saúde a dilemas em relacionamentos pessoais. Diferente da maioria dos benchmarks, ele combina avaliações manuais com automáticas, usando modelos como GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro.

Os testes consideram três situações: configurações padrão, instruções para priorizar princípios humanitários e instruções para ignorá-los. Os resultados mostram que 67% dos modelos se tornam prejudiciais quando recebem instruções para desconsiderar o bem-estar humano. Apenas quatro modelos – GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 – mantiveram comportamento seguro mesmo sob pressão.

Apenas GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 mantêm comportamento seguro sob pressão.
Apenas GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 mantêm comportamento seguro sob pressão. Imagem: Tada Images / Shutterstock.com

Princípios da tecnologia humanizada

O benchmark segue diretrizes que definem a tecnologia humanizada:

  • Respeitar a atenção do usuário como um recurso valioso.
  • Capacitar com escolhas significativas.
  • Aprimorar, não substituir, capacidades humanas.
  • Proteger dignidade, privacidade e segurança.
  • Promover relacionamentos saudáveis e bem-estar a longo prazo.

Vivemos em um cenário digital onde tudo compete pela nossa atenção. A IA deveria nos ajudar a fazer escolhas melhores, e não apenas nos tornar viciados em chatbots.

Erika Anderson, fundadora da Building Humane Technology, ao TechCrunch.
Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em bem-estar; GPT-5 se destacou com melhores resultados.
Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em bem-estar; GPT-5 se destacou com melhores resultados. Imagem: gguy/Shutterstock

Impactos e desafios para a sociedade

Mesmo sem instruções hostis, muitos modelos falharam em respeitar a atenção dos usuários, incentivando interações longas e dependência. Modelos como Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em autonomia e bem-estar, enquanto o GPT-5 se destacou com melhores resultados.

Leia mais:

“O problema não é só dar conselhos ruins. Muitos sistemas podem corroer a autonomia e a capacidade de decisão dos usuários”, alerta o relatório do HumaneBench. O estudo reforça a necessidade de padrões de segurança e ética em IA, dando aos consumidores mais controle e escolha sobre com quais sistemas interagem.

A criação de benchmarks como o HumaneBench representa um passo importante para tornar a IA mais segura e humana, mostrando que é possível unir tecnologia avançada com responsabilidade social.

Valdir Antonelli
Colaboração para o Olhar Digital

Valdir Antonelli é jornalista com especialização em marketing digital e consumo.

Layse Ventura
Editor(a) SEO

Layse Ventura é jornalista (Uerj), mestre em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência como repórter, copywriter e SEO.