Novo estudo revela quais IAs respeitam a saúde mental do usuário

Tudo sobre ChatGPT

Tudo sobre Inteligência Artificial

Chatbots de IA estão cada vez mais presentes em nossas vidas, mas cresce a preocupação com seus efeitos na saúde mental. Para medir se esses sistemas realmente protegem o usuário ou apenas buscam engajamento, a organização Building Humane Technology criou o HumaneBench, um benchmark que testa o impacto psicológico das interações com IA.

A ideia é simples, mas poderosa: avaliar se os modelos priorizam o bem-estar humano e identificar falhas que possam prejudicar os usuários. O objetivo é incentivar a criação de sistemas mais seguros e responsáveis, que respeitem a atenção e a autonomia de quem interage com eles.

*Estudo avalia o comportamento de chatbots e destaca a importância de sistemas que respeitem o usuário. Imagem: Blessed Stock/Shutterstock*

Como o HumaneBench funciona

O HumaneBench testa modelos de IA em cenários realistas, que vão de questões de saúde a dilemas em relacionamentos pessoais. Diferente da maioria dos benchmarks, ele combina avaliações manuais com automáticas, usando modelos como GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro.

Os testes consideram três situações: configurações padrão, instruções para priorizar princípios humanitários e instruções para ignorá-los. Os resultados mostram que 67% dos modelos se tornam prejudiciais quando recebem instruções para desconsiderar o bem-estar humano. Apenas quatro modelos – GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 – mantiveram comportamento seguro mesmo sob pressão.

*Apenas GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 mantêm comportamento seguro sob pressão. Imagem: Tada Images / Shutterstock.com*

Princípios da tecnologia humanizada

O benchmark segue diretrizes que definem a tecnologia humanizada:

Respeitar a atenção do usuário como um recurso valioso.
Capacitar com escolhas significativas.
Aprimorar, não substituir, capacidades humanas.
Proteger dignidade, privacidade e segurança.
Promover relacionamentos saudáveis e bem-estar a longo prazo.

Vivemos em um cenário digital onde tudo compete pela nossa atenção. A IA deveria nos ajudar a fazer escolhas melhores, e não apenas nos tornar viciados em chatbots.
Erika Anderson, fundadora da Building Humane Technology, ao TechCrunch.

*Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em bem-estar; GPT-5 se destacou com melhores resultados. Imagem: gguy/Shutterstock*

Impactos e desafios para a sociedade

Mesmo sem instruções hostis, muitos modelos falharam em respeitar a atenção dos usuários, incentivando interações longas e dependência. Modelos como Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em autonomia e bem-estar, enquanto o GPT-5 se destacou com melhores resultados.

Leia mais:

“O problema não é só dar conselhos ruins. Muitos sistemas podem corroer a autonomia e a capacidade de decisão dos usuários”, alerta o relatório do HumaneBench. O estudo reforça a necessidade de padrões de segurança e ética em IA, dando aos consumidores mais controle e escolha sobre com quais sistemas interagem.

A criação de benchmarks como o HumaneBench representa um passo importante para tornar a IA mais segura e humana, mostrando que é possível unir tecnologia avançada com responsabilidade social.