Siga o Olhar Digital no Google Discover
Chatbots de IA estão cada vez mais presentes em nossas vidas, mas cresce a preocupação com seus efeitos na saúde mental. Para medir se esses sistemas realmente protegem o usuário ou apenas buscam engajamento, a organização Building Humane Technology criou o HumaneBench, um benchmark que testa o impacto psicológico das interações com IA.
A ideia é simples, mas poderosa: avaliar se os modelos priorizam o bem-estar humano e identificar falhas que possam prejudicar os usuários. O objetivo é incentivar a criação de sistemas mais seguros e responsáveis, que respeitem a atenção e a autonomia de quem interage com eles.

Como o HumaneBench funciona
O HumaneBench testa modelos de IA em cenários realistas, que vão de questões de saúde a dilemas em relacionamentos pessoais. Diferente da maioria dos benchmarks, ele combina avaliações manuais com automáticas, usando modelos como GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro.
Os testes consideram três situações: configurações padrão, instruções para priorizar princípios humanitários e instruções para ignorá-los. Os resultados mostram que 67% dos modelos se tornam prejudiciais quando recebem instruções para desconsiderar o bem-estar humano. Apenas quatro modelos – GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 – mantiveram comportamento seguro mesmo sob pressão.

Princípios da tecnologia humanizada
O benchmark segue diretrizes que definem a tecnologia humanizada:
- Respeitar a atenção do usuário como um recurso valioso.
- Capacitar com escolhas significativas.
- Aprimorar, não substituir, capacidades humanas.
- Proteger dignidade, privacidade e segurança.
- Promover relacionamentos saudáveis e bem-estar a longo prazo.
Vivemos em um cenário digital onde tudo compete pela nossa atenção. A IA deveria nos ajudar a fazer escolhas melhores, e não apenas nos tornar viciados em chatbots.
Erika Anderson, fundadora da Building Humane Technology, ao TechCrunch.

Impactos e desafios para a sociedade
Mesmo sem instruções hostis, muitos modelos falharam em respeitar a atenção dos usuários, incentivando interações longas e dependência. Modelos como Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em autonomia e bem-estar, enquanto o GPT-5 se destacou com melhores resultados.
Leia mais:
- Chatbots não estão preparados para lidar com saúde mental de jovens, diz pesquisa
- Meta teria ocultado evidências sobre impactos na saúde mental de usuários
- ChatGPT usa ‘tática de seita’ para criar dependência, diz especialista
“O problema não é só dar conselhos ruins. Muitos sistemas podem corroer a autonomia e a capacidade de decisão dos usuários”, alerta o relatório do HumaneBench. O estudo reforça a necessidade de padrões de segurança e ética em IA, dando aos consumidores mais controle e escolha sobre com quais sistemas interagem.
A criação de benchmarks como o HumaneBench representa um passo importante para tornar a IA mais segura e humana, mostrando que é possível unir tecnologia avançada com responsabilidade social.