Siga o Olhar Digital no Google Discover
Chatbots de IA estão cada vez mais presentes em nossas vidas, mas cresce a preocupação com seus efeitos na saúde mental. Para medir se esses sistemas realmente protegem o usuário ou apenas buscam engajamento, a organização Building Humane Technology criou o HumaneBench, um benchmark que testa o impacto psicológico das interações com IA.
Ofertas
Por: R$ 22,59
Por: R$ 59,95
Por: R$ 3.099,00
Por: R$ 3.324,00
Por: R$ 799,00
Por: R$ 241,44
Por: R$ 349,90
Por: R$ 2.159,00
Por: R$ 188,99
Por: R$ 45,00
Por: R$ 379,00
Por: R$ 1.239,90
Por: R$ 943,20
Por: R$ 798,99
Por: R$ 205,91
Por: R$ 476,10
Por: R$ 1.139,05
Por: R$ 949,00
Por: R$ 7,60
Por: R$ 21,77
Por: R$ 16,63
Por: R$ 59,95
Por: R$ 7,20
Por: R$ 139,90
Por: R$ 119,90
Por: R$ 398,99
Por: R$ 79,90
Por: R$ 199,90
A ideia é simples, mas poderosa: avaliar se os modelos priorizam o bem-estar humano e identificar falhas que possam prejudicar os usuários. O objetivo é incentivar a criação de sistemas mais seguros e responsáveis, que respeitem a atenção e a autonomia de quem interage com eles.

Como o HumaneBench funciona
O HumaneBench testa modelos de IA em cenários realistas, que vão de questões de saúde a dilemas em relacionamentos pessoais. Diferente da maioria dos benchmarks, ele combina avaliações manuais com automáticas, usando modelos como GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro.
Os testes consideram três situações: configurações padrão, instruções para priorizar princípios humanitários e instruções para ignorá-los. Os resultados mostram que 67% dos modelos se tornam prejudiciais quando recebem instruções para desconsiderar o bem-estar humano. Apenas quatro modelos – GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 – mantiveram comportamento seguro mesmo sob pressão.

Princípios da tecnologia humanizada
O benchmark segue diretrizes que definem a tecnologia humanizada:
- Respeitar a atenção do usuário como um recurso valioso.
- Capacitar com escolhas significativas.
- Aprimorar, não substituir, capacidades humanas.
- Proteger dignidade, privacidade e segurança.
- Promover relacionamentos saudáveis e bem-estar a longo prazo.
Vivemos em um cenário digital onde tudo compete pela nossa atenção. A IA deveria nos ajudar a fazer escolhas melhores, e não apenas nos tornar viciados em chatbots.
Erika Anderson, fundadora da Building Humane Technology, ao TechCrunch.

Impactos e desafios para a sociedade
Mesmo sem instruções hostis, muitos modelos falharam em respeitar a atenção dos usuários, incentivando interações longas e dependência. Modelos como Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em autonomia e bem-estar, enquanto o GPT-5 se destacou com melhores resultados.
Leia mais:
- Chatbots não estão preparados para lidar com saúde mental de jovens, diz pesquisa
- Meta teria ocultado evidências sobre impactos na saúde mental de usuários
- ChatGPT usa ‘tática de seita’ para criar dependência, diz especialista
“O problema não é só dar conselhos ruins. Muitos sistemas podem corroer a autonomia e a capacidade de decisão dos usuários”, alerta o relatório do HumaneBench. O estudo reforça a necessidade de padrões de segurança e ética em IA, dando aos consumidores mais controle e escolha sobre com quais sistemas interagem.
A criação de benchmarks como o HumaneBench representa um passo importante para tornar a IA mais segura e humana, mostrando que é possível unir tecnologia avançada com responsabilidade social.