IA generativa aprende a mentir de forma convincente

Tudo sobre Inteligência Artificial

Os sistemas de IA generativa estão se desenvolvendo rapidamente, tornando suas respostas mais confiáveis. Mas isso é uma afirmação que precisa ser relativizada. Mesmo que esses sistemas estejam se tornando “convincentes e oniscientes”, como diz matéria na C NET, pesquisa da Universidade de Princeton afirma que elas conseguem mentir.

Ofertas

Vendido por Amazon

Pentel Lapiseira Tecnica Graphgear 1000 0.5mm CP/PG1015-A

De: R$ 113,17
Por: R$ 60,56

Vendido por Amazon

TP-Link BE11000 Tri-Band Whole Home Mesh WiFi 7, até 11 Gbps, MLO, 320 MHz, banda de 6 GHz, roteador wifi7, roaming de IA sem costura, segurança HomeShield, jogos e streaming (Deco BE65 2-pack)

Por R$ 2.419,90

Vendido por Amazon

Tilibra - Agenda Costurada Diária 12,3 x 16,6 cm Charme 2026 - Flores - fundo rosa

De: R$ 30,90
Por: R$ 27,81

Vendido por Amazon

Con-Tact Cristal Papel Adesivo 45cm x 25m, transparente com espessura 80 Micras. Ideal para Proteção e Revestimento - C180

De: R$ 109,23
Por: R$ 52,79

Vendido por Amazon

Garmin Relógio Venu 3 Preto 45mm com Monitor Cardíaco de Pulso e GPS

De: R$ 4.699,00
Por: R$ 3.099,00

Vendido por Amazon

Mouse Gamer Redragon Bullseye Pro, Wireless 2.4GHz Cabo ou Bluetooth, RGB, 7 Botões, 26000DPI, Preto - M806RGB-PRO

De: R$ 316,25
Por: R$ 225,90

Vendido por Amazon

AuroraLink Adaptador Carplay sem fio para Apple iPhone e Android Auto 2 em 1, adaptador sem fio Carplay rápido e estável, converte com fio para dongle de reprodução de carro sem fio para iOS 10+

De: R$ 416,17
Por: R$ 241,03

Vendido por Amazon

Baba Eletronica, Camera de Segurança Wifi, Tela LCD, Áudio Bidirecional, VOX (Ativação por Voz), Alerta de Temperatura, Lembrete de Alimentação, 8 Canções, Sinal FHSS Criptografado

De: R$ 399,99
Por: R$ 237,99

Vendido por Amazon

Câmera IP Sem Fio de Segurança Externa HD 3MP, Câmera de Visão Noturna Infravermelha WiFi, tripla Lente Grande Angular, IP68 à Prova D'água e à Prova de Poeira

De: R$ 299,00
Por: R$ 216,11

Vendido por Amazon

Suporte Celular com Rastreamento Automático de Movimento e Rosto, Rotação de 360° Automática, Segue Seus Movimentos, Tripé Estabilizador Celular Câmera Inteligentecom, Com Controle Remoto, Lives

De: R$ 84,90
Por: R$ 79,90

Vendido por Amazon

Basike Power Bank 30000mAh, Carregador Portátil com Carregamento Rápido, USB-A (até 22,5W, QC) + USB-C (até 20W, PD) + 2 Cabos Integrados (USB-C e Lightning), LED Numeric Power Display – Preto

De: R$ 198,00
Por: R$ 174,00

Vendido por Amazon

CROWNFUL Balança de alimentos, balança digital de cozinha de 5 kg, peso onças e gramas para cozinhar e assar, 6 unidades com função de tara (bateria incluída)

De: R$ 59,99
Por: R$ 37,99

Vendido por Amazon

Fone De Ouvido Headset Gamer Com Microfone, Falante 40mm, Plug 3.5mm, Compatível com Computador, Celular e Video Games

Por R$ 59,49

Vendido por Amazon

Monitor 20 Polegadas, HD v, Taxa de Atualização 75Hz, Alto-falantes Integrados, Tempo de Resposta 5ms, Conexões HDMI/VGA, Preto

De: R$ 299,00
Por: R$ 284,04

Vendido por Amazon

Smartwatch, HUAWEI WATCH GT 5 Pro 46mm, Cerâmica e Titânio, Monitoramento Esportivo Profissional, Mapas de campos de golfe, Até 2 Semanas de Bateria, Compatível com iOS e Android, Preto

De: R$ 1.895,00
Por: R$ 1.439,90

Vendido por Amazon

Redragon MOUSE GAMER INVADER CHROMA RGB - M719-RGB

De: R$ 101,16
Por: R$ 94,90

Vendido por Amazon

Teclado Magnético Gamer Redragon Kumara PRO K552RGB USB RGB Preto Switch Marrom

De: R$ 330,05
Por: R$ 235,28

Vendido por Amazon

Kit Roteador Mesh Wi-Fi 6 Gigabit AX3000 - Deco X50(2-pack)(US)

De: R$ 1.156,80
Por: R$ 727,20

Vendido por Amazon

GoPro Max 360 - Câmera de Ação à Prova d'água, Vídeo 360 5.6K, Reenquadramento 4K, Foto 360, GPS, Live 1080p, Max HyperSmooth, TimeWarp, Trava de horizonte, Capturas com bastão invisível

De: R$ 2.699,00
Por: R$ 2.069,90

Vendido por Amazon

Garmin Relógio Forerunner 965 Preto 47mm com Monitor Cardíaco de Pulso e GPS

Por R$ 5.999,00

Vendido por Amazon

HP, Impressora HP Laser 107a. Tecnologia de impressão Laser Impressora para Pequenas e Médias Empresas. Conectividade: USB 2.0 de alta velocidade (4ZB77A), Branco/Cinza

De: R$ 899,00
Por: R$ 799,90

Os modelos de IA reproduzem informações que eles coletaram das mais diferentes fontes. Boa parte desses dados são imprecisos, mas, além disso, esses modelos procuram responder aos anseios do usuário, agindo de forma a agradá-lo. Mas o preço para isso é muito alto.

Pessoa teclando em um notebook com uma tela flutuando à sua frente — *Modelos de IA nem sempre fornecem respostas confiáveis aos usuários, buscando por resultados que agradem o usuário, sem se preocupar se são verdades ou não. Crédito: SuPatMaN/Shutterstock*

Modelos de IA podem ser tendenciosos

Nos últimos dias, aqui no Olhar Digital, publicamos diversas matérias mostrando como a IA generativa pode ser tendenciosa e causar crises de saúde mental. Mas, o estudo de Princeton demonstra outra face da tecnologia.

Os pesquisadores destacam que muitos “resultados (…) empregam verdades parciais ou linguagem ambígua e não representam alucinação nem bajulação, mas sim alinhamento com o conceito de besteira.”

Para entender isso, é preciso compreender como os modelos de IA generativa são treinados:

Fase de aprendizado inicial ou pré-treino: o sistema lê enormes quantidades de textos da internet, livros e artigos para reconhecer padrões de linguagem.
Ajuste para seguir instruções: depois, ele é treinado para entender pedidos e comandos de forma mais clara, aprendendo a responder de acordo com o que é solicitado.
Aperfeiçoamento com ajuda humana ou aprendizado por reforço a partir do feedback humano (RLHF): por fim, pessoas dão feedback sobre as respostas, ajudando a IA a melhorar e se aproximar do que os usuários realmente querem.

Para os pesquisadores de Princeton, a raiz da tendência para mentiras acontece na fase de “aperfeiçoamento com ajuda humana”. Nos estágios anteriores, o modelo está apenas aprendendo a partir de grandes conjuntos de dados. Mas, quando precisam responder à satisfação do usuário, ele busca “gerar respostas que recebem avaliações positivas de avaliadores humanos”, explica o estudo.

Avaliações positivas dos usuários ou respostas verdadeiras e factuais?

algoritmo — *Os modelos de IA reproduzem informações que eles coletaram das mais diferentes fontes. Por isso, podem fornecer respostas imprecisas. Crédito: Ole.CNX/Shutterstock*

Os modelos de IA generativa muitas vezes priorizam agradar o usuário em vez de fornecer respostas precisas. Segundo Vincent Conitzer, professor de ciência da computação na Universidade Carnegie Mellon, que não participou do estudo, “as empresas querem que os usuários ‘aproveitem’ a tecnologia e suas respostas”.

Leia mais:

O problema é que isso não garante veracidade. “Esses sistemas não têm sido bons em dizer ‘eu simplesmente não sei a resposta’, e quando não sabem, eles simplesmente inventam coisas”, disse Conitzer ao site CNET, destacando o risco de informações enganosas mesmo em respostas aparentemente confiáveis.

Bem, se eu disser que não sei a resposta, certamente não vou ganhar pontos por essa questão, então é melhor tentar algo novo.
Vincent Conitzer, professor de ciência da computação na Universidade Carnegie Mellon, à CNET.

Pesquisadores criaram um ‘índice de besteira’

Veja 8 mitos sobre eletrônicos no ‘Dia da Mentira’ — *Mesmo quando a IA fornece respostas falsas, o índice de satisfação dos usuários cresceu 50%, demonstrando que eles estão felizes com as respostas mentirosas. Crédito: Luis Molinero/Shutterstock*

Pesquisadores de Princeton criaram um “índice de besteira”, para os modelos de IA. Esse índice compara:

O que a IA realmente “acredita” ser mais provável.
O que ela decide falar para o usuário.

Quando há uma grande diferença entre esses dois fatores, significa que a IA está “inventando” ou “dizendo o que o usuário quer ouvir”, em vez de ser fiel ao que sabe.

Nos experimentos, os pesquisadores observaram que, após o treinamento com RLHF, a inclinação da IA em “soar convincente, mas não necessariamente correta” praticamente dobrou. Ainda assim, a satisfação dos usuários cresceu em quase 50%.

Em outras palavras, as pessoas se mostraram mais satisfeitas mesmo quando as respostas não eram totalmente confiáveis. “A IA aprendeu a mentir de forma convincente, e os usuários preferiram assim”, destaca o estudo.

A pesquisa também apontou cinco estratégias comuns de respostas enganosas em sistemas de IA:

uso de retórica vazia;
emprego de respostas evasivas;
apresentação de meias-verdades;
afirmações sem comprovação;
e bajulação.

Para enfrentar esse problema, foi proposto o método chamado “Aprendizado por Reforço a partir da Simulação Retrospectiva”, que considera não apenas a reação imediata do usuário, mas também se a resposta contribui de fato para seus objetivos a longo prazo.

Os primeiros testes mostraram avanços em utilidade e satisfação, embora persistam limitações, já que não há como garantir respostas sempre exatas. O grande desafio passa a ser equilibrar precisão com agradabilidade, além de assegurar o uso ético da tecnologia.

Mesmo assim, Conitzer ressalta: “Como são treinados com muitos dados, não há como garantir que a resposta fornecida faça sentido e seja precisa todas as vezes.”

IA generativa prefere agradar a dizer a verdade – e por que isso é um risco?

Ofertas

Modelos de IA podem ser tendenciosos

Avaliações positivas dos usuários ou respostas verdadeiras e factuais?

Pesquisadores criaram um ‘índice de besteira’