O aclamado modelo de linguagem de grande escala da OpenAI, o ChatGPT, foi descrito como “simplesmente o melhor chatbot de inteligência artificial já lançado ao público em geral” por Kevin Roose, autor de “Futureproof: 9 Rules for Humans in the Age of Automation”, e como “uma das maiores coisas já feitas para a computação”, segundo o CEO da Nvidia, Jensen Huang. Porém, alguns pesquisadores dizem que o chat baseado em IA está “inconsistente” e “piorando”.

Leia mais:

publicidade

Muitos acreditam que o modelo do ChatGPT superou oficialmente o teste de Turing, um marco tradicional da capacidade de uma máquina em alcançar a inteligência humana, o ChatGPT se destaca em exames de alto desempenho em várias áreas: matemática (89º percentil), direito (90º percentil) e verbal GRE (99º percentil).

Além disso, pesquisadores da escola médica da NYU relataram em julho de 2023 que os conselhos dados pelo ChatGPT para questões relacionadas à saúde eram quase indistinguíveis daqueles fornecidos pela equipe médica humana.

publicidade

Pesquisadores acreditam que ChatGPT está piorando

No entanto, pesquisadores da Universidade de Stanford e da Universidade da Califórnia em Berkeley expressaram preocupações sobre a confiabilidade do ChatGPT. Lingjiao Chen, Matei Zaharia e James Zhu observaram que o desempenho do chatbot tem sido inconsistente, piorando em algumas instâncias.

Um estudo publicado em 18 de julho no servidor de pré-impressão arXiv indicou que “o desempenho e o comportamento do GPT-3.5 e do GPT-4 variam significativamente” e que as respostas a algumas tarefas “pioraram substancialmente ao longo do tempo”.

publicidade

Em março de 2023, o GPT-4 atingiu uma taxa de acerto de 97,6% em problemas relacionados a números primos. No entanto, esse índice despencou para meros 2,4% quando o modelo de junho de 2023 foi utilizado. Além disso, a capacidade do ChatGPT de auxiliar programadores com questões de programação e depuração também decaiu, passando de pouco mais de 50% em março para 10% em junho.

Imagem: Popel Arseniy/Shutterstock

Zhu afirmou ser difícil determinar uma causa, embora seja aparente que as modificações e atualizações do sistema sejam fatores. “Não entendemos completamente o que causa essas mudanças nas respostas do ChatGPT porque esses modelos são opacos”, disse Zhu.

publicidade

A OpenAI descartou alegações de teóricos da conspiração de que a empresa esteja experimentando versões menores dos LLMs como medida de economia de custos ou que esteja enfraquecendo intencionalmente o GPT-4 para que os usuários frustrados estejam mais dispostos a pagar pelo acessório LLM do GitHub, o CoPilot.

“Não tornamos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente que a anterior”, disse Peter Welinder, vice-presidente de produto da OpenAI, em um tweet recente.

Em meio a isso, alguns observadores que estão preocupados com o impacto disruptivo da “deriva” nos resultados do modelo estão pressionando a OpenAI a divulgar as fontes de material de treinamento, código e outros elementos estruturais por trás do ChatGPT 4.0.

“Qualquer resultado em modelos de código fechado não é reproduzível e nem verificável e, portanto, do ponto de vista científico, estamos comparando guaxinins e esquilos”, explicou Sasha Luccioni, da empresa de IA Hugging Face. Ela defendeu que a responsabilidade de monitorar os LLMs implantados recai sobre os criadores dos modelos, que deveriam fornecer acesso aos modelos subjacentes, pelo menos para fins de auditoria.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!