OpenAI quer mudar a forma como avaliamos as inteligências artificiais

Empresa busca criar avaliações mais precisas e específicas para refletir o impacto da inteligência artificial em setores como saúde, finanças e direito
Por Leandro Costa Criscuolo, editado por Bruno Capozzi 09/04/2025 19h05
openai--1920x1080
(Imagem: Adeel Ahmed photos / Shutterstock.com)
Compartilhe esta matéria
Ícone Whatsapp Ícone Whatsapp Ícone X (Tweeter) Ícone Facebook Ícone Linkedin Ícone Telegram Ícone Email

A OpenAI está lançando o Programa de Pioneiros para revisar e aprimorar os benchmarks de IA existentes, que a empresa considera inadequados.

A proposta, conforme revelado em um post no blog oficial da startup, é criar avaliações mais precisas para modelos de inteligência artificial, que realmente reflitam seu impacto em diferentes setores, como jurídico, financeiro, de saúde e seguros.

A OpenAI acredita que os benchmarks atuais muitas vezes se concentram em tarefas esotéricas ou manipuláveis, que não correspondem aos casos de uso práticos e reais da IA.

Leia mais:

O que são os benchmarks de IA

Benchmarks de IA são conjuntos de testes ou métricas usadas para avaliar o desempenho de modelos de inteligência artificial (IA).

Eles servem como padrões ou referências para medir como bem uma IA realiza uma tarefa específica, como reconhecimento de imagem, tradução de idiomas, ou resolução de problemas matemáticos.

Tais benchmarks são fundamentais porque ajudam a comparar diferentes modelos e tecnologias de IA, fornecendo uma maneira objetiva de analisar suas capacidades.

No entanto, nem todos os benchmarks são criados da mesma forma, e muitos são projetados para tarefas genéricas que podem não refletir com precisão os desafios do mundo real.

Logo da OpenAI em um smartphone na horizontal
OpenAI defende que benchmarks bem definidos ajudam a melhorar o desenvolvimento da IA, garantindo que ela seja eficaz e segura (Imagem: jackpress / Shutterstock.com)

Como o programa da OpenAI deve funcionar

  • O programa visa desenvolver benchmarks específicos para setores, ajudando as empresas a avaliar o desempenho dos modelos em ambientes de alto risco.
  • Isso será feito com a colaboração de várias empresas, com foco em startups que têm um impacto direto no mundo real.
  • A OpenAI revelou que também busca criar uma base sólida para estabelecer novos padrões de avaliação, com o objetivo de refletir melhor as necessidades e desafios de setores específicos, além de oferecer uma avaliação mais prática da IA em uso diário.

As empresas participantes do programa terão a oportunidade de trabalhar com a OpenAI para melhorar os modelos através de uma técnica chamada “ajuste fino por reforço”, que permite otimizar modelos para tarefas específicas.

No entanto, o maior desafio será se a comunidade de IA aceitará esses novos benchmarks, especialmente devido ao fato de a OpenAI estar financiando e liderando a criação desses testes.

Isso levanta questões éticas sobre a imparcialidade e a transparência dos critérios utilizados para avaliar os modelos de IA.

imagem mostra o logo da openai em um smartphone
Várias empresas deverão colaborar no “Programa de Pioneiros” da OpenAI (Imagem Levart Photographer/Unsplash)
Leandro Costa Criscuolo
Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Bruno Capozzi é jornalista formado pela Faculdade Cásper Líbero e mestre em Ciências Sociais pela PUC-SP, tendo como foco a pesquisa de redes sociais e tecnologia.