OpenAI quer mudar a forma como avaliamos as inteligências artificiais

(Imagem: Adeel Ahmed photos / Shutterstock.com)

A OpenAI está lançando o Programa de Pioneiros para revisar e aprimorar os benchmarks de IA existentes, que a empresa considera inadequados.

A proposta, conforme revelado em um post no blog oficial da startup, é criar avaliações mais precisas para modelos de inteligência artificial, que realmente reflitam seu impacto em diferentes setores, como jurídico, financeiro, de saúde e seguros.

A OpenAI acredita que os benchmarks atuais muitas vezes se concentram em tarefas esotéricas ou manipuláveis, que não correspondem aos casos de uso práticos e reais da IA.

Leia mais:

O que são os benchmarks de IA

Benchmarks de IA são conjuntos de testes ou métricas usadas para avaliar o desempenho de modelos de inteligência artificial (IA).

Eles servem como padrões ou referências para medir como bem uma IA realiza uma tarefa específica, como reconhecimento de imagem, tradução de idiomas, ou resolução de problemas matemáticos.

Tais benchmarks são fundamentais porque ajudam a comparar diferentes modelos e tecnologias de IA, fornecendo uma maneira objetiva de analisar suas capacidades.

No entanto, nem todos os benchmarks são criados da mesma forma, e muitos são projetados para tarefas genéricas que podem não refletir com precisão os desafios do mundo real.

OpenAI defende que benchmarks bem definidos ajudam a melhorar o desenvolvimento da IA, garantindo que ela seja eficaz e segura (Imagem: jackpress / Shutterstock.com)

Como o programa da OpenAI deve funcionar

O programa visa desenvolver benchmarks específicos para setores, ajudando as empresas a avaliar o desempenho dos modelos em ambientes de alto risco.
Isso será feito com a colaboração de várias empresas, com foco em startups que têm um impacto direto no mundo real.
A OpenAI revelou que também busca criar uma base sólida para estabelecer novos padrões de avaliação, com o objetivo de refletir melhor as necessidades e desafios de setores específicos, além de oferecer uma avaliação mais prática da IA em uso diário.

As empresas participantes do programa terão a oportunidade de trabalhar com a OpenAI para melhorar os modelos através de uma técnica chamada “ajuste fino por reforço”, que permite otimizar modelos para tarefas específicas.

No entanto, o maior desafio será se a comunidade de IA aceitará esses novos benchmarks, especialmente devido ao fato de a OpenAI estar financiando e liderando a criação desses testes.

Isso levanta questões éticas sobre a imparcialidade e a transparência dos critérios utilizados para avaliar os modelos de IA.

Várias empresas deverão colaborar no “Programa de Pioneiros” da OpenAI (Imagem Levart Photographer/Unsplash)

Esta post foi modificado pela última vez em 9 de abril de 2025 19:05

Publicado por

Leandro Costa Criscuolo

Tags: Inteligência ArtificialOpenAI

9 de abril de 2025 19:05