Quem já entrou no ChatGPT, chatbot de IA da OpenAI, sabe que a ferramenta responde de tudo. Quem usa o programa com frequência, também sabe que ChatGPT tem seus vícios e nem sempre interpreta o que escrevemos em português corretamente.

Isso tem um motivo: os grandes modelos de linguagem, como o GPT (que alimenta o ChatGPT), são treinados com grandes quantidades de dados. O resultado é que os programas acabam absorvendo mais informações em inglês e, como sabem um pouco de tudo, não necessariamente são especialistas em algo. O Olhar Digital já falou mais sobre o assunto aqui.

publicidade

O MariTalk quis mudar isso. O chatbot brasileiro foi desenvolvido pela startup Maritaca AI com uma proposta diferente: ser especialista em português e em assuntos do Brasil.

MariTalk é o chatbot da Maritaca AI, alimentando com os modelos de linguagem Sabiá (Imagem: Maritaca AI/Reprodução)

Empresa de IA brasileira nasceu antes do ChatGPT

A Maritaca AI nasceu em 2022, fundada pelo doutor em Ciência da Computação Rodrigo Nogueira em parceria com pesquisadores do núcleo de estudos de Inteligência Artificial da Universidade Estadual de Campinas (Unicamp).

publicidade

Com um aporte milionário do Google, a equipe treinou e desenvolveu um modelo de linguagem próprio, o Sabiá, e um chatbot, o MariTalk, que chegou ao mundo dois meses antes do ChatGPT.

O diferencial da ferramenta é o treinamento em assuntos voltados para o Brasil. Ao contrário de outros grandes modelos de linguagem, que são alimentados com uma vasta quantidade de dados online sobre diversos assuntos, o programa da Maritaca AI foca na coleta de dados voltados para o contexto brasileiro, sejam em português, espanhol ou inglês.

publicidade

Ou seja, ao invés de saber um pouco de tudo, a IA sabe muito do Brasil. Nogueira, que também é CEO da startup, explicou a vantagem disso no resultado final:

A gente foca nossos esforços em coletar dados de treinamento que são mais relevantes para o ambiente em que a IA vai ser usada. Isso não implica que usamos apenas dados em português. Por exemplo, muitos usuários precisam que a IA saiba sobre o que está acontecendo em países relevantes ao Brasil, como China, EUA, Argentina e Chile. É natural que também tenhamos dados em outras línguas. Entretanto, a gente coloca menos prioridade em dados que têm menor probabilidade de serem úteis para os usuários. (…) O resultado é conseguirmos servi-lo a um menor custo e maior assertividade para o que realmente importa para os brasileiros.

Rodrigo Nogueira, fundador e CEO da Maritaca AI, ao Olhar Digital

Veja um exemplo da IA em ação:

publicidade
MariTalk é especialista quando o assunto é Brasil (Imagem: Maritaca AI/Reprodução)

MariTalk é especialista no Brasil

O CEO da Maritaca AI lembrou que há uma mudança de paradigma importante no mundo da IA que norteia essa especialização. Antes, a tecnologia era usada para obter informações para que cada usuário tome as melhores decisões. Agora, a IA toma decisões por nós.

Nesse caso, uma ferramenta internacional, como o ChatGPT, pode até saber de tudo, mas não tem o conhecimento específico do cenário nacional, não sendo tão proveitosa para uma empresa brasileira, por exemplo.

Aí entra o MariTalk: como o treinamento é voltado para dados sobre o Brasil, o chatbot é especializado no país, entende nosso contexto, nossas leis e nossa história, ajudando a tomar decisões mais informadas.

Segundo a empresa, o treinamento é feito com dados públicos da internet, como documentos brasileiros, e acontece em duas etapas:

  • Na primeira, os modelos são treinados de maneira auto-supervisionada em grandes quantidades de texto. Ou seja, a IA aprende a prever a próxima palavra e, assim, formar contexto;
  • Na segunda, os modelos são ensinados a compreender e seguir instruções específicas e a produzir respostas confiáveis e seguras.

MariTalk é gratuito e tem desempenho comprovado

Rodrigo Nogueira deu exemplo de algumas das aplicações do MariTalk:

Hoje, o modelo realiza tarefas como auxílio na escrita de texto, tradução, escrita de programas de computador e sugestão de ideias para negócios. Entretanto, nosso objetivo é criar uma IA de propósito geral, que vai desde entregar informações acuradas até tomar ações em nome do usuário de maneira confiável — como, por exemplo, intermediar os diversos tipos de negociação (como renegociar uma dívida) e ajudar na resolução de conflitos, seja uma reclamação no Procon, seja um processo judicial.

Rodrigo Nogueira, ao Olhar Digital

O desempenho do MariTalk com o modelo de linguagem mais avançado da startup, o Sabiá-3, foi comprovado usando vestibulares brasileiros, como o Enem, as provas da Unicamp e da USP, o Enade e a OAB. O chatbot brasileiro se saiu melhor do que os modelos de linguagem do GPT, incluindo o GPT-4o, o mais avançado até aqui.

A Maritaca AI admite que perde para a IA da OpenAI apenas quando o assunto são temas genéricos, como matemática, já que a ferramenta ‘gringa’ foi treinada justamente com dados generalistas.

O preço é outra vantagem da IA brasileira. Veja uma comparação do valor e desempenho do MariTalk vs os modelos de linguagem que alimentam o ChatGPT e o Claude.

Modelo de linguagem da Maritaca AI se saiu melhor que os LLMs da OpenAI (Imagem: Maritaca AI/Reprodução)

Leia mais:

“ChatGPT brasileiro” tem suas limitações — mas tem planos de superá-las

E se você estranhou o apelido de “ChatGPT brasileiro”, não se preocupe: Nogueira não se incomoda com o rótulo. Pelo contrário, diz que o nome é um elogio para a empresa, que entrega tecnologia de ponta e que “compete de igual para igual com as melhores IAs do mundo”.

Assim como o “irmão” americano, o MariTalk tem suas limitações, como alucinações típicas da IA e um treinamento que vai apenas até meados de 2023. No entanto, o CEO deu um spoiler: a atualização é um pedido comum dos usuários e novas versões estão por vir.

Por enquanto, há opções de planos pagos e gratuitos:

  • A versão gratuita funciona de forma similar ao ChatGPT. Ela é online e os usuários enviam perguntas que vão para a nuvem da empresa, onde é possível coletar informações e obter as respostas. Você pode acessá-la neste link;
  • Se o usuário não quiser que os dados sejam coletados, por questões de privacidade ou outro motivo, é possível assinar planos pagos, que permitem o download do aplicativo MariTalk;
  • Os planos variam entre R$ 1 e R$ 10 para cada 1 milhão de tokens, a depender do modelo de linguagem escolhido (Sábia-2 Small, Sábia-2 Medium e Sábia-3, o mais avançado).
  • O Sabiá-2 Medium ficará disponível somente até o final de setembro deste ano.