(Imagem: rarrarorro / Shutterstock.com)
A Meta acaba de lançar a mais recente adição à sua linha de modelos de inteligência artificial (IA) generativa de código aberto: Llama 3. Com o lançamento do Llama 3, a Meta tem como objetivo empurrar os limites das capacidades de IA, ostentando melhorias significativas em relação aos seus antecessores, além de prometer melhor desempenho que modelos concorrentes.
A série Llama 3 é composta por dois modelos: Llama 3 8B, contendo 8 bilhões de parâmetros, e Llama 3 70B, contendo impressionantes 70 bilhões de parâmetros. A Meta afirma que esses modelos representam um “salto significativo” em desempenho em comparação com as iterações anteriores do Llama. Treinados em clusters de 24.000 GPUs personalizados, o Llama 3 8B e o Llama 3 70B estariam posicionados entre os modelos de IA generativa de melhor desempenho disponíveis atualmente.
Leia mais:
A chave para o sucesso do Llama 3 reside em seu extenso conjunto de dados de treinamento, composto por impressionantes 15 trilhões de tokens, abrangendo aproximadamente 750 bilhões de palavras. A Meta recorreu a fontes diversas e publicamente disponíveis, incorporando dados sintéticos para aumentar o treinamento. Embora primariamente adaptado para saídas em inglês, a diversidade aumentada no conjunto de dados melhora o desempenho do modelo em vários idiomas e tarefas.
Para abordar preocupações sobre toxicidade e viés inerentes em modelos de IA generativa, a Meta implementou rigorosos pipelines de filtragem de dados e atualizou suítes de segurança como Llama Guard e CybersecEval. Além disso, a introdução do Code Shield visa detectar potenciais vulnerabilidades de segurança no código gerado por IA.
No entanto, desafios persistem, como evidenciado por incidentes passados, como a tendência do Llama 2 de gerar informações imprecisas ou sensíveis. A Meta reconhece as limitações das salvaguardas atuais e enfatiza esforços contínuos para aprimorar a robustez e a segurança do modelo.
A disponibilidade dos modelos Llama 3 para download marca apenas o começo. A Meta planeja hospedar esses modelos em várias plataformas de nuvem, expandindo sua acessibilidade e utilidade. Além disso, a empresa já está treinando modelos Llama 3 com mais de 400 bilhões de parâmetros, vislumbrando capacidades multilíngues e multimodais com aprimorada capacidade de raciocínio e codificação.
Esta post foi modificado pela última vez em 18 de abril de 2024 22:17