A Apple anunciou ter achado uma forma de fazer com que modelos de linguagens grandes (LLMs), que abastecem inteligências artificiais (IAs) generativas, rodem nos iPhones de forma direta.

Pesquisadores da empresa da maçã liberaram artigo que explicita o uso da memória flash, que armazena em definitivo os arquivos do smartphone, ao invés da memória RAM (armazenamento temporário das aplicações em uso) para executar a IA.

publicidade

Leia mais:

A pesquisa foi financiada pela Apple e está disponível no servidor de pré-impressão ArXiv. Dessa forma, destaca o MacRumors, é bem capaz de vermos a tecnologia nos iPhones, contudo, ainda não se sabe quando.

publicidade

IAs fora da nuvem?

  • Já estamos vendo o surgimento das IAs generativas nos smartphones;
  • Um exemplo conhecido é o futuro Samsung Galaxy S24, que terá a IA Galaxy;
  • Contudo, os principais chatbots de hoje em dia já lançados (ChatGPT, Copilot, Claude e Google Bard) rodam na nuvem;
  • O estudo da Apple pode significar uma grande mudança em como as IAs generativas são rodadas hoje em dia.

Como vai funcionar a tecnologia da Apple

Na prática, smartphones com pouca memória RAM vão ter condições de rodar as LLMs neles mesmos.

Afinal, os iPhones são conhecidos por não oferecerem tanta capacidade de RAM assim. Enquanto o Galaxy S23 Ultra tem 12 GB de RAM, os recém-lançados iPhone 15 Pro e Pro Max não passam dos 8 GB.

publicidade

Os pesquisadores da Apple indicaram que uma IA que possui sete milhões de parâmetros (ou seja, sua quantidade de conhecimento) precisa de, pelo menos, 14 GB de RAM para ser executada corretamente.

Dessa forma, a melhor escolha seria mesmo a memória flash, pois ela tem muito mais capacidade nos smartphones, já que há modelos que partem de 128 GB de espaço interno e chegam a 1 TB.

publicidade

A Samsung mesmo tem um recurso que permite aos seus usuários a aumentarem a memória RAM a partir da memória interna do dispositivo. Porém, não é bem isso o que a Apple desenvolveu.

O artigo explica que os parâmetros de sua IA ficariam armazenados na memória flash e, quando precisasse executar uma tarefa, ela não precisaria da RAM para trazer o resultado, além de que essa técnica é mais rápida.

O desempenho de processamento da IA é melhorado a partir de duas formas, chamadas de Windowing e Row-column bundling (empacotamento de fila e coluna).

Na Windowing, a IA se utiliza de dados que já foram processados, economizando tempo na hora de buscar as informações necessárias, o que também acelera o tempo de execução.

Enquanto isso, a Row-column bundling faz a leitura de dados em bloco, ao invés de pouco em pouco, ou seja, é como se ela passasse a ler frase por frase (ou até um parágrafo inteiro) e não palavra por palavra, algo que acelera bastante a leitura.

A combinação desses métodos permite que a IA opere até o dobro do tamanho da memória disponível do iPhone, indicam os pesquisadores no artigo.

Isso significa aumento de quatro a ciinco vezes na velocidade em processadores padrão (CPUs) e 20 a 25 vezes mais rápido em processadores gráficos (GPUs).

Este avanço é particularmente crucial para a implantação de LLMs avançados em ambientes com recursos limitados, expandindo assim sua aplicabilidade e acessibilidade.

Pesquisadores da Apple, em artigo

Com essa técnica, a Apple pode deixar a Siri mais avançada, tradução em tempo real e recursos mais sofisticados quando se fala de fotografias, vídeos e realidade aumentada (RA).

Além disso, como já se sabe, a Apple está trabalhando internamente em sua IA, a “Ajax”. Essa nova técnica permite perfeitamente que ela rode nativamente nos iPhones.