Anthropic pensa em produtos com IA que sejam úteis aos consumidores

Tudo sobre Inteligência Artificial

A Anthropic é uma das empresas que opera com inteligência artificial (IA) mais promissoras atualmente, ao lado da OpenAI. Criadora do chatbot Claude, a startup foi fundada em 2021 exatamente por ex-integrantes da dona do ChatGPT.

Mas, diferente da empresa de Sam Altman, a Anthropic está focada na segurança. Exemplo disso é que muitos de seus empregados são pessoas que, alegadamente, se preocupam com a hipótese de que a IA possa destruir a humanidade.

Bilhões de dólares investidos na empresa são de grandes nomes da tecnologia, como a Amazon;
Com todo esse dinheiro e a preocupação com a segurança, como será que isso impacta na produção dos serviços e aplicativos da empresa?
Pensando nisso, o The Verge bateu um papo com Mike Krieger, novo diretor de produtos da Anthropic;
O executivo é conhecido por ter cofundado o Instagram, vendido por US$ 1 bilhão (R$ 5,66 bilhões, na conversão direta) ao Facebook (atual Meta) em 2012;
Krieger permaneceu na empresa de Mark Zuckerberg até 2018, quando passou a se interessar por IA;
Dessa forma, ele e o outro cofundador do Instagram, Kevin Systrom, criaram o Artifact, app de notícias que usava IA para recomendar artigos. Mas a proposta não foi muito longe e foi aposentada no início deste ano. O que sobrou da tecnologia foi vendido para o Yahoo.

Claude é o assistente de IA da Anthropic (Imagem: gguy/Shutterstock)

Entrevista do diretor de produtos da Anthropic

A seguir, leia a entrevista completa de Krieger para o podcast “Decoder”, do The Verge:

The Verge: Quero começar no começo da sua história na Anthropic, que também é o fim da sua história no Artifact. Você começou no Instagram e ficou na Meta por um tempo. Então, você saiu e você e Systrom começaram o Artifact, mas você decidiu fechá-lo. Conte-me sobre essa decisão, porque às vezes é tão importante quanto começar as coisas.

Mike Krieger: Realmente é, e o feedback que recebemos após o desligamento do Artifact foi uma mistura de tristeza, mas também de elogios por tê-lo encerrado. Acho que há valor em ter um momento em que você diz: “Já vimos o suficiente aqui”. Era o produto que eu ainda amo e sinto falta e, na verdade, vou encontrar pessoas e esperar que elas digam: “Eu amo o Instagram ou eu amo o Anthropic”.

Elas sempre dizem: “Artifact… Eu realmente sinto falta do Artifact”. Então, claramente, teve uma ressonância com um grupo muito pequeno, mas muito apaixonado de pessoas. Estávamos trabalhando em sua execução completa por cerca de três anos e o produto estava no mercado há um.

Estávamos analisando as métricas, analisando o crescimento, analisando o que tínhamos feito e tivemos um momento em que dissemos: “Existem ideias ou direções de produtos que parecerão idiotas se não tentarmos antes de encerrar?”

Tínhamos uma lista deles, e isso foi meio que no meio do ano passado. Basicamente, levamos o resto do ano para trabalhar neles e dissemos: “Sim, eles movem a agulha um pouco”, mas não foi o suficiente para nos convencer de que isso estava no caminho certo para ser algo em que coletivamente gastaríamos muito tempo nos próximos anos. Esse foi o momento certo para dizer: “Tudo bem, vamos fazer uma pausa. Vamos dar um passo para trás. Este é o momento certo para encerrar?” A resposta foi sim.

Na verdade, se você não viu, o Yahoo basicamente comprou, pegou todo o código e refez o Yahoo News como Artifact, ou o contrário. É muito engraçado. Você terá um momento meio mundo bizarro na primeira vez que vê-lo. Você fica tipo, “isso é quase exatamente como o Artifact: um pouco mais roxo, algumas fontes diferentes.”

Foi definitivamente a decisão certa, e você sabe que foi uma boa decisão quando dá um passo para trás e se arrepende de não ter dado certo, não de ter precisado tomar essa decisão ou de ter tomado exatamente essa decisão no momento em que tomou.

TV: Há duas coisas sobre o Artifact que quero perguntar, e definitivamente quero perguntar sobre como é vender algo para o Yahoo em 2024, o que é incomum. A primeira é que o Artifact foi muito projetado para dar superfície a páginas da web. Ele foi baseado em web muito rica, e se há uma coisa que me preocupa na era da IA, é que a web está ficando menos rica.

Mais e mais coisas estão migrando para plataformas fechadas. Mais e mais criadores querem começar algo novo, mas acabam no YouTube ou TikTok ou… Não sei se já existem criadores dedicados do Threads, mas eles estão chegando. Parecia que o produto estava perseguindo um sonho que pode estar sob pressão da IA especificamente, mas também apenas da ascensão das plataformas de criadores de forma mais ampla. Isso foi um problema real ou é apenas algo que vi de fora?

MK: Eu concordaria com a avaliação, mas, talvez, vejamos causas raiz diferentes. Acho que o que vimos foi que alguns sites conseguiram equilibrar uma mistura de assinatura, anúncios de bom gosto e bom conteúdo. Legitimamente, toda vez que criávamos um link para uma história do Verge no Artifact, alguém clicava. Era como, “esta é uma boa experiência. Parece que as coisas estão em equilíbrio”.

Nos extremos, porém, como notícias locais, muitos desses sites, por razões econômicas, se tornaram algo como: você chega e há um login com o Google e um pop-up para se inscrever no boletim informativo antes mesmo de consumir qualquer conteúdo. Essa é, provavelmente, uma questão econômica de longo prazo de suporte a notícias locais, provavelmente mais do que a IA. Pelo menos essa tendência parece estar acontecendo há um bom tempo.

A parte do criador também é muito interessante. Se você olhar onde as coisas que são notícias de última hora ou pelo menos histórias emergentes estão acontecendo, geralmente é uma postagem no X que se tornou viral. O que geralmente obtivemos no Artifact é o resumo das reações à coisa que aconteceu ontem, o que, se você está contando com isso, já está um pouco por fora do circuito.

Quando olho para onde as coisas estão acontecendo e onde a conversa está acontecendo, pelo menos para a parte cultural central dessa conversa, muitas vezes não está mais acontecendo em propriedades de mídia. Está começando em outro lugar e então sendo agregado em outro lugar, e acho que isso só tem uma implicação em um site ou produto como o Artifact e o quão bem você vai sentir que isso é uma notícia de última hora.

Com o tempo, mudamos para ser mais baseado em interesses e menos notícias de última hora, o que, engraçado o suficiente, o Instagram, em seu cerne, também era muito baseado em interesses. Mas você pode ter um produto que seja apenas isso? Acho que essa foi a luta.

Mike Krieger em 2015 (Imagem: G Holland/Shuttestock)

TV: Você disse propriedades de mídia. Algumas delas têm aplicativos. Algumas são expressas apenas como boletins informativos. Mas acho que o que estou perguntando é sobre a web. Os criadores não estão na web. Não estamos criando sites, e o Artifact foi baseado em uma web rica. Os produtos de pesquisa em geral são baseados em uma web rica e pesquisável que fornecerá boas respostas.

Até certo ponto, os produtos de IA exigem que haja uma nova web porque é onde estamos treinando todos os nossos modelos. Você viu isso — que essa promessa da web está sob pressão? Se todas as notícias estão surgindo em plataforma fechada que você não pode pesquisar ou indexar, como TikTok ou X, então, na verdade, construir produtos na web pode estar ficando mais restrito e pode não ser mais uma boa ideia.

MK: Até mesmo citar newsletters é ótimo exemplo. Às vezes, há um site no Substack equivalente de algumas das melhores coisas que leio, e algumas das newsletters existem puramente em e-mail. Nós até configuramos uma conta de e-mail que apenas ingeriu newsletters para tentar exibi-las ou pelo menos exibir links delas, e a experiência de design não está lá.

O que notei na web aberta em geral e como um fã de longa data da web — alguém que estava muito online antes de estar online era algo que as pessoas eram quando pré-adolescentes no Brasil — é que, de muitas maneiras, os incentivos foram criados em torno de: “Bem, uma receita não terá uma classificação alta se for apenas uma receita. Vamos contar a história sobre a vida que aconteceu levando a essa receita.”

Essas tendências vêm acontecendo há algum tempo e já estão levando a um lugar onde o consumidor final pode ser um usuário, mas está sendo intermediado por um mecanismo de busca e otimizado para essa capacidade de localização ou otimizado para o que vai ser muito compartilhado ou obter mais atenção. Newsletters e podcasts são duas maneiras que provavelmente quebraram isso com mais sucesso, e acho que essa tem sido uma direção interessante.

Mas, em geral, sinto que há uma década de risco para a web aberta em termos de intermediação acontecendo entre alguém tentando contar uma história e outra pessoa recebendo essa história. Todos os obstáculos ao longo do caminho apenas tornam isso mais e mais doloroso. Não é nenhuma surpresa então que, “ei, posso realmente abrir meu e-mail e obter o conteúdo”. Parece melhor em alguns aspectos, embora também não seja ótimo em vários outros aspectos. É assim que eu assisti, e eu diria que não está em um lugar saudável onde está agora.

TV: A maneira como falamos sobre essa tese com mais frequência é que as pessoas criam produtos de mídia para distribuição. Os podcasts são famosos por terem distribuição aberta; é como um feed RSS, mas há o servidor de anúncios do Spotify no meio. Mas, em sua essência, ainda é um produto RSS.

Os boletins informativos ainda são, em sua essência, um produto IMAP, um produto de protocolo de e-mail aberto. A web é distribuição de pesquisa, então, nós a otimizamos para essa coisa. E a razão pela qual estou perguntando isso, e vou voltar a esse tema algumas vezes, é que parecia que a Artifact estava tentando construir um novo tipo de distribuição, mas o produto que ela estava tentando distribuir eram páginas da web, que já estavam abertamente otimizadas para outra coisa.

MK: Acho que é uma avaliação realmente interessante. É engraçado assistir à versão do Yahoo porque eles fizeram acordos de conteúdo para obter páginas mais enxutas e, embora tenham menos fontes de conteúdo, a experiência de tocar em cada história individual, eu acho, é muito melhor, porque elas foram formatadas para distribuição vinculada a alguma aquisição paga, o que é diferente do que estávamos fazendo, que era como “aqui está a web aberta. Nós daremos a você verrugas e tudo e vincularemos diretamente a você.” Mas acho que sua avaliação parece correta.

TV: Quero voltar a esse tema. Realmente queria começar com o Artifact dessa forma porque parece que você teve experiência em versão da internet que talvez esteja sob pressão. A outra coisa que queria perguntar sobre o Artifact é que você e Kevin, seu cofundador, disseram uma vez que tinham grandes ideias, como ideias de escala, para o Artifact. Você não quis dizer o que era na época. Acabou agora. O que era?

MK: Havia duas coisas que fiquei triste por não termos conseguido ver. Uma era a ideia de bons sistemas de recomendação subjacentes a vários produtos verticais.

Então, notícias sendo uma delas, mas eu tinha a crença de que, se o sistema entende você bem por meio de como você está interagindo com notícias, como você está interagindo com conteúdo, então há outra vertical que poderia ser interessante? É em torno de compras? É em torno de descoberta local? É em torno de descoberta de pessoas? Todos esses lugares diferentes.

Vou separar talvez aprendizado de máquina e IA, e percebo que essa é uma definição mutável ao longo dos anos, mas vamos chamá-la, para os propósitos de nossa conversa, de sistemas de recomendação ou sistemas de aprendizado de máquina — apesar de todas as suas promessas, meu dia a dia na verdade não é preenchido com muitas boas instâncias desse produto.

A grande ideia da empresa era: podemos levar o pensamento de produto tipo Instagram para sistemas de recomendação e combinar essas duas coisas de uma forma que crie novas experiências que não sejam dependentes do seu gráfico de amigos e seguidores existente?

Com as notícias sendo um lugar interessante para começar, você destaca alguns bons problemas sobre o conteúdo, mas a parte atraente era que não estávamos tentando resolver o mercado de dois lados de uma só vez.

Acontece que metade desse mercado já estava cheio de pesquisas e tinha seus próprios problemas, mas pelo menos havia o outro lado também. A outra parte, mesmo dentro das notícias, é realmente pensar em como você eventualmente abrirá isso para que os criadores possam escrever conteúdo e entender a distribuição nativamente na plataforma. Acho que o Substack está buscando isso de direção muito diferente. Parece que cada plataforma quer chegar a isso também.

Quando você observa os análogos mais próximos na China, como o Toutiao, eles começaram rastreando a web e tendo esses acordos eventuais com editores, e agora é, eu diria, 80% a 90% de conteúdo próprio. Há razões econômicas pelas quais isso é bom e algumas pessoas ganham a vida escrevendo artigos sobre notícias locais no Toutiao, incluindo uma irmã ou parente próximo de um de nossos engenheiros. Mas o outro lado disso é que o conteúdo pode ser muito mais otimizado para o que você está fazendo.

Na verdade, na Code, conheci um empreendedor que estava criando nova experiência de mídia que era semelhante a se o Stories encontrasse notícias, encontrasse dispositivos móveis, o que seria para a maioria das notícias?

Acho que, para algo assim dar certo, também precisa de distribuição que tenha isso como o tipo de distribuição nativo. Então, as duas ideias em que eu penso, “um dia alguém [fará isso]” são sistemas de recomendação para tudo e, então, principalmente uma plataforma de escrita de conteúdo de primeira parte baseada em recomendação.

Logos de Amazon e Anthropic — Amazon é a principal investidora da startup (Imagem: JRdes/Shutterstock)

TV: Última pergunta sobre o Artifact. Vocês o fecharam e houve onda de interesse e, publicamente, um de vocês disse, “há uma onda de interesse, podemos virar isso”, e então foi o Yahoo. Conte-me sobre esse processo.

MK: Havia algumas coisas que queríamos alinhar. Trabalhamos naquele espaço por tempo suficiente para que, independentemente do que fizéssemos, queríamos meio que amarrar um laço em volta dele e seguir para o que quer que fosse o próximo. Essa foi uma parte. A outra parte era que eu queria ver as ideias vivas de alguma forma.

Houve muitas conversas em torno de “bem, o que se tornaria?”, e o Yahoo era realmente interessante. Admitiria não ter muita noção do que eles estavam fazendo, além de ainda usar o Yahoo Finance na minha liga de futebol americano fantasy. Além disso, eu não estava familiarizado com o que eles estavam fazendo. E eles disseram: “Queremos pegá-lo [Artifact] e achamos que, em dois meses, podemos relançá-lo como Yahoo News”.

Eu estava pensando, “isso parece muito louco. É um cronograma muito curto em uma base de código com a qual você não está familiarizado.” Eles tinham acesso a nós e nós os ajudávamos quase em tempo integral, mas ainda assim era muito. Mas eles realmente conseguiram.

Acho que foram dez semanas em vez de oito. Mas acho que há nova energia ali para ser como, “tudo bem, quais são as propriedades que queremos reconstruir novamente?” Admito que cheguei com um pouco de preconceito. Tipo, eu não sei o que sobrou no Yahoo ou o que vai acontecer aqui.

Então, as equipes de tecnologia morderam isso de boca aberta. Eles foram com tudo e entregaram. Mando mensagens de texto rotineiramente para Justin [Bisignano], nosso líder do Android e que está na Anthropic agora. Encontro pequenos detalhes no Yahoo News e fico tipo, “ah, eles mantiveram isso.”

Passei muito tempo com essa animação giratória 3D quando você chegava a novo nível de leitura — é essa coisa linda de reflexo especular de destaque. Eles mantiveram, mas agora diz “Yahoo” quando você faz isso.

E fiquei tipo, “isso é bem da marca”. Foi experiência realmente fascinante, mas continua viva e provavelmente terá futuro muito diferente do que estávamos imaginando. Acho que algumas das ideias principais estão lá, tipo, “ei, o que significaria realmente tentar criar sistema de notícias personalizado que fosse realmente desacoplado de qualquer tipo de gráfico de acompanhamento existente ou do que você já estava vendo em algo como o Facebook?”

TV: Eles foram os melhores licitantes? A decisão foi que o Yahoo implementaria isso para a maioria das pessoas em escala? Foi, “eles estão nos oferecendo mais dinheiro”? Como você escolheu?

MK: Era uma função de otimização e diria que as três variáveis eram: o acordo era atraente ou atraente o suficiente; nossos compromissos pessoais pós-transição eram bem leves, o que eu gostava; e eles tinham alcance.

Acho que o Yahoo News ainda tem cem milhões de usuários mensais. Então, era alcance, comprometimento mínimo, mas o suficiente para que sentíssemos que poderia ser bem-sucedido, então, eles estavam no espaço certo, pelo menos no tamanho do lance.

TV: Parece o sonho. “Você pode ficar com isso. Vou embora. É um monte de dinheiro.” Faz sentido. Só estava pensando se era isso ou se não era tanto dinheiro, mas que eles tinham a maior plataforma, porque o Yahoo é enganosamente enorme.

MK: Sim, enganosamente ainda é enorme e sob nova liderança, com muita empolgação ali. Não foi saída enorme ou eu não chamaria de resultado super bem-sucedido, mas o fato de que sinto que aquele capítulo fechou de maneira agradável e, então, pudemos seguir em frente sem nos perguntar se deveríamos ter feito algo diferente quando o fechamos. Significou que dormi muito melhor à noite no primeiro trimestre deste ano.

TV: O próximo capítulo é quando você aparece como diretor de produtos na Anthropic. Como foi essa conversa? Porque, em termos de grandes compromissos e problemas cabeludos — vamos destruir a web? —, está tudo ali e, talvez, seja muito mais trabalho. Como você tomou a decisão de ir para a Anthropic?

MK: A decisão de alto nível era o que fazer em seguida. E admito ter tido pequena crise de identidade no começo do ano. Eu estava tipo, “só sei como começar empresas.” E, na verdade, mais específica e provavelmente, só sei como começar empresas com Kevin. Nós formamos ótima dupla de cofundadores.

Estava olhando para isso como quais são os aspectos disso que eu gosto? Gosto de conhecer a equipe desde o primeiro dia, de ter muita autonomia, de ter parceiros em quem realmente confio, de trabalhar em grandes problemas com muito espaço aberto.

Ao mesmo tempo, disse: “não quero começar outra empresa agora. Passei por momentos difíceis com isso por três anos. Teve resultado bom, mas não era o que queríamos.” Sentei lá dizendo: “Quero trabalhar em problemas interessantes em escala em uma empresa que comecei, mas não quero começar uma empresa.”

Meio que fiquei meio confuso e pensei: “O que eu faço agora?” Definitivamente, eu sabia que não queria apenas investir. Não que investir seja uma coisa “apenas”, mas é diferente. Sou construtor de coração, como todos sabem. Pensei: “Isso vai ser muito difícil.

Talvez precise de um tempo e depois abrir uma empresa”. Então, fui apresentado ao pessoal da Anthropic pelo chefe de design [Joel Lewenstein], alguém com quem criei meu primeiro app para iPhone na faculdade. O conheço há muito tempo.

Comecei a falar com a equipe e percebi que a equipe de pesquisa aqui é incrível, mas os esforços de produto eram muito incipientes. Não ia me enganar achando que estava entrando como cofundador. A empresa existe há alguns anos.

Já havia valores da empresa e uma maneira como as coisas estavam funcionando. Eles se chamavam de formigas. Talvez eu tivesse defendido um apelido diferente para os funcionários, mas tudo bem. Esse navio já partiu. Mas senti que havia muito produto greenfield aqui e muitas coisas a serem feitas e construídas.

Foi a combinação mais próxima que eu poderia ter imaginado de 1) a equipe que eu gostaria de ter construído se estivesse começando uma empresa; 2) o suficiente para fazer — tanto para fazer que acordo todos os dias animado e intimidado pelo tanto que há para fazer; e 3) já com ímpeto e escala, então, eu podia sentir que ia começar a trabalhar em algo que tivesse um pouco de vento a favor. Essa era a combinação.

A primeira foi a grande decisão: o que eu faço em seguida? A segunda foi tipo, “tudo bem, a Anthropic é o lugar certo para isso?” Era o tipo de coisa em que cada conversa que eu tinha com eles, eu ficava tipo, “acho que pode ser isso.” Não estava pensando em entrar para uma empresa que já estava funcionando como louca, mas queria estar mais perto da tecnologia de IA central, trabalhando em problemas interessantes, construindo, mas queria que parecesse o mais próximo possível de uma situação de cofundador.

Daniela [Amodei], presidente aqui, talvez estivesse tentando me vender, mas ela disse: “Você se sente como o oitavo cofundador que nunca tivemos, e esse era o nosso cofundador de produto”, o que é incrível, eles tinham sete cofundadores e nenhum deles era o cofundador de produto. Mas seja lá o que for, me vendeu, e eu fiquei tipo: “Tudo bem, vou voltar”.

Logos de Claude e ChatGPT em um iPhone — Claude e ChatGPT são rivais (Imagem: Koshiro K/Shutterstock)

TV: Você começou no Instagram, você é profundo com criativos, você construiu plataforma de criativos e você obviamente se importa com design. Dentro dessa comunidade, IA é um dilema moral. As pessoas estão chateadas com isso. Como você avaliou isso? “Vou trabalhar nessa tecnologia que é construída em treinamento contra todas essas coisas na internet, e as pessoas têm emoções realmente intensas sobre isso.” Há muita coisa nisso. Há processos de direitos autorais. Como você pensou sobre isso?

MK: Tenho algumas dessas conversas. Um dos meus bons amigos é músico em Los Angeles. Ele vem para a Baía sempre que está em turnê, e nós temos conversas de uma hora sobre IA na música e como essas coisas se conectam e para onde elas vão.

Ele sempre tem ideias interessantes sobre quais partes do processo criativo ou quais peças de produção criativa são mais afetadas agora, e você pode tocar isso e ver como isso vai mudar. Acho que essa questão é grande parte do motivo pelo qual acabei na Anthropic, se fosse estar na IA.

Obviamente, a palavra escrita é muito importante, e há tanta coisa que acontece no texto. Definitivamente não quero fazer isso parecer que o texto é menos criativo do que outras coisas. Mas acho que o fato de termos escolhido focar na compreensão de texto e imagem e mantê-lo no texto — e texto que, supostamente, é algo personalizado para você em vez de reproduzir algo que já está lá fora — reduz significativamente parte desse espaço onde você não está tentando produzir vídeos do tipo Hollywood ou imagens ou sons e música de alta fidelidade.

Parte disso é foco de pesquisa. Parte disso é foco de produto. O espaço de perguntas espinhosas ainda está lá, mas também um pouco mais limitado nesses domínios, ou está fora desses domínios e mais puramente em texto e código e esses tipos de expressões. Isso foi forte contribuidor para eu querer estar aqui em vez de outros lugares.

TV: Há muita controvérsia sobre de onde vêm os dados de treinamento. De onde vêm os dados de treinamento da Anthropic para Claude? Eles são extraídos da web como todos os outros?

MK: [Vem de] raspar a web. Respeitamos o robots.txt. Temos algumas outras fontes de dados que licenciamos e trabalhamos com pessoas separadamente para isso. Digamos que a maior parte é web crawl feito de forma respeitosa.

TV: E o YouTube? Instagram? Você está raspando esses sites?

Não. Quando penso nos jogadores neste espaço, há momentos em que penso: “Ah, deve ser legal estar dentro do Meta”. Na verdade, não sei se eles treinam com conteúdo do Instagram ou se falam sobre isso, mas há muitas coisas boas lá. E o mesmo com o YouTube.

Quer dizer, um amigo próximo meu está no YouTube. Esse é o repositório de conhecimento coletivo de como consertar qualquer máquina de lavar louça no mundo, e as pessoas perguntam esse tipo de coisa. Então, veremos com o tempo como isso vai ficar.

TV: Quando você pensa sobre essa dinâmica geral, há muitos criativos por aí que percebem a IA como um risco para seus empregos ou percebem que houve grande roubo. Vários autores dizem que o Claude foi treinado ilegalmente contra seus livros.

Você acha que há uma resposta de produto para isso? E isso vai levar à minha segunda pergunta, mas vou perguntar de forma ampla, você acha que pode fazer um produto tão bom que as pessoas superem essas objeções? Porque esse é o tipo de argumento vago que ouço da indústria.

Agora, estamos vendo um monte de chatbots e você pode fazer o chatbot disparar um monte de informações protegidas por direitos autorais, mas vai chegar uma hora em que isso vai embora porque o produto será tão bom e tão útil que as pessoas vão achar que valeu a pena. Não vejo isso ainda.

Acho que muito do cerne dos processos de direitos autorais além da parte legal é que as ferramentas não são tão úteis a ponto de qualquer um ver que o negócio vale a pena. Você acha que vai haver um produto em que seja óbvio que o negócio vale a pena?

MK: Acho que depende muito do caso de uso. O tipo de pergunta que deixava nossa equipe do Instagram louca é que sempre perguntávamos: “Bem, qual problema você está resolvendo?” Uma interface de bot de texto geral que pode responder a qualquer pergunta é uma tecnologia e o início de um produto, mas não é um problema preciso que você está resolvendo.

Fundamentar-se nisso talvez ajude você a chegar a essa resposta. Por exemplo, eu uso Claude o tempo todo para assistência de código. Isso está resolvendo um problema direto, que é, estou tentando aumentar o gerenciamento de produtos e colocar nossos produtos em andamento e, também, trabalhar em um monte de coisas diferentes.

Na medida em que tenho tempo para estar no modo de construção pura, quero ser realmente eficiente. Esse é um problema muito diretamente conectado e uma virada de jogo total apenas por mim como construtor, e me permite focar em diferentes partes também.

Estava falando com alguém logo antes dessa entrevista. Eles agora estão usando o Claude para suavizar ou mudar suas longas mensagens no Slack antes de enviá-las. Esse tipo de editor resolve o problema imediato deles. Talvez eles precisem diminuir o tom e relaxar um pouco antes de enviar uma mensagem no Slack. Novamente, isso o fundamenta no uso porque é nisso que estou tentando realmente focar.

Diria hoje que o produto realmente atende a alguns deles bem o suficiente para que eu esteja feliz que ele exista e acho que as pessoas em geral estão. E então, com o tempo, se você olhar para coisas, como assistência de escrita de forma mais ampla para escrita de romances, acho que o júri ainda está indeciso.

Nossos modelos são muito bons, mas não são ótimos para acompanhar personagens em peças do tamanho de livros ou reproduzir coisas específicas. Eu basearia isso em “no que podemos ser bons agora?” e então vamos, à medida que avançamos para novos casos de uso, navegar cuidadosamente em termos de quem está realmente usando e garantir que estamos fornecendo valor para as pessoas certas nessa troca.

TV: A Anthropic começou, provavelmente foi a empresa original do “estamos todos saindo da OpenAI para construir uma IA mais segura”. Agora, há muitas delas. Isso é expresso na empresa? Obviamente, o Instagram tinha grandes políticas de moderação. Você pensou muito sobre isso. Não é perfeito como plataforma ou empresa, mas certamente está no cerne da plataforma. Isso está no cerne da Anthropic da mesma forma que há coisas que você não fará?

Sim, profundamente. E eu vi isso na segunda semana. Sou uma pessoa orientada para o navio. Mesmo com os primeiros dias do Instagram, era como, “não vamos nos atolar na construção de 50 recursos. Vamos construir duas coisas bem e lançá-las o mais rápido possível.” Algumas dessas decisões de lançar uma semana antes e não ter todos os recursos eram realmente existenciais para a empresa. Sinto isso nos meus ossos. Na segunda semana, eu estava aqui.

TV: A Anthropic é o que se chama de corporação de benefício público. Há uma confiança subjacente a ela. Você é o primeiro chefe de produto. Você descreveu as equipes de produto e pesquisa como sendo diferentes, então há uma cultura de segurança. Como tudo isso funciona? Como a Anthropic é estruturada?

MK: Diria, de forma geral, que temos nossas equipes de pesquisa. Temos a equipe que fica mais próxima entre pesquisa e produto, que pensa sobre inferência e entrega de modelos e tudo o que é preciso para realmente servir esses modelos porque isso acaba sendo a parte mais complexa em muitos casos.

Então, temos o produto. Se você cortasse a equipe de produto, ela se pareceria com as equipes de produto da maioria das empresas de tecnologia, com alguns ajustes.

Uma delas é que temos uma equipe de laboratórios, e o propósito dessa equipe é basicamente colocá-los o mais cedo possível no processo de pesquisa com designers e engenheiros para começar a prototipar na fonte, em vez de esperar até que a pesquisa esteja concluída. Posso explicar por que acho que é uma boa ideia. Essa é uma equipe que surgiu logo depois que entrei.

E a outra equipe que temos são nossas equipes de PM de pesquisa, porque, no final das contas, estamos entregando os modelos usando esses diferentes serviços e os modelos têm capacidades, como o que eles podem ver bem em termos de multimodal ou que tipo de texto eles entendem e até mesmo em quais idiomas eles precisam ser bons.

Ter o feedback do usuário final vinculado à pesquisa acaba sendo muito importante e evita que ele se torne essa torre de marfim, como, “nós construímos esse modelo, mas ele é realmente útil?” Dizemos que somos bons em código. Somos mesmo?

As startups que o usam para código estão nos dando feedback sobre, “é bom nesses casos de uso do Python, mas não é bom nessa coisa autônoma”? Ótimo. Esse é o feedback que será canalizado de volta.

TV: Esse é o lado do produto. O lado da pesquisa, é esse o lado que funciona nos modelos reais?

MK: Sim, esse é o lado dos modelos reais, e isso é tudo, desde pesquisar arquiteturas de modelos, até descobrir como esses modelos escalam, então, uma forte equipe de alinhamento de segurança de red teaming também.

Esse é outro componente que está profundamente em pesquisa, e acho que alguns dos melhores pesquisadores acabam gravitando em direção a isso, pois veem que é a coisa mais importante em que eles podem trabalhar.

Leia mais:

TV: Quão grande é o Anthropic? Quantas pessoas?

MK: Estamos acima de 700, na última contagem.

TV: E qual é a divisão entre essa função de pesquisa e a função de produto?

MK: O produto está logo acima de 100. Temos vendas também, além de pesquisa, a parte de ajuste fino da pesquisa, inferência e, então, as peças de segurança e dimensionamento também. Descrevi isso um mês após entrar como aqueles caranguejos que têm uma garra super grande.

Somos muito bons em pesquisa, e o produto ainda é uma garra muito pequena. A outra metáfora que tenho usado é que você é um adolescente, e alguns de seus membros cresceram mais rápido do que outros e alguns ainda estão se recuperando.

A aposta mais louca é que eu adoraria que não tivéssemos que dobrar a equipe de produtos. Eu adoraria que, em vez disso, encontrássemos maneiras de usar o Claude para nos tornar mais eficazes em tudo o que fazemos no produto para que não tenhamos que dobrar. Cada equipe luta com isso, então esta não é observação nova. Mas eu olho para o Instagram e, quando saí, tínhamos 500 engenheiros. Fomos mais produtivos do que 250? Quase certamente não. Fomos mais produtivos do que 125 a 250? Marginalmente?

claude 3 — Claude ganhou versão para empresas (Imagem: Anthropic)

TV: Onde a moderação fica? No Instagram, há a grande função centralizada de confiança e segurança Meta. No YouTube, ela fica na organização do produto sob supervisão de Neal Mohan. Onde ela fica para você?

MK: Colocaria isso em três lugares. Um é no treinamento e ajuste fino do modelo real, onde parte do que fazemos no lado do aprendizado por reforço é dizer que definimos constituição para como achamos que o Claude deveria estar no mundo. Isso é incorporado ao próprio modelo desde o início.

Antes de você clicar no prompt do sistema, antes que as pessoas interajam com ele, isso está sendo codificado em como ele deve se comportar. Onde ele deve estar disposto a responder e participar, e onde não deve estar?

Isso está muito ligado à parte do dimensionamento responsável. O próximo é no prompt do sistema real. No espírito da transparência, começamos a publicar nossos prompts do sistema. As pessoas sempre descobriam maneiras inteligentes de tentar revertê-los de qualquer maneira e nós pensávamos: “Isso vai acontecer. Por que não tratamos isso como um changelog?”

A partir desta última semana, você pode acessar a internet e ver o que mudamos. Esse é outro lugar onde há orientação adicional que damos ao modelo sobre como ele deve agir. Claro, idealmente, ele é incorporado mais cedo.

As pessoas sempre podem encontrar maneiras de tentar contornar isso, mas somos muito bons em evitar fugas de presos. A última parte é onde nossa equipe de confiança e segurança se encontra, e a equipe de confiança e segurança é a equipe mais próxima.

No Instagram, nós a chamamos, em um ponto, de confiança e segurança e, em outro ponto, bem-estar. Mas dividiria esse trabalho em duas partes. Uma é, o que as pessoas estão fazendo com Claude e publicando para o mundo? Então, com o Artifacts, foi o primeiro produto que tivemos que tinha qualquer coisa social, que é que você poderia criar um Artifact, clicar em compartilhar e realmente colocá-lo na web. Esse é um problema muito comum em conteúdo compartilhado.

Vivi compartilhando conteúdo por quase dez anos no Instagram, e aqui, era tipo, “espera aí, as pessoas têm nomes de usuário? Como elas são denunciadas?” Acabamos atrasando o lançamento em uma semana e meia para garantir que tínhamos as peças certas de confiança e segurança em torno de moderação, denúncia, dicas sobre como retirá-lo, distribuição limitada, descobrir o que isso significa para as pessoas em planos de equipes versus indivíduos, etc.

Fiquei muito animado, tipo, “vamos enviar isso. Compartilhando artefatos.” Então, uma semana depois, “ok, agora podemos enviar.” Tivemos que resolver essas coisas. Isso está no lado da moderação de conteúdo.

No lado da resposta, também temos peças adicionais que ficam lá que estão em torno de impedir que o modelo reproduza conteúdo protegido por direitos autorais, o que é algo que queremos evitar também das conclusões, ou outros danos que são contra a maneira como achamos que o modelo deve se comportar e deveriam ter sido capturados antes.

Mas, se não forem, eles são capturados naquela última milha. Nosso chefe de confiança e segurança chama isso de método do queijo suíço, que é como se nenhuma camada capturasse tudo, mas, idealmente, uma pilha de camadas suficiente capturasse muito antes de chegar ao fim.

TV: Estou muito preocupado com a falsificação gerada por IA na internet. Há a morte da fotografia, da qual falamos o tempo todo. Vamos continuar acreditando no que vemos? Onde você se posiciona sobre isso? A Anthropic obviamente é muito preocupada com a segurança, mas ainda estamos gerando conteúdo que pode dar errado de todas as maneiras.

MK: Talvez me dividiria internamente para Anthropic e para o que vi no mundo. O material de geração de imagens do Grok que saiu há duas semanas foi fascinante porque, no lançamento, parecia quase um vale-tudo total.

É algo como, você quer ver Kamala [Harris] com uma metralhadora? Foi uma loucura. Oscilo entre acreditar que realmente ter exemplos como esse na natureza é útil e quase inocular o que você toma como garantido como uma fotografia ou não ou um vídeo ou não. Não acho que estamos longe disso. Não há respostas fáceis aí, mas isso é, para não soar grandioso, uma coisa de toda a sociedade que vamos considerar também nas peças de imagem e vídeo.

No texto, acho que o que muda com a IA é a produção em massa. Uma coisa que observamos é qualquer tipo de esforço coordenado. Observamos isso também no Instagram. Em níveis individuais, pode ser difícil pegar a única pessoa que está comentando em um grupo do Facebook tentando começar alguma coisa porque isso provavelmente é indistinguível de um humano.

Mas o que realmente procuramos foram redes de atividade coordenada. Temos feito o mesmo na Anthropic, que está observando isso, o que vai acontecer com mais frequência no lado da API do que no Claude. Acho que existem maneiras mais eficazes e eficientes de fazer as coisas em escala.

Acho que é importante deixar claro como empresa o que você considera bugs versus recursos. Seria um resultado terrível se os modelos da Anthropic estivessem sendo usados para qualquer tipo de coordenação de notícias falsas e coisas do tipo interferência eleitoral.

Temos as equipes de confiança e segurança trabalhando ativamente nisso e, na medida em que encontrarmos algo, isso será uma combinação — parâmetros de modelo adicionais mais confiança e segurança — para desligá-lo.

TV: Agora, do seu assento na Anthropic, sabendo como o outro lado funciona, há algo que você esteja fazendo para tornar a filtragem mais fácil? Há algo que você esteja fazendo para torná-la mais semântica ou mais compreensível? O que você está observando para fazer com que os sistemas que classificam o conteúdo tenham um trabalho mais fácil de entender o que é real e o que é falso?

MK: Há no lado da pesquisa e, agora, fora da minha área de especialização. Há um trabalho ativo sobre quais são as técnicas que podem torná-lo mais detectável. É marca d’água? É probabilidade? Acho que é uma questão em aberto, mas também uma área de pesquisa muito ativa.

Acho que a outra parte é… bem, na verdade eu dividiria em três. Há o que podemos fazer a partir da detecção e marca d’água, etc. Na parte do modelo, também precisamos que ele seja capaz de expressar alguma incerteza um pouco melhor.

“Na verdade, não sei sobre isso. Não estou disposto a especular ou não estou realmente disposto a ajudar você a filtrar essas coisas porque não tenho certeza. Não consigo dizer quais dessas coisas são verdadeiras.” Essa também é uma área de pesquisa aberta e muito interessante.

E então o último é, se você é a Meta, se você é o Google, talvez o argumento positivo seja que se você está principalmente exibindo conteúdo gerado por modelos que você mesmo está construindo, provavelmente há um melhor loop fechado que você pode ter lá.

Não sei se isso vai acontecer ou se as pessoas sempre vão simplesmente migrar para qualquer modelo de geração de imagem mais interessante e criá-lo e publicá-lo e explodi-lo. Mas acredito que as ferramentas integradas, como o Instagram, mais de 90% das fotos que foram filtradas, foram filtradas dentro do aplicativo porque é mais conveniente. Dessa forma, um ecossistema fechado pode ser uma rota para pelo menos ter alguma verificabilidade do conteúdo gerado.

Os filtros do Instagram são parte dominante da nossa cultura e tiveram efeitos reais na autoimagem das pessoas, negativos particularmente em adolescentes e como elas se sentem sobre si mesmas. Existem alguns estudos que dizem que os adolescentes estão começando a ter problemas de autoimagem e corpo em taxas mais altas por causa do que eles percebem no Instagram.

Isso é ruim, e é um peso ruim contra o bem geral do Instagram, que é que muito mais pessoas conseguem se expressar. Nós construímos diferentes tipos de comunidades. Como você está pensando sobre esses riscos com os produtos da Anthropic? Porque você viveu isso.

MK: Estou animado e, no geral, muito otimista sobre IA e o potencial da IA. Se vou trabalhar ativamente nisso, quero que seja em algum lugar onde as desvantagens, os riscos e o tipo de mitigação sejam tão importantes e fundamentais para a história da fundação, para trazê-lo de volta ao motivo pelo qual entrei.

Foi assim que equilibrei para mim mesmo, que é, você precisa ter aquele ciclo interno de execução de “otimo. Essa é a coisa certa para lançar? Devemos lançar isso? Devemos mudar? Devemos adicionar algumas restrições? Devemos explicar suas limitações?”

Acho que é essencial que lutemos com essas questões, ou então acho que você acabará dizendo: “Bem, isso é claramente apenas uma força para o bem. Vamos explodir e ir até o fim.” Sinto que isso não é verdade, tendo visto no Instagram. Você pode construir sistema de comentários, mas também precisa construir o filtro de bullying que construímos.

TV: Como você toma decisões? Qual é sua estrutura?

MK: A cultura aqui na Anthropic é extremamente atenciosa e muito voltada para a escrita de documentos. Se uma decisão precisa ser tomada, geralmente há um documento por trás dela. Há prós e contras nisso.

Isso significa que, quando entrei e fiquei me perguntando por que escolhemos fazer algo, as pessoas diziam: “Ah, sim, há um documento para isso”. Há literalmente um documento para tudo, o que ajudou na minha aceleração.

Às vezes, eu ficava tipo: “Por que ainda não construímos isso?” As pessoas diziam: “Ah, alguém escreveu um documento sobre isso há dois meses”. E eu fico tipo: “Bem, fizemos algo a respeito?” Toda a minha parte de tomada de decisão é que quero que cheguemos à verdade mais rápido. Nenhum de nós sabe individualmente o que é certo, e obter a verdade pode estar desriscando o lado técnico ao construir um protótipo técnico.

Se for do lado do produto, vamos colocá-lo nas mãos de alguém. Os mock-ups do Figma são ótimos, mas como eles vão se mover na tela? Minimizar o tempo de iteração e o tempo de teste de hipóteses é minha filosofia fundamental de tomada de decisão. Tentei instalar mais disso aqui no lado do produto.

Novamente, é uma cultura bem pensada e muito deliberada. Não quero perder isso, mas quero que haja mais desses componentes de teste de hipóteses e validação. Acho que as pessoas sentem isso quando dizem: “Ah, estávamos debatendo isso há um tempo, mas na verdade construímos, e acontece que nenhum de nós estava certo, e na verdade, há uma terceira direção que é mais correta”.

No Instagram, percorremos toda a gama de estruturas de estratégia. A que mais ressoou comigo consistentemente é jogar para vencer. Eu volto a isso com frequência, e incuti um pouco disso aqui enquanto começamos a pensar sobre qual é nossa aspiração vencedora. O que estamos buscando?

Então, mais especificamente, e tocamos nisso em nossa conversa hoje, onde jogaremos? Não somos o maior time em tamanho. Não somos a maior IU de chat por uso. Também não somos o maior modelo de IA por uso. Temos muitos jogadores interessantes neste espaço.

Temos que ser atenciosos sobre onde jogamos e onde investimos. Então, esta manhã, tive uma reunião onde os primeiros 30 minutos foram pessoas sofrendo devido a uma estratégia. O clichê é que a estratégia deve ser dolorosa, e as pessoas esquecem a segunda parte disso, que é que você sentirá dor quando a estratégia criar algumas compensações.

Site do Claude — Empresa foca em segurança de seus serviços, como o Claude (Imagem: Patrickx007/Shutterstock)

TV: Você acha que os LLMs podem fazer todas as coisas que as pessoas querem que eles façam?

MK: Acho que, com a geração atual, sim em algumas áreas e não em outras. Talvez o que me torna uma pessoa de produto interessante aqui é que realmente acredito em nossos pesquisadores, mas minha crença padrão é que tudo demora mais na vida e em geral e na pesquisa e na engenharia do que pensamos que demorará.

Faço esse exercício mental com a equipe, que é, se nossa equipe de pesquisa pegasse Rip Van Winkle e todos dormissem por cinco anos, ainda acho que teríamos cinco anos de roteiro de produto.

Seríamos terríveis em nossos empregos se não pudéssemos pensar em todas as coisas que até mesmo nossos modelos atuais poderiam fazer em termos de melhorar o trabalho, acelerar a codificação, tornar as coisas mais fáceis, coordenar o trabalho e até mesmo intermediar disputas entre pessoas, o que acho que é um caso de uso engraçado de LLM que vimos acontecer internamente em torno de “essas duas pessoas têm essa crença. Ajude-nos a fazer um ao outro as perguntas certas para chegar a esse lugar.”

É uma boa caixa de ressonância também. Há muita coisa ali que está embutida nos modelos atuais. Concordaria com você que a grande questão em aberto, para mim, é basicamente para tarefas de horizonte mais longo. Qual é o horizonte de independência que você pode e está disposto a dar ao modelo?

A metáfora que tenho usado é, agora, o chat construído com LLMs é muito mais uma situação em que você tem que fazer o vai e vem, porque você tem que corrigir e iterar. “Não, não foi bem isso que eu quis dizer. Eu quis dizer isso.”

Um bom teste decisivo para mim é, quando posso enviar um e-mail para o Claude e geralmente esperar que uma hora depois ele não vai me dar a resposta que teria me dado no chat, o que teria sido um fracasso, mas teria feito coisas mais interessantes e ido descobrir coisas e iterar sobre elas e até mesmo se autocriticar e então responder.

Não acho que estamos tão longe disso para alguns domínios. Estamos longe de alguns outros, especialmente aqueles que envolvem planejamento de longo prazo, pensamento ou pesquisa. Mas uso isso como minha parte de capacidades.

É menos como tamanho de parâmetro ou uma avaliação específica. Para mim, novamente, volta a “que problema você está resolvendo?” Agora, brinco com nossa equipe que Claude é um amnésico muito inteligente.

Toda vez que você começa uma nova conversa, é como, “Espere, quem é você de novo? Para que estou aqui? No que trabalhamos antes?” Em vez disso, é como, “Tudo bem, podemos dar continuidade? Podemos fazer com que seja capaz de planejar e executar em horizontes mais longos, e você pode começar a confiar nele para obter mais algumas coisas?”

Há coisas que faço todos os dias e penso: “Passei uma hora fazendo algo que realmente gostaria de não ter que fazer”, e isso não é um uso particularmente aproveitado do meu tempo, mas não acho que Claude conseguiria fazer isso agora sem muita ajuda.

Aqui está talvez uma maneira mais sucinta de colocar um laço nisso. Agora mesmo, o andaime necessário para fazê-lo executar tarefas mais complexas nem sempre parece valer a pena as compensações porque você provavelmente poderia ter feito isso sozinho.

Acho que há uma história em quadrinhos sobre o tempo gasto automatizando algo versus o tempo que você realmente economiza fazendo isso. Essa compensação está em diferentes pontos da curva da IA e acho que a aposta seria: podemos encurtar esse tempo para valor para que você possa confiar que ele fará mais dessas coisas que provavelmente ninguém realmente se anima — para reunir todos os documentos de planejamento nos quais minhas equipes de produtos estão trabalhando em um documento, escrever a metanarrativa e distribuí-la para essas três pessoas?

Tipo, cara, eu não quero fazer isso hoje. Tenho que fazer isso hoje, mas não quero fazer isso hoje.

TV: A Anthropic recebeu mais de US$ 7 bilhões [R$ 39,65 bilhões] em financiamento no último ano. Você é uma das poucas pessoas no mundo que já construiu um produto que gerou um retorno de US$ 7 bilhões [R$ 39,65 bilhões] em financiamento em escala. Você provavelmente consegue imaginar alguns produtos que podem retornar esse investimento. Os LLMs que você tem hoje podem construir esses produtos?

MK: Acho que é uma maneira interessante de perguntar isso porque penso que os LLMs hoje agregam valor, mas também nos ajudam a construir algo que agregue esse valor.

TV: Quais são esses produtos que podem entregar tanto valor?

MK: Para mim, agora, o Claude é um assistente. Um tipo de ajudante útil é a palavra que ouvi internamente em algum momento. Em que momento é um colega de trabalho? Porque a quantidade conjunta de trabalho que pode acontecer, mesmo em uma economia crescente com assistência, eu acho, é muito, muito grande. Penso muito sobre isso.

Temos o Claude para o trabalho, que, agora é quase uma ferramenta para o pensamento. Você pode inserir documentos, sincronizar coisas e ter conversas, e as pessoas encontram valor.

Alguém construiu um pequeno reator de fissão ou algo assim que estava no X, sem usar o Claude, mas o Claude era sua ferramenta para o pensamento a ponto de agora ser uma entidade em que você realmente confia para executar trabalho autônomo dentro da empresa. Esse produto entregue, parece uma ideia fantasiosa. Na verdade, acho que a entrega desse produto é muito menos sexy do que as pessoas pensam.

É sobre gerenciamento de permissão, é sobre identidade, é sobre coordenação, é sobre a remediação de problemas. É tudo o que você realmente faz para treinar uma boa pessoa para ser boa em seu trabalho. Isso, para mim, mesmo dentro de uma disciplina específica — algumas tarefas de codificação, algumas tarefas específicas que envolvem a coalescência de informações ou pesquisa, fico muito animado com o potencial econômico para isso e o crescimento da economia.

Cada uma delas, ter a pessoa incremental em sua equipe, mesmo que não seja, neste caso, estou bem com não mais um produtivo, mas líquido, mas talvez haja algumas delas, e coordenadas. Fico muito animado com o potencial econômico para isso. E o crescimento da economia.

Empresa foi fundada por ex-integrantes da OpenAI (Imagem: T. Schneider/Shutterstock)

TV: Começamos falando sobre distribuição e se as coisas podem ficar tão adaptadas à distribuição que não funcionam em outros contextos. Olho em volta e vejo o Google distribuindo Gemini em seus telefones. Olho para a Apple distribuindo Apple Intelligence em seus telefones.

Eles falaram sobre talvez ter alguma intercambialidade de modelos entre eles, agora é OpenAI, mas talvez Gemini ou Claude estejam lá. Parece a grande distribuição. Eles vão simplesmente pegar e essas são as experiências que as pessoas terão, a menos que paguem dinheiro para outra pessoa.

Na história da computação, a coisa gratuita que vem com seu sistema operacional tende a ser muito bem-sucedida. Como você está pensando sobre esse problema? Como você está pensando em ampliar essa distribuição, não otimizar para as ideias de outras pessoas?

MK: Adoro essa pergunta. Me perguntam isso o tempo todo, até internamente: o que deveríamos estar empurrando mais para uma experiência no dispositivo? Concordo que será difícil substituir o provedor de modelo integrado.

Mesmo que nosso modelo possa ser melhor em caso de uso específico, há coisa de utilidade. Fico mais animado sobre podemos ser melhores em estar perto do seu trabalho? Produtos de trabalho têm um histórico muito melhor do que o tipo de coisa integrada.

Ouvi dizer que muitas pessoas fazem seu trabalho no Pages. Mas ainda há valor real para um Google Docs ou mesmo um Notion e outras pessoas que podem se aprofundar em uma abordagem específica sobre essa parte da produtividade. É por isso que nos inclino mais para ajudar as pessoas a fazer as coisas.

Parte disso será móvel, mas talvez como um companheiro e fornecendo e entregando valor que é quase independente da necessidade de ser exatamente integrado ao desktop. Como uma empresa independente tentando ser essa primeira chamada, essa Siri, eu ouvi o discurso de startups antes mesmo de entrar aqui.

“Nós vamos fazer isso. Nós vamos ser muito melhores, e o novo Botão de Ação significa que você pode trazê-lo para cima e então pressionar um botão.” Estou tipo, não. O padrão realmente importa lá. O Instagram nunca tentou substituir a câmera; nós apenas tentamos fazer algo realmente bom sobre o que você poderia fazer quando decidisse que queria fazer algo novo com aquela foto.

E então, claro, as pessoas tiraram fotos lá, mas no final, era como 85% biblioteca, 15% câmera. Há um valor real na coisa que requer apenas um clique.

Em todas as WWDCs que surgiam, antes do Instagram, adorava assistir a esses anúncios. Eu ficava tipo, “o que eles vão anunciar?” E então você chega ao ponto em que percebe que eles vão ser muito bons em algumas coisas. O Google vai ser ótimo em algumas coisas. A Apple vai ser ótima em algumas coisas.

Você tem que encontrar os lugares onde pode se diferenciar de uma forma multiplataforma, de uma forma profunda de experiência, de uma forma inovadora de como o trabalho é feito, ou estar disposto a fazer o tipo de trabalho que algumas empresas estão menos animadas para fazer porque talvez no começo elas não pareçam superescaláveis, como adaptar as coisas.

Parece que agora o foco está no trabalho. Você descreveu muitos produtos de trabalho nos quais está pensando, talvez não tanto em consumidores. Eu diria que o perigo na empresa é que é ruim se seu software empresarial estiver alucinando. De modo geral, parece arriscado.

TV: Parece que essas pessoas podem estar mais inclinadas a ver se você deixa alguns negócios descontrolados porque o software está alucinando. Isso é algo que você pode resolver? Muitas pessoas me disseram que os LLMs estão sempre alucinando, e estamos apenas controlando as alucinações, e eu deveria parar de perguntar às pessoas se elas podem parar de alucinar porque a pergunta não faz sentido. É assim que você está pensando sobre isso? Você pode controlar isso para que possa construir produtos empresariais confiáveis?

MK: Acho que temos uma chance muito boa aí. Os dois lugares em que isso surgiu mais recentemente foram, um, nossos LLMs atuais muitas vezes tentam fazer matemática. Às vezes eles realmente são, especialmente dada a arquitetura, impressionantemente bons em matemática. Mas nem sempre, especialmente quando se trata de coisas de ordem superior ou mesmo coisas como contar letras e palavras.

Acho que você pode eventualmente chegar lá. Um ajuste que fizemos recentemente é apenas ajudar o Claude, pelo menos no Claude AI, a reconhecer quando ele está mais nessa situação e explicar suas deficiências. É perfeito? Não, mas melhorou significativamente essa coisa em particular.

Isso veio diretamente de um cliente corporativo que disse: “Ei, eu estava tentando fazer uma análise sintática de CSV. Prefiro que você me dê o Python para analisar o CSV do que tentar fazer você mesmo porque não confio que você fará isso direito sozinho.”

Na interpretação do código de análise de dados, acho que é uma combinação de ter as ferramentas disponíveis e então realmente enfatizar os momentos em que pode não fazer sentido usá-las. LLMs são muito inteligentes. Acho que há muito valor em dar a ele ferramentas e ensiná-lo a usar ferramentas, que é muito do que a equipe de pesquisa foca.

Gosto de brincar com aplicativos de bate-papo, tento forçá-los. Forcei muito esse aqui tentando alucinar ou falar sobre algo que ele não estava familiarizado. Tenho que ir falar com os criadores, na verdade, mandá-los no X, porque eles fizeram ótimo trabalho. Se ele não estiver superconfiante de que essa informação está em sua janela de recuperação, ele simplesmente se recusará a responder. E ele não confabulará; ele não irá lá.

Acho que essa também é uma resposta, que é a combinação de inteligência do modelo mais dados, mais o prompt e a recuperação corretos para que você não queira que ele responda a menos que haja algo realmente fundamentado na janela de contexto.

Tudo isso ajuda tremendamente nessa frente de alucinação. Isso cura? Provavelmente não, mas diria que todos nós cometemos erros. Espero que sejam erros previsivelmente moldados para que você possa ficar tipo, “Oh, zona de perigo. Falando fora do nosso pedaço aí.” Até mesmo a ideia de ter algum destaque quase de sintaxe para tipo, “Isso é fundamentado no meu contexto. Isso é do meu conhecimento do modelo. Isso está fora de distribuição. Talvez haja algo aí.

TV: Você está construindo a infraestrutura do produto. Obviamente, você está pensando muito sobre os grandes produtos e como você pode construí-los. O que as pessoas devem procurar na Anthropic? Qual é o principal ponto de ênfase do produto?

MK: Do lado do Claude, estamos lançando o Claude for Enterprise. Este é nosso empurrão para ir mais fundo. Na superfície, é um monte de siglas nada empolgantes, como SSO e SCIM e gerenciamento de dados e logs de auditoria.

Mas a importância disso é que você começa a empurrar para casos de uso realmente profundos e estamos construindo integrações de dados que tornam isso útil também, então há todo esse componente.

Não falamos muito sobre o lado da API, embora eu pense nisso como um produto igualmente importante como qualquer outra coisa em que estamos trabalhando. Desse lado, o grande empurrão é como colocamos muitos dados nos modelos. Os modelos são, em última análise, inteligentes, mas acho que não são tão úteis sem bons dados vinculados ao caso de uso.

Como colocamos muitos dados lá e fazemos isso muito rápido? Lançamos o cache de prompt explícito na semana passada, que basicamente permite que você pegue um armazenamento de dados muito grande, coloque-o na janela de contexto e recupere-o dez vezes mais rápido do que antes.

Procure por esses tipos de maneiras em que os modelos podem ser aproximados dos dados realmente interessantes das pessoas. Novamente, isso sempre se relaciona com o Artifact — como você pode obter respostas úteis personalizadas no momento, com rapidez e baixo custo?

Penso muito sobre como um bom design de produto empurra os extremos em alguma direção. Este é o “muitos dados, mas também empurra a latência para o extremo e vê o que acontece quando você combina esses dois eixos”. E é isso que continuaremos empurrando pelo resto do ano.