Menu
o-sucesso-do-chatgpt-poderia-ter-vindo-mais-cedo,-diz-ex-pesquisador-de-ia-do-google

O sucesso do ChatGPT poderia ter vindo mais cedo, diz ex-pesquisador de IA do Google

Em 2017, oito pesquisadores de aprendizado de máquina do Google publicaram um artigo de pesquisa inovador chamado Atenção é tudo que você precisaque introduziu a arquitetura Transformer AI que sustenta quase todos os modelos atuais de IA generativa de alto perfil.

O Transformer tornou possível um componente-chave do boom moderno da IA, traduzindo (ou transformando, se preferir) pedaços de dados de entrada chamados “tokens” em outra forma desejada de saída usando uma rede neural. Variações dos modelos de linguagem de potência da arquitetura Transformer, como GPT-4o (e ChatGPT), modelos de síntese de áudio executando o NotebookLM do Google e o modo de fala avançado do OpenAI, modelos de síntese de vídeo, como Sora, e modelos de síntese de vídeo, como Midjourney.

No TED AI 2024, em outubro, um desses oito pesquisadores, Jakob Uszkoreit, conversou com a Ars Technica sobre o desenvolvimento de transformadores, o trabalho inicial do Google em grandes modelos de linguagem e seu novo empreendimento na computação biológica.

Na entrevista, Uszkoreit revelou que embora sua equipe no Google tivesse grandes esperanças no potencial da tecnologia, eles não previram seu papel crítico em produtos como o ChatGPT.

A Entrevista Ars: Jakob Uszkoreit

Técnica Ars: Qual foi a sua principal contribuição para o Atenção é tudo que você precisa papel?

Jakob Uszkoreit (JU): Está detalhado nas notas de rodapé, mas minha principal contribuição foi propor que seria possível substituir a recorrência [from Recurrent Neural Networks] nos modelos de transdução de sequência dominante no momento com o mecanismo de atenção, ou mais especificamente de autoatenção. E poderia ser mais eficiente e, consequentemente, também mais eficaz.

Ars: Você tinha alguma ideia do que aconteceria depois que seu grupo publicasse aquele artigo? Você previu a indústria que isso criaria e as ramificações?

JU: Em primeiro lugar, acho muito importante ter em mente que, quando fizemos isso, estávamos sobre ombros de gigantes. E realmente não se tratava apenas desse artigo. Foi uma longa série de trabalhos de alguns de nós e de muitos outros que levaram a isso. Então, ver isso como este artigo iniciando ou criando algo, acho que é uma visão que gostamos como humanos de uma perspectiva narrativa, mas que pode não ser uma representação tão precisa.

Minha equipe no Google já vinha promovendo modelos de atendimento há anos antes desse artigo. É um trabalho muito mais longo e com muito, muito mais, e esse é só o meu grupo. Muitos outros também estavam trabalhando nisso, mas tínhamos grandes esperanças de que isso impulsionaria as coisas do ponto de vista tecnológico. Achamos que isso desempenharia um papel na permissão real, ou pelo menos aparentemente, no acionamento de um interruptor quando se trata de facilitar produtos como o ChatGPT? Eu não acho. Quer dizer, para ser bem claro em termos de LLM e suas capacidades, ainda na época em que publicamos o artigo, vimos fenômenos bastante surpreendentes.

Não os divulgamos ao mundo em parte por causa do que talvez fosse uma noção de conservadorismo em torno dos produtos do Google na época. Mas também não tínhamos tanta certeza, mesmo com esses sinais, de que as próprias coisas constituíssem um produto tão atraente. Mas será que tínhamos grandes esperanças? Sim.

Ars: Como você sabia que existiam ótimos modelos de linguagem no Google, o que você achou quando o ChatGPT se tornou um sucesso de público? “Droga, eles conseguiram e nós não?”

JU: Havia essa ideia de que “isso poderia ter acontecido”. Acho que foi menos um “Oh, inferno, eles conseguiram primeiro” ou algo assim. Foi mais um “Uau, isso poderia ter acontecido antes”. Ainda fiquei surpreso com a rapidez com que as pessoas ficaram super criativas usando essas coisas? Sim, isso foi simplesmente incrível.

Jakob Uskoreit apresentando no TED AI 2024.

Jakob Uszkoreit apresentando no TED AI 2024. Crédito: Benj Edwards

Ars: Você não estava mais no Google naquele momento, certo?

JU: Já não era. E, de certa forma, você poderia dizer que o fato de o Google não ser o lugar para fazer isso influenciou minha saída. Não saí por causa do que não gostava no Google, mas por causa do que senti que precisava fazer em outro lugar, que é começar o Inceived.

Mas, na realidade, foi motivado por uma enorme oportunidade, não só, mas também por uma obrigação moral, num certo sentido, de fazer algo que pudesse ser feito melhor no exterior para conceber medicamentos melhores e ter um impacto muito direto na vida das pessoas.

Ars: O curioso do ChatGPT é que anteriormente ele usava GPT-3. Então, quando o ChatGPT foi lançado, não foi grande coisa para algumas pessoas que estavam familiarizadas com a tecnologia.

JU: Sim, exatamente. Se você já usou essas coisas antes, poderá ver a progressão e extrapolá-la. Quando a OpenAI desenvolveu os primeiros GPTs com Alec Radford e essas pessoas, conversamos sobre essas coisas, embora não estivéssemos nas mesmas empresas. E tenho certeza de que houve esse tipo de entusiasmo, quão bem recebido o produto ChatGPT seria por quantas pessoas e com que rapidez. Acho que isso ainda é algo que ninguém realmente previu.

Ars: Eu também não quando o cobri. Parecia: “Oh, este é um truque do chatbot GPT-3 que alimenta seu contexto em um loop”. E não achei que fosse um momento decisivo na época, mas foi fascinante.

JU: Existem diferentes tipos de avanços. Não foi um avanço tecnológico. Foi um avanço perceber que, nesse nível de capacidade, a tecnologia tinha grande utilidade.

Isso, e perceber que, como sempre, você deve considerar como seus usuários realmente usam a ferramenta que você cria, e você pode não prever o quão criativos eles seriam em sua capacidade de usá-la, quão amplos serão esses casos de uso. são, etc

Isso é algo que às vezes você só aprende publicando algo, e por isso também é tão importante continuar feliz com os experimentos e feliz com os fracassos. Porque na maioria das vezes não vai funcionar. Mas às vezes funciona, e muito, muito raramente funciona como [ChatGPT did].

Ars: Você tem que correr um risco. E o Google não quis correr riscos?

JU: Não naquele momento. Mas se você pensar bem, se olhar para trás, é realmente muito interessante. O Google Translate, no qual trabalhei por muitos anos, era na verdade semelhante. Quando lançamos o Google Translate, as primeiras versões, era, na melhor das hipóteses, uma brincadeira de festa. E a partir daí levamos para algo que foi uma ferramenta verdadeiramente útil em um período não tão longo. Ao longo desses anos, as coisas que ele gerou às vezes eram embaraçosamente ruins, mas o Google fez isso mesmo assim porque era a coisa certa a tentar. Mas isso foi por volta de 2008, 2009, 2010.

Ars: Lembra do Peixe Babel do AltaVista?

JU: Ah, sim, claro.

Ars: Quando isso saiu, fiquei impressionado. Meu irmão e eu costumávamos fazer uma coisa de traduzir textos de um idioma para outro por diversão, porque isso distorceria o texto.

JU: Ficaria cada vez pior. Sim.

Programação biológica de computadores.

Após sua passagem pelo Google, Uszkoreit foi cofundador da Inceptive para aplicar o aprendizado profundo à bioquímica. A empresa está desenvolvendo o que chama de “software biológico”, onde compiladores de IA traduzem comportamentos específicos em sequências de RNA que podem executar funções desejadas quando introduzidas em sistemas biológicos.

Ars: O que você está fazendo esses dias?

JU: Em 2021, cofundamos a Inceptive para usar aprendizagem profunda e experimentação bioquímica de alto rendimento para projetar medicamentos melhores que possam realmente ser programados. Achamos que este é apenas um passo na direção de algo que chamamos de software biológico.

O software biológico é um pouco como o software de computador, pois você tem algumas especificações do comportamento desejado e, em seguida, tem um compilador que o traduz em um software que é executado em um computador que exibe as funções ou funcionalidades que você especifica. .

Uma parte de um programa biológico é especificada e compilada, mas não com um compilador projetado, porque a vida não foi projetada da mesma forma que os computadores. Mas com um compilador de IA aprendido, você o traduz ou compila em moléculas que, quando inseridas em sistemas biológicos, organismos, nossas células exibem as funções que você programou.

Um farmacêutico segura um frasco contendo a vacina bivalente contra COVID-19 da Moderna. Crédito: Getty | Mel Melcon

Ars: Isso é parecido com o funcionamento das vacinas de mRNA COVID?

JU: Um exemplo muito, muito simples disso são as vacinas de mRNA COVID, onde o programa diz: “Crie este antígeno viral modificado”, e então nossas células produzem essa proteína. Mas poderiam ser imaginadas moléculas que exibissem comportamentos muito mais complexos. E se você quiser ter uma ideia de quão complexos esses comportamentos podem ser, lembre-se de que os vírus RNA são apenas isso. Eles são simplesmente uma molécula de RNA que, quando entra em um organismo, exibe um comportamento incrivelmente complexo, como distribuir-se por um organismo, distribuir-se por todo o mundo, fazer certas coisas apenas em um subconjunto de suas células por um determinado período de tempo, etc. . e assim por diante.

E então você pode imaginar que se conseguíssemos projetar moléculas com uma pequena fração dessa funcionalidade, é claro, com o objetivo não de deixar as pessoas doentes, mas de torná-las saudáveis, isso realmente transformaria a medicina.

Ars: Como você não cria acidentalmente uma sequência monstruosa de RNA que estraga tudo?

JU: O surpreendente é que a medicina existe há muito tempo, em certo sentido, fora da ciência. Não foi realmente compreendido e muitas vezes ainda não entendemos realmente os seus reais mecanismos de ação.

Como resultado, a humanidade teve de desenvolver todas estas salvaguardas e ensaios clínicos. E mesmo antes de entrar na clínica, todas estas salvaguardas empíricas impedem-nos de fazer acidentalmente [something dangerous]. Esses sistemas existem desde que existe a medicina moderna. É por isso que vamos continuar a utilizar estes sistemas e, claro, com toda a diligência necessária. Começaremos com sistemas muito pequenos, células únicas em experiências futuras, e seguiremos os mesmos protocolos estabelecidos que a medicina sempre teve de seguir para garantir que estas moléculas são seguras.

Ars: Obrigado por dedicar seu tempo para fazer isso.

JU: Não, obrigado.

Foto de Benj Edwards

Benj Edwards é repórter sênior de IA da Ars Technica e fundador do site dedicado à IA em 2022. Ele também é um historiador de tecnologia amplamente citado. Nas horas vagas, ele escreve e grava músicas, coleciona computadores antigos e curte a natureza. Ele mora em Raleigh, Carolina do Norte.

Written By

Jason holds an MBA in Finance and specializes in personal finance and financial planning. With over 10 years of experience as a consultant in the field, he excels at making complex financial topics understandable, helping readers make informed decisions about investments and household budgets.