Stacking de IAs, experimentos em games e IA reflexiva – Hipsters: Fora de Controle #02

Stacking de IAs, experimentos em games e IA reflexiva – Hipsters: Fora de Controle #02
Paulo Silveira
Paulo Silveira

Compartilhe

Introdução

Se você está procurando por discussões aprofundadas sobre alguns dos tópicos mais quentes em Inteligência Artificial e suas aplicações, então precisa ouvir o mais recente episódio do podcast Hipsters: Fora de Controle. Neste episódio, foram explorados três temas fascinantes: stacking de IAs, experimentos em games e IA reflexiva.

Juntos, Paulo Silveira e a equipe de especialistas composta por Roberta Arcoverde, diretora de engenharia no Stack Overflow; Mário Souto, Desenvolvedor no Nubank; e Sérgio Lopes, CTO da Alura, mergulham em cada um desses tópicos, compartilhando suas experiências e conhecimentos.

Então, se você quer mergulhar nesse novo universo, não perca tempo e confira a transcrição completa abaixo.

Banner da Escola de Inteligência Artificial (IA): Matricula-se na escola de Inteligência Artificial (IA). Junte-se a uma comunidade de mais de 500 mil estudantes. Na Alura você tem acesso a todos os cursos em uma única assinatura; tem novos lançamentos a cada semana; desafios práticos. Clique e saiba mais!

Stacking de IAs, experimentos em games e IA reflexiva — Episódio 02

Paulo Silveira

Olá! Você está ouvindo o Hipsters Fora de Controle, o podcast spin-off que se concentra em uma única tendência: inteligência artificial e suas aplicações.

Neste segundo episódio, conversaremos sobre inteligência artificial, onde ela está sendo aplicada e como podemos vê-la afetando o mercado de trabalho. Este formato é muito interessante.

Na primeira parte, falaremos sobre algumas ferramentas e links úteis para os participantes deste episódio.

Na segunda parte, teremos um debate mais aberto sobre o futuro da tecnologia e da inteligência artificial, o que nos assusta e o que nos anima.

Então, vamos começar o podcast e ver quem teremos como convidado no episódio de hoje.

Hoje, aqui no segundo episódio do Hipsters Fora de Controle, estou acompanhado pela Roberta Arcoverde, Mário Deves e Sérgio Lopes. Nesta parte, gostaria de saber qual site ou ferramenta vocês estão utilizando e acharam muito bacana.

Eu começarei falando sobre uma ferramenta antiquíssima que foi utilizada para gerar a transcrição do primeiro episódio e que passou por diversos ajustes desde então. Gostaria de parabenizar o Marcos e o Gabriel, que é a Whisper. Embora tenha pouco a ver com as modinhas atuais, como Mid Journey ou GPT, a Whisper tem feito transcrições incríveis em inglês e português para áudio e vídeo.

Hoje em dia, mesmo quando há erros na transcrição, como quando dizemos "Hipsters fora do controle" e a transcrição sai com um "R" em vez de um "H", ou quando dizemos "Dev Soltinho", e há piadas, diminutivos e misturas de inglês e português, o Gabriel, que cuida do conteúdo da Alura Aberto, dos artigos, do SEO, ele pegou e jogou no chatGPT e falou "por favor, faz os ajustes aqui nesse texto pra mim, porque tem algumas coisas aqui, por exemplo, Hipsters que tá escrito com R é com H, 'Deve soltinho' é assim, então conclua pra mim as outras coisas que você acha que são parecidas e faz os ajustes".

Sérgio Lopes

Faça um tipo de dicionário de termos internos e peça para que a pessoa corrija isso.

Paulo Silveira

Isso é melhor do que fazer o dicionário completo. Dê cerca de quatro exemplos e o GPT entenderá. Ele ajustará o nome dos participantes, economizando tempo.

O Whisper e o GPT exemplificam o fenômeno de empilhar ferramentas. Adicione várias ferramentas para executar o que deseja.

Na transcrição do episódio em alura.com.br/artigos, o Sérgio sugeriu colocar um resumo no topo. O GPT pode ajudar com isso.

No Fora de Controle, trazemos ferramentas úteis para sua empresa e seu dia a dia. Existem milhares de opções disponíveis.

E vocês, o que viram e estão usando nesta semana?

Roberta Arcoverde

Não estou usando muita coisa no momento. No meu trabalho, eu utilizo ferramentas de integração com IDE, como o Copilot. Algumas ferramentas Open Source também estão sendo desenvolvidas com modelos Open Source, mas ainda são muito limitadas para as linguagens que eu uso.

No entanto, tenho visto uma tendência interessante de sites que possuem grande quantidade de conteúdo utilizado para treinar modelos de linguagem, começando a cobrar pelo acesso e scraping desse conteúdo que antes era gratuito e acessível para qualquer pessoa. O Reddit, por exemplo, recentemente anunciou que passaria a cobrar pelo acesso aos seus dados para treinamento de LLMs. E no dia 21 de abril, o Stack Overflow também anunciou que pretende iniciar iniciativas para cobrar pelo uso dos dados do site, que são usados para treinar modelos de linguagem.

Há uma discussão em andamento sobre o licenciamento desses dados, pois tanto o Reddit quanto o Stack Overflow são Creative Commons. A atribuição do conteúdo é para quem gerou o conteúdo, e não para as empresas que os disponibilizam. No entanto, o acesso via API é de propriedade das empresas, e elas podem escolher quem pode ter acesso à API e se desejam cobrar pelo acesso. Acredito que mais empresas que possuem grande quantidade de conteúdo e o utilizam para treinar modelos de linguagem começarão a explorar essa oportunidade de monetizar seu conteúdo, enquanto outras podem limitar o acesso para garantir que o conteúdo continue a ser gerado e atualizado.

É importante que esses modelos de linguagem sejam atualizados com frequência, especialmente no caso de conteúdo de programação, que requer atualizações constantes.

Outra coisa que chamou minha atenção esta semana, como sou uma gamer, é o uso de modelos de linguagem em jogos. Não sei se vocês viram aquele Smallville, que é um exemplo de joguinho onde todos os jogadores são, na verdade, NPCs, ou seja, não tem jogador, só tem NPC. Era um vídeo protótipo mostrando o que acontece quando colocamos um monte de IA para jogar dentro de uma vila, interagindo uns com os outros e que tipo de conversas começam a ser produzidas organicamente. Não é muito impressionante. O que eu achei mais impressionante e legal é quando eles passaram a misturar jogadores com NPCs.

Então, vimos uma demonstração de um jogo baseado no Smallville, muito interessante, que tinha apenas dois jogadores humanos, e o resto eram todos NPCs. Eles começavam a conversar com os NPCs, errando palavras e fazendo perguntas, e recebendo respostas, como "o que você está fazendo aí?" e "estou aqui na frente da minha casa, vou fazer um chá, quer entrar para tomar?". É muito interessante o potencial que isso tem para tornar nossas experiências com jogos muito mais imersivas. É uma coisa bobinha quando paramos para pensar no potencial apocalíptico de IA, mas que eu achei muito bacana como jogadora. Acredito que pode trazer, de fato, uma melhoria nessas interações humano-máquina.

Lembro-me que o Mário compartilhou conosco uma vez alguém que usou IA para gerar um cenário inteiro de RPG para ser um BM de RPG. Fico muito animada como gamer para ver o que vem por aí de experiência imersiva e aprimoramento dessas interações humano-máquina.

Sérgio Lopes

Enquanto o mundo acaba a gente se diverte pelo menos. É exatamente o tempo para jogar e para se divertir para depois começar a chorar as pitangas.

Mário Souto

É importante dar uma risada de vez em quando, não é mesmo? E falando em entretenimento, não sei se vocês viram, mas também teve um álbum do Oasis gerado por IA, com a aprovação do integrante da banda. Eu achei bem bizarro, mas ao mesmo tempo fascinante. É incrível que se possa treinar um modelo com todas as músicas de um artista e gerar um álbum inteiro a partir disso.

No vídeo, é possível ver os instrumentos sendo tocados e as letras no estilo da banda. É interessante pensar no que virá a seguir na indústria da música com essa tecnologia.

Sérgio Lopes

Eu ouvi gente falando que a IA já acabou com os ilustradores, depois o próximo seria a música e, depois da música, viriam os vídeos também. Vou até falar sobre o vídeo da semana, que eu vou deixar o link. É daquele pessoal da Runway, que faz geração de vídeos, e eles lançaram o modelo G2 deles. É a primeira vez que você tem text to video total.

Eles têm um curta-metragem de três minutos e meio que foi gerado 100% por IA. O roteiro, a seleção de atores, a localização, as interações dos atores, a movimentação da câmera, as luzes e todo o CGI foram gerados por IA. É uma coisa muito doida. Vou deixar o link abaixo para quem quiser ver o vídeo.

Paulo Silveira

Quanto? 3 minutos e meio?

Sérgio Lopes

3 minutos e meio. O cara escreveu o script com o GPT, o GPT foi dando as instruções pro modelo de vídeo e o negócio de louco, aqui é podcast áudio, não dá pra gente mostrar, né? Mas vou deixar o link, vocês vão ver. E os atores, e o plot, e a trilha sonora. E aí ele gera a voz com aquele... é sinthesia, né? Que chama, que gera áudio.

Mário Souto

Peraí, tem ator de entire plot? E é aceitável?

Sérgio Lopes

Não, tem uma história muito engajante, Mario. Uma, assim, muito divertida. E o vídeo sobre...

Mário Souto

Deixa a Netflix ver isso aí.

Sérgio Lopes

E o vídeo sobre, assim, uma Iá que... Um cara que dorme e descobre que ele é uma Iá. E aí a Iá vai dominar o mundo, sei lá, que é tipo um meta... É uma ficção científica, não ficção, não sei.

Paulo Silveira

Ô, Mário, como assim deixa a Netflix ver isso aí? Já tem uns quatro departamentos lá só vendo isso aí.

Sérgio Lopes

E é lógico, ainda... Vocês lembram quando saiu a primeira versão do Dolly pra gerar imagem, que o olho do cara ficava pra baixo?

Mário Souto

Sim, sim, sim.

Sérgio Lopes

Ainda é isso, tá? O olho do cara ficar pra baixo no vídeo. Não tão ruim quanto o primeiro Dolly, tá? Mas, cara, vocês lembram? A gente demorou quatro meses entre o primeiro Dolly saiu o Midjourney que faz coisas impressionantes. Então a galera tá olhando pra isso, tá no... qual que é a próxima versão?

Mário Souto

E outra, em um mês de Midjourney, ele já corrigiu os dedos e os olhos e bastante coisa. E de ferramenta, uma que eu usei, olha só, agora eu num final de semana fui assinar o contrato pra banda que vai tocar no meu casamento e aí eu joguei o contrato naquele chat com o NPDF lá. E pô, eu fiquei surpreso, tipo, realmente deu pra perguntar se o contrato tinha uma causa estranha e tudo mais e depois eu fui validar e realmente tava bonitinho e assinei depois. Olha só. No meu caso essa semana foi mais simples, né? Na outra semana eu vim de gerar vídeo com áudio, não sei o quê. Essa semana eu só li um contrato.

Paulo Silveira

É, tem gente já usando para fazer contrato de compra e venda de apartamento, sabe? E esse é um trabalho que tem muitos advogados que usam e fazem muito bem.

É óbvio que se você gerar pelo GPT, vai correr um risco de cometer um erro, né? Sim, sim. É, tanto que eu li depois, tá, gente? Eu, Mário, assumo todos os riscos de não ser especialista em direito e ter interpretado algo errado também.

Mas há uma tendência forte, algo está acontecendo. Negar que algo está acontecendo é como não ver o asteroide chegando. Exatamente. Não está olhando para cima.

Sérgio Lopes

Deixa eu contar uma história que aconteceu comigo essa semana. É uma história boba, porque no final eu usei o Chat GPT, mas acho que é interessante para falar no podcast, porque às vezes nós falamos apenas das ferramentas mais avançadas e complicadas.

Essa semana eu queria brincar um pouco com essas coisas e decidi pegar um histórico de um ano de mensagens do Slack da empresa e processá-las de alguma forma, certo? Eu nunca tinha feito isso antes, então encontrei um botão de exportação no Slack, cliquei nele e ele me deu um arquivo cheio de JSON. Eu nunca tinha visto o JSON do Slack antes, mas é um modelo bem complexo: se você mandar uma mensagem simples como "bom dia", ela tem 40 linhas de JSON. É bem bizarro.

Eu estava com preguiça de lidar com isso, então abri a aba do Chat GPT e comecei a pedir ajuda. Eu queria um script para processar aquele arquivo e me dar apenas as perguntas e respostas, porque minha ideia era usar isso para treinar um chatbot baseado no histórico dessas mensagens. Mas eu precisava primeiro processar o texto.

Eu estou contando isso como um contraponto, porque o Roberto já havia aceitado o Copilot antes, para gerar código, etc. Mas eu consegui fazer em cerca de 40 minutos um script em Python, uma linguagem que eu não programo há uns 15 anos. Ela é familiar, mas eu não lembrava de API, pois eu comecei a programar em Java depois de usar Python.

Então, eu comecei a falar para o Chat GPT o que eu queria. Eu não escrevi uma única linha de código, ele me deu tudo o que eu queria. Eu dizia coisas como "eu quero pegar a mensagem de uma thread e as respostas e colocar nesse formato de arquivo txt" e ele ia me dando o código. Foi um vai e vem de umas 10 ou 12 mensagens com o Chat GPT, porque às vezes eu copiava e colava o código e ele dava erro. Eu copiava e colava a mensagem de erro e ele ia me ajudando a consertar o código, porque eu também não sabia ler as exceções confusas do Python.

Nós fomos nesse ritmo e, obviamente, funcionou. Eu fiz questão de escrever zero linhas de código, mesmo quando eu queria adicionar um "if" a mais, por exemplo. Eu sabia que poderia esquecer de tratar um caso específico e, nesse caso, eu voltava para o Chat GPT e dizia: "olha, eu esqueci de tratar esse caso aqui, você pode adicionar esse if para mim?" Ele adicionava o "if" e continuava ajudando. Teve um caso de exceção em que eu fiquei confuso e ele me explicou o que estava faltando, adicionou o "if" e continuou o processo. No final, eu tinha o script pronto, tudo graças ao Chat GPT.

Nada de genial, não é? Copilot, IDE, sei lá o quê. Fez ali o que eu precisava, é óbvio, né? Anedótico, porque é pequeno. De alguma maneira, entendi que o formato do JSON do Slack já estava no treino do chat GPT, porque ele já saía me explicando os campos, sabendo, tá?

Provavelmente, aquele formato já existia em 2021 e de alguma maneira eu já do IPT já sabia. Mas me fez pensar muito sobre... assim, juro, em meia hora eu resolvi um negócio, óbvio, né? Sou um programador experiente, então sabia o que queria, sabia explicar para a máquina o que queria, né?

Então, também fazia parte, olha, eu quero que você olhe para a mensagem desse jeito e para cada mensagem faça isso. E eles transformam isso num algoritmo, óbvio, né? Se só jogasse lá e falasse "Ó, tá aqui, faz!", óbvio que é aquilo que o pessoal fala, né? Já de GPT, muita gente só coloca, não só em programação, mas em tudo, né?

Dá uma ordem ali, "Ah, eu queria alguma coisa." Aí o GPT alucina. Precisa ter alguma noção do que se está fazendo ainda, né?

Paulo Silveira

É um assistente, é bem papel de assistente.

Mário Souto

É isso. É um assistente.

Sérgio Lopes

É, um assistente. Eu me senti num pair programming, onde eu era o par, e não o piloto da máquina, entende? Eu era aquele cara que tava olhando o código e falando "ó, viu, mas trata isso aqui também, ó, vamos fazer aquele leap pra aquele negócio?"

Paulo Silveira

Você é o par que tem mais senioridade em código em si, em computação em si, mas menos na tecnologia específica e no domínio que o piloto.

Sérgio Lopes

É, menos em digitação. E é um piloto que digita instantaneamente, então eu tinha a ideia... E gente, se eu parasse para escrever o if, eu ia gastar mais tempo do que falando para o chat GPT escrever o if, porque eu só falava "trata esse caso" e ele já cuspia três linhas. Se eu passasse para o digital demoreria mais, entende? O código Python para aquilo.

Paulo Silveira

Eu acho muito impressionante. O Sérgio para fazer... A gente vai lançar muita coisa na Alura, né? Bem, isso aí ainda é segredo, mas enfim. Muita coisa para a gente treinar os GPTs. O time usa o GPT para treinar o GPT, né? Para codificar o treino do GPT. É fantástico, certo? É fantástico. É um salto. A gente tá dando um salto de repente.

Mário Souto

E Paulo, isso abre margem para uma parada que eu estava pensando muito forte esses dias, que é você começar a ter uma programação efêmera, né? Hoje, todo o código é muito determinístico. Então, você escreve o código, espera que ele aconteça, e enquanto você rodar aquele código da mesma maneira, ele continuará sendo o mesmo.

Só que se a gente começar a pensar diferente, tipo... Isso até seria com as boas práticas, né? Cada vez mais, você tem arquivos muito específicos, que possuem a mini documentação dele em cima, e essa documentação descreve o que o arquivo deve fazer. Só que, quando você olha no contexto do projeto, todos os textos estão correlacionados entre si. Tanto faz o código estar rodando, desde que ele respeite todas as regras que vocês fizeram nos comentários e saiba que os outros arquivos ainda existem, né? Então...

Sérgio Lopes

Ô Mário, eu não sei se você viu isso, então você vai gostar. O cara fez isso daí com decorators no TypeScript, com aquelas anotações. Então, você escreve a assinatura do método, adiciona um decorator em cima e descreve o que o método faz. E acabou.

Ele não gera o código, saca? Você não vê o código. É na hora que você chama a função, a ferramenta lê o decorator, - e faz... - executa aquela ação e devolve o retorno. Você entende?

É diferente do que a gente tá falando aqui do Copilot e tal, de gerar. Gerar é isso que você falou mesmo.

Mário Souto

É você sair do determinístico e ir para o efêmero, tanto faz o que está acontecendo.

Sérgio Lopes

E aí de repente você vai chamar várias vezes e vai dar resultados diferentes, né? Então óbvio, você não vai fazer isso para fazer uma conta de um mais um. Sim. Mas imagina coisas onde você tem uma margem de variabilidade aceitável, né? Ah, eu quero fazer uma função que traduz um texto de uma língua para outra. Não precisa dar o mesmo resultado todas as vezes, né? Mas eu escrevo um translate de para, anoto em cima, , traduz, dê, para. Tá bom. Mário Souto

Ou até, por exemplo, vamos supor que você tenha feito um "acquihire", né? Uma empresa comprou outra porque queria contratar funcionários ou queria um determinado produto da empresa ali, né?

Se a sua empresa já tem toda uma stack estabelecida em alguma coisa, você pode agilizar muito o processo de conversão da Codebase, saca?

Tipo, você não vai realmente botar e esperar que está tudo certo, mas você pode separar uma equipe para trabalhar dedicada no tipo: "gente, vamos tentar converter isso aqui para o mínimo de estrutura que a gente já tem".

E aí você migra para a estrutura que já existe e segue a vida assim, sabe?

Roberta Arcoverde

E nesse ponto do caminho contrário, né? Ao invés de ir da descrição do que você quer que aconteça para o código, o caminho de "pega o código e me descreva o que ele faz" também está sendo usado. Eu vi isso sendo usado na prática essa semana no meu time, sabe?

A gente estava mexendo com um monte de scripts antigos em bash e tal, e tinha umas linhas particularmente caóticas.

Mário Souto

Aquele script para resolver um problema, né?

Roberta Arcoverde

Isso, isso. Eu olhava e entendia muito pouco. Então, eu olhava aquela linha com sinais maiores, menores, mais e menos, e havia umas dez flags diferentes, etc. A gente sabia que queria modificar aquele script. Assim como uma expressão regular, por exemplo, às vezes a gente vê umas expressões regulares que são super estranhas.

É possível copiar e colar ali numa ferramenta, pode ser inclusive o chatGPT. A gente tem usado muito também no meu time, eu no programa e meu time tem usado muito o find na PH e ND ponto com, que é um site também, um chat para desenvolvedores, então tem esse foco com a vantagem de citar as fontes de onde foram tiradas as informações. Você cola a expressão regular, cola o script e fala "me descreve só o que ele faz". É impressionante a acurácia e a rapidez em que a ferramenta diz: "esse script faz isso aqui, isso aqui, dá o exemplo, por exemplo. Dado esse input, ele produziria esse output." Isso te deixa com muito mais segurança para fazer modificações e também acelera muito o aprendizado.

Imagina se eu tivesse que googlar cada flag daquela separadamente, porque não posso chegar no Google e colar o script. Eu precisaria perguntar "Dado um script bash, o que significa flag ra, o que significa flag tal?". Assim, não. Com essa ferramenta, é possível colar exatamente o que você quer e obter uma explicação em linguagem natural, de forma concisa, sem precisar ler um texto enorme. E ainda é possível tirar dúvidas se ainda houver alguma.

Paulo Silveira

Bem, na segunda parte, eu gostaria de falar mais sobre o que está acontecendo no mundo da IA. Não é necessário que sejam sobre as ferramentas que vocês estão usando ou que gostaram muito, mas sim sobre o que está acontecendo no mundo da IA que vocês acharam assustador.

A Roberta compartilhou alguns links sobre isso, e o Sérgio já havia me falado sobre o pessoal da Stability AI, que acredito ser da Stability Fusion, que lançaram os modelos de linguagem gigantes de código aberto. Isso muda muito o jogo? As pessoas podem usá-los em seus próprios computadores ou isso é impossível? É necessário ter uma infraestrutura em nuvem do tamanho de um estado americano? Por que isso é relevante?

Roberta Arcoverde

A promessa é essa. A promessa é que você pode usar nos seus próprios devices e para arquivos pessoais, enfim, que não precisa mais ter esse cloud gigante para usar. Ele faz tanto.

Sérgio Lopes

Anunciaram tamanhos, né? Eles anunciaram tamanhos diferentes do modelo, então acho que tem alguns que são menores com o objetivo de rodar local e alguns inclusive do tamanho do comparável a um GPT-3 e tal, que aí precisaria talvez de uma máquina dedicada.

Roberta Arcoverde

É uma suite de modelos na verdade, né? Não é só um modelo, é uma suite de modelos todos open source.

Mário Souto

Mas é legal ver que às vezes você nem precisa ter uma máquina muito potente. Se você utilizar alguma alternativa, como o GitHub Codespaces, por exemplo, é possível utilizar máquinas externas para executar esses processos.

Inclusive, o CEO do GitHub, quando saiu o Stable Diffusion, fez um tweet mostrando que ele utilizou o Codespaces para rodar o Stable Diffusion. Então, no caso, você teria que ter o dinheiro para pagar a máquina rodando ali e o tempo dela, mas não necessariamente precisa ser o seu próprio hardware.

Você pode rodar um hardware on-demand para executar esses processos e rodar as coisas para você, tudo em um repositório bonitinho do GitHub.

Sérgio Lopes

É, desse anúncio, duas coisas linkadas, né? Uma que me parece assim, esse anúncio da Stability é tipo o OpenAI anunciando o GPT-3 um ano atrás, tá? Eles ainda não... ainda é cedo, eles não... eles anunciaram o pré-treino dessas coisas, então ainda não passou pela outra fase de... que tem os inputs ali pra...

Mário Souto

Refinamento.

Sérgio Lopes

Refinamento, isso. Ainda não produtificaram, ainda tem etapas ainda aí, tá? Pra realmente... "Ah, vou plugar aqui no meu chatbot".

E o segundo ponto é que, em paralelo a isso, na semana passada a Amazon anunciou o Amazon Bedrock que é o serviço lá da AWS para você trabalhar nas nuvens da Amazon com modelos diversos de empresas com o objetivo de trabalhar com dados privados.

Então a ideia é que você consiga fazer o "fine tuning" ou de alguma maneira com seus dados dentro de uma nuvem da Amazon e aí a estabilidade seria um dos "providers" lá.

O e-shop também tá lá, tem outros, aquele da, aquele open source da Diamo que também é baseado lá no negócio do Facebook, então talvez tenha algo aí também de começar a ter esses produtos privados, né, que é um caminho que por menos até o momento a OpenAI não ofereceu, né.

A OpenAI foi realmente pro consumer ali, aquela API publicona de um mesmo serviço pra todo mundo, as outras estão tentando, estão enxergando que as empresas e organizações que querem coisas mais privadas, específicas, estão tentando ir para aí.

Refinamento, isso. Ainda não foi produzido, ainda há etapas a serem cumpridas, tá? Para realmente... "Ah, vou plugar aqui no meu chatbot".

E o segundo ponto é que, em paralelo a isso, na semana passada a Amazon anunciou o Amazon Bedrock, que é o serviço da AWS para você trabalhar nas nuvens da Amazon com modelos diversos de empresas com o objetivo de trabalhar com dados privados. Então, a ideia é que você consiga fazer o "fine tuning" ou de alguma maneira com seus dados dentro de uma nuvem da Amazon, e a estabilidade seria um dos "providers" lá.

O e-shop também está lá, tem outros, aquele open source da Diamo que também é baseado no negócio do Facebook, então talvez tenha algo aí também de começar a ter esses produtos privados, né, que é um caminho que, por menos até o momento, a OpenAI não ofereceu.

A OpenAI foi realmente para o consumidor, aquela API pública de um mesmo serviço para todo mundo. As outras estão tentando, estão enxergando que as empresas e organizações que querem coisas mais privadas e específicas estão tentando ir para lá.

Paulo Silveira

Esta semana eu assisti ao podcast de Lex Friedman com Max Tegmark, que também é cientista da computação no MIT. Ambos são, certo? Max é um sueco que começou na cosmologia e física, que é a área dele, mas depois passou para a computação. Eles tiveram uma conversa muito interessante.

Max é líder do Future of Life e aborda muitas questões importantes atualmente. Durante a conversa, ele mencionou um dos avanços mais interessantes na área da neurociência artificial: eles conseguiram detectar e pegar um LLM que já estava presente com todos os balanços, todos os neurônios com seus pesos já bem demarcados e mudaram onde a Torre Eiffel fica. Eles conseguiram perceber e mudar os valores específicos dos neurônios para mudar a localização da Torre Eiffel para Roma.

A partir de então, quando as pessoas perguntavam ao bot o que podiam ver da Torre Eiffel, ele respondia: "Dá para ver o Coliseu, dá para ver essas coisas, etc." E se perguntassem como chegar na Torre Eiffel, ele responderia: "A partir de Berlim, você pega o trem para a Itália..." Com mudanças simples, que foram assustadoramente simples, eles conseguiram mudar esse tipo de informação. Isso significa que não é um conjunto de neurônios distantes que mantêm essa informação de forma dispersa em mais de um lugar, pois vários caminhos podem levar a ela, mas algo mais simples do que isso. Isso me surpreendeu muito e também surpreendeu Max.

Obviamente, isso depende muito dos algoritmos, modelos e como foram treinados, bem como a quantidade de informações disponíveis sobre Paris e a Torre Eiffel, e pode variar muito. Mas achei bastante interessante. Neste mesmo podcast, eles discutiram a ética do desenvolvimento e falaram sobre a necessidade de pausar, regulamentar e controlar os avanços. O MIT, que é o berço do Open Source, está agora pedindo para não liberar o código-fonte, embora tenham acabado de liberar um monte de coisas.

E ele também discute bastante o Lex Friedman, um famoso podcaster de ciência da computação. Percebo que ele insiste em questionar se o GPT é consciente, perguntando constantemente "Você acha que o GPT é consciente?". Marcos responde que não, mas tenta relacionar inteligência com consciência, argumentando que é difícil existir uma super inteligência não consciente. Ele coloca tudo no mesmo lugar e achei interessante sua abordagem.

Eles citam termos bastante científicos, mas é algo exploratório.

Foi muito interessante para mim, ele faz grandes comparações e está claramente impressionado com tudo que está acontecendo. Grandes acadêmicos de física e computação escrevem papers com citações mil e estão deslumbrados com o que está acontecendo simultaneamente, apostando que a qualquer momento o salto pode ser ainda maior.

Não é necessariamente fazendo modelos maiores, como recentemente apontado por Sam Altman, que vamos dar os próximos passos grandes, mas talvez pequenas sacadas ou misturas ou algo recorrente que tenha um loop.

Ele fala muito sobre o loop, não apenas o humano no loop, mas também sobre o "human de loop" e a importância do constante feedback, em vez do fast forward que tem acontecido.

Mário Souto

Os baby, a baby AGI da vida e coisas do gênero.

Paulo Silveira

Ele coloca como baby AGI, ele coloca como um... ele tenta colocar bastante como ele usa o termo de baby AGI ou consciência baby em vários momentos que isso pode acontecer. É bem impressionante.

Sérgio Lopes

Esse caminho o pessoal fala de introspecção e A reflexiva, né? Acho que são dois termos que me parecem bastante, - porque foi o Google aí que...

Paulo Silveira

— Isso, reflexivo.

Então, ele afirma que as redes neurais recorrentes de alguma forma devem estar presentes, não apenas os modelos de LLMs.

Para ter consciência, é necessário um loop, é preciso parar e pensar no que se está pensando.

Acredito que o que o auto-GPT ou vários GPTs se comunicando ao mesmo tempo têm feito é um pouco disso, como nós pensamos.

Às vezes, pensamos em algo bobo e depois refletimos: "Não, espera, não pode ser isso, deve ser outra coisa." Essas reflexões também tentam emular de uma maneira óbvia como pensamos.

Mário Souto

Então é isso, né Paulo? A definição de consciência e as palestras semanais que a gente tem na nossa cabeça todo dia.

Paulo Silveira

A gente para para refletir. A gente para para refletir. Acho bem interessante.

Sérgio Lopes

O meu link, que não tem relação com filosofia, é o TED Talk do Greg Brockman, que ocorreu há três dias. Brockman é presidente da OpenNine e a palestra é bastante acessível, podendo ser enviada até mesmo para sua tia pelo WhatsApp, para que ela compreenda a direção que o mundo está seguindo. Ele demonstra o chat GPT com os plugins, apresentando alguns demos ao vivo. Além disso, Brockman compartilha sua opinião sobre o assunto em uma entrevista no final do vídeo.

Ele usa o chat GPT como exemplo, mas o vídeo mostra onde o mundo está caminhando, e principalmente para aqueles que acompanham de perto, é possível perceber o que a OpenNI pensa sobre o assunto. Brockman usa o chat GPT Plus, que é a versão cheia de recursos exclusivos do presidente da empresa. Ele mostra como usar o chat GPT para fazer compras no Instacart, por exemplo, pedindo ao sistema que gere uma foto do prato pronto. Ele também menciona o Dolly versão, do qual apenas ele tem acesso.

A palestra é bem interessante e descontraída, mas também faz pensar sobre a evolução da tecnologia e para onde ela está nos levando.

Dá para pensar nas entrelinhas do que ele está mostrando sobre o futuro, né? Ele vai demonstrando vários plugins conectados, inclusive um pouco do que falamos agora de reflexiva. Ele mostra no Chat GPT onde ele mesmo fala: "olha, mas veja se isso aqui que você falou faz sentido". E aí o Chat GPT começa a buscar na internet, no Google, sei lá onde ele vai, e verifica as informações que ele mesmo gerou, e então ele diz "não, isso aqui estava errado" e corrige, sabe?

Tudo isso foi mostrado ao vivo pelo presidente da Open AI em um TED Talk para o mundo inteiro. Então podemos imaginar o que mais ainda não foi revelado. Mas achei bem legal porque é um vídeo acessível que dá um "empurrãozinho" sobre o Chat GPT. É claro que o Chat GPT é muito mais do que um simples gerador de texto, e para quem ainda está descobrindo o que é, é bacana porque o formato de TED é bem atraente.

Paulo Silveira

Pra você mandar pro seu negacionista preferido, então, vídeo.

Sérgio Lopes

É isso aí.

Mário Souto

risos Olha, que eu conheço duas pessoas negacionistas, que eu fico assim, "pô, não é possível, velho".

Paulo Silveira

Não, eu tenho gente que é...

Mário Souto

Tu é muito inteligente, tu é muito inteligente pra não conseguir olhar e ter uma ideia em cima disso aqui. Aí a pessoa "não, não sei o que, porque os advogados..." Aí eu "ah, porra, é muita fé no direito, véi".

Paulo Silveira

Ô Mário, muita gente que eu considero mais inteligente que eu, que tá nesse mecanismo negacionista, eu já tô duvidando da inteligência. Já tô assim "ué". Será que ele é mais inteligente que eu mesmo? Não é possível, não tá? É simplesmente impressionante.

Sérgio Lopes

Já tá dividindo o mundo já, então.

Mário Souto

Eu acho que é isso, tipo assim, eu chego na pessoa e falo assim "beleza, eu sei que o ser humano faz esse trabalho, eu sei que você faz bem, só que olha essa tecnologia fazendo tudo com um comando só e dando esse poder para pessoas que nunca...

Então, vamos pegar um exemplo legal de automação, você mencionou a dublagem, né? Por exemplo, com essa tecnologia, é possível traduzir o texto automaticamente, fazer o lip-sync e outras coisas automaticamente, legal né?

Mas tem gente que pode falar "tudo bem, mas tem muitos filmes que só fizeram sucesso no Brasil por causa da atuação dos atores". Então, quanto tempo vai levar para essa tecnologia conseguir atuar também? É uma questão a ser considerada, não é mesmo?

Eu fico pensando em quanto tempo levará para essa tecnologia alcançar o mesmo nível de atuação. E a pessoa pode pensar que talvez nunca seja possível. Mas acho que o ponto principal é que, pelo menos, a dinâmica dos atores de dublagem irá mudar. O "bate-boca", que é o termo usado para fazer o lip-sync, será automático. Será apenas a atuação da pessoa com o texto que ela conseguir pegar na hora, entende?

Roberta Arcoverde

É, mas enfim, a questão do negacionismo tem um grande impacto no mundo. Existem pessoas com diferentes visões sobre quão rápido e quão significativo será esse impacto, assim como o seu tamanho.

Por exemplo, o Paulo mencionou o podcast do Friedman, que tem uma visão mais pessimista e imediatista sobre essas questões. Por outro lado, há pessoas que acreditam que haverá um impacto, mas que ele será mais lento ou menos significativo do que está sendo previsto.

No entanto, é difícil encontrar alguém que pense que não haverá nenhum impacto, que seja apenas uma moda passageira sem consequências. Pelo menos na minha experiência, não encontrei ninguém assim em meu círculo social.

Cada um tem sua opinião e isso inclui não apenas as pessoas físicas, mas também as empresas. Por exemplo, nesta semana, a Atlassian divulgou que começará a utilizar as APIs da OpenAI para incluir busca semântica em seus produtos de conteúdo.

Mário Souto

Eu só quero que o Gira crie as tarefas para mim. É tudo o que eu quero.

Roberta Arcoverde

Pois é, então assim, não tem empresa que está parada e se tem vai ficar, entendeu? Vai ficar para trás.

Paulo Silveira

Mario, que eu acho que o Gira vai fechar os eixos para você. Esse é o...

Mário Souto

Aí é o Tzkin. Mas tudo bem, se ele demorar para carregar tanto quanto ele demora em uma empresa grande, Ele vai demorar para entregar.

Paulo Silveira

Ó, se usarem a OpenAI para melhorar o front-end ali, né, e tirar um pouco de JavaScript do Gira, já é uma boa, né?

Mário Souto

Exatamente, exatamente.

Roberta Arcoverde

Mas isso que você estava falando de atuação, de arte e tal, eu já estive nas duas pontas, hoje eu não sei onde é que eu estou, porque se por um lado...

Mário Souto

Eu também.

Roberta Arcoverde

Porque a arte é algo que realmente envolve emoções, né? Seja a literatura, a atuação ou qualquer outra coisa, você está tentando provocar uma emoção humana. No entanto, ao mesmo tempo, como expressamos essa emoção? Através da linguagem, seja ela corporal, textual ou falada. E quando você tem uma máquina que pode passar facilmente no teste de Turing, tanto faz se a emoção foi provocada por um humano ou por uma máquina que não entende o que é emoção. A emoção é provocada da mesma forma, então isso faz diferença?

Para mim, como consumidora de arte, não faz diferença. Eu não sei se faz. Ainda não sei onde me encaixo nisso tudo. Pode ser que as máquinas substituam profissionais das artes de uma forma que não conseguimos imaginar atualmente, ou pode ser que as torne tão baratas que se tornem facilmente substituíveis.

Mário Souto

Inviabiliza, é. Inviabiliza, exatamente.

Sérgio Lopes

Acho que nesse processo, vamos descobrir o que valorizamos como humanidade, não é mesmo, Roberta? Esse é o ponto. O que é mais importante, o fim ou o meio? Qual deles realmente importa?

Então, como você disse, será que queremos a autenticidade humana ou apenas o resultado final? E provavelmente haverá momentos em que desejamos uma coisa e depois outra, não é verdade?

Acredito que a questão é essa. Poderíamos criar uma máquina que dá abraços há 10 anos, mas por que queremos um abraço de uma pessoa? Há algo que indica que uma máquina que abraça não é interessante, mesmo que ela seja capaz de dar um abraço agradável.

Então, precisamos pensar na arte como um processo ou um fim. E, obviamente, às vezes misturamos as coisas, como quando dizemos "preciso criar um logotipo para o meu site". Isso não é arte, não é mesmo, pessoal? Nós apenas fingimos que é.

Mas talvez precisemos começar a distinguir o que é apenas um resultado final (output) e o que é algo mais emocional, como um "abraço carinhoso".

Roberta Arcoverde

É, por que as pessoas ainda vão pra show mesmo com a qualidade do áudio hoje sendo...

Sérgio Lopes

-Exato. -Exato.

Paulo Silveira

Nesse podcast, ele também fala sobre as batalhas de xadrez entre IAs. Ninguém assiste. Ninguém assiste. Se você for a um campeonato, hoje em dia acontecem campeonatos de altíssimo nível, mesmo que o IA do seu celular seja melhor do que muitos jogadores pelo mundo.

Existe, portanto, essa busca pela autenticidade, pelo humano, pela conversação. É óbvio que, no dia em que o GPT começar a expressar emoções de uma forma razoável, talvez haja interesse e rivalidade, não é mesmo? Não sabemos até onde isso pode chegar.

Pode ser que haja mudanças significativas, pode ser que um abraço de uma máquina seja interessante um dia. Um dia, talvez? Mas, atualmente, não é como o jogo de xadrez, onde o estilo do Stockfish não atrai a atenção das pessoas para assistir partidas entre ele e o Google Alpha Zero, por exemplo. Quem costuma assistir a esse tipo de jogo são cientistas ou pessoas muito curiosas. Não há uma grande audiência nem emoção envolvidas.

Sérgio Lopes

E a gente vai descobrir em que lugares da vida a gente quer ou não quer uma coisa ou outra. Acho que isso vai nos fazer pensar, né? Acho que esse é o ponto.

Esse podcast é destinado para um público adulto e, assim como os brinquedos sexuais, existe há algum tempo. É óbvio que isso proporciona uma sensação parecida com o ato em si, mas ninguém deixou de...

A humanidade continua crescendo e, portanto, as pessoas continuam fazendo...

Mário Souto

Tem um filme lá do Schwarzenegger que reclama disso aí.

Paulo Silveira

É do Stallone.

Roberta Arcoverde

Na verdade está diminuindo, você sabe que o Japão está com um problema sério disso.

Paulo Silveira

A Coreia do Sul também é a Coreia do Sul.

Sérgio Lopes

Mas não por falta de ato.

Paulo Silveira

Aí são outros problemas.

Sérgio Lopes

Mas eu digo, tem... Voltando na analogia, eu acho que assim, a gente descobriu que tem use case pra duas coisas. Tem hora que você quer estar com uma pessoa e tem hora que você quer estar com um brinquedo. Então, às vezes você vai querer jogar xadrez. E dane-se, né? E acho que é isso.

Paulo Silveira

E vou deixar um desafio para você, ouvinte que quer se divertir bastante. Eu sei que tem gente que ouve e entende muito mais do que nós, e que já está fazendo coisas interessantes. Já há a transcrição do primeiro episódio e em breve a do segundo, usando o Whisper e o GPT para correção, o Marcos e o Gabriel fazendo essas coisas.

O que você pode fazer com este podcast? Que tipo de informação você pode transformar em imagem, fazer um resumo, criar links para tudo o que mencionamos, fazer um vídeo do Devsoltinho cantando com o Weekend, usando as ferramentas da NVIDIA? É um desafio, pois há muitas coisas que podem ser empilhadas umas sobre as outras, usando múltiplas ferramentas.

Então é isso, e nos vemos na próxima sexta-feira. Abraços e tchau!

Este podcast foi produzido pela Alura, mergulhe em tecnologia. E Faculdade FIAP, Let's Rock the Future.

Edição Rede Gigahertz de Podcasts.

Paulo Silveira
Paulo Silveira

Paulo Silveira é CEO e cofundador da Alura. Bacharel e mestre em Ciência da Computação pela USP, teve sua carreira de formação em PHP, Java e nas maratonas de programação. Criou o Guj.com.br, o podcast do Hipsters.tech e o Like a Boss.

Veja outros artigos sobre Inteligência Artificial