Geração de imagens, ‘Her’ da vida real, mudanças nas APIs da OpenAI – Hipsters: Fora de Controle #10

Introdução
Bem-vindo ao Hipsters: Fora de Controle, o podcast da Alura que traz notícias sobre Inteligência Artificial aplicada e o emocionante mundo em que estamos nos aventurando!
Neste episódio, você terá a oportunidade de participar de uma conversa imperdível sobre IA, com o nosso anfitrião fora de controle, Paulo Silveira, CEO da Alura. Ele estará acompanhado por Marcus Mendes, apresentador do Bolha Dev Podcast, Fabrício Carraro, o viajante poliglota fora de controle, e Sérgio Lopes, CTO da Alura.
Exploraremos diversas ferramentas emergentes para a geração de imagens, as últimas mudanças e atualizações nas APIs da OpenAI para o GPT, e a responsabilidade envolvida na criação de vozes sintéticas com base em vozes reais.
Além disso, abordaremos estratégias para lidar com as limitações e até mesmo as alucinações dos modelos de IA disponíveis atualmente. Vamos buscar formas de maximizar o desempenho dos sistemas, compreender suas vulnerabilidades e garantir resultados confiáveis e precisos.
Aproveite esta oportunidade única de explorar conosco esse novo mundo fascinante que estamos desbravando. Mantenha-se atualizado com as últimas tendências e mergulhe na transcrição completa deste episódio abaixo. Prepare-se para expandir seus conhecimentos e se encantar com o universo empolgante da Inteligência Artificial!

Geração de imagens, ‘Her’ da vida real, mudanças nas APIs da OpenAI - Episódio 10
Paulo Silveira
Oi, você está no Hipsters Fora de Controle, o podcast spin-off que finalmente foca em apenas uma única modinha, inteligência artificial e suas aplicações.
Paulo Silveira
Olá, ouvinte!
Estamos em mais um episódio do Hipsters Fora de Controle, onde conversamos sobre inteligência artificial e tudo o que está acontecendo nesse cenário de GPT e afins. Nessa primeira parte, trago algumas novidades que ocorreram durante a semana e que talvez você possa utilizar hoje mesmo no seu trabalho, não importando se você trabalha com programação ou em alguma outra área.
Estou aqui com o Marcus Mendes, que trabalha conosco nos podcasts de comunicação na Alura, o Fabricio Carraro, gerente de produto da Alura, e também o Sérgio Lopes, nosso CTO. São pessoas que estão imersas diariamente em ferramentas e nesse novo mundo da inteligência artificial.
Antes de começarmos e vocês compartilharem comigo os links, ideias e o que têm visto no mercado, gostaria de fazer uma última chamada. Hoje é sexta-feira, e na próxima segunda-feira, dia 19 de junho, terá início a imersão em inteligência artificial da Alura, onde já temos mais de 100 mil pessoas inscritas. Se você acessar alura.com.br/imersao-ia, poderá se inscrever gratuitamente. Serão cinco aulas, comigo, Sérgio, Guilherme e Silveira, os cofundadores da Alura, apresentando o ChatGPT e um pouco mais além das nossas brincadeiras clássicas. Assim, você poderá ver realmente como é possível combinar essas ferramentas com o Excel, planilhas, automação e muitas outras coisas que talvez você nunca tenha imaginado.
Espere um momento! É possível pegar um lote do meu trabalho, enviar por e-mail, resolver tarefas da minha profissão e depois retirá-lo. Fica aqui o convite para você participar. É a primeira vez que estamos expandindo nossa audiência, não é? Somente uma minoria das pessoas que desenvolvem software participará dessa imersão com mais de 100 mil pessoas inscritas. Portanto, convido você a trazer outras pessoas que estão trabalhando e interessadas em saber como a inteligência artificial já mudou sua área de trabalho.
Agora, gostaria de saber quem será o primeiro a compartilhar comigo novos links, eventos e ferramentas interessantes que eu possa utilizar em meu trabalho ainda hoje.
Marcus Mendes
Eu posso... Links novos, sabe como é, fiquei duas semanas fora e tudo que eu tinha selecionado já ficou super antigo, pré-histórico, datado.
Mas tem uma ferramenta, um estudo que já disponibilizou o código para ser mexido. Basicamente, você coloca pontos em uma imagem e manipula esses pontos para alterar o que está acontecendo nela, incluindo o ângulo em que alguém está olhando algo. O nome da ferramenta que eles colocaram é "Drag Your GAN", onde GAN significa rede generativa adversarial e assim por diante.
No próprio estudo, eles mostram um exemplo de um leão olhando de frente com a boca fechada. Você coloca alguns pontos e também uma área de influência ao redor da cabeça do leão para indicar até que ponto da imagem pode ter influência no que você deseja editar. Depois, é só clicar e arrastar a mandíbula do leão para baixo, e ele abre a boca. Você pode clicar na testa, no nariz e na mandíbula, e arrastar para a direita, fazendo a cabeça virar para a direita.
Eles mostraram outros exemplos, como um carro, um Porsche, sei lá, você clica no Porsche e faz um movimento de rotação, e ele gera o Porsche rotacionado usando a geração adversarial de imagens. O código está disponível no GitHub, e eu testei uma versão que alguém fez rapidamente com uma foto de um gato. Se o gato está em pé, você o coloca sentado, deitado, vira de lado, ele se move, você ajusta a orelha.
A forma de interação é bem diferente. Não tem um acabamento tão bacana como, por exemplo, o Generative Fill do Photoshop ou até mesmo o Product Studio do Google, que tem uma maneira de interagir usando prompts. Mas é uma daquelas ferramentas que também mostram o potencial disso.
Pense, cara, se já está assim hoje, imagine daqui a dois, três, cinco anos. É um jeito bem diferente, muito criativo, de usar todas essas tecnologias para manipular imagens com apenas um clique e alcançar o resultado desejado.
Paulo Silveira
O Fabrício, inclusive, esse tipo de ferramenta em que você consegue impor restrições para a geração de imagens, tem várias abordagens diferentes, não é mesmo?
Acho que uma delas é aquela chamada ControlNet, que é um framework... Eu não entendo muito bem, você chegou a usar? Eu enviei um e-mail na minha newsletter chamada Imersão, usando um QR Code que o Fabrício gerou.
Você fornecia o QR Code que desejava e também uma imagem que seria meio que uma restrição, algo que o robô deveria seguir para criar aquele QR Code, ou talvez fosse o contrário, ou talvez fossem ambos. E então ele gerava uma nova imagem usando essas restrições.
No caso desse projeto mencionado pelo Marcus, que estará com o link na descrição, a abordagem é mais baseada em pontos. Fabrício, há outras abordagens também, então acho interessante que estamos seguindo um caminho de controle real das inteligências artificiais, em que podemos dizer "olha, não é apenas gerar de qualquer maneira, gere com esse tom de voz, com essa restrição, com um máximo de palavras, evite perguntas, evite ofensas, vá por esse caminho, ajude bastante, gere imagens com apenas 16 cores" e detalhando melhor como queremos que o robô trabalhe.
É isso, Fabrício?
Fabricio Carraro
É, exatamente, Paulo.
Alguns exemplos que você mencionou estão mais relacionados às LLMs, mais na parte linguística. Porém, se pensarmos na geração de imagens, o ControlNet surgiu para suprir essa necessidade. Mesmo as pessoas que usavam os modelos do Stable Diffusion, por exemplo, que é um modelo aberto e pode ser executado localmente, enfrentavam um problema. Ao simplesmente fornecer o prompt, a entrada do que desejavam, a imagem resultante era gerada de qualquer maneira. Portanto, se quisessem um robô olhando para frente ou levantando uma mão, era muito difícil alcançar esse resultado apenas com o Prompt. O modelo original do Stable Diffusion não oferecia a ordem desejada, ele poderia criar um robô qualquer, às vezes colocando uma mão para cima, às vezes com as duas mãos para cima, dançando uma carena. O ControlNet foi desenvolvido para lidar com essa questão, como você mencionou, Paulo, e adicionar restrições.
Com o ControlNet, por exemplo, você pode começar com uma imagem original semelhante ao que deseja e especificar que deseja gerar um robô roxo em uma São Paulo apocalíptica no futuro. No entanto, você precisa que o robô esteja em uma determinada posição, com uma mão para cima, outra para baixo e as pernas abertas. Assim, você pode fornecer uma imagem de referência que mostre como é essa posição, e o Ctrl + N poderá extrair o contorno da imagem original. Isso também pode ser usado para alterar o rosto de uma pessoa. Se você tiver uma imagem do Barack Obama na frente da Casa Branca, por exemplo, que é um dos futuros participantes da imersão IA, e quiser substituir o rosto dele pelo rosto do Papa Bento XVI ou da Shakira, basta fornecer essa imagem e o ControlNet garantirá que a posição do rosto e do corpo seja exatamente como desejado. Se você não tiver uma imagem de referência, pode até desenhar um bonequinho de palito e ele obedecerá a posição quando você fornecer o prompt "eu quero um robô roxo em São Paulo". Portanto, o ControlNet serve para controlar esses aspectos.
Além disso, quando se trata dos QR Codes, que se tornaram bastante populares, o ControlNet também desempenha um papel importante. Ele possui uma imagem principal e um prompt, e ele sabe onde precisa posicionar cada elemento para que faça sentido. Claro, é necessário treinar bastante, praticar e descobrir as melhores configurações e parâmetros. No final, você obterá um QR Code fantástico e maravilhoso, por exemplo, uma casa com uma piscina, onde os blocos no fundo da piscina estarão pretos e farão parte do código do QR Code. É realmente interessante, Paulo.
E teve outra IA, outra ferramenta que acabou de ser lançada, faz umas duas ou três semanas. Eu vi anteontem no trem pela primeira vez, e posso dizer que me impressionou bastante, porque funciona como se fosse um... tem um LLM por trás, que entende o que você está falando.
Talvez usaria um Whisper também, aquele que reconhece o speech to text, reconhece sua voz e transcreve para texto, só que é muito rápido. Eles estão fazendo num stream rápido, como o tradutor do Google Translate no modo conversa. A pessoa fala, ele já está traduzindo enquanto a pessoa está falando, pegando e formulando a resposta simultaneamente.
O nome dele é CallAnnie.ai. Você conversa com ela, é o rosto de uma mulher, um rosto estilizado, a Annie. Ela tem uma personalidade, é como se fosse a Samanta do filme Her, mas com um rosto físico. Você pode olhar pra ela, conversar com ela, falar qualquer língua que quiser que ela entende. Eu falei com ela em italiano, português, russo. Ela entende perfeitamente, mas só responde em inglês, é o treinamento dela. O treinamento de voz e resposta é só em inglês.
É interessante, infelizmente só está disponível para iPhones atualmente, mas acredito que logo deva sair a versão para Android também. É bem chocante, a velocidade com que ela entende e responde. Ela faz qualquer coisa que você falar. Ela tem uma função de câmera também. Você pode enviar uma foto para ela e ela reconhece o que está na foto. Por exemplo, se você mandar uma foto da sua mesa de escritório, ela fala: "Ah, isso aqui parece ser uma mesa com uma garrafinha de água em cima". A garrafa de água não está cheia, então ela analisa a imagem que você mandou. Ou se você mandar uma selfie, ela diz: "Nossa, sua barba está muito bonita hoje, que legal!".
É realmente impressionante, isso me impressionou bastante. Se vocês quiserem ver como está evoluindo rápido, são ferramentas que, como o Paulo disse, você pode usar hoje, baixar no seu celular e usar hoje mesmo. Não sei pra que você vai usar a Annie agora, parece ser ainda numa fase mais de testes, mais de diversão. Mas imagino que, por exemplo, quem está aprendendo inglês e quer praticar a língua, conversar com uma pessoa falante nativa, a Annie já pode ser útil hoje mesmo.
Paulo Silveira
O Fábio Muniz me mandou uma mensagem no WhatsApp sobre esses geradores de sites. Eu pensei: "Ah, mais um desses geradores de site com inteligência artificial". Ok, ainda não é nada muito espetacular, mas decidi dar uma olhada.
Entrei no framer.ai e disse que queria criar um site para um podcast hipster sobre inteligência artificial. Então, cliquei e ele processou a informação, aparecendo um botão "publicar". Eu cliquei em "publicar".
Vou deixar o link aqui, inclusive para o Fabrício, Marcus e Sérgio, para que eles possam clicar e conferir. Todo esse processo foi feito com apenas três cliques, entendeu? E o link vai estar disponível no Spotify, na Apple, para que você possa conferir.
É interessante, ainda estamos no começo, apenas no começo. Mas pensar que ele gerou algo parecido com o Figma, que pode ser exportado para o Figma e transformado em HTML, e que foi publicado na nuvem, é no mínimo interessante, não é mesmo?
Sérgio Lopes
Está bem bonito isso aí, hein, Paulo?
Paulo Silveira
É, pois é. E para quem estiver hoje na live de abertura da imersão, a gente pode fazer um lá ao vivo, viu Fabrício? Você vai estar lá no backstage e a gente vai fazer um ao vivo com esse. Enfim, acho que esses são os links da semana, são bastante interessantes.
E queria passar para a segunda parte da evolução, como a gente está vendo a aplicação de inteligência artificial. Discutir as direções. Acho que um ponto de partida interessante que animou bastante o City Hall da Alura são os preços da OpenAI, os preços do ChatGPT. Estão mais baratos. Olha só, promoção, tudo pela metade. A API do GPT diminuiu essa semana. Eles falaram que vai estar um pouco mais barato e inclusive ofereceram... Elas estão melhores, no sentido de que aguentam mais os tais tokens de entrada, de saída.
Sérgio, o que mais apareceu aí da principal empresa do raio GPTtizador? O que eles estão trazendo?
Sérgio Lopes
Infelizmente, não está pela metade, mas eles reduziram um pouco uma das APIs, não foi nada muito significativo. Baixaram os tokens de entrada do GPT 3.5 em 25%. O resto continua igual. Na semana passada, falamos das fofocas do Sam Altman, né? Foi um dos temas do podcast.
Fabricio Carraro
Foi o Fuxico, a quantidade da semana passada, né.
Sérgio Lopes
Foi o Fuxico, é. E foi muito interessante porque a gente contou que era fofoca e virou verdade na semana seguinte. Uma das coisas que ele mencionou foi o aumento da janela de tokens.
Então, um dos grandes lançamentos desta semana é a API do GPT 3.5 com suporte de até 16 mil tokens, o que representa quatro vezes mais do que a API do GPT 3.5 original, que era de 4 mil tokens. Isso é mais do que o volume de tokens do GPT-4 padrão, que muitas pessoas estão ansiosas para usar, mas poucos têm acesso devido à longa lista de espera. O GPT-3.5, ao contrário do GPT-4, foi projetado para uso em produção e aplicações. É interessante ter uma versão nova e maior. Agora você pode passar muito mais texto para ele resumir, gerar ou corrigir, tornando o uso do GPT mais escalável. Esse modelo com 16 mil tokens é um pouco mais caro, sendo o dobro do preço do modelo padrão 3.5, mas ainda é infinitamente mais barato que o GPT-4, o que abre possibilidades de uso interessantes.
Além desses lançamentos com janelas maiores, a grande novidade da semana é o lançamento de uma nova versão do modelo, tanto do 3.5 quanto do 4. Lembrando que o modelo é a estrutura inicial da conversa, que é meio estática. Ele foi treinado inicialmente em 2021 e recebe ajustes ao longo do tempo, mas não de forma contínua. É necessário lançar uma nova versão do modelo para trazer novidades. Agora eles lançaram uma versão nova, tanto do 3.5 quanto do 4, que, segundo eles, obedece melhor aos comandos e instruções. Essa é uma novidade disponível por meio da API, não no ChatGPT atual, que ainda está com o modelo de maio, não com o modelo de junho.
Outra grande novidade desses novos modelos é a introdução de chamadas de função. Na prática, eles adicionaram à API a capacidade de integrar ferramentas externas ao fluxo de execução do GPT. Durante a conversa com o robô, se houver uma ação que ele não consiga realizar e que possa ser melhor executada por uma ferramenta externa, ele chama essa ferramenta e, em seguida, fornece a resposta final. Isso já existia no ChatGPT, a possibilidade de integrar plugins, que mencionamos na semana passada. Agora eles estão expondo essa funcionalidade por meio da API.
Você pode definir quais funções estão disponíveis na API e, por exemplo, criar uma função que envia um e-mail em seu nome. Durante a conversa com o robô, se você quiser enviar um e-mail para sua tia, ele percebe e chama a função de envio de e-mail. Obviamente, ele não envia o e-mail diretamente, mas ele chama a função e você executa a ação desejada. É uma maneira de expor esse mecanismo de plugins via API e do GPT para que as aplicações possam usá-lo. É realmente interessante.
E aí, um ponto só é que, justo na parte do Fuxico da semana passada, o Fabrício e eu estávamos falando sobre o que o próprio Sam Altman estava dizendo aqui. Ele mencionou que os plugins no ChatGPT não estavam encontrando muito "product market fit", saca? Ele disse: "Cara, é difícil encontrar um caso ali, as pessoas...". Todo mundo que já brincou com os plugins percebe que há muitas possibilidades, mas na prática é difícil criar algo realmente útil.
Para mim, essa mudança deles em colocar isso na API é uma exploração de uma outra vertente. Talvez, os plugins, como usuário final, na primeira versão ali no ChatGPT, pareça realmente difícil criar algo muito útil. Mas acredito que eles estão percebendo que, ao integrarem esses plugins internamente nas empresas, com acesso aos serviços internos, entre outras coisas, possam ter algum caso de uso diferenciado. Enfim, parece que eles estão explorando mesmo. Eles tiveram essa grande ideia dos plugins e agora estão testando em várias frentes. Lançaram para os usuários e agora estão lançando para os desenvolvedores. Vamos ver se alguém consegue criar algum caso bacana.
Fabricio Carraro
O Sérgio, esse exemplo que você deu sobre o ChatGPT responder seus e-mails, isso é um spoiler da imersão ou é apenas um exemplo aleatório?
Sérgio Lopes
Nossa, olha só o link, né, Fabrício. Na imersão, teremos uma aula em que mostraremos como enviar e-mails. Não será usando as funções do GPT, porque a ideia é permitir que até mesmo pessoas não programadoras consigam usar. Mas é um caso de uso interessante, fazer o GPT responder e-mails para você automaticamente.
Fabricio Carraro
Aquele e-mail de trabalho chato que você não quer responder, né? Cê tem desses Marcus.
Marcus Mendes
Tenho! E o que eu estava pensando era o seguinte, na verdade. Na semana passada, vocês comentaram, o Sérgio falando sobre como o próprio Sam Altman tinha dito que "ah, não encontrou mesmo o Market Fit, os plugins". E eu pensei, quando eu estava editando o episódio, assim, claro que eles não vão desistir disso, porque é uma oportunidade bacana. Então ele deve estar indicando justamente que vai chegar alguma outra coisa que vai substituir esse modelo que está atualmente por algo que, se não for mais útil, pelo menos tenha um atrito menor de uso e de você poder chamar, etc.
Ele perguntava para o Sérgio justamente se, com esses anúncios, claro que treino é treino, jogo é jogo, né? O que eles anunciaram, não sei o quanto o Sérgio conseguiu mexer de fato, mas se, pelo menos na teoria, com esses anúncios você tinha visto que ficaria um pouco mais promissor do que na semana passada, quando você falou que não estava... "Ah, não faz nada de muito útil". É mó legal, mas não faz nada de muito útil ainda.
É bom ver que você está um pouco mais otimista sobre isso. Aí eu fico, por proxy, um pouco mais otimista também para encontrar os usos, enfim, né. Isso ser usado de um jeito com um pouco menos de atrito por... O pessoal, a gente estava falando de no-code antes da gravação, né. Pessoal que não necessariamente seja uma galera técnica, mas que esteja buscando tirar tanto proveito quanto aqueles com conhecimento mais técnico estão conseguindo tirar.
Sérgio Lopes
Bom, nesse momento, só reforçando, são mudanças nas APIs, então é para o pessoal técnico utilizar. Mas acho que a ideia é que, conforme as aplicações forem integrando, certamente isso cria uma acessibilidade maior para todos. É um pouco daquela linha do que a gente conversava também semana passada, de que o Sam Altman enxerga o GPT integrado em todos os lugares.
Então, o GPT dentro dos produtos é mais o caminho do que o contrário, do que os produtos dentro do ChatGPT. Acredito que esse é um movimento bem forte nessa direção: expandir as APIs para que todo mundo que esteja usando agora tenha mais recursos de uma maneira mais barata e mais interessante.
Marcus Mendes
Agora, uma coisa que eu tinha separado pra gente poder discutir aqui, recentemente o Planet Money fez uma série de três episódios. O objetivo deles era investigar se existia uma forma das IAs, e eles partiram do ChatGPT, do ChatGPT gerar um episódio do Planet Money. Isso poderia ser uma ideia um pouco batida, mas eles são muito criativos na forma de explorar essas coisas e trazerem. Então o que eles fizeram, a partir de um tema que seria a substituição das telefonistas lá nos primórdios da telefonia, colocaram um ChatGPT, não só pra gerar o roteiro e aí vão fazendo um ajuste ou outro e etc. Partindo pra uma outra startup que é a WellSaid Labs, que gera vozes com modelos que custam 30 mil dólares pra pegar um apresentador aposentado lá do Planet Money pra fazer. Entrou a Grimes no meio da história, entrevistaram a Grimes por e-mail e aí usaram a voz dela, que ela disponibilizou lá, basicamente a API da voz dela pra fazer músicas, pra ela com a voz dela para ela responder por e-mail e etc. E no meio do caminho para se desenvolver esse episódio, o terceiro episódio é a conclusão e depois a reação do pessoal de produção do Planet Money a como é que ficou mesmo o resultado final.
São meia hora cada um dos episódios. Eu vou deixar o link na descrição, vale muito a pena escutar. E em meio a tudo isso, dei uma espiadinha nessas startups de sintetização de voz a partir de um exemplo.
Encontrei uma chamada Eleven Labs, que oferece planos mais acessíveis do que os 30 mil dólares da WellSaid. Eles têm algumas vozes já pré-assadas, mas você pode treinar a sua voz por cerca de 5 dólares no primeiro mês, e depois o valor sobe para 20, 25, algo assim. Há um limite de tokens por mês, dependendo do seu plano, para fazer a sintetização. Tanto no caso da WellSaid, especialmente no caso da Eleven Labs, é uma daquelas coisas que pareciam um pouco distantes, mas têm resultados tão bacanas e convincentes que, se você prestar atenção e souber onde procurar na voz, perceberá que é uma voz sintetizada. É impressionante o resultado, seja para trabalhos rápidos, seja para necessidades específicas. Vou deixar também o link aqui na descrição.
Especialmente, essa investigação que o pessoal do Planet Money fez sobre a possibilidade de combinar diferentes inteligências para criar um episódio, sem considerar o roteiro, foi interessante. Eles pensaram: "Ah, o ChatGPT está muito sério, vamos explorar isso de forma criativa." Então, eles criaram uma dramatização do final do dia de trabalho da última telefonista, usando documentos fornecidos e entrevistando especialistas. A parte dos especialistas foi excelente, porque eles fizeram cinco ou seis perguntas e disseram para o especialista: "A última pergunta é: temos que ficar preocupados, etc." Eles responderam: "Cara, relaxa. Essas perguntas inteligentes e perspicazes que vocês fizeram não podem ser geradas por uma inteligência artificial." Eles ficaram surpresos ao perceber que as perguntas que consideravam criativas e impossíveis de serem geradas por IA realmente foram. Olha, são três episódios que valem muito a pena escutar. Eles mostram e confirmam aquilo que exploramos aqui, episódio após episódio. As ferramentas não substituem, mas, quando usadas corretamente, podem aumentar significativamente sua produtividade e a qualidade do seu trabalho. A forma como eles foram descobrindo e concluindo isso foi excelente. Vale muito a pena escutar.
Fabricio Carraro
O Eleven Labs, eu tô em casa aqui, você falou, Marcus, já tô usando há um bom tempo. Inclusive, eu fiz um com o Paulo Silveira aqui, nosso CEO, falando no grupo da empresa que tá todo mundo demitido, com a voz do Paulo Silveira. O pessoal adorou. Mas a vantagem dele é que o treinamento é realmente muito bom.
Sérgio Lopes
Isso dá justa causa, hein Fabrício? Cuidado, hein? Dá justa causa.
Fabricio Carraro
O bom dele é que o treinamento é excelente. Você precisa de apenas cinco minutos de voz, uma voz original, vamos dizer assim, para treinar. Ele diz que mais do que cinco minutos é desnecessário. Cinco minutos já são bons o suficiente, desde que estejam com a voz limpa, né, uma voz clara.
E além disso, você pode usar a sua própria voz, né, tem influencers, muitos estão usando para isso. Então, se você é um influencer de línguas, por exemplo, uma pessoa que quer ter aulas com você, mas não pode pagar pela sua hora particular, pode pagar pela sua IA, e acabará tendo aula com uma IA que fala com a sua voz. Já vi um cara usando nesse sentido, agora ele está dando aulas, não são aulas no sentido tradicional, né? Mas está começando uma movimentação nesse sentido e já vi o beta desse cara.
Além disso, você também pode fazer o uso com celebridades, né? Aí entra a velha discussão ética sobre deepfakes e tudo mais, que a gente pode usar para brincadeiras, né? Mas e quando isso for usado para coisas sérias? Ou então para coisas que a gente fala, né, como sequestro relâmpago, alguém pegar a voz de qualquer pessoa que está nos stories, online, nas redes sociais, no YouTube, encontrar o número de telefone, sei lá, dos pais e mandar "oh, aqui é o Pedrinho, estou sendo sequestrado, me manda dois mil reais", algo assim, usando a voz do Pedrinho.
Então, isso é algo que já comentamos com o Sérgio também, algumas semanas atrás, e será a nova realidade, realmente.
Marcus Mendes
No caso da startup que eles usaram para fazer a voz sintética do ex-host, e isso em todas as ferramentas, vai depender muito das regras que a empresa que gera essas vozes vai colocar em prática, eles dizem. No nosso caso, a gente tem que ter uma confirmação da pessoa cuja voz a gente está replicando, que ela autoriza, a gente tem que falar com essa pessoa para ela autorizar. E é específico para cada projeto. Acabou o projeto, eles destroem a voz basicamente, para que isso não possa ser reutilizado. E o controle sobre a voz fica na mão da empresa, e não de quem encomendou.
Claro que isso não vai ser o modelo de todo mundo. E por exemplo, essa própria Eleven Labs facilita muito isso. Então essa situação que o Fabrício colocou acaba ficando um pouco mais possível. Eles na Eleven Labs dão nos termos de também. "A gente confia que vocês vão fazer as coisas certas, não vai usar para nada errado." Concorda? O ladrão fala "não, concorda". Então existem algumas questões aí que eu acho que aos pouquinhos vão ser acertadas, mas nesse momento, por enquanto, parece ser uma coisa meio voluntária e das empresas promoverem o uso responsável, assim como também apareceu essa semana, semana passada, aquela nova carta pedindo por um uso responsável e por regulação assinada por todo mundo. O pessoal da Cloude lá, o próprio Sam Altman, assinando.
E tá sendo curioso ver todo mundo do mercado, falando assim, "Gente, a gente tem uma ferramenta aqui que precisa ser controlada, a gente tá desenvolvendo ela, estamos expandindo as utilidades, mas por favor, regulem, façam alguma coisa, porque senão vai dar ruim". Mas ao mesmo tempo elas seguem fazendo, então parece ser um pouquinho de... o que eles chamam de "lip service", que eles estão só tentando ficar bem na fita ali, enquanto do outro lado, na operação, eles seguem desenvolvendo a ferramenta.
Então essas coisas todas estão acontecendo meio juntas, e a gente, mercado e pessoal de desenvolvimento, vai ajudar, espero. Posso influenciar um pouquinho para guiar como é que vai ser.
Fabricio Carraro
E uma notícia que eu vi também essa semana foi um vazamento, não sei se proposital ou não, da OpenAI. Já tinha tido um vazamento anteriormente sobre a possibilidade de compartilhar os seus chats com o ChatGPT mesmo, o GPTzão basicão lá do site.
Um usuário do Reddit, aparentemente, estava vendo o código fonte do ChatGPT e encontrou algo meio escondido lá dentro. Descobriu que isso já tinha acontecido antes e que era sobre o compartilhamento de chats. Uma semana depois de ser descoberto, o compartilhamento de chats foi realmente lançado.
Agora, a novidade são os workspaces, né? Os espaços de trabalho. Basicamente, imagine que você tem uma persona e deseja que o ChatGPT funcione de uma maneira específica, que ele responda de uma certa maneira. Assim, você não precisa ficar configurando ou enviando prompts de inicialização toda vez.
Não está claro se isso será disponível apenas para contas pagas ou também para contas abertas, ainda não há uma informação oficial. Foi um vazamento que ocorreu, imagina só. Se for para a conta paga, você poderá solicitar que o ChatGPT responda de forma sarcástica ou que ele sempre responda como se fosse um pirata, como se fosse Luiz Vaz de Camões... ou Luiz Vaz de Camões?
Marcus Mendes
Luiz de Camões ou Pero Vaz de Caminha? Você pode escolher.
Fabricio Carraro
É Luiz Vaz de Camões, não é certo?
Paulo Silveira
Esse nome é meu GPT, né?
Fabricio Carraro
Pior que é Luiz Vaz de Camões mesmo.
Sérgio Lopes
Você falou que vazamento, eu entrei em pânico aqui, Fabrício. Vazou uma notícia do... Caraca, vazou alguma coisa da GPT ali, dados!
Fabricio Carraro
Não, não.
Sérgio Lopes
Só as fofocas, é a parte Fuxico, agora o episódio tem a terceira parte, que é a parte fofocas do semana. A gente tá virando uma frequência isso já.
Fabricio Carraro
É verdade.
E teve outra novidade também, que foi apresentada junto com essa dos workspaces, que garante a personalização do ChatGPT, que são os arquivos, os "Meus Arquivos". Agora será possível fazer o upload de arquivos para o ChatGPT analisar e examinar.
Por exemplo, você pode enviar o seu currículo e dizer: "ChatGPT, dê uma olhada aqui, veja se está tudo certo, o que posso melhorar, onde há erros de gramática ou como posso tornar a linguagem mais formal".
Enfim, são esses dois vazamentos que ocorreram nesta semana, pessoas do Reddit analisando e explorando o código-fonte, encontrando coisas que, bem, se seguir o mesmo caminho do compartilhamento de chats, isso também acontecerá agora com os workspaces e os arquivos.
Marcus Mendes
E inutiliza todas aquelas ferramentas que já mencionamos que realizam essas tarefas específicas, não é mesmo? Cada uma delas que o próprio ChatGPT incorpora como função nativa, acaba eliminando do mercado cerca de 30, 40 empresas que estão oferecendo essencialmente a mesma coisa, mas como sua única proposta de negócio.
Fabricio Carraro
É verdade.
Paulo Silveira
Então é isso, e teremos muitas dessas novidades durante a imersão em inteligência artificial que começa na segunda-feira. Hoje é sexta-feira, para quem está ouvindo o podcast no dia em que foi lançado, teremos uma live de abertura em que discutiremos como a equipe da Alura está utilizando inteligência artificial e os novos produtos que serão lançados na próxima semana. É uma semana especial, pois a Alura completa 10 anos. Nós nos tornamos a maior escola de tecnologia do país, formando agora o maior ecossistema de ensino de tecnologia da América Latina em parceria com a FIAP e a PM3.
Então, se você gosta de inteligência artificial, teremos muitas opções para você. Isso não se restringe apenas a vendas, marketing ou finanças. Utilizaremos planilhas, GPT e integrações. O código que será apresentado será baseado em macros, como o Excel ou Google Spreadsheets, e de uma forma realmente incrível. Portanto, espero que você participe e traga seus amigos para estudar nesta imersão gratuita que começará na segunda-feira. É isso, até a próxima. Tchau!
Este podcast foi produzido pela Alura.
Mergulhe em tecnologia.
E Faculdade FIAP.
Let's Rock the Future.
Edição Rede Gigahertz de Podcasts.