Olá! Bem-vindos ao curso sobre o Gemini, a ferramenta de inteligência artificial do Google. Meu nome é Fabrício Carraro e serei o instrutor ao longo deste curso.
Audiodescrição: Fabrício é um homem branco, com cabelo curto castanho e barba. Ele veste uma camisa azul e está em um ambiente de estúdio com fundo claro.
Sou instrutor na Alura e atuo como Program Manager e Developer Advocate com foco em inteligência artificial. Além disso, sou autor publicado em inteligência artificial pela Casa do Código e apresentador do podcast "IA Sob Controle", da Hipster Network, Alura e Grupo Alura, que também aborda temas de inteligência artificial. Novos episódios são lançados toda quarta e sexta-feira para nos mantermos atualizados no mundo da inteligência artificial. Também sou reconhecido como Top Voice no LinkedIn nesse tema.
Olá! Neste curso de Gemini, abordaremos um conteúdo mais introdutório, no qual começaremos a explorar como utilizar essa ferramenta desde o início.
Vamos aprender a criar um prompt bem elaborado, entender a diferença entre os modelos, como o modelo mais rápido e o modelo de raciocínio, e o que cada um representa. Utilizaremos todas as ferramentas disponíveis atualmente no Gemini, incluindo o upload de arquivos e o uso das Gems localizadas no lado esquerdo. Também aprenderemos a criar uma Gem do zero e a integrar o Gemini com todos os aplicativos do ecossistema Google.
Esses aplicativos incluem o Google Workspace, como o Gmail, o Google Docs, o Google Agenda, o Google Drive e também o YouTube.
Vamos juntos mergulhar nesse mundo da inteligência artificial, agora com foco no Gemini do Google. Aproveitem os próximos vídeos!
Estamos aqui com a conta Olá Dev, a nossa conta Dev Sem Fronteiras, para demonstrar que é uma conta gratuita. Vocês poderão utilizar, inclusive, a conta gratuita de vocês durante este curso.
Para começar, certamente já utilizamos alguma Inteligência Artificial (IA) nos últimos anos para fazer perguntas ou pedidos, sejam eles triviais ou interessantes. Exemplos incluem o Gemini, o ChatGPT, o Clods e o DeepSeek. No início, estávamos acostumados a fazer perguntas ou pedidos simples, como "gere uma poesia sobre Fabrício Carraro, que gosta de IA, de línguas e de viajar". Isso era o começo da IA, e ficávamos impressionados com resultados como "um viajante com o código na mente, Fabrício Carraro, a alma, a friend da Unicamp, o saber que o guia é a primora em inteligência artificial". Ele provavelmente obteve essas informações do meu histórico ou do treinamento, pois meu nome está disponível no LinkedIn ou no meu site pessoal. Essa era a base do que criávamos antes, mas hoje em dia, utilizamos cada vez mais para coisas relevantes e empresariais.
Queremos abordar tudo que pudermos, começando por não mais focar em textos ou poesias geradas, mas sim em criar novas perguntas e contextos. Para isso, no lado esquerdo, clicamos no botão "nova conversa". Ao clicar nas três linhas para abrir o menu, vemos novamente a opção "nova conversa", além de outras opções como perguntas recentes, atividades e configurações. Vamos gerar uma nova conversa para mostrar que essas ferramentas estão muito mais poderosas do que antes. Anteriormente, em 2022, 2023 e até 2024, as IAs se baseavam quase exclusivamente no conhecimento interno com o qual foram treinadas. Por exemplo, se treinássemos um modelo de linguagem como o Gemini em 23 de agosto de 2024, ele não saberia nada do que aconteceu depois disso. Hoje, os modelos têm acesso à internet, o que melhora significativamente o problema de "alucinação", quando o modelo inventava respostas ao invés de admitir desconhecimento.
Se perguntarmos, por exemplo, "quanto foi o jogo do Brasil na semana passada?", e o treinamento tivesse terminado um ano antes, ele poderia responder incorretamente. Atualmente, antes de dar uma resposta sobre eventos recentes ou informações atuais, o modelo busca online. Se perguntarmos "quanto foi o último jogo do Brasil masculino de futebol?", ele buscará online e responderá com informações reais, como "o último jogo da seleção brasileira masculina terminou com uma derrota de 3 a 2 para o Japão", ocorrido em 14 de outubro.
Outras funcionalidades do ambiente do Gemini incluem a criação de novas conversas. Ao criar uma nova conversa, ele pode solicitar uma assinatura para acessar modelos mais poderosos, mas mesmo no plano gratuito, podemos utilizar modelos robustos. Os modelos podem mudar de lugar; anteriormente estavam no canto superior esquerdo, agora estão na janela de prompt (pedido). O modelo "2.5 flash" é menos poderoso, mas mais rápido e com limites mais altos, permitindo uso quase ilimitado. O modelo "2.5 Pro" é mais robusto e recomendado para tarefas complexas, como cálculos ou geração de código.
Na data de gravação deste curso, esses modelos estão disponíveis, mas, como sabemos, os avanços em IA são rápidos, e é provável que novos modelos estejam disponíveis quando estivermos fazendo este curso. Haverá sempre uma indicação de qual modelo é mais ou menos poderoso, com opções para raciocínio, matemática e programação.
Dada essa introdução, no próximo vídeo continuaremos a aula para explicar o que são modelos de linguagem, como o Gemini, e como eles funcionam internamente. Até mais.
Neste vídeo, vamos explicar o que é um modelo de linguagem e como ele funciona internamente. Quando pensamos em IAs, modelos de texto e modelos de linguagem, como o ChatGPT, Gemini, DeepSeek, Cloud, LLAMA e muitos outros, a ideia básica é gerar um texto coerente e humano. Essa ideia remonta aos anos 50, com várias tentativas nesse sentido.
Vamos analisar algumas frases. Em português, podemos dizer "Eu gosto de pizza". É uma frase simples. Se gostamos de viajar, usamos uma estrutura semelhante: "Eu gosto de viajar". A estrutura muda apenas o verbo, mas o restante permanece igual. No inglês, a estrutura muda. Por exemplo, "I like pizza" não é uma tradução direta de "Eu gosto de pizza". Se fosse, seria algo como "I like of pizza", mas em inglês não funciona assim. Para "Eu gosto de viajar", podemos dizer "I like to travel" ou "I like traveling".
Começamos a nos aprofundar no mundo da inteligência artificial em setembro de 2022, na Turquia, quando descobrimos o modelo GPT-3. Na época, era apenas um modelo de treinamento da OpenAI. Tentamos utilizá-lo para o turco, mas ele não funcionava bem. Aprendemos que, em turco, para dizer "Eu gosto de pizza", dizemos "pizza severim", que traduzido literalmente seria "pizza gosto eu". Isso mostra que um modelo de linguagem tenta entender e gerar padrões humanos na linguagem, que evoluíram naturalmente ao longo dos milênios.
Atualmente, um modelo de linguagem tenta prever a próxima palavra de uma frase. Por exemplo, ao escrever "Eu gosto de pizza e também de...", ele tenta prever a próxima palavra. Para isso, utiliza um vasto conjunto de dados, como a internet inteira, livros, blogs e transcrições de vídeos. Esses dados são processados por uma rede neural artificial, uma estrutura de Deep Learning (aprendizado profundo), que simula o funcionamento do cérebro humano. A rede neural aprende as semelhanças semânticas e os padrões da língua.
Com base nesse treinamento, ao ver uma frase como "Eu gosto de pizza e também de...", o modelo considera o contexto anterior e atribui probabilidades a possíveis palavras. Por exemplo, a palavra "chocolate" pode ter uma probabilidade de 17%, "lasanha" 15% e "feijão" 4%. Palavras sem relação com o contexto, como "piscina", podem ter uma probabilidade de 0,02%. Palavras de outros idiomas, como "severim", podem aparecer com probabilidades ainda menores, como 0,0001%.
O modelo escolhe uma palavra para completar a frase, sempre tentando prever a próxima palavra que faz sentido. No nosso exemplo, a palavra "chocolate" poderia ser escolhida.
Quando falamos sobre completar frases, por exemplo, "eu gosto de pizza e também de chocolate", estamos nos referindo a um conceito semelhante ao autocomplete (autocompletar) do celular. Essa é a parte básica, mas há muitos detalhes por trás disso. No contexto da inteligência artificial, não falamos exatamente de palavras, mas de tokens, que são partes de palavras ou subpalavras.
Um exemplo disso é a palavra "infeliz". Durante o treinamento, ela pode ser aprendida como uma palavra completa, dependendo da frequência com que aparece no conjunto de dados. No entanto, para palavras menos recorrentes, pode ser dividida em subpalavras, ou tokens. Assim, "infeliz" pode ser separada em dois tokens: "in" e "feliz". Cada token é associado a um número identificador. Por exemplo, em um vocabulário de 50 mil palavras, o token "in" pode ser o número 376, e "feliz" pode ser o número 29.512. Os computadores entendem números, não palavras, então convertemos palavras em representações numéricas.
Outro exemplo é a palavra "indivisível", que utiliza o mesmo token "in" (número 376), enquanto "divisível" pode ser o token número 709. Da mesma forma, "compreensível" pode ser o token número 13.745. Assim, o modelo prevê não a próxima palavra, mas o próximo token.
Se tivermos uma frase como "eu estou feliz, mas a Maria está...", o modelo pode prever a probabilidade do token "triste" ser 40%, enquanto o token "in" pode ter um valor alto, como 36%. Assim, a frase "eu estou feliz, mas a Maria está infeliz" é construída prevendo um token de cada vez.
Essa é a ideia geral de como os modelos de linguagem funcionam. Atualmente, existem métodos que vão além de prever o próximo token ou palavra, fornecendo respostas completas. Durante o treinamento, o modelo é ensinado a responder perguntas ou pedidos, não apenas a completar frases.
Há também um modo mais recente chamado de reasoning (raciocínio), no qual o modelo pensa por algum tempo antes de gerar uma resposta. Ele cria internamente várias possibilidades de resposta, analisa tudo e gera um resumo para fornecer uma resposta final.
Por exemplo, se perguntarmos "qual é a capital da França?", ele responde rapidamente "Paris". Mas, se pedirmos algo mais complexo, como "calcule para mim a fórmula do π", ele explora a natureza do π internamente antes de responder. Embora não vejamos o processo de pensamento, o modelo gera uma resposta baseada em tudo que processou.
No próximo vídeo, começaremos a utilizar o Gemini em outras aplicações, especialmente na aplicação que será a base do curso, nosso projeto. Até mais!
O curso Gemini: domine o assistente de IA do Google possui 156 minutos de vídeos, em um total de 49 atividades. Gostou? Conheça nossos outros cursos de IA para Negócios em Inteligência Artificial, ou leia nossos artigos de Inteligência Artificial.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Matricule-se no plano PLUS e garanta:
Jornada de estudos progressiva que te guia desde os fundamentos até a atuação prática. Você acompanha sua evolução, entende os próximos passos e se aprofunda nos conteúdos com quem é referência no mercado.
Mobile, Programação, Front-end, DevOps, UX & Design, Marketing Digital, Data Science, Inovação & Gestão, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Para estudantes ultra comprometidos atingirem seu objetivo mais rápido.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria individual personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.