Sejam muito bem-vindos ao nosso curso de limpeza e transformação de dados com Excel. Este curso tem como objetivo proporcionar um panorama geral dos conceitos de análise de dados, além de ensinar recursos do Excel. Será uma experiência enriquecedora, na qual exploraremos diversos tópicos interessantes.
Audiodescrição: O instrutor é um homem de pele clara, com cabelo e barba escuros, possivelmente já um pouco grisalhos. Ele está em um ambiente com uma parede azul ao fundo.
Vamos iniciar nosso curso, no qual abordaremos diversas situações em que é necessário realizar limpeza e transformação de dados. Aprenderemos várias ferramentas do Excel que podem nos auxiliar em cada uma dessas situações.
Em casos mais simples, podemos utilizar diretamente um recurso do Excel. Já em situações mais complexas, será necessário combinar dois ou três recursos e funções, chegando até o uso de VBA com Inteligência Artificial.
Exploraremos bastante o potencial do Excel neste curso, que está estruturado de forma progressiva. Portanto, podemos ficar tranquilos, pois começaremos do básico, mas avançaremos significativamente ao longo do curso.
Estamos ansiosos para começar a limpeza e transformação de dados com Excel.
Vamos iniciar nosso trabalho no Departamento de Análise de Dados da Meteora E-Commerce. Este departamento atua de forma consultiva, oferecendo suporte a todas as áreas que necessitam de auxílio com análise de dados. Isso nos proporciona uma variedade de desafios, exigindo abordagens distintas. Alguns desafios são mais simples, podendo ser resolvidos rapidamente com o Excel, enquanto outros demandam recursos mais avançados, o que nos permitirá aprender bastante sobre o uso do Excel.
O primeiro desafio que enfrentamos vem do departamento de RH, que está realizando uma POC (prova de conceito). A POC visa verificar a viabilidade de extrair e manipular dados provenientes do ERP utilizado para o controle de RH, com o objetivo de realizar algumas operações específicas em um controle separado. A POC serve para determinar se é possível realizar a extração e manipulação desejadas, se as informações necessárias estão disponíveis, entre outros aspectos.
No entanto, eles encontraram um problema: os dados extraídos estão duplicados. Isso ocorre porque os dados vêm com duas matrículas, uma com o ID no início e outra apenas com o número de matrícula. Provavelmente, isso está relacionado à forma como os dados são armazenados no banco de dados. Nossa tarefa é ajudar a remover essas duplicatas.
O Excel possui uma função para remover duplicatas, localizada na guia "Dados". Ao selecionar essa guia, encontramos o botão "Remover Duplicatas". Contudo, às vezes, parece que essa função não funciona como esperado. Vamos explicar o motivo disso. Podemos selecionar os nomes e optar por remover duplicatas, mas é importante entender como essa função opera para garantir que ela funcione corretamente.
Quando utilizamos o Excel, ele pode nos perguntar se desejamos expandir a seleção ao detectar dados ao redor. Normalmente, devemos aceitar essa sugestão. Após expandir a seleção, podemos remover duplicatas. Nesse processo, o Excel perguntará quais colunas contêm duplicatas. Devemos deixar todas as colunas selecionadas e confirmar, mas, se nada acontecer, é necessário ter cuidado.
Ao remover duplicatas, as colunas selecionadas são aquelas que o Excel considerará para verificar se deve ou não remover duplicatas. Ele analisará todas as colunas juntas. Se todas estiverem selecionadas, o Excel verificará se os dados em cada linha são duplicados em todas as colunas. Por exemplo, se tivermos os registros "ID 8432, Ana Beatriz Souza" duas vezes, o Excel os considerará como registros diferentes, pois está analisando todas as colunas.
Portanto, após expandir a seleção, devemos retirar a coluna A da análise e considerar apenas as colunas B e C. As colunas D, E e F, se estiverem vazias, não farão diferença e podem ser desconsideradas. Ao deixar apenas as colunas B e C, o Excel removerá as duplicatas corretamente. Assim, ele retirará as duplicatas conforme desejado, mantendo todos os IDs, mas sem aplicar um critério inteligente, apenas removendo as duplicatas que estavam abaixo.
Esse processo de remover duplicatas pode ser muito útil no dia a dia, resolvendo muitos problemas. No entanto, devemos questionar se devemos ter campos multivalorados, como aqueles que contêm cargo e lotação. Talvez a lotação devesse estar separada. Essa questão será abordada no próximo vídeo.
Vamos agora explorar como o preenchimento relâmpago pode nos auxiliar no dia a dia. Temos uma lista com nomes completos e desejamos extrair apenas o primeiro nome. Embora estejamos lidando com uma lista pequena, o mesmo procedimento pode ser aplicado a listas extensas.
Um ponto a considerar é a presença de nomes compostos, como Ana Beatriz e João Pedro, em contraste com nomes simples, como Carlos. Além disso, há casos como Fernanda Lima, onde podemos questionar se "Lima" é um sobrenome ou parte de um nome composto. Isso pode gerar complicações, mas, em muitos casos, é possível realizar a extração desejada.
Se quisermos apenas o primeiro nome, teríamos Ana, Carlos e João. Ao começar a digitar "João", o sistema já entende a lógica e sugere o preenchimento automático, o que é útil para listas grandes. Com um simples "Enter", o problema é resolvido, e podemos aceitar as sugestões.
Agora, suponhamos que comecemos com Ana Beatriz, um nome composto. Ao atender a esse padrão, o sistema também reconhece que estamos extraindo o último nome, como no caso de Carlos. Isso dependerá do que desejamos, por exemplo, se João Pedro é considerado um nome composto ou se "Lima" em Fernanda Lima é um sobrenome. O Excel, utilizando uma espécie de inteligência artificial, identifica padrões e sugere preenchimentos.
Além disso, temos campos multivalorados, onde cargo e lotação estão juntos. Isso não é ideal, pois são duas informações distintas no mesmo campo. Podemos separar, por exemplo, a lotação, como São Paulo ou Rio, e o sistema já consegue extrair essas informações. Se preferirmos não deixar o sistema extrair automaticamente, podemos digitar até o final. Nesse caso, o sistema entende que não desejamos o preenchimento automático. Podemos então selecionar e clicar no botão de preenchimento relâmpago para completar o intervalo.
Podemos também criar uma coluna para o cargo, extraindo apenas essa informação. Ao começar a digitar "analista", o sistema entende que queremos apenas a primeira palavra, mas podemos especificar "analista financeiro" ou "gerente de vendas". Embora possa ser mais complicado, o preenchimento relâmpago consegue extrair os dados corretamente, permitindo que eliminemos colunas desnecessárias.
O preenchimento relâmpago pode ser uma ferramenta muito útil no dia a dia, permitindo extrair informações de forma mais rápida do que o habitual. Além de extrair, é possível criar algo novo. Por exemplo, ao tentar criar e-mails corporativos, podemos supor que o e-mail da Beatriz seja ana.beatriz@empresa.com.br
e o do Carlos seja carlos@empresa.com.br
. Se tivermos apenas duas opções, pode ser difícil para o Excel identificar o padrão.
A dúvida surge quando tentamos perceber o padrão. Observamos que há três letras em comum, o que é interessante para nós, como analistas de dados. O Excel pode ter identificado que Ana Beatriz tem três letras do cargo e o segundo nome. No entanto, Carlos não se encaixa nesse padrão, pois possui apenas um nome, tornando-se um elemento confundidor.
Para ajudar o Excel, podemos escrever Ana.Beatriz@empresa.com.br
e Carlos@empresa.com.br
. Adicionamos mais uma informação, como João.Pedro@empresa.com.br
, mas João também é um elemento confundidor, pois seu e-mail provavelmente não possui acentos. Tentamos o preenchimento relâmpago, mas ele não funcionou devido aos elementos confundidores.
Uma alternativa é colocar as informações próximas umas das outras para facilitar a extração. Tentamos novamente com Ana.Beatriz@empresa.com.br
, Carlos@empresa.com.br
e João.Pedro@empresa.com.br
, mas ainda assim não obtivemos sucesso. Se selecionarmos tudo, o Excel nem permite o preenchimento relâmpago.
Nesse caso, podemos tentar fornecer mais informações. Se tivermos uma lista com 700 nomes, escrever quatro ou cinco não é um problema. Com o tempo, o Excel começará a entender o padrão e, eventualmente, conseguirá extrair as informações corretamente. No entanto, esse é um preenchimento mais complexo, com um padrão difícil de identificar.
Talvez existam outras formas de realizar essa tarefa no Excel. Algumas vezes, o preenchimento relâmpago funcionará, mas em outras, precisaremos de métodos diferentes. No próximo vídeo, exploraremos maneiras de transformar os dados e verificar se há um método simples para isso.
O curso Excel: manipulação avançada de dados e automação com IA possui 264 minutos de vídeos, em um total de 89 atividades. Gostou? Conheça nossos outros cursos de Excel em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Matricule-se no plano PLUS e garanta:
Mobile, Programação, Front-end, DevOps, UX & Design, Marketing Digital, Data Science, Inovação & Gestão, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Para estudantes ultra comprometidos atingirem seu objetivo mais rápido.
1 ano de Alura
Todos os benefícios do PRO e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.