Alura > Cursos de Data Science > Cursos de Excel > Conteúdos de Excel > Primeiras aulas do curso Excel: manipulação avançada de dados e automação com IA

Excel: manipulação avançada de dados e automação com IA

Pequenas limpezas e transformações de dados do dia a dia - Apresentação

Apresentando o curso de limpeza e transformação de dados com Excel

Sejam muito bem-vindos ao nosso curso de limpeza e transformação de dados com Excel. Este curso tem como objetivo proporcionar um panorama geral dos conceitos de análise de dados, além de ensinar recursos do Excel. Será uma experiência enriquecedora, na qual exploraremos diversos tópicos interessantes.

Audiodescrição: O instrutor é um homem de pele clara, com cabelo e barba escuros, possivelmente já um pouco grisalhos. Ele está em um ambiente com uma parede azul ao fundo.

Iniciando o curso e abordando ferramentas do Excel

Vamos iniciar nosso curso, no qual abordaremos diversas situações em que é necessário realizar limpeza e transformação de dados. Aprenderemos várias ferramentas do Excel que podem nos auxiliar em cada uma dessas situações.

Em casos mais simples, podemos utilizar diretamente um recurso do Excel. Já em situações mais complexas, será necessário combinar dois ou três recursos e funções, chegando até o uso de VBA com Inteligência Artificial.

Explorando o potencial do Excel e estrutura do curso

Exploraremos bastante o potencial do Excel neste curso, que está estruturado de forma progressiva. Portanto, podemos ficar tranquilos, pois começaremos do básico, mas avançaremos significativamente ao longo do curso.

Estamos ansiosos para começar a limpeza e transformação de dados com Excel.

Pequenas limpezas e transformações de dados do dia a dia - Remover Duplicadas - Configurações de Uso

Introduzindo o departamento de análise de dados

Vamos iniciar nosso trabalho no Departamento de Análise de Dados da Meteora E-Commerce. Este departamento atua de forma consultiva, oferecendo suporte a todas as áreas que necessitam de auxílio com análise de dados. Isso nos proporciona uma variedade de desafios, exigindo abordagens distintas. Alguns desafios são mais simples, podendo ser resolvidos rapidamente com o Excel, enquanto outros demandam recursos mais avançados, o que nos permitirá aprender bastante sobre o uso do Excel.

Enfrentando o desafio do RH

O primeiro desafio que enfrentamos vem do departamento de RH, que está realizando uma POC (prova de conceito). A POC visa verificar a viabilidade de extrair e manipular dados provenientes do ERP utilizado para o controle de RH, com o objetivo de realizar algumas operações específicas em um controle separado. A POC serve para determinar se é possível realizar a extração e manipulação desejadas, se as informações necessárias estão disponíveis, entre outros aspectos.

No entanto, eles encontraram um problema: os dados extraídos estão duplicados. Isso ocorre porque os dados vêm com duas matrículas, uma com o ID no início e outra apenas com o número de matrícula. Provavelmente, isso está relacionado à forma como os dados são armazenados no banco de dados. Nossa tarefa é ajudar a remover essas duplicatas.

Utilizando o Excel para remover duplicatas

O Excel possui uma função para remover duplicatas, localizada na guia "Dados". Ao selecionar essa guia, encontramos o botão "Remover Duplicatas". Contudo, às vezes, parece que essa função não funciona como esperado. Vamos explicar o motivo disso. Podemos selecionar os nomes e optar por remover duplicatas, mas é importante entender como essa função opera para garantir que ela funcione corretamente.

Quando utilizamos o Excel, ele pode nos perguntar se desejamos expandir a seleção ao detectar dados ao redor. Normalmente, devemos aceitar essa sugestão. Após expandir a seleção, podemos remover duplicatas. Nesse processo, o Excel perguntará quais colunas contêm duplicatas. Devemos deixar todas as colunas selecionadas e confirmar, mas, se nada acontecer, é necessário ter cuidado.

Ajustando a seleção de colunas no Excel

Ao remover duplicatas, as colunas selecionadas são aquelas que o Excel considerará para verificar se deve ou não remover duplicatas. Ele analisará todas as colunas juntas. Se todas estiverem selecionadas, o Excel verificará se os dados em cada linha são duplicados em todas as colunas. Por exemplo, se tivermos os registros "ID 8432, Ana Beatriz Souza" duas vezes, o Excel os considerará como registros diferentes, pois está analisando todas as colunas.

Portanto, após expandir a seleção, devemos retirar a coluna A da análise e considerar apenas as colunas B e C. As colunas D, E e F, se estiverem vazias, não farão diferença e podem ser desconsideradas. Ao deixar apenas as colunas B e C, o Excel removerá as duplicatas corretamente. Assim, ele retirará as duplicatas conforme desejado, mantendo todos os IDs, mas sem aplicar um critério inteligente, apenas removendo as duplicatas que estavam abaixo.

Considerando melhorias no processo de dados

Esse processo de remover duplicatas pode ser muito útil no dia a dia, resolvendo muitos problemas. No entanto, devemos questionar se devemos ter campos multivalorados, como aqueles que contêm cargo e lotação. Talvez a lotação devesse estar separada. Essa questão será abordada no próximo vídeo.

Pequenas limpezas e transformações de dados do dia a dia - Preenchimento Relâmpago

Explorando o preenchimento relâmpago para extração de nomes

Vamos agora explorar como o preenchimento relâmpago pode nos auxiliar no dia a dia. Temos uma lista com nomes completos e desejamos extrair apenas o primeiro nome. Embora estejamos lidando com uma lista pequena, o mesmo procedimento pode ser aplicado a listas extensas.

Um ponto a considerar é a presença de nomes compostos, como Ana Beatriz e João Pedro, em contraste com nomes simples, como Carlos. Além disso, há casos como Fernanda Lima, onde podemos questionar se "Lima" é um sobrenome ou parte de um nome composto. Isso pode gerar complicações, mas, em muitos casos, é possível realizar a extração desejada.

Utilizando o preenchimento automático para nomes compostos

Se quisermos apenas o primeiro nome, teríamos Ana, Carlos e João. Ao começar a digitar "João", o sistema já entende a lógica e sugere o preenchimento automático, o que é útil para listas grandes. Com um simples "Enter", o problema é resolvido, e podemos aceitar as sugestões.

Agora, suponhamos que comecemos com Ana Beatriz, um nome composto. Ao atender a esse padrão, o sistema também reconhece que estamos extraindo o último nome, como no caso de Carlos. Isso dependerá do que desejamos, por exemplo, se João Pedro é considerado um nome composto ou se "Lima" em Fernanda Lima é um sobrenome. O Excel, utilizando uma espécie de inteligência artificial, identifica padrões e sugere preenchimentos.

Separando campos multivalorados

Além disso, temos campos multivalorados, onde cargo e lotação estão juntos. Isso não é ideal, pois são duas informações distintas no mesmo campo. Podemos separar, por exemplo, a lotação, como São Paulo ou Rio, e o sistema já consegue extrair essas informações. Se preferirmos não deixar o sistema extrair automaticamente, podemos digitar até o final. Nesse caso, o sistema entende que não desejamos o preenchimento automático. Podemos então selecionar e clicar no botão de preenchimento relâmpago para completar o intervalo.

Podemos também criar uma coluna para o cargo, extraindo apenas essa informação. Ao começar a digitar "analista", o sistema entende que queremos apenas a primeira palavra, mas podemos especificar "analista financeiro" ou "gerente de vendas". Embora possa ser mais complicado, o preenchimento relâmpago consegue extrair os dados corretamente, permitindo que eliminemos colunas desnecessárias.

Criando e-mails corporativos com preenchimento relâmpago

O preenchimento relâmpago pode ser uma ferramenta muito útil no dia a dia, permitindo extrair informações de forma mais rápida do que o habitual. Além de extrair, é possível criar algo novo. Por exemplo, ao tentar criar e-mails corporativos, podemos supor que o e-mail da Beatriz seja ana.beatriz@empresa.com.br e o do Carlos seja carlos@empresa.com.br. Se tivermos apenas duas opções, pode ser difícil para o Excel identificar o padrão.

A dúvida surge quando tentamos perceber o padrão. Observamos que há três letras em comum, o que é interessante para nós, como analistas de dados. O Excel pode ter identificado que Ana Beatriz tem três letras do cargo e o segundo nome. No entanto, Carlos não se encaixa nesse padrão, pois possui apenas um nome, tornando-se um elemento confundidor.

Lidando com elementos confundidores no preenchimento

Para ajudar o Excel, podemos escrever Ana.Beatriz@empresa.com.br e Carlos@empresa.com.br. Adicionamos mais uma informação, como João.Pedro@empresa.com.br, mas João também é um elemento confundidor, pois seu e-mail provavelmente não possui acentos. Tentamos o preenchimento relâmpago, mas ele não funcionou devido aos elementos confundidores.

Uma alternativa é colocar as informações próximas umas das outras para facilitar a extração. Tentamos novamente com Ana.Beatriz@empresa.com.br, Carlos@empresa.com.br e João.Pedro@empresa.com.br, mas ainda assim não obtivemos sucesso. Se selecionarmos tudo, o Excel nem permite o preenchimento relâmpago.

Explorando alternativas para preenchimento complexo

Nesse caso, podemos tentar fornecer mais informações. Se tivermos uma lista com 700 nomes, escrever quatro ou cinco não é um problema. Com o tempo, o Excel começará a entender o padrão e, eventualmente, conseguirá extrair as informações corretamente. No entanto, esse é um preenchimento mais complexo, com um padrão difícil de identificar.

Talvez existam outras formas de realizar essa tarefa no Excel. Algumas vezes, o preenchimento relâmpago funcionará, mas em outras, precisaremos de métodos diferentes. No próximo vídeo, exploraremos maneiras de transformar os dados e verificar se há um método simples para isso.

Sobre o curso Excel: manipulação avançada de dados e automação com IA

O curso Excel: manipulação avançada de dados e automação com IA possui 264 minutos de vídeos, em um total de 89 atividades. Gostou? Conheça nossos outros cursos de Excel em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Escolha a duração do seu plano e aproveite até 44% OFF

Conheça os Planos para Empresas