Olá! Meu nome é Mirla, sou instrutora da Alura, e irei acompanhar vocês ao longo deste curso.
Audiodescrição: Mirla é uma mulher de pele clara, com cabelos escuros e cacheados de tamanho médio. Ela usa óculos de grau com armação redonda e veste uma camisa verde escura.
Neste curso, vamos nos focar em apresentar, explorar e nos aprofundar em técnicas de seleção e agrupamento com pollers. Durante o curso, atuaremos como cientistas de dados em um Instituto de Pesquisa Ambiental no Brasil.
Para contribuir nas pesquisas e fornecer informações precisas, nós precisaremos utilizar diversas técnicas, como seleção, filtragem, agrupamento e pivoteamento. O Pollers oferece várias funcionalidades para isso.
É importante lembrar que, neste curso, não exploraremos manipulação, limpeza ou análise de dados. Recomendamos que se tenha um conhecimento sólido em Python e uma introdução ao Pollers antes de realizar este curso.
Vamos começar!
Vamos começar a trabalhar com os dados de emissão de gases de efeito estufa no Brasil utilizando a biblioteca Polars no Python. A biblioteca Polars é conhecida por sua eficiência na manipulação de grandes conjuntos de dados, o que será essencial para nossa análise.
Primeiro, precisamos importar a biblioteca Polars e carregar os dados em um dataframe. Vamos fazer isso com o seguinte código:
import polars as pl
# Carregar os dados do CSV em um dataframe
df = pl.read_csv('caminho/para/seus/dados/emissões de gases de efeito estufa no Brasil, traço uf.csv')
Certifique-se de substituir 'caminho/para/seus/dados/emissões de gases de efeito estufa no Brasil, traço uf.csv'
pelo caminho correto onde seus dados estão armazenados. Após executar essa célula, o Polars irá carregar os dados no dataframe df
.
Agora que temos os dados carregados, podemos verificar a estrutura do nosso dataframe para entender quantas linhas e colunas ele possui. Para isso, utilizamos o método shape
:
# Verificar a estrutura do dataframe
df.shape
Ao executar essa célula, você verá que temos um pouco mais de 2 milhões de linhas e cerca de 12 colunas, confirmando que estamos lidando com um conjunto de dados bastante grande.
Para visualizar uma amostra dos dados, podemos usar o método head
, que nos mostra as primeiras cinco linhas do dataframe:
# Visualizar as primeiras cinco linhas do dataframe
df.head()
Com isso, podemos observar as colunas disponíveis, como o ano, a sigla do estado, características das emissões, e os valores de emissão.
Para entender melhor as variáveis numéricas, como o ano e a emissão, podemos usar a função describe
para obter estatísticas descritivas:
# Selecionar colunas específicas e obter estatísticas descritivas
df.select(['ano', 'emissão']).describe()
Essa função nos fornece informações como o valor mínimo, máximo, média e desvio padrão das colunas selecionadas. Observamos, por exemplo, que há valores negativos na coluna de emissões, indicando remoções de gases.
Por fim, para organizar nossos dados de forma temporal, podemos ordenar o dataframe pela coluna 'ano':
# Ordenar o dataframe pela coluna 'ano'
df = df.sort('ano')
Após executar essa célula, nossos dados estarão organizados cronologicamente de 1970 até 2019, facilitando análises futuras.
Com esses passos, nossos dados estão prontos e organizados para que possamos prosseguir com a análise e ajudar na pesquisa sobre gases de efeito estufa. No próximo vídeo, exploraremos como podemos contribuir ainda mais para essa pesquisa.
Com o nosso dataframe preparado, podemos seguir para conhecer qual é a primeira contribuição que podemos fazer para a pesquisa sobre os efeitos dos gases de efeito estufa no Brasil. Vamos voltar para o nosso dataframe, pois, dentro do nosso notebook, já deixamos um texto que contextualiza o pedido feito pela equipe de pesquisa quanto aos gases de efeito estufa. Vamos conhecer juntos qual é a situação e o problema que vamos ajudar a resolver.
Nossa equipe precisa identificar dados de remoção ou compensação de gases de efeito estufa no Brasil entre os anos de 2014 e 2019. Essas informações podem ser úteis para avaliar se, além das emissões ativas, existem iniciativas ou processos naturais significativos que estejam reduzindo ou compensando as emissões de CO2 e outros gases nocivos nesse período. Historicamente, alguns setores ou regiões podem apresentar números expressivos de remoção, como áreas que sofrem reflorestamento ou grandes reservas naturais que absorvem carbono. A análise pode ajudar os tomadores de decisão a entender se as remoções ou compensações estão crescendo ou diminuindo ao longo dos anos.
Temos também uma fonte, caso desejem saber mais sobre essa questão. Agora, conseguimos entender qual é a nossa missão. A partir dessa leitura, fica claro que precisamos de dados relacionados à remoção ou compensação de gases de efeito estufa. Precisamos fornecer um arquivo que contenha somente valores de remoção de gases de efeito estufa entre os anos de 2014 e 2019. Vamos construir esse arquivo para disponibilizá-lo.
Para acessar esses dados de remoção ou compensação, podemos fazer um filtro dentro do nosso dataframe, excluindo todos os dados que seriam de emissão de gases de efeito estufa. Vamos fazer isso. Para isso, utilizaremos o método df.filter
, que realizará a filtragem a partir de uma condição que especificarmos. Vamos abrir e fechar parênteses, e dentro deles, definiremos a condição.
Temos uma coluna chamada tipo_emissão
, que contém várias categorias, como emissão, remoção, e outro tipo de remoção. Vamos fazer a filtragem de todos os dados que não são valores de emissão. Para isso, colocamos df
, abrimos colchetes, aspas simples, e digitamos tipo_emissão
. Cada valor dessa coluna, com exceção dos valores de emissão, será removido. O símbolo de diferente é uma exclamação seguida de um igual. Então, digitamos emissão
, lembrando que pode haver um til, e assim executamos a filtragem.
# Filtrando dados que não são de emissão
df_filtered = df[df['tipo_emissão'] != 'emissão']
Vamos executar para verificar se a filtragem ocorre corretamente. Observaremos que, na coluna tipo_emissão
, teremos apenas remoção proxy e remoção. Não haverá nenhum valor de emissão, filtrando assim nossos dados. No entanto, isso não é suficiente, pois temos dados desde 1970, e o estudo é apenas para o período entre 2014 e 2019.
Precisamos pensar em um outro filtro, que é um filtro de anos. Para fazer esse filtro, podemos utilizar a função isBetween
dentro do filtro, como uma outra condição. Vamos colocar, então, df.filter
e abrir aspas simples, pois vamos buscar saber como fazer o filtro dos anos de 2014 até 2019. Vamos colocar df
, abrir colchetes e selecionar a coluna ano
. Fora dos colchetes, colocamos um ponto e a função isUnderlineBetween
. Abrimos e fechamos parênteses. O que acontece? Tudo o que estiver dentro da faixa especificada por essa função será selecionado. Fora dessa faixa, não será selecionado. Nossa faixa é de 2014 a 2019. Executamos com shift enter para ver o nosso filtro. Temos o ano de 2019 e, nas colunas acima, o ano de 2014. Todos os dados dentro dessa faixa foram selecionados.
# Filtrando dados entre os anos de 2014 e 2019
df_filtered = df_filtered[(df_filtered['ano'] >= 2014) & (df_filtered['ano'] <= 2019)]
Como o objetivo é juntar esses dois filtros, podemos construir um dataframe que tenha os dois filtros, tanto do ano quanto do tipo de emissão, juntos, e disponibilizar esse dataframe como um arquivo para a equipe que está fazendo a pesquisa. Vamos lá? Abaixo, na visualização do nosso notebook, digitamos remoção_gases
, que será o nome do dataframe que receberá o dataframe filtrado. Colocamos df.filter
, abrimos e fechamos os parênteses, e dentro dos parênteses colocamos o nosso primeiro filtro, que seria o filtro de emissão, excluindo as informações relacionadas a valores de emissão. Então, df
, abrimos os colchetes, aspas simples, tipo_emissão
, e nossa exclamação igual à espécie simples emissão. Colocamos uma vírgula, pois vamos considerar essa primeira condicional e a segunda, as duas juntas. Outra forma seria usar um e comercial (&), simbolizando que são as duas condições que devem ser consideradas. Mas, para facilitar, colocamos apenas uma vírgula. A outra condição dentro da filtragem é que df[colchetes]ano
deve estar is_underline_between
entre parênteses, 2014, 2019.
# Combinando os filtros de tipo de emissão e ano
remoção_gases = df[(df['tipo_emissão'] != 'emissão') & (df['ano'].between(2014, 2019))]
Colocamos, então, remoção_gases
e fazemos esse filtro. Agora, temos dados de 2014 até 2019, todos relacionados à remoção, nenhum relacionado à emissão. Observamos que ficaram 38 mil linhas de 2 milhões, então podemos fornecer esses dados em um arquivo CSV. Para isso, utilizamos o método to_csv
, que cria um arquivo CSV. Colocamos o nosso dataframe que acabamos de criar, remoção_gases
, colocamos um ponto e digitamos to_csv
. Entre parênteses, especificamos o nome desse arquivo. Abrimos aspas simples e digitamos GEE_gases_de_efeito_estufa_Brasil_valores_de_remoção.csv
. Executando essa célula, conseguimos observar na barra lateral esquerda, na parte de arquivos, o arquivo criado. Podemos, por exemplo, clicar nos três pontinhos e fazer o download desse arquivo, disponibilizando-o para a equipe de pesquisa realizar sua consulta.
# Exportando o dataframe filtrado para um arquivo CSV
remoção_gases.to_csv('GEE_gases_de_efeito_estufa_Brasil_valores_de_remoção.csv', index=False)
Com isso, conseguimos construir nosso primeiro suporte à pesquisa. A seguir, vamos conhecer outro suporte que também é necessário à nossa ajuda.
O curso Polars: explorando seleção e agrupamentos possui 148 minutos de vídeos, em um total de 49 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
Impulsione a sua carreira com os melhores cursos e faça parte da maior comunidade tech.
1 ano de Alura
Assine o PLUS (1 ANO) e garanta:
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
No Discord, você tem acesso a eventos exclusivos, grupos de estudos e mentorias com especialistas de diferentes áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Acelere o seu aprendizado com a IA da Alura e prepare-se para o mercado internacional.
1 ano de Alura
Todos os benefícios do PLUS (1 ANO) e mais vantagens exclusivas:
Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos, corrige exercícios e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com a Luri até 100 mensagens por semana.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Transforme a sua jornada com benefícios exclusivos e evolua ainda mais na sua carreira.
1 ano de Alura
Todos os benefícios do PRO (1 ANO) e mais vantagens exclusivas:
Mensagens ilimitadas para estudar com a Luri, a IA da Alura, disponível 24hs para tirar suas dúvidas, dar exemplos práticos, corrigir exercícios e impulsionar seus estudos.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Brinde aniversário Alura
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Enquanto durarem os estoques