Polars: explorando seleção e agrupamentos

Iniciando as seleções de dados - Apresentação

Apresentação da Instrutora

Olá! Meu nome é Mirla, sou instrutora da Alura, e irei acompanhar vocês ao longo deste curso.

Audiodescrição: Mirla é uma mulher de pele clara, com cabelos escuros e cacheados de tamanho médio. Ela usa óculos de grau com armação redonda e veste uma camisa verde escura.

Objetivo do Curso

Neste curso, vamos nos focar em apresentar, explorar e nos aprofundar em técnicas de seleção e agrupamento com pollers. Durante o curso, atuaremos como cientistas de dados em um Instituto de Pesquisa Ambiental no Brasil.

Técnicas e Ferramentas Utilizadas

Para contribuir nas pesquisas e fornecer informações precisas, nós precisaremos utilizar diversas técnicas, como seleção, filtragem, agrupamento e pivoteamento. O Pollers oferece várias funcionalidades para isso.

Pré-requisitos e Considerações

É importante lembrar que, neste curso, não exploraremos manipulação, limpeza ou análise de dados. Recomendamos que se tenha um conhecimento sólido em Python e uma introdução ao Pollers antes de realizar este curso.

Início do Curso

Vamos começar!

Iniciando as seleções de dados - Conhecendo os dados GEE

Introdução à Análise de Dados de Emissão de Gases

Vamos começar a trabalhar com os dados de emissão de gases de efeito estufa no Brasil utilizando a biblioteca Polars no Python. A biblioteca Polars é conhecida por sua eficiência na manipulação de grandes conjuntos de dados, o que será essencial para nossa análise.

Importação e Carregamento de Dados

Primeiro, precisamos importar a biblioteca Polars e carregar os dados em um dataframe. Vamos fazer isso com o seguinte código:

import polars as pl

# Carregar os dados do CSV em um dataframe
df = pl.read_csv('caminho/para/seus/dados/emissões de gases de efeito estufa no Brasil, traço uf.csv')

Certifique-se de substituir 'caminho/para/seus/dados/emissões de gases de efeito estufa no Brasil, traço uf.csv' pelo caminho correto onde seus dados estão armazenados. Após executar essa célula, o Polars irá carregar os dados no dataframe df.

Verificação da Estrutura do Dataframe

Agora que temos os dados carregados, podemos verificar a estrutura do nosso dataframe para entender quantas linhas e colunas ele possui. Para isso, utilizamos o método shape:

# Verificar a estrutura do dataframe
df.shape

Ao executar essa célula, você verá que temos um pouco mais de 2 milhões de linhas e cerca de 12 colunas, confirmando que estamos lidando com um conjunto de dados bastante grande.

Visualização de Amostra de Dados

Para visualizar uma amostra dos dados, podemos usar o método head, que nos mostra as primeiras cinco linhas do dataframe:

# Visualizar as primeiras cinco linhas do dataframe
df.head()

Com isso, podemos observar as colunas disponíveis, como o ano, a sigla do estado, características das emissões, e os valores de emissão.

Análise Estatística Descritiva

Para entender melhor as variáveis numéricas, como o ano e a emissão, podemos usar a função describe para obter estatísticas descritivas:

# Selecionar colunas específicas e obter estatísticas descritivas
df.select(['ano', 'emissão']).describe()

Essa função nos fornece informações como o valor mínimo, máximo, média e desvio padrão das colunas selecionadas. Observamos, por exemplo, que há valores negativos na coluna de emissões, indicando remoções de gases.

Organização Temporal dos Dados

Por fim, para organizar nossos dados de forma temporal, podemos ordenar o dataframe pela coluna 'ano':

# Ordenar o dataframe pela coluna 'ano'
df = df.sort('ano')

Após executar essa célula, nossos dados estarão organizados cronologicamente de 1970 até 2019, facilitando análises futuras.

Preparação para Análise Futura

Com esses passos, nossos dados estão prontos e organizados para que possamos prosseguir com a análise e ajudar na pesquisa sobre gases de efeito estufa. No próximo vídeo, exploraremos como podemos contribuir ainda mais para essa pesquisa.

Iniciando as seleções de dados - Selecionando dados de remoção de GEE

Introdução à Pesquisa sobre Gases de Efeito Estufa

Com o nosso dataframe preparado, podemos seguir para conhecer qual é a primeira contribuição que podemos fazer para a pesquisa sobre os efeitos dos gases de efeito estufa no Brasil. Vamos voltar para o nosso dataframe, pois, dentro do nosso notebook, já deixamos um texto que contextualiza o pedido feito pela equipe de pesquisa quanto aos gases de efeito estufa. Vamos conhecer juntos qual é a situação e o problema que vamos ajudar a resolver.

Identificação de Dados de Remoção ou Compensação

Nossa equipe precisa identificar dados de remoção ou compensação de gases de efeito estufa no Brasil entre os anos de 2014 e 2019. Essas informações podem ser úteis para avaliar se, além das emissões ativas, existem iniciativas ou processos naturais significativos que estejam reduzindo ou compensando as emissões de CO2 e outros gases nocivos nesse período. Historicamente, alguns setores ou regiões podem apresentar números expressivos de remoção, como áreas que sofrem reflorestamento ou grandes reservas naturais que absorvem carbono. A análise pode ajudar os tomadores de decisão a entender se as remoções ou compensações estão crescendo ou diminuindo ao longo dos anos.

Construção do Arquivo de Dados Filtrados

Temos também uma fonte, caso desejem saber mais sobre essa questão. Agora, conseguimos entender qual é a nossa missão. A partir dessa leitura, fica claro que precisamos de dados relacionados à remoção ou compensação de gases de efeito estufa. Precisamos fornecer um arquivo que contenha somente valores de remoção de gases de efeito estufa entre os anos de 2014 e 2019. Vamos construir esse arquivo para disponibilizá-lo.

Filtragem de Dados de Remoção

Para acessar esses dados de remoção ou compensação, podemos fazer um filtro dentro do nosso dataframe, excluindo todos os dados que seriam de emissão de gases de efeito estufa. Vamos fazer isso. Para isso, utilizaremos o método df.filter, que realizará a filtragem a partir de uma condição que especificarmos. Vamos abrir e fechar parênteses, e dentro deles, definiremos a condição.

Temos uma coluna chamada tipo_emissão, que contém várias categorias, como emissão, remoção, e outro tipo de remoção. Vamos fazer a filtragem de todos os dados que não são valores de emissão. Para isso, colocamos df, abrimos colchetes, aspas simples, e digitamos tipo_emissão. Cada valor dessa coluna, com exceção dos valores de emissão, será removido. O símbolo de diferente é uma exclamação seguida de um igual. Então, digitamos emissão, lembrando que pode haver um til, e assim executamos a filtragem.

# Filtrando dados que não são de emissão
df_filtered = df[df['tipo_emissão'] != 'emissão']

Filtragem por Período de Anos

Vamos executar para verificar se a filtragem ocorre corretamente. Observaremos que, na coluna tipo_emissão, teremos apenas remoção proxy e remoção. Não haverá nenhum valor de emissão, filtrando assim nossos dados. No entanto, isso não é suficiente, pois temos dados desde 1970, e o estudo é apenas para o período entre 2014 e 2019.

Precisamos pensar em um outro filtro, que é um filtro de anos. Para fazer esse filtro, podemos utilizar a função isBetween dentro do filtro, como uma outra condição. Vamos colocar, então, df.filter e abrir aspas simples, pois vamos buscar saber como fazer o filtro dos anos de 2014 até 2019. Vamos colocar df, abrir colchetes e selecionar a coluna ano. Fora dos colchetes, colocamos um ponto e a função isUnderlineBetween. Abrimos e fechamos parênteses. O que acontece? Tudo o que estiver dentro da faixa especificada por essa função será selecionado. Fora dessa faixa, não será selecionado. Nossa faixa é de 2014 a 2019. Executamos com shift enter para ver o nosso filtro. Temos o ano de 2019 e, nas colunas acima, o ano de 2014. Todos os dados dentro dessa faixa foram selecionados.

# Filtrando dados entre os anos de 2014 e 2019
df_filtered = df_filtered[(df_filtered['ano'] >= 2014) & (df_filtered['ano'] <= 2019)]

Combinação de Filtros e Exportação de Dados

Como o objetivo é juntar esses dois filtros, podemos construir um dataframe que tenha os dois filtros, tanto do ano quanto do tipo de emissão, juntos, e disponibilizar esse dataframe como um arquivo para a equipe que está fazendo a pesquisa. Vamos lá? Abaixo, na visualização do nosso notebook, digitamos remoção_gases, que será o nome do dataframe que receberá o dataframe filtrado. Colocamos df.filter, abrimos e fechamos os parênteses, e dentro dos parênteses colocamos o nosso primeiro filtro, que seria o filtro de emissão, excluindo as informações relacionadas a valores de emissão. Então, df, abrimos os colchetes, aspas simples, tipo_emissão, e nossa exclamação igual à espécie simples emissão. Colocamos uma vírgula, pois vamos considerar essa primeira condicional e a segunda, as duas juntas. Outra forma seria usar um e comercial (&), simbolizando que são as duas condições que devem ser consideradas. Mas, para facilitar, colocamos apenas uma vírgula. A outra condição dentro da filtragem é que df[colchetes]ano deve estar is_underline_between entre parênteses, 2014, 2019.

# Combinando os filtros de tipo de emissão e ano
remoção_gases = df[(df['tipo_emissão'] != 'emissão') & (df['ano'].between(2014, 2019))]

Colocamos, então, remoção_gases e fazemos esse filtro. Agora, temos dados de 2014 até 2019, todos relacionados à remoção, nenhum relacionado à emissão. Observamos que ficaram 38 mil linhas de 2 milhões, então podemos fornecer esses dados em um arquivo CSV. Para isso, utilizamos o método to_csv, que cria um arquivo CSV. Colocamos o nosso dataframe que acabamos de criar, remoção_gases, colocamos um ponto e digitamos to_csv. Entre parênteses, especificamos o nome desse arquivo. Abrimos aspas simples e digitamos GEE_gases_de_efeito_estufa_Brasil_valores_de_remoção.csv. Executando essa célula, conseguimos observar na barra lateral esquerda, na parte de arquivos, o arquivo criado. Podemos, por exemplo, clicar nos três pontinhos e fazer o download desse arquivo, disponibilizando-o para a equipe de pesquisa realizar sua consulta.

# Exportando o dataframe filtrado para um arquivo CSV
remoção_gases.to_csv('GEE_gases_de_efeito_estufa_Brasil_valores_de_remoção.csv', index=False)

Conclusão e Próximos Passos

Com isso, conseguimos construir nosso primeiro suporte à pesquisa. A seguir, vamos conhecer outro suporte que também é necessário à nossa ajuda.

Sobre o curso Polars: explorando seleção e agrupamentos

O curso Polars: explorando seleção e agrupamentos possui 148 minutos de vídeos, em um total de 49 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Iniciando as seleções de dados
Selecionando valores GEE através de textos
Explorando categorias de GEE
Entendendo dados climáticos através de agrupamentos
Trabalhando com filtros temporais em estações

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Conheça os Planos para Empresas

Cursos Imersivos

Certificações

Imersões

7 Days of Code

Artigos

Podcasts

Tech Guide

Vídeos Extras

Depoimentos de Alunos

Cases de Sucesso Exclusivo para estudantes Alura

Polars: explorando seleção e agrupamentos

Iniciando as seleções de dados - Apresentação

Apresentação da Instrutora

Objetivo do Curso

Técnicas e Ferramentas Utilizadas

Pré-requisitos e Considerações

Início do Curso

Iniciando as seleções de dados - Conhecendo os dados GEE

Introdução à Análise de Dados de Emissão de Gases

Importação e Carregamento de Dados

Verificação da Estrutura do Dataframe

Visualização de Amostra de Dados

Análise Estatística Descritiva

Organização Temporal dos Dados

Preparação para Análise Futura

Iniciando as seleções de dados - Selecionando dados de remoção de GEE

Introdução à Pesquisa sobre Gases de Efeito Estufa

Identificação de Dados de Remoção ou Compensação

Construção do Arquivo de Dados Filtrados

Filtragem de Dados de Remoção

Filtragem por Período de Anos

Combinação de Filtros e Exportação de Dados

Conclusão e Próximos Passos

Sobre o curso Polars: explorando seleção e agrupamentos

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Plus (1 ano)

Pro (1 ano)

Ultra Lab (1 ano)

Plus 24 (2 anos)

Pro 24 (2 anos)

Ultra Lab 24 (2 anos)

Plus 36 (3 anos)

Pro 36 (3 anos)

Ultra Lab 36 (3 anos)

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP