Primeiras aulas do curso Python para Data Science: introdução à linguagem e Numpy

Python para Data Science: introdução à linguagem e Numpy

Ambiente do cientista de dados - Introdução

Olá! Meu nome é Rodrigo Dias e serei seu instrutor nesse curso de Python para Data Science, criado especialmente para quem está começando na carreira de cientista de dados, mas ainda não teve contato com a linguagem Python, tão relevante para essa área.

O treinamento é dividido em duas partes. A primeira delas tratará sobre o básico de Python, como tipos de dados, variáveis, listas, cláusulas if e for, e assim por diante. Ao final, conheceremos um pouco a biblioteca Numpy, muito relevantes em ciência de dados. Já no final do próximo treinamento, conheceremos ainda outra biblioteca, a Pandas.

Esperamos que o curso seja bastante útil para sua carreira. Bons estudos!

Ambiente do cientista de dados - Instalação do ambiente

Antes de começarmos nosso treinamento, vamos conhecer um pouco o notebook Python e o ambiente que utilizaremos para nossos estudos: o Google Colaboratory. Na atividade Projeto inicial do treinamento você encontrará o link para download dos materiais do curso, incluindo a pasta "Numpy". Esta, por sua vez, inclui um arquivo Python_Data_Science_Numpy.ipynb, cuja extensão representa um notebook Python, e outra pasta "data" contendo alguns dados que utilizaremos já a partir do próximo vídeo.

No Google Colab, clicaremos na aba "Upload > Escolher arquivo" e subiremos o arquivo Python_Data_Science_Numpy.ipynb que acabamos de baixar. Esse é um notebook pré-preparado e documentado para te auxiliar nos estudos, entendendo tudo que será feito ao longo do curso. Temos, por exemplo, uma introdução sobre a linguagem Python.

Note que o texto define Python como uma linguagem de programação de alto nível. Isso significa que a sua linguagem se aproxima mais da linguagem humana do que da linguagem das máquinas. Ela dá suporte a múltiplos paradigmas de programação, é um projeto open-source, e vem se tornando uma das linguagens de programação interpretadas mais relevantes. Nos últimos anos ela vem desenvolvendo uma comunidade ativa em processamento científico e análise de dados, e vem se destacando como uma das linguagens mais importantes em data science e machine learning, tanto no meio acadêmico como no mercado.

Como usaremos o Google Colab, não será necessário instalar nada. Note que você precisará de uma conta Google para fazer alguns procedimentos, como o upload de arquivos. Na página https://www.python.org/ você encontrará algumas referências sobre a linguagem, como a sua documentação e o download do próprio Python caso queira realizar a instalação local. Já em https://www.anaconda.com/ você poderá baixar a Anaconda Distribution, um conjunto amplo de ferramentas para data science.

Voltando ao Colab, verificaremos a versão do Python que estamos utilizando digitando, na primeira célula de código desse notebook, o comando !python -V ou !python --version. As células funcionam como um terminal, prompt ou shell de programação. Como essa é a nossa primeira execução, o Colab levará algum tempo para se conectar e carregar as informações, retornando, enfim, a versão Python 3.6.8 (na época de gravação do treinamento). Caso você tenha algum problema com versões futuras da linguagem, poderá forçar o notebook a utilizar esta.

No próximo vídeo começaremos a trabalhar efetivamente com o Python!

Ambiente do cientista de dados - O que são arrays Numpy?

Para iniciarmos nosso curso, abriremos, no Colab, o notebook Python que baixamos anteriormente, mais especificamente na seção 1.3 Trabalhando com arrays Numpy. O Numpy é um pacote para cálculos numéricos, e é muito eficiente realizando essa tarefa - inclusive faremos uma comparação de desempenho entre listas do Python e arrays Numpy. Outra informação interessante sobre o Numpy é que ele serve de base para a construção de pacotes interessantes para Data Science, como o Pandas, que estudaremos na segunda parte desse treinamento.

Quando queremos utilizar uma biblioteca no Python, precisamos importá-la de modo a tornar disponíveis os seus métodos e funções. Não se preocupe se você não entender todos os conceitos e termos citados nesses primeiros vídeos, pois eles serão explicados com calma ao longo do curso.

Na primeira célula da seção 1.3, escreveremos o código import numpy as np. Na verdade o import numpy já seria suficiente, mas a instrução as np, muito comum em comunidades de data science, atribui um apelido à biblioteca. Assim, poderemos acessá-la por meio do apelido, ou seja, com a estrutura np.método(). Executaremos a célula com o atalho "Shift + Enter".

Dentre os materiais de aula baixados anteriormente, você encontrará cinco arquivos de texto (carros-anos.txt, carros-km.txt, carros-nomes.txt, carros-valor.txt e carros-zero-km.txt) contendo informações sobre veículos anunciados na internet. A ideia é trabalharmos sobre esses dados, tratando-os, obtendo estatísticas e assim por diante.

Vamos supor que desejamos, a partir desse conjunto de dados e das características desses veículos, criar um modelo de previsão do preço dos automóveis. O primeiro passo para isso será obtermos e tratarmos tais dados. No Colab, abriremos o menu na lateral esquerda, clicaremos no ícone que representa uma pasta e em seguida em "Upload". Selecionaremos os arquivos TXT listados acima, clicaremos em "Abrir" e então em "Ok" na mensagem que é exibida na tela. Os arquivos passarão a figurar no menu localizado à esquerda.

Nosso objetivo agora é carregarmos esses dados em um objeto que o Python seja capaz de entender e trabalhar. De modo a entender como é simples realizar cálculos com o Numpy, queremos descobrir a quilometragem média anual dos veículos. Como temos arquivos contendo a quilometragem total e o ano de fabricação de cada carro, será bem simples obtermos essa informação.

Começaremos criando, na segunda célula dessa seção, uma variável km que receberá um array numpy. Isso será feito a partir da chamada da função np.loadtxt(), que carrega o arquivo TXT passado por parâmetro dentro de um array numpy. Nesse caso, passaremos carros-km.txt e executaremos a célula com "Shift + Enter".

km = np.loadtxt('carros-km.txt')

No Colab, quando desejamos visualizar o conteúdo de uma variável, basta digitarmos o seu nome e executarmos o código.

km = np.loadtxt('carros-km.txt')
km

Isso fará com que o array que acabamos de carregar seja mostrado na tela.

Feito isso, fecharemos a saída no console para mantermos a tela menos poluída. Outra informação que precisamos para conseguirmos calcular a quilometragem média por ano é o ano de fabricação dos veículos. Sendo assim, criaremos a variável anos recebendo também a chamada de np.loadtxt(), dessa vez passando o arquivo carros-anos.txt.

Também podemos definir o tipo de dado que está contido nessa variável. Por exemplo, anos são números inteiros, e não pontos flutuantes quando a quilometragem. Conseguiremos isso passando, como segundo argumento, a instrução dtype = int.

anos = np.loadtxt('carros-anos.txt', dtype = int)
anos

Usando "Shift + Enter", receberemos como retorno a relação de anos contida no array que criamos. Agora queremos calcular a quilometragem anual média desses veículo. Se você lidou com linguagem de programação, sabe que, a partir do array, teríamos que criar um laço for de modo a varrer cada item e operando o cálculo, armazenar o resultado em um novo array e então terminar a operação. Entretanto, isso não é necessário com os arrays numpy, e conseguiremos tal resultado como se estivéssemos fazendo uma operação simples,tal qual "A + B = C".

Na célula seguinte, criaremos a variável km_media recebendo a divisão de km por 2019 - anos - ou seja, o ano de gravação desse curso menos a variável anos. Ao executarmos, teremos o seguinte retorno:

/usr/local/lib/python3.6/dist-packages/ipykernel_launcher.py:1: RuntimeWarning: invalid value encountered in true_divide """Entry point for launching an IPython kernel.

Essa mensagem indica que existem divisões por zero no conjunto, pois existem veículos dentro do array anos que foram produzidos em 2019. Se executarmos a variável km_media, veremos que, nesses casos, o numpy inclui um nan (not a number) e realiza o cálculo normalmente nos demais pontos em que ele é possível.

Dessa forma, obtivemos o resultado do nosso cálculo com uma conta extremamente simples, sem precisarmos de um laço. Interessante, não? Antes de finalizarmos, vamos executar a função embutida type() do Python passando a variável km_media como parâmetro. Essa função nos retornará o tipo de dado com que estamos trabalhando - nesse caso, numpy.ndarray, um array do numpy que conheceremos mais profundamente ao final do curso.

Nosso objetivo nesse capítulo era demonstrar quão simples é carregar dados e fazer cálculos sobre eles utilizando a biblioteca Numpy. No próximo começaremos a conversar um pouco mais sobre Python.

Sobre o curso Python para Data Science: introdução à linguagem e Numpy

O curso Python para Data Science: introdução à linguagem e Numpy possui 174 minutos de vídeos, em um total de 64 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

Plus

  • Acesso a TODOS os cursos da plataforma

    Mais de 1200 cursos completamente atualizados, com novos lançamentos todas as semanas, em Programação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

12X
R$85
à vista R$1.020
Matricule-se

Pro

  • Acesso a TODOS os cursos da plataforma

    Mais de 1200 cursos completamente atualizados, com novos lançamentos todas as semanas, em Programação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

12X
R$120
à vista R$1.440
Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas