Primeiras aulas do curso Data Visualization parte 1: gráficos com uma variável

Data Visualization parte 1: gráficos com uma variável

Conhecendo a base de dados - Introdução

Olá. Seja bem-vindo ao curso Data Visualization Gráficos de Uma Variável. Meu nome é Gabriel e eu serei o instrutor durante todo o curso. Neste curso você irá aprender a criar códigos em R para analisar dados por meio de gráficos, o que é muito mais fácil de se fazer do que fazer uma análise de uma tabela, por exemplo com centenas ou até mesmo milhares de registros.

Neste curso você vai aprender várias funções de algumas bibliotecas para trabalhar e fazer transformações e manipulações de dados. Por exemplo, você vai utilizar uma função nativa do R, o data frame e table para criar um novo conjunto de dados chamado category frequence. Esse conjunto de dados armazena o que? Armazena contagem de aplicativos por categoria.

Ou seja, aqui temos a risque da categoria e quantos aplicativos temos para essa categoria. Você também vai aprender a fazer filtros com a função dplyr, a função filter do pacote dplyr. Abrindo aqui você pode ver que na aba direita inicialmente tinham 10841 registros, depois temos apenas 10840 registros.

Você vai aprender também a aplicar filtro e outras funções juntas, por exemplo, group by, a função summarise que vai criar um novo campo chamando a função mean da avaliação. O que que essa função está fazendo? Está filtrando todos os registros que não são vazios criando um agrupamento e calculando a média para cada categoria, a média de Rating, ou seja, de avaliação.

Você abre aqui, pronto. Aqui temos as categorias dos aplicativos e a média de nota para cada categoria. Outra coisa que você vai aprender também é aplicar loops com for, aqui estamos criando uma nova coluna chamada new rating.

Vai aprender também a criar novos campos com a função mutate da função do pacote dplyr, criando uma nova coluna chamada rating class usando if else, vamos aqui no dados dois e as novas duas colunas aparecem. New rating que você criou com o for e o rating class que você criou com a função mutate dplyr.

Você também vai aprender a fazer substituições de caracteres em determinado string, por exemplo aqui, temos a seguinte string, 19 M olhando aqui no Console aqui embaixo você vai executar essa função e vai aparecer 19 traço traço, porque substituímos o M pelo traço traço.

Você vai aprender também a aplicar o loop utilizando as funções s apply, é o mesmo loop, porém ele é mais performático, ele é melhor de se trabalhar e também vai aprender a elaborar diferentes gráficos. Por exemplo, aqui, este gráfico, histograma, gráficos de colunas e barras, gráfico de pizza, um outro histograma com umas cores mais personalizadas, um gráfico de colunas também com cores personalizadas categóricas e por fim um gráfico de linhas.

E também vai aprender a criar um Dashboard com estes gráficos. Pronto, você vai aprender tudo isso, você vai aprender a gerar estes gráficos, você vai aprender a alterar as cores, o layout dos gráficos e também vai aprender a colocar todos os gráficos em uma única página.

E você vai realizar essas análises por quê? Porque uma empresa chama Nordeus firmou um contrato com você para analisar todos os aplicativos que estão disponíveis na loja do Google, ou seja, a Google Play. A empresa deseja obter informações sobre os aplicativos como quais categorias existem dos aplicativos mais populares e menos populares dentre outras informações para ela poder projetar o seu desenvolvimento de novos aplicativos.

A base com essas informações pode ser encontrada no site do Kaggle e também disponível no arquivo de links do curso. Você vai baixar os dados e vamos analisar. Todo o processo será mostrado para você do início ao fim. Vamos lá?

Conhecendo a base de dados - Importando/explorando dados

Bom, para começar a realizar as análises dos aplicativos que estão na loja do Google Play para a empresa que te contratou, a Nordeus, você terá que importar os dados com as informações sobre esses aplicativos.

Primeiro você irá criar uma variável com um caminho aonde você salvou o arquivo CSV. Em seguida, você utilizará a função read CSV, que ela já é nativa do próprio R. Passando como parâmetro no file por variável Path, a variável que você acabou de criar com um caminho completo. E salvar estes registros na variável chamada Dados. Essa função ela já foi vista no curso Análise de Dados Introdução Com R, então você já deve conhecê-la.

Agora vamos executar esse comando e pronto, já importamos os registros que nós iremos trabalhar pelo objeto chamado Dados. Bom, depois de ter importado todos os registros que serão utilizados na análise de dados, agora você terá que visualizar, explorar esses dados.

É possível visualizar esses registros utilizando a função view passando como paramos o objeto onde seus dados estão armazenados. Executando essa linha aqui nós já nos deparamos com o primeiro erro entre muitos que acontecem no dia a dia para quem trabalha com programação, análise de dados e afins. Aqui indica que o R não conseguiu encontrar a função chamada view. No R é muito importante ficar atento ao nome das funções, porque há funções com letras minúsculas e maiúsculas e o R ele aqui é sensitive.

Se digitarmos aqui novamente com o V maiúsculo View e passando o objeto a ser visualizado, executando, pronto, agora funcionou e abriu uma nova aba no R Studio com o nome do objeto aqui dados e com todos os registros, linhas e colunas da nossa base de dados.

Primeiramente nós temos aqui a coluna App, ela indica um nome do aplicativo que está disponível para download na loja do Google. A segunda coluna é Category, que significa categoria. Uma das categorias é Game, House and Home, Shopping, Family, que significa família e por assim em diante. A terceira coluna, Rating, que é a avaliação que os usuários dão para aquele aplicativo, Reviews, que é a quantidade de reviews que teve, comentários, notas. Size, que significa tamanho da aplicação, ou seja, quantos kilobytes, megabytes que aquele aplicativo tem. O número de instalações, que é o Installs. O Type, que é o tipo que o aplicativo é, se ele é pago ou free. Nós podemos ver aqui uma aplicação paga, e a grande maioria free. O preço, que é a coluna Price que significa preço. Ela vai armazenar o valor da aplicação quando a aplicação é paga, correto? Content Rating, é o tipo, a categoria da pessoa, se ela é jovem, se é maior de 18 anos, que avaliou aquela aplicação, que deu a nota. O gênero que é semelhante à categoria porém uma divisão mais específica, por exemplo, Casino, Shopping, Automóvel, Educação, etc. Last Update, que é a data da última atualização daquela aplicação. Current Ver, que é a versão atual daquele aplicativo e Android Version, que significa a versão do Android que aquela aplicação funciona.

Mas também existe outra forma de visualizar os seus registros. Fechando aqui essa aba dados. Ao clicar no nome aqui, Global Enviroexistenment do lado direito do R Studio, clicando no nome da variável, no caso aqui Dados, ao clicar nela abrirá também a mesma aba que acabamos de observar. Então existe essas duas formas de visualizar, abrir os seus registros, ou utilizando linha de comando, ou apenas indo aqui na própria interface.

Porém, visualizar toda essa quantidade de registros não é uma coisa muito útil e às vezes inválida. Por exemplo, se você tem um conjunto de dados com 10, 15 registros, compensa você abrir essa aba e explorar o seu conjunto de dados de forma manual. Porém, quando você possui muitos registros, por exemplo, no nosso caso que temos mais de 10000 registros, isso fica inviável você não vai conseguir explorar praticamente nada, e também fica desnecessário. Por quê? Nessa fase de exploração inicial dos dados você apenas quer descobrir as colunas, os nomes das colunas que sua base de dados possui, que está aqui em cima, ter uma ideia mais ou menos de que tipo de registros estão sendo armazenados em cada coluna para você conseguir já se planejar montando o seu script, os seus comandos e etc.

Então para isso você pode fazer utilizando a função Head e passando o conjunto de dados como parâmetro. Executando, pronto, aqui você vai visualizar os 6 primeiros registros da sua base de dados, você consegue visualizar o nome das colunas, um resumo de cada valor armazenado em cada coluna e utilizando a função tail dados você irá visualizar os últimos registros, nesse caso os 6 últimos com os mesmos valores de coluna e valor com os registros armazenados em cada coluna.

Aqui é apenas para você verificar se os dados foram importados corretamente, por exemplo, em CSV às vezes os dados são armazenados com vírgula, às vezes são armazenados com ponto e vírgula, então isso pode interferir e você pode acabar importando seus dados de forma errada. Então isso é só para você ter ideia mais ou menos de se a importação ocorreu corretamente e você ter também ideia do nome das colunas que seu conjunto de dados possui.

Conhecendo a base de dados - Explorando base de dados

Após finalizar a importação de todos os registros que serão utilizados na análise, após ter feito uma rápida exploração se os dados foram importados corretamente utilizando a função head, tail e view também faz parte da etapa de exploração dos dados identificar o que cada coluna está armazenando no seu conjunto de dados.

Por exemplo, se as colunas estão armazenando valores quantitativos, ou seja, se aquela variável ela é quantitativa com valores numéricos, ou se são variáveis qualitativas, representam textos. Isso é possível utilizando a função STR, STR passando como parâmetro o conjunto de dados que você quer explorar. Executando, pronto.

Na primeira linha do resultado dessa função, ela apresenta a quantidade de registros que não é conhecida como observações, mais de 10 mil observações, e a quantidade de colunas que não é reconhecido como variáveis. Na análise de dados no geral são conhecidas como variáveis, que na nossa base de dados possui 13 variáveis.

Em seguida ela apresenta o nome de cada coluna que nós já vimos anteriormente e logo à frente o tipo de dados armazenados dela, por exemplo, a variável App, o tipo Factor e algum valor armazenado dela bem resumidamente.

Em Estatística Descritiva existem alguns tipos de dados e variáveis. Por exemplo, a divisão ela é feita em Variáveis Quantitativas que são variáveis do tipo Numérica. As variáveis do tipo Quantitativas são representadas no R com o tipo num, por exemplo, o Rating, que é a variável que eu já citei para você anteriormente à nota. E as Variáveis Qualitativas que armazenam valores que não podem ser representados por números e são valores categóricos, ou seja, texto, elas são representadas com o Factor ou CHR.

Na nossa de bases dados tem o Factor, por exemplo, no App, e não temos variáveis do tipo CHR. O Factor é um tipo de variável que armazena valores limitados, tais variáveis são definidas como Categóricas ou Qualitativas como já citado anteriormente. Mas há uma observação a ser feita nessa base de dados que está sendo utilizada. Por exemplo, a variável Rating, ela é uma Variável Numérica. Outra variável que deveria ser numérica, por exemplo, a Reviews, porque ela armazena apenas a quantidade de avaliações que aquele aplicativo teve. Porém o R fez um reconhecimento automático dela com o Factor, isso pode ter acontecido por alguns motivos. Um deles que algum dos registros desses mais de 10000 está armazenado com algum caractere especial, ou seja, letras, ou estes registros foram armazenados com o texto originalmente. Então ao importar os dados a própria função já identifica a variável como Qualitativa, ou seja, do tipo factor.

Esse problema será detalhado mais para frente para como resolver. Também é possível analisar essas mesmas informações pela via interface do R Studio. Você vindo aqui novamente no nome do objeto mas ao invés de clicar em cima do nome do objeto você vai clicar nessa setinha azul. Clicando nessa setinha azul ele vai apresentar as mesmas informações que estão aqui no console do lado esquerdo, o nome da variável, o tipo dela e um resumo dos valores armazenados.

É possível alterar esse tipo de importação, por exemplo, do Factor, que ele é reconhecido automaticamente pela própria função que nós utilizamos, o read CSV, para que essa função não reconheça esse tipo de dados, ela vai reconhecer como numérica ou como char, que como eu disse anteriormente, o Factor é um tipo de variável limitado, com valores limitados.

Então, primeiro erro que a gente encontrou aqui, o App, ele é o nome da aplicação, ele é um valor ilimitado, ele não tem uma categoria específica. Por exemplo, como sexo que é masculino e feminino, ou como cores, que você tem um tamanho limitado de cores ali. O nome da aplicação ela é ilimitada. Então para resolver isso você vai utilizar a mesma função, read CSV, passando como o caminho, o mesmo caminho, porém você vai adicionar um outro tipo de parâmetro, que vai ser o string as factors, ou seja, as strings serão reconhecidas como factors, aí você vai colocar aqui False. Executando esses dados e executando novamente a função STR, pronto. Agora você terá variáveis do tipo numéricas e variáveis do tipo qualitativas, texto, porém reconhecidas como apenas CHR, ou seja, char. Caso haja alguma necessidade mais para frente de definir alguma variável com o tipo factor, você pode tranquilamente inserir esse tipo de variável na mão posteriormente.

A partir de agora você já tem uma visão geral do conjunto de dados, tem conhecimento de quais registros estão disponíveis e quais informações você pode extrair para apresentar para o seu cliente que te contratou para fazer as análises de dados. Ou seja, a empresa Nordeus. Agora, a partir do próximo capítulo, você irá começar a tratar estes dados transformá-los em formação de forma visual para o seu cliente, ou seja, através de gráficos para a empresa Nordeus que te contratou fazer uma interpretação desse conjunto de dados e extrair informações o mais rápido possível e de forma fácil.

Sobre o curso Data Visualization parte 1: gráficos com uma variável

O curso Data Visualization parte 1: gráficos com uma variável possui 231 minutos de vídeos, em um total de 48 atividades. Gostou? Conheça nossos outros cursos de Data Visualization em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Data Visualization acessando integralmente esse e outros cursos, comece hoje!

  • 1266 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1266 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1266 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1266 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Conheça os Planos para Empresas

Acesso por 1 ano

Estude 24h/dia onde e quando quiser

Novos cursos todas as semanas