Primeiras aulas do curso SAS parte 1: Manipulando bases de dados

SAS parte 1: Manipulando bases de dados

Explorando os dados - Introdução

Olá. Meu nome é Paulo Dill e seja bem-vindo ao curso de SAS, esse software muito utilizado no mercado financeiro e em diversas outras empresas que precisam saber mais sobre as informações que elas têm, fazer sua análise de dados. Inclusive, essa empresa chamada Alura Play, que trabalha com aluguel de jogos eletrônicos, entrou em contato porque ela precisa conhecer mais o levantamento de bases que ela está começando a transferir para o base de dados, como está a qualidade, as características do estoque do acervo de jogos e informações sobre seus clientes.

O que vamos fazer para ela é justamente isso. Vamos começar trabalhando fazendo essa análise descritiva das informações que ela tem. Vamos dizer os gêneros que ela tem no base de dados, que jogos ela trabalha, quais plataformas, em que plataforma ela tem mais e menos jogos. Vamos conseguir criar novas variáveis para dizer quais jogos são lançamentos, quais são mais recentes, quais são mais antigos. Também vamos listar os jogos no acervo.

Para isso, no SAS, vamos aprender a declarar bibliotecas, usar procedimento, comandos, para listar informações importantes sobre um diretório, uma base, como imprimir a base, como gerar relatórios de frequência, das classes, das categorias que ela tem dentro da base, e assim vamos conhecer mais. Vamos inclusive começar a manipular nossos dados para gerar informações novas usando condicionais.

Também vamos nos encontrar com um problema. Como operar quando nossa base tem algum problema? A Alura Play descobriu que essa base de dados estava saindo com defeito, informações faltando. O que podemos fazer para ajudar a empresa e consertar essas informações? Iremos ver diversos comandos, como filtrar a base, como fazer essas operações para detectar melhor onde está nosso problema. Vamos descobrir condicionais mais legais, mais avançados para corrigir essa informação de forma eficiente e melhorar a qualidade da nossa base de dados.

Também vamos apresentar para a empresa a possibilidade de obter mais informações em cima das que ela já tem, gerando mais categorias, um amplo espectro para saber mais sobre nossos clientes, porque na base de cadastro de clientes da Alura Play ela não tem informação sobre, por exemplo, o Estado em que o cliente mora, mas a partir do que temos, como por exemplo CEP, vamos conseguir usando SAS marcar uma variável em que apresenta o Estado em que o cliente mora.

Vamos usar formatos personalizados, descobrir diversos outros comandos, formatos, para conseguir de forma simples e prática criar a nova variável que queremos descobrir e usar.

Como é um curso introdutório, alguns tópicos do SAS, como SQL, macro funções, macro variáveis não veremos. Mas veremos diversas outras funções para começar a fazer a manipulação das informações e gerar análise descritiva das informações que já temos também.

E aí? Vamos começar?

Explorando os dados - Declaração de bibliotecas

Olá, pessoas, espero que tenha dado tudo certo na instalação do SAS, que vocês viram que é um pouco diferente do que estamos acostumados ao instalar um programa. Mas vamos já usar o SAS para ver que algumas coisas são parecidas com programas, mas alguns detalhes é bom observar.

Do lado esquerdo, temos uma barra lateral com diversas abas, que dizem sobre arquivos e pastas, bibliotecas, atalhos e outras coisas, enquanto que na área maior temos o editor de texto, onde vamos escrever o texto que vai ser o programa que o SAS vai executar. Aqui vamos escrever comandos que o SAS vai interpretar para executar contas comandos, contas procedimentos.

Antes de começarmos a escrever o programa, precisamos organizar nossas abas. Dentro da pasta compartilhada do SAS, precisamos criar uma pasta destinada ao trabalho que vamos fazer agora, um diretório para ele. Na pasta myfolders, vejo que o SAS já preencheu com alguns diretórios automaticamente. Não estamos interessados nelas agora. Queremos criar a nossa para organizar e trabalhar nossos arquivos.

Posso criar essa pasta da mesma forma que crio uma pasta no Windows, clicando com o botão direito, novo, pasta. Mas não vou fazer isso. Vou usar o próprio SAS, clicando na barra lateral, em files e folders. Clico no botão para criar algo novo. No meu, escolho a pasta.

A opção não está habilitada. Se isso acontecer, vocês clicam na pasta compartilhada, que é onde você realmente pode criar pastas novas. Vou dar um nome para a pasta, de Alura Play. Ela já está ali. Se eu olhar no diretório, ela está lá também, mas vazia. Precisamos colocar coisas dentro.

Vocês já pegaram nos arquivos do curso os dois arquivos que são cadastro cliente e cadastro produto. São duas bases de dados em formato SAS. Não vamos conseguir abrir direito no Windows ou no Mac. Precisamos do SAS para ver como são essas bases de dados da Alura Play.

Vou colocar elas dentro do diretório. Por enquanto, não aconteceu nada, porque o SAS não fica monitorando o tempo todo as movimentações que você faz no Windows. Se você quiser atualizar para ele perceber a modificação, você pode clicar em refresh.

Tenho minhas bases de dados na pasta certa, agora quero algo mais básico, que é listar quais são as bases que estão dentro da pasta para saber se elas estão corretas, se não aconteceu nenhum problema, se o SAS realmente está conseguindo reconhecer as bases.

Posso fazer isso usando um comando pronto do SAS. Ele tem diversos comandos prontos, procedimentos que usamos no dia a dia. Para facilitar nossa vida. Simplesmente vamos usar um deles.

Procedimento em inglês é procedure. O SAS abrevia para PROC. Se falamos para ele que queremos usar um procedimento, escrevemos PROC. Depois, passo o procedimento que eu quero usar. No caso, quero listar as bases de dados que estão dentro de um diretório. Em inglês, os data sets. Vou usar então o PROCDATASET. Ele faz diversas coisas, inclusive listar as bases que estão dentro do nosso diretório.

Para dizer o que eu quero fazer, passo um comando adicional. Quero que ele me diga quais são as bases que estão dentro de um diretório. No SAS, ele chama de bibliotecas. Abreviando, lib, de library. Nele, tenho que passar que quero uma lib igual o parâmetro desse comando, que obviamente vai ser o nome do meu diretório, que no caso é Alura Play.

Passado o comando de lib, encerro essa parte do código com ponto e vírgula. Da mesma forma que em diversas linguagens de programação. O PROCDATASET poderia ser usado para outras coisas, mas não quero fazer mais nada, só encerrar. Para isso, digo para o SAS que quero encerrar com um run, que é executar em inglês.

Posso fechar meu comando e executar. Para isso, na barra superior, tem uma pessoa correndo, para executar todos os comandos selecionados. Se eu não selecionar nada, ele executa o texto todo.

Deu erro, porque ele indiretamente já abriu a segunda aba do programa, que se chama log, onde ele me diz o resultado da execução e aponta os erros. Ele me disse que Alura Play não é um nome válido. O problema é que eu criei uma pasta no Windows, não uma biblioteca do SAS. São coisas diferentes.

Como eu digo para o SAS que aquele é um diretório que eu quero abrir no programa? E melhor ainda, posso digitar só um atalho, ao invés do nome completo, criando uma referência. Essa referência vai ser minha biblioteca. Eu dou esse nome usando o libname. Esse libname depois terá o nome da biblioteca que eu quero referenciar. Depois, passo o diretório físico dela, para o qual o nome vai servir de atalho.

Vou tentar usar o diretório do Windows no comando, entre aspas, simples ou dupla. Seleciono só o trecho que quero executar e aperto F3, que é o comando para executar. Mas novamente deu erro, porque minhas bibliotecas no SAS podem ter um nome com no máximo 8 caracteres. Isso já é um problema, porque Alura Play tem mais. Vou importar simplesmente para Alura.

Agora ficou esquisito. Ele não diz erro, mas na observação ele fala que a biblioteca não existe. O que não faz sentido. Vamos prestar atenção no que fizemos antes. Na instalação, antes de executar o SAS, tivemos que instalar uma máquina virtual, e a partir dela acessamos o programa do SAS. Essa máquina virtual também configuramos a pasta que iremos compartilhar com o SAS no Windows.

A forma como o SAS enxerga essa pasta não é a mesma que o Windows, porque ele está enxergando a partir da máquina virtual. Vamos ver por curiosidade as propriedades da pasta AluraPlay, para ver como o SAS está enxergando. Veem que o SAS não deu meu diretório físico inteiro do Windows? O que temos que usar como diretório físico é esse. É esse que o SAS enxerga.

Selecionando e executando, temos um comando bem mais interessante. Tudo foi corretamente executado. Já conseguimos enxergar nossa base de cadastro de cliente e cadastro de produto. Conseguimos declarar a biblioteca corretamente.

Vamos voltar para o comando do PROCDATASET. Sabemos que nossa biblioteca agora se chama só Alura. Tanto que é interessante que o SAS já dá a sugestão, porque ele vê a biblioteca dentro das conhecidas. Executando o que quero, vemos as informações do diretório e a lista de bases que está dentro dele. Já vejo que minhas bases estão corretas.

Explorando os dados - Checagem de bases

Vimos que nosso resultado está aparecendo pela saída da nossa listagem das bases, mas o cliente tinha pedido um pouco a mais de informações, ele queria que a gente checasse a integridade da base para ver se ela realmente tem os clientes que ele sabe que tem no cadastro, se a base tem todos os produtos. Precisaríamos checar a quantidade de linhas que essas minhas bases têm.

O dataset que eu usei não está me dando essas informações. Lembrando que o PROCDATASET é o processo para fazer a listagem das bases que eu tenho no diretório. Dessa forma mais crua ele não está me dando todas as informações, quero mais detalhes. Posso pedir isso se eu colocar a opção dentro do código. Posso passar meu parâmetro de declarar qual a biblioteca que quero que ele me liste e acrescento a opção de details.

Já mudou minha saída. Podem perceber que tem uma coluna de observações e uma de variáveis. Ele me diz que cadastro de cliente tem cem observações e oito variáveis e cadastro de produto tem quinhentas observações e seis variáveis.

Vimos que o dataset estava chamando de observações e variáveis, mas o que são elas? Quando estamos no dia a dia, temos a lista de contatos no celular, com várias pessoas que conhecemos e informações sobre elas. Por exemplo, posso ter o nome da pessoa, o telefone e o e-mail. Sem saber, essa lista de contatos já é uma base de dados, uma forma de organizar informações.

Se lembrarmos um pouco da matemática, vemos uma estrutura chamada matriz, que é a mesma coisa que nossa planilha, nossa lista de contatos. Você organiza as informações em linhas e colunas. Ou seja, minha matriz também é uma base de dados, se eu relembrar a estrutura da lista de contatos. Eu sei que linha 1 e coluna 1 tem o nome de fulano, linha 1 e coluna 2 é o telefone dele, e assim por diante.

Um estatístico também faz uso de organizar as informações dessa maneira. Mas da mesma forma que vemos nomes diferentes para uma mesma estrutura, o estatístico também faz isso. No caso, o que chamávamos de matriz, ele vai chamar de tabela. O que chamávamos de linha, ele vai chamar de observação, e as colunas de variáveis. Continua sendo a mesma coisa. Minha tabela é uma matriz, que é uma base de dados.

Voltando para o SAS, já entendi o que as informações significam. Quando ele diz que a base de cadastro de clientes tem cem observações, ele me diz que ela tem cem linhas. Oito variáveis, oito colunas.

Voltando para a aba do código, preciso conseguir informações a mais sobre a base em si. Já chequei que ela está com o número de linhas e colunas que o cliente tinha falado, mas não sei se estão corretas. Preciso de outro comando para ver o conteúdo de uma base específica. É um comando que eu sei que é corriqueiro, muita gente usa, vai ser um procedimento também pronto do SAS.

Começo escrevendo PROCCONTENTS. Ele vai me dar o conteúdo de uma base específica. Não vou usar o mesmo comando de lib, porque quero informação de uma base. Em inglês, a base normalmente é chamada de data ou dataset, mas o SAS resume para data. Vai ser igual ao nome da minha base cadastro produto. Encerrado o comando, coloco ponto e vírgula e executo.

Ele me dá um erro e diz que a base não existe. Isso é estranho, acabei de ver que existe. Mas existe onde? Lembra que no começo tínhamos feito a declaração em que queria associar o diretório físico ao nome Alura? Para especificar o diretório físico em que minha base está não preciso mais ficar escrevendo o caminho físico. Eu já dei o atalho. Na hora de chamar a base, só preciso dizer para o SAS antes em que diretório ele está.

Uma coisa é o diretório, outra é a base que está lá dentro. Como falo que quero a base de cadastro de produto que está dentro do diretório Alura? Depois da biblioteca, coloco um ponto. Isso quer dizer que dentro desse diretório do Alura, quero a base de cadastro de produto. Ou seja, diretório ponto a base que está dentro daquele diretório.

Vou selecionar novamente, pedir para executar, e agora vai corretamente. Já tenho uma saída em que no canto superior esquerdo tenho observações e variáveis, e para baixo tenho a tabela com a lista de variáveis, tipo de variável, tamanho, formato e label.

Tenho as variáveis chamadas data, gênero, nome, número, plataforma e preço. Tanto número quanto preço estão sem cê-cedilha e sem acentuação, porque no SAS não podemos ter caracteres especiais. Mas a pessoa que criou a base para nós já ficou preocupada em criar um rótulo explicando mais sobre a variável. Data é a data de lançamento, número é o código do produto, preço é o preço.

Já sei que essas são minhas variáveis. Sei o que elas significam. Quero ver minha base em si. Já sei que tenho uma coluna com o nome do jogo, mas quero ver os nomes dos jogos. Posso usar um comando para imprimir a base. Vai ser o PROCPRINT. Meu parâmetro novamente é uma base específica. Uso o comando de data, dizendo onde está a base, e qual das bases do diretório quero. Encerro com ponto e vírgula, depois run e ponto e vírgula.

Tenho minha base de cadastro produtos. Tenho a variável número, o nome do jogo, o gênero, a plataforma, a data de lançamento e o preço.

Sobre o curso SAS parte 1: Manipulando bases de dados

O curso SAS parte 1: Manipulando bases de dados possui 229 minutos de vídeos, em um total de 65 atividades. Gostou? Conheça nossos outros cursos de Data Science em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Data Science acessando integralmente esse e outros cursos, comece hoje!

  • 1049 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1049 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1049 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1049 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Procurando planos para empresas?
Acesso por 1 ano
Estude 24h/dia onde e quando quiser
Novos cursos toda semana