Primeiras aulas do curso ETL com Integration Services: Transformação de dados

ETL com Integration Services: Transformação de dados

Introdução ao treinamento - Introdução

Olá. Esse treinamento é a parte dois do treinamento de criando e carregando um datawarehouse utilizando o SQL Server.

Na parte um desse treinamento, nós construímos um datawarehouse baseado numa matriz dimensão indicador de uma empresa de suco de frutas.

Criamos todas as tabelas, com todos os seus relacionamentos, porém, tabelas vazias.

E no final da parte um, nós fizemos uma carga de dados para a tabela de dimensão fábrica.

Nesse treinamento, nós iremos fazer a carga das outras tabelas. Não só as tabelas de dimensão, mas também as tabelas de fato.

Por isso é importante que para fazer esse treinamento você já tenha instalado na sua máquina todos os produtos, e o projeto no último status conforme o final da parte um desse treinamento.

Por isso é fundamental que você, se não fez a parte um, que faça ela primeiro para depois continuar esse treinamento, ok?

Então está bom, gente. Muito obrigado, e vamos seguindo.

Introdução ao treinamento - Recuperando o ambiente

Bem, caso você já tenha feito o treinamento da parte um, mas está utilizando uma outra máquina, ou não tem mais os arquivos, não tem problema.

Podemos nesse vídeo recuperar o ambiente conforme o status final do curso parte um, ok?

Mas em primeiro lugar, é claro, volte nos vídeos da parte um, e faça a instalação de todos os produtos.

Basicamente, você tem que instalar na sua máquina o SQL Server 2017, o SQL Server Manager Studio 2017, e o SQL Server Data Tools 2017.

Depois de instalar esses produtos novamente na sua máquina, faça um download dos arquivos que estão relacionados nesse vídeo.

E aí proceda da seguinte maneira: em primeiro lugar, vamos entrar no Manager Studio. Acesse usando Usuário SA com a senha que você colocou durante a instalação. E vemos que não temos nenhum banco de dados.

Faça o seguinte: botão direito do mouse sobre banco de dados, e vamos selecionar a opção restaurar banco de dados.

Vocês vão ter essa tela, conforme está sendo vista aqui em cima.

Vocês vão clicar aqui em dispositivo, e onde tem esse botão com três pontinhos, vocês vão adicionar um arquivo que está contido nesse link que vocês fizeram download, e depois gravaram esses arquivos em algum lugar na máquina de vocês. Então eu vou abrir aqui a localização de onde eu salvei esse arquivo na minha máquina, e vocês vão encontrar esse arquivo: DR_SUCOS.BAK.

Clique nele, clique em ok, ok de novo. Vocês vão ter esta carga aqui efetuada.

Aqui em opções, vocês selecionam substituir banco de dados existente, e clica em ok. Pronto, você restaurou o banco de dados.

Se clicarmos aqui no botão ok, nós veremos agora a nossa base DW Sucos carregada.

Se formos em tabelas, nós veremos todas as tabelas do Datawarehouse conforme estavam no mesmo status que no final do curso parte um, e se nós observamos, todas essas tabelas estão vazias, exceto uma. A dimensão fábrica.

Vamos observar? Clicamos aqui em dim fábrica, botão da direita do mouse, vou clicar aqui em selecionar as mil linhas superiores. Note que nós temos aqui aquelas três fábricas que foram colocadas no final do último vídeo da parte um do treinamento.

Então nós temos aqui a nossa base recuperada.

Outro arquivo importante, que nós temos que checar para saber se está tudo correto, é o projeto de criação e carga do Datawarehouse.

Lá no curso parte um, nós criamos um novo projeto em Visual Studio, criamos um projeto do tipo SQL Server, onde criamos todas as tabelas, e começamos a criar um segundo projeto na mesma solução, de integration services, para fazer a carga da dimensão fábrica.

É a partir desse projeto que nós iremos continuar a fazer a carga das outras dimensões.

Então no link dos arquivos onde você acabou de efetuar um download, vocês devem encontrar aqui uma pasta chamada Datawarehouse Sucos, onde nós temos aqui dentro o nosso projeto. Copie e cole numa pasta local da sua máquina, e utilize este local como o seu projeto para desenvolvimento dos exercícios práticos que serão vistos nos vídeos desse treinamento.

Se eu der um double click aqui, eu vou abrir o Visual Studio, e finalmente, se eu for aqui em carga de dimensões.dtsx, eu tenho aqui por exemplo, o meu projeto de carga da dimensão fábrica carregado.

Se você eventualmente ver um xiszinho de erro, significa que a conexão que está configurada originalmente nesse projeto não corresponde com a conexão do SQL Server da sua máquina.

Então basta você vir aqui e dar um duplo clique onde está escrito conexão com o datawarehouse, e incluir aqui as conexões para o SQL Server da sua máquina. Do computador que você está usando, para fazer este curso, ok?

Então eu vou fechar aqui. No meu caso está tudo configurado corretamente, e aí eu posso seguir com o treinamento, ok?

Carregando dimensão cliente - Instalando componente do Excel

Bem, vamos agora carregar a dimensão cliente.

A dimensão cliente, ela será o modelo estrela. Um star scheme.

Se nós olharmos no nosso projeto de criação do datawarehouse, veremos que a nossa tabela de dimensão cliente é uma tabela onde eu vou ter código e descritor do cliente, código e descritor da cidade, do estado, da região, e do segmento, ok?

Bem, não somente aqui no curso, mas como todo o processo de implementação de BI em uma empresa real, nessa fase do projeto, é que o pessoal da TI da empresa tem que estar muito próximo do consultor de BI, porque é com o pessoal da TI que você vai identificar onde estão as fontes de dados.

Eu, como consultor de BI, sei como eu quero minha tabela. Eu quero minha tabela desnormalizada num modelo estrela. Mas dependendo do estado das fontes de dados, eu vou precisar fazer mais ou menos processos de transformação.

Então o primeiro passo é entendermos como estão os dados de origem.

Então nesse exemplo específico da dimensão cliente, o pessoal lá da TI da empresa de suco de frutas me disse o seguinte... se vocês viram aqui o link do nosso curso, vocês podem baixar os anexos, e aí vocês vão encontrar esses três arquivos aqui.

Uma planilha de Excel chamada cadastro de clientes, um arquivo texto chamado funções de extração de cidade e estado, e eu tenho um arquivo separado de vírgulas, um arquivo CSV chamado regiões dos estados.

Bem, falando um pouquinho do arquivo Excel e do CSV, o que o pessoal da empresa me passou foi o seguinte: o cadastro de clientes eu tenho num arquivo de Excel.

Se nós abrirmos esse arquivo de Excel, nós vamos ver que ele é formado por um código do cliente, que é um código interno do cliente.

Eu que sou consultor de BI já sei: ótimo, eu vou usar esse código interno com meu código de cliente lá na dimensão.

Eu tenho o nome do cliente, eu vou olhar assim, muito legal, vou usar esse nome.

Só que eu preciso ter o quê? Como estava na matriz? Cliente, cidade, estado e região.

Mas eu não tenho nesse arquivo a cidade, o estado e a região do cliente. O que tenho é o endereço do cliente, onde eu tenho a rua, o número, eu tenho um tracinho, o nome da cidade, e um tracinho, o nome do estado.

Então eu já sei que para eu carregar no meu datawarehouse a cidade e o estado, eu vou ter que ler esse endereço, e conseguir extrair de dentro desse string a cidade e o código do estado.

Bem, eu preciso depois carregar um segmento, segmento eu tenho aqui, ótimo. Tenho o segmento do meu cliente.

E eu preciso carregar a região. Mas esse arquivo não tem região.

Região é se o estado é região Sudeste, região Nordeste, região Norte. Isso a gente aprende na escola.

Então nós temos um segundo arquivo, que é um arquivo CSV, que eu vou abrir com um bloco de notas, onde eu tenho simplesmente o código do estado, o nome dele, e a região a que ele pertence.

Então eu vou ter que usar uma planilha de Excel para buscar o código, no nome do cliente isso está fácil, o segmento está fácil, cidade e estado eu tenho que extrair daquele string de endereço, e buscar a região, eu vou ter que pegar os dados desse outro arquivo CSV para saber, por exemplo, qual é a região do estado. Então é isso que eu tenho que fazer.

Então num projeto de BI é muito importante que você documente todo esse processo para que você saiba de onde você está extraindo a informação para a sua dimensão, ok?

Bem, já que nós entendemos como fazemos a extração dos dados, o que eu quero fazer de manipulação, e onde eu quero gravar, vamos fazer isso agora no integration services.

Então vamos aqui no Visual Studio novamente.

Antes de criar o meu processo de criação da dimensão criante, eu vou clicar sobre o processo da criação da dimensão fábrica, botão direito do mouse, e vou selecionar em desabilitar.

Agora eu vou selecionar uma outra tarefa de fluxo de dados, vou trazer aqui para a minha área, e essa segunda sim eu vou botar um novo nome. Criação da dimensão cliente.

Vou dar um duplo clique.

E aí agora eu vou selecionar as origens.

Lembre-se que a minha origem da dimensão cliente são dois arquivos. Uma planilha de Excel com o código do cliente, o descritor, o endereço onde eu vou extrair cidade e estado, e o segmento, e o outro é um arquivo CSV onde eu tenho o estado e a região.

Então eu vou arrastar o assistente de origem para cá. E a primeira origem que eu vou colocar é a do arquivo de Excel.

Eu vou clicar aqui, vou clicar no botão Nova, e vou clicar em ok.

Eu vou selecionar o caminho onde está localizada a minha planilha de Excel. Eu tenho aqui, é o cadastro de clientes. Esse arquivo foi aquele que você baixou para a sua máquina.

E aqui eu vou escolher, posso deixar escolher mesmo Excel 2007-2010. Não importa a versão do Excel que você esteja usando.

Vou clicar em ok. Duplo clique de novo sobre Origem do Excel.

Vou escolher aqui a planilha, a pasta que eu vou estar utilizando.

E note que ao selecionar a pasta, eu vou ver esse erro.

Eu sabia que esse erro ia acontecer, é claro.

O que ele está me dizendo? Houve uma falha ao tentar se conectar na fonte de dados do Excel.

Isso acontece por que? Porque hoje a maioria dos computadores são 64 bits, e você tem, por exemplo, o Office, drivers que são instalados do Excel quando você coloca o Office 64 bits.

Só que aqui, o information service tenta buscar um driver de conexão 32 bits. E esse driver não está instalado na máquina.

Então o que temos que fazer agora é, vamos parar nesse momento o nosso processo de ETL para dimensão cliente, e vamos instalar o componente 32 bits.

Se na sua máquina esse erro não aconteceu, é porque por algum motivo você já tem o driver de Excel 32 bits instalado na sua máquina. Ótimo.

Então você pode parar o vídeo aqui e continuar para o próximo vídeo.

Quem apresentou esse erro, como no meu caso, continua seguindo que eu vou mostrar como instalar esse componente.

Então eu vou clicar aqui em ok, clicar em cancelar, vou deixar o meu projeto aqui.

E vamos lá no diretório de anexos, vocês devem ter um outro arquivo chamado Excel Componente.

Clique nele. Vai ter o endereço aqui. Vocês copiem esse endereço.

E vamos no browser selecionar esse endereço, dar um enter, e automaticamente ele já vai baixar para você um software para fazer a instalação do componente 32 bits.

Então eu não vou nem parar o vídeo nesse download, porque eu acredito que ele vai ser rápido, já estamos em 17, 18, 19, 20. Já está finalizando.

Pronto. Finalizou o download, clique sobre o programa, aceitamos o termo de licença, next e install.

Pronto. Foi instalado com sucesso.

Para garantir, salvem o projeto.

Vamos fechar o Visual Studio.

Se pedir para salvar mais alguma coisa, diga que sim.

E eu vou abrir de novo o meu Visual Studio 2017, SSDT, e vou selecionar a minha solução Datawarehouse Sucos.

Vou clicar aqui, duplo clique sobre a criação da dimensão cliente. Duplo clique em origem de Excel.

Eu agora posso visualizar aqui a worksheet do meu Excel, então eu vou ler na aba clientes.

Olha só, cadê a minha planilha aqui? Deixa eu abrir aqui um explorador Windows.

Ela está aqui. Então o nome dessa aba aqui da planilha.

E aí eu vou clicar aqui em ok.

Pronto, eu tenho aqui a carga da minha planilha correta, ok?

Sobre o curso ETL com Integration Services: Transformação de dados

O curso ETL com Integration Services: Transformação de dados possui 197 minutos de vídeos, em um total de 56 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

  • 1222 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

Premium

  • 1222 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$75
à vista R$900
Matricule-se

Premium Plus

  • 1222 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$100
à vista R$1.200
Matricule-se

Max

  • 1222 cursos

    Cursos de programação, UX, agilidade, data science, transformação digital, mobile, front-end, marketing e infra.

  • Certificado de participação

    Certificado de que assistiu o curso e finalizou as atividades

  • App para Android e iPhone/iPad

    Estude até mesmo offline através das nossas apps Android e iOS em smartphones e tablets

  • Projeto avaliado pelos instrutores

    Projeto práticos para entrega e avaliação dos professores da Alura com certificado de aprovação diferenciado

  • Acesso à Alura Start

    Cursos de introdução a tecnologia através de games, apps e ciência

  • Acesso à Alura Língua

    Reforço online de inglês e espanhol para aprimorar seu conhecimento

12X
R$120
à vista R$1.440
Matricule-se
Procurando planos para empresas?

Acesso completo por 1 ano

Estude 24h/dia onde e quando quiser

Novos cursos todas as semanas