Alura > Cursos de Data Science > Cursos de Business Intelligence > Conteúdos de Business Intelligence > Primeiras aulas do curso Data Warehouse e Integration Services: carregando dados dimensionais

Data Warehouse e Integration Services: carregando dados dimensionais

Conexão no Data Lake - Apresentação

Olá! Meu nome é Victorino Vila e te desejo boas-vindas ao curso de Data Warehouse e Integration Services: Carregando dados dimensionais.

Audiodescrição: Victorino é uma pessoa de pele clara e olhos escuros. Seus cabelos são curtos, lisos e grisalhos. Tem barba e bigode também grisalhos e usa uma camiseta preta. Ao fundo uma parede lisa com iluminação azul-claro.

Esse é mais um curso na formação no qual estamos acompanhando a consultora Paula na implementação do projeto da empresa Atacadez.

Paula já implementou, com nossa ajuda, os processos de carga do Data Lake. Agora, chegou o momento de utilizar os dados brutos contidos neste Data Lake para iniciar as cargas no Data Warehouse.

Para isso, aplicaremos as regras de negócios definidas durante a modelagem, assim como garantir a integridade do banco de dados gerencial.

Isso porque nem sempre o dado chega íntegro no Data Lake, já que ele tem como função receber dados brutos das diversas fontes de dados gravados no Data Lake exatamente como chegam.

O Data Lake possui outras funções muito importantes além de servir como fonte de dados para o Data Warehouse, esse é o motivo pelo qual isso ocorre.

Aprenderemos como implementar o processo de Lookup das dimensões, criar identificadores primários e o valor numérico sequencial que identifica as dimensões.

Também faremos a classificação de membros das dimensões baseados na definição de seus atributos provenientes da modelagem e abordaremos problemas de integridade e como resolvê-los.

Nesse curso, focaremos na implementação das cargas das dimensões empresa, produto e cliente.

Importante ressaltar que o ambiente na sua máquina deve estar configurado para dar continuidade ao projeto deste curso. Caso não esteja, disponibilizamos um material nas atividades mostrando um passo a passo de como fazê-lo.

Esperamos que você goste deste curso! Um grande abraço e até o próximo vídeo.

Conexão no Data Lake - Fase do projeto

Começaremos entendendo em qual fase do projeto estamos atualmente. Nos cursos anteriores, acompanhamos toda a trajetória da Paula na implementação do projeto de Inteligência de Negócios na empresa Atacadez. Vamos relembrar esse progresso.

Fases do projeto

Primeiro, Paula fez o levantamento dos processos de negócio, elaborando uma documentação sobre esses processos e a matriz de dimensão-indicador, modelando uma área específica da empresa, a área de vendas.

Ela escolheu a implementação do Data Warehouse de forma vertical, implementando uma área por vez, isso porque traz melhores resultados a curto prazo para o usuário.

A etapa seguinte foi criar o Data Warehouse, Paula projetou as tabelas baseadas na documentação do modelo. Para isso, utilizou duas formas diferentes, o modelo estrela para as dimensões cliente, empresa e tempo e o modelo floco de neve para a dimensão produto.

No modelo estrela, as tabelas de dimensões são todas desnormalizadas, ou seja, todos os campos referentes aos níveis e atributos ficam na mesma tabela. No modelo floco de neve, temos as tabelas normalizadas, ou seja, uma tabela para cada nível das hierarquias da dimensão.

Posteriormente, Paula identificou as fontes de dados fornecidas pela área de tecnologia da informação da Atacadez. Ela recebeu uma série de arquivos de formatos diferentes, como CSV, Excel, JSON e XML. Assim, ela criou uma estrutura de diretórios e construiu uma série de processos de carga usando o SQL Server Integration Services, realizando a carga desse Data Lake.

O Data Lake é um banco de dados onde os dados brutos das fontes são armazenados. Ele tem diversas utilidades, como realizar pesquisas relacionadas à ciência de dados. No entanto, para nós, o objetivo do Data Lake é ter uma única fonte de dados para o Data Warehouse.

Fase atual do projeto

Agora, estamos na fase de iniciar a carregar o Data Warehouse. Este é o momento em que aplicaremos as regras de negócio da empresa para garantir que os dados no Data Warehouse sempre tenham o mesmo conceito.

Vamos realizar algumas transformações para adequar os dados e gravá-los no Data Warehouse usando o Data Lake como única fonte. Sendo assim, este curso dará ênfase a essa carga.

Também usaremos o Integration Services para implementar esses processos.

Te esperamos no vídeo seguinte!

Conexão no Data Lake - Entendendo o Data Lake

Agora, entenderemos o Data Lake, já que essa será a única fonte de dados para o Data Warehouse.

Entendendo o Data Lake

Para isso, abrimos o Management Studio. Analisaremos as tabelas do Data Lake chamado DL_ATACADEZ.

Começaremos analisando os campos da tabela de clientes, que concentra todas as fontes de dados necessárias para a dimensão cliente. Para isso, na lateral esquerda da tela, clicamos em "dbo.tbl_cliente > colunas".

Encontramos o identificador natural, descrição do cliente, endereço, faturamento anual, segmento, dados geográficos como a cidade, estado e região, considerando que o estado tem o identificador natural. Também há dados de metadados como arquivo, origem e data de carga.

Importante lembrar que a tabela de clientes resulta da consolidação de duas fontes de dados diferentes, sendo uma planilha de Excel com cadastros de clientes e um arquivo CSV com dados geográficos.

Vamos para a próxima tabela, a de compras, que possui dados referentes às compras efetuadas. Para analisar os campos, clicamos em "dbo.tbl_compra > Colunas". Encontramos mês e o ano, o identificador natural do produto, preço médio de compra e dados dos metadados.

Os dados usados para alimentar essa tabela foram provenientes das compras médias dos fornecedores por produto. Esses dados de compra são necessários para calcular o custo de venda, que acontecerá no nível do Data Warehouse e Data Market.

A tabela seguinte é a de empresas, com dados referentes as lojas e as empresas do Atacadez. Na lateral esquerda, acessamos "dbo.tbl_empresa > Colunas". A fonte de dados usada para alimentar essa tabela foi um único arquivo CSV.

Nela temos o identificador natural da loja, descritor, seguido pelo identificador natural e descritor da empresa, o tamanho da loja em metragem e os dados referentes aos metadados da fonte.

Na tabela de itens, "dbo.tbl_item > Colunas" encontramos itens das notas fiscais. Foi alimentada por vários arquivos CSV com itens das notas de cada mês. Seus campos incluem o número da nota fiscal, o identificador natural do produto, a quantidade comprada e o preço pago pelo produto, além dos dados de metadados.

Outra tabela é a ede log, "dbo.tbl_log > Colunas", utilizada para acompanhar o carregamento dos dados. Embora não seja usada para alimentar o Data Warehouse, no final do curso usaremos essa tabela de logs para monitorar o carregamento do Data Warehouse.

A tabela de notas, "dbo.tbl_notas > Colunas", abriga os cabeçalhos das notas fiscais. Também deriva de vários arquivos CSV consolidados por mês, seus campos são o número da nota fiscal, o identificador natural do cliente e da loja, a data da nota fiscal e dados referentes aos metadados.

A tabela de produtos, "dbo.tbl_produto > Colunas", é alimentada por dados JSON e XML. Os dados JSON se referem aos produtos, enquanto os XML contêm informações dos fornecedores desses produtos.

Essa tabela inclui o identificador natural, descritor do produto, descritor do departamento, unidade de medida do produto, identificador natural e descritor do fornecedor, além dos dados de metadados.

Por fim, temos a tabela com as datas correspondentes ao carregamento das notas fiscais, "dbo.tbl_tempo > Colunas". Quando lemos os dados do cabeçalho da nota, conforme o processo que construímos no curso anterior, é guardado as datas para serem posteriormente carregadas no Data Warehouse.

Por isso, temos apenas o identificador natural do dia, a data no formato date e um controle que utilizaremos para que o Data Warehouse identifique quais foram as datas que já foram carregadas e quais ainda precisam ser carregadas.

Esse é o esquema do Data Lake. A partir dos dados que estão neste Data Lake que vamos ler, aplicar transformações e salvar dentro do Data Warehouse. Tudo isso aplicando as regras de negócio estabelecidas durante a fase de modelagem do projeto de Business Intelligence da área de vendas da Atacadez.

Até o vídeo seguinte!

Sobre o curso Data Warehouse e Integration Services: carregando dados dimensionais

O curso Data Warehouse e Integration Services: carregando dados dimensionais possui 145 minutos de vídeos, em um total de 53 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

Plus

De
R$ 1.800
12X
R$109
à vista R$1.308
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

Matricule-se

Pro

De
R$ 2.400
12X
R$149
à vista R$1.788
  • Acesso a TODOS os cursos da Alura

    Mais de 1500 cursos completamente atualizados, com novos lançamentos todas as semanas, emProgramação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Luri powered by ChatGPT

    Luri é nossa inteligência artificial que tira dúvidas, dá exemplos práticos e ajuda a mergulhar ainda mais durante as aulas. Você pode conversar com Luri até 100 mensagens por semana.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas