Primeiras aulas do curso Transformação com ETL: Pentaho Data Integration

Transformação com ETL: Pentaho Data Integration

Carga de dimensões - Introdução

Vamos dar continuidade ao curso de ETL utilizando ferramentas Pentaho e agora este é o curso parte 2. Na parte 1, apesar do curso ter sido sobre Pentaho, nós demos mais ênfase na parte de modelagem e construção do nosso Data warehouse, lá no final que eu mostrei um pouco para vocês como funcionava o Pentaho Data Integration.

Agora chegou a hora! Vamos trabalhar direto com a ferramenta. O nosso objetivo final é fazer toda a carga de dimensão e dos fatos daquele Data warehouse que criamos lá no curso parte 1.

Então, vamos começar! Por exemplo: inicialmente, programar processos de carga que são muito simples. Lê uma fonte, grava em um destino. Mas também nós vamos olhar processos, por exemplo, um pouco mais complicados como esse aqui, onde vamos fazer várias coisas, várias preparações antes de gravarmos dentro da tabela final.

E durante esses processos de construção, nós vamos olhar um a um, o que significa cada caixa dessa daqui. Basicamente, olhar parte de todos esses “steps” aqui que existem dentro do Pentaho Data Integration.

Mas também não vamos apenas fazer carga de dimensões, nós também vamos fazer carga das nossas tabelas de fato. Eu vou pegar um exemplo das nossas tabelas de fato. Inclusive, vamos aprender como nós fazemos, por exemplo, uma conexão...

Vamos olhar aqui, com o SQL Server, que é a base onde os dados das fatos estão armazenados. Nós desconfiguramos a conexão até agora só com o MySQL. Depois com os fatos e dimensões, tudo preparado, nós vamos aprender como eu orquestro tudo isso, como eu executo esse processo de uma vez.

E aí nós vamos estar construindo e entendendo com funciona a orquestração de processos. Desde processos do tipo... Por exemplo: assim, cruzados, onde eu vou ter “caso dê certo, faça isso. Caso dê errado, faça aquilo”, ou até mesmo os nossos processos finais, que são organizados.

Vamos achar um exemplo, onde eu tenho processos onde eu chamo outros processos. Também vamos olhar no caso da nossa carga das tabelas de fato, a possibilidade, por exemplo, de eu especificar variáveis, que no caso não é nesse exemplo que eu abri aqui.

Mas, por exemplo: neste outro que nós vamos construir, eu vou especificar variáveis para que nossas cargas das tabelas de fatos sejam flexíveis. E aí, finalmente, depois que nós aprendermos a programar, a fazermos todos os processos usando o Pentaho Data Integration, nós vamos, no final das contas, abrir um ambiente lá no diretório de trabalho, aprender a fazermos uma carga de um processo do Pentaho Data Integration através de um arquivo “.bat”.

Então essa vai ser toda a linha desse treinamento. E claro, em cada ponto desse, nós vamos falar detalhadamente sobre cada processo, como encadeamos um processo com outro. Para que vocês saiam desse treinamento como uma boa noção de como funciona o Pentaho Data Integration, para fazer processos de ETL e cargas de Data warehouse.

Então é isso aí! Espero que vocês gostem desse treinamento e vamos em frente. Um grande abraço!

Carga de dimensões - Recuperando Ambiente

Oi, gente! Tudo bem? Esse vídeo, você vai assistir muitas vezes e em diferentes cursos da carreira de [BI] e da Pentaho. E ele se refere à recuperação do ambiente. É claro que não significa que você não deva assistir nos próximos cursos porque ele, na verdade, vai ser gravado em partes que dependendo do treinamento que você esteja fazendo, ele vai ter um caminho diferente do que você vai assistir agora.

Agora, quem é o público alvo deste vídeo? Aqui em cima estão todos os cursos que serão ministrados no treinamento Pentaho. Nós vamos começar!

Temos o curso “Modelagem-DW-Processo-ETL-Parte-1” e “Parte-2”, “olap-com-pentaho”, “business-intelligence-mdx-pentaho”, “Report-Analysis-Pentaho” e “DashBoard-Pentaho”. Se você está fazendo esse primeiro curso, não tem problema. Você não precisa nem assistir esse vídeo mais. Agora, se você estiver fazendo esse curso, o “Parte-2” e os seguintes, preste atenção no recado que eu vou dar para vocês.

Vocês podem estar na seguinte situação: “eu fiz o curso ‘Modelagem-DW-Processo-ETL-Parte-1’ e eu estou fazendo o curso ‘Modelagem-DW-Processo-ETL-Parte-2’, por exemplo, na mesma máquina com todos os modelos, todos os criados e tudo funcionando”.

OK, nesse caso, você também não precisa assistir mais esse vídeo, porque você já tem o seu ambiente funcionando. Isso vale também se você estiver fazendo o curso de “business-intelligence-mdx-pentaho” e se você fez o curso “olap-com-pentaho” com Pentaho e o seu ambiente está todo montado.

Ou seja, você fez um curso anterior ao que você está fazendo agora e o ambiente já está todo funcionando. Então você não precisa seguir com esse vídeo, porque o seu ambiente já está pronto, já está montado, já está preparado.

Agora, você pode estar no seguinte caso: “eu fiz os cursos anteriores”. Por exemplo: se eu estou aqui no “business-intelligence-mdx-pentaho”. Aí eu fiz o “Modelagem-DW-Processo-ETL-Parte-1”, fiz o “Modelagem-DW-Processo-ETL-Parte-2”, fiz o “olap-com-pentaho”. Só que agora, o curso que eu estou fazendo, a máquina que eu estou trabalhando está limpa.

Por algum motivo eu estou usando outra máquina, por algum motivo eu tive que formatar o meu computador. Então você, nesse caso, vai precisar recuperar o ambiente para poder continuar o curso que você está fazendo.

Você também pode ser o seguinte caso: “eu estou fazendo o curso de “business-intelligence-mdx-pentaho” e não fiz os cursos anteriores”. Em primeiro lugar, eu aconselho que vocês façam os cursos anteriores, porque todos esses seis cursos que estão aqui em cima têm uma lógica de construção. Então o conhecimento anterior é importante.

Mas mesmo que você insista - “não, mas só me interessa MDX”, por exemplo, ou “só me interessa OLAP” ou se “me interessa Report”. Não tem problema!

Talvez alguns conceitos que você não conheça. Eu não vou estar explicando o que eu estou fazendo porque eu estou supondo que você fez os cursos anteriores e está sabendo o que fazer. Nesse caso, se você quer fazer o curso sem ter feito o curso anterior, você também precisa recuperar o ambiente. Porque como você nunca fez o curso, você não tem um ambiente montado.

Esse vídeo e os próximos sobre a recuperação do ambiente, quem é o público alvo? É você que está fazendo a carreira de Pentaho, mas está agora em uma máquina limpa, onde você não tem mais o ambiente anterior, ou se você quer fazer um curso específico da carreira de Pentaho e não fez nenhum pré-requisito. Então para que vocês dois, continuem comigo, nós vamos seguindo nesse vídeo.

Se você faz parte do grupo de pessoas que vai ter que recuperar o ambiente, o primeiro passo que você tem que fazer é assistir quatro vídeos do curso “Modelagem-DW-Processos-ETL-Parte-1”, que faz parte da carreira Pentaho.

Mesmo que você já tenha feito esse treinamento, volte lá e assista esses quatro vídeos. Os vídeos em questão são o vídeo 4 e 5 da aula 1, e o vídeo 1 e 2 da aula 2. Esses quatro vídeos vão te orientar a baixar os softwares. Não somente os softwares da Pentaho, mas também os softwares de ambientes.

Ou seja, os softwares que vão ajudar a trabalhar no curso e configurá-los. E aí vocês vão ter um ambiente final montado, preparado e pronto para seguir com a recuperação do ambiente. Então façam isso! Voltem lá no vídeo 4 e 5 da aula 1, e no vídeo 1 e 2 da aula 2, do curso “Modelagem-DW-Processos-ETL-Parte-1”.

Então dê um “pause” nesse vídeo, vá lá, assista os quatro, faça o que está lá descrito, baixe os softwares, instale, configure e crie as variáveis de ambiente. Aí você volta aqui para nós continuarmos a recuperar o ambiente.

Você já assistiu os vídeos, instalou os softwares, configurou o ambiente? E aí nós vamos fazer agora o seguinte: relacionado a este vídeo, tem um link aqui em cima para vocês baixarem. Esse link vai baixar um arquivo, ele até é um arquivo grande, chamado “Treinamento_Inicial_???.zip”. Depois ele tem aqui um sufixo que dependendo do treinamento que você está assistindo, ele vai ter algumas letras depois desse “underscore” final.

Então se você estiver assistindo o curso de DashBoard, vai estar escrito “Dash”. Se for o curso de OLAP, vai estar escrito “OLAP”. Se for o curso de “MDX”, vai estar escrito “MDX”. Ou seja, dependendo do tipo de curso, você vai ter esse sufixo.

Mas não importa. O que importa é que você baixe esse arquivo. Ele vai ter esse nome, “Treinamento_Inicial_” e ao baixá-lo, copie esse arquivo para a raiz da sua máquina, lá para o “Drive C”. Então vamos simular esse transporte. Você já copiou ele aqui para o “Drive C”.

No meu exemplo o sufixo é “DASH”, mas não importa. O importante é que você tenha esse prefixo especificado. Na raiz do “Drive C”, você deve ter também aquele diretório “treinamento”, que foi o diretório configurado quando você assistiu, baixou o software da Pentaho e configurou o ambiente.

E aí vocês vão chegar aqui, colocar botão direito do mouse sobre o arquivo “.zip” e vocês vão extrair. E claro, vai começar o processo de extração. Ele vai criar um subdiretório que vai ter um nome igual ao arquivo “.zip”.

E o seguinte: eu vou parar o vídeo e quando acabar de descompactar esse arquivo, eu volto. Terminei de descompactar o arquivo e ele criou esse diretório. Novamente, o nome do diretório vai depender do arquivo que você está baixando. No meu caso, veio o sufixo “DASH”, mas pode ser “OLAP”, pode ser “MDX”, pode ser “Report”, pode ser outros sufixos quaisquer. O importante é que vocês agora façam o seguinte:

Vocês vão pegar aquele diretório “treinamento”, que é o diretório que vocês criaram depois da configuração do ambiente, conforme os vídeos que eu aconselhei que vocês assistissem, e vão renomear esse arquivo, esse diretório “treinamento” para “treinamento_old”. Ou vocês podem até apagar esse diretório. Não importa. Ele não vai ser mais usado. Vocês vão pegar o diretório que foi descompactado e vão renomear para “treinamento”.

Então nós apagamos ou renomeamos o diretório “treinamento” que já existia na sua máquina e colocamos com o nome “treinamento” (tudo em minúsculo) o diretório que foi descompactado através do arquivo que vocês baixaram. Está legal? Então, pronto! Cumprimos mais um passo da recuperação do ambiente. O próximo passo agora é nós abrirmos os softwares Pentaho e os auxiliares para sabermos se está tudo OK antes de continuarmos.

E a abertura desses softwares vai depender do curso que você esteja fazendo. Dependendo do treinamento que está assistindo esse vídeo, alguns softwares serão abertos, outros não. Mas fiquem tranquilos! No vídeo eu vou estar dizendo quais softwares, você, nesse treinamento específico, terá que abrir.

Então eu vou parar a minha apresentação e nós vamos agora partir para a abertura dos softwares. Estamos na sessão de abertura dos softwares. Então, vamos lá! Eu vou no diretório “treinamento”, que é aquele diretório que descompactamos.

Eu vou em “designer-tools”, “data-integration” e eu vou selecionar o arquivo “Spoon.bat”. Vou clicar nele e nós vamos abrir agora o Pentaho Data Integration. Vamos ver se nós conseguimos abrir o software e olhar o ambiente que temos à disposição. Eu vou minimizar. Dependendo do momento que você abra esse software, ele pode demorar um pouco mais, ou um pouco menos. Mas o importante é que daqui a pouco vai aparecer uma caixa de diálogo mostrando a abertura do software.

Vamos esperar um pouco, pelo menos para ver se na minha máquina... Agora apareceu! Então eu estou abrindo o Pentaho Data Integration. Como eu falei, isso pode demorar alguns minutos ou segundos, dependendo da situação.

No caso, eu vou parar o vídeo e voltar quando ele terminar de abrir. O Pentaho Data Integration abriu e é importante que vocês observem se vocês estão conectados no repositório “reposucos”. Se não tiver aparecendo “reposucos”, vocês devem clicar aqui embaixo e selecionar a opção “reposucos”.

Só para confirmar se eu estou olhando normalmente esse repositório, eu vou vir no “File”, “Open”. Eu vou ter aqui um diretório. E claro, dependendo do curso que você está assistindo, você vai ver mais, ou menos, objetos do Pentaho Data Integration salvos. Não se assuste se no teu caso, você não esteja vendo uma lista tão grande quanto a minha. É porque o arquivo que você recuperou ainda está construindo todas as integrações que serão usadas na carreira de Business Intelligence Pentaho.

Esse teste foi apenas para saber se eu consigo abrir e olhar os processos de ETL que estão disponíveis nesse diretório “treinamento” que você recuperou. Eu vou fechar. O meu Pentaho Data Integration está legal. Então, é isso aí!

Vamos para o próximo software. O software que nós vamos abrir agora é o MySQL. Quando nós baixamos aquele diretório “treinamento”, nós baixamos uma SQL embutida dentro do diretório. É uma SQL que eu não preciso instalar nada. Quando vocês baixaram os softwares da Pentaho e os softwares auxiliares, vocês fizeram essa instalação.

Só que nós trocamos esse ambiente pelo que foi recuperado quando baixamos e descompactamos o arquivo “Treinamento_Inicial”. Vamos ver se ambiente MySQL está correto. Eu vou vir no “Drive C”, “treinamento”, tem um diretório “mysql” e vou executar o “UniController.exe”.

Dou “Cancel”, dou “OK” e inicializo o MySQL. Ficou verde. Inicializou! Eu vou minimizar e vou abrir o software “HeidiSQL”, que também foi um software que vocês baixaram e instalaram no início, que é um software auxiliar para esse treinamento.

Nós vamos entrar com usuário “Root”, senha “root”, que foi o usuário aconselhado durante a instalação. E aí, pronto! Eu tenho aqui os meus bancos de dados. Dependendo do treinamento que você esteja assistindo esse vídeo, você vai ver mais, ou menos, bancos ali nessa lista.

Não importa se a lista que vocês estão vendo aqui, está diferente da que você está olhando, porque que vai depender do treinamento que você esteja assistindo esse vídeo. Quer dizer, depende do treinamento inicial que você baixou.

O importante é que o MySQL abriu e eu estou conseguindo ver as bases de dados. Então eu vou fechar o “CursoBI\ -HeidSQL”, mas eu vou manter aqui... Deixe-me ver se eu consigo mostrar para vocês. Aqui, olhem, vocês devem manter esse arquivo, que é o MySQL [NO AR]. Vamos continuar!

O próximo passo agora para terminarmoa a configuração do ambiente, esse é o passo final, é conferirmos no diretório “Provider” do seu usuário do Windows, dentro do arquivo “Kettle.properties”. Esse é o nome do arquivo. “Kettle.properties”. Se nós tivermos esses parâmetros.

Na verdade, dependendo do treinamento que você esteja fazendo, nós não precisamos criar esses três parâmetros. Mas para garantirmos, nós vamos criar independentemente do treinamento os três parâmetros já de antemão.

Claro que se, por acaso, por exemplo, você na realidade só estivesse precisando do primeiro parâmetro durante o treinamento a seguir que você vai assistir, eu vou pedir uma hora para criar esse novo parâmetro. Mas aí não tem problema, o parâmetro já foi criado nesse momento. Então vocês podem parar aqui e copiar esses dados.

O conteúdo desse arquivo “Kettel.properties” está também no link para download. Vai ter um link à parte dele para vocês baixarem. E aí o que vocês vão fazer vai ser o seguinte: então eu vou vir no meu “diretorio=c, “usuarios”, esse é o meu usuário que eu estou conectado na máquina. E aí nós vamos ter um diretório chamado “.kettel”. Dentro desse diretório eu vou ver o arquivo “Kettel.properties”. Pode ser, no caso de vocês que esteja vazio, pode ser que esteja com alguma coisa. Não importa.

Vocês vão abrir ele com o editor de texto e procurar pelas variáveis. No caso, no meu ambiente elas já foram criadas. Mas vocês vão copiar e colar essas propriedades ou vão olhar no vídeo e digitar vocês mesmos. Se você cumpriu todos esses passos apresentados nesse vídeo até esse ponto final, você está com o ambiente recuperado. E aí você pode agora seguir o treinamento normalmente!

Carga de dimensões - Fazendo a Conexão com DW

Vamos finalmente começar os nossos processos de ETL. Uma das coisas mais importantes no processo de ETL é você identificar como estão as suas fontes de dados. Nós até agora só falamos do modelo e da matriz, criamos o DW e configuramos o ambiente da Data Integration. Agora vamos ter que identificar cada processo de ETL e estarmos também identificando como nós vamos buscar os dados e qual tipo de funcionalidade nós vamos ter que aplicar no processo de ETL.

E nós vamos começar pela dimensão mais simples, que é a “dm_empresa”. Se eu olhar no meu HeidiSQL, é na verdade a “dm_fabrica”. Eu às vezes falo “empresa”, mas na verdade é a “fabrica”, que fabrica, digamos assim, os nossos sucos. E se eu, por acaso, selecionar a “dm_fabrica”; notem que é uma tabela que tem o código da fábrica e o descritor da fábrica. Dois campos devem ser colocados dentro dessa tabela.

Então a primeira coisa, claro, não somente para esse processo mas para todos os processos: eu preciso configurar dentro do nosso ambiente do Pentaho, a conexão com o DW. Você vai me falar: “mas nós já colocamos isso nas propriedades do JDBC Properties.

Já criamos essas nossas conexões. É preciso ainda configurar alguma coisa? A resposta é sim! Eu preciso criar uma identidade dentro do processo de ETL, chamada conexão, e aí eu vou ligar a esta propriedade que está aqui. Então, vamos fazer isso! Eu vou vir no “Spoon”. Vamos nos certificar que eu estou olhando o repositório “reposucos”. Isso é muito importante!

E eu vou vir em “Transformations”, botão direito do mouse para criar uma nova transformação. Eu vou ter essa janela. Dentro da minha aba “View”, eu tenho uma série de coisas que eu posso trabalhar com as transformações.

Eu tenho “Database connections”. É aqui que eu vou selecionar as minhas conexões. Botão direito do mouse e eu vou dar “New”. Eu tenho essa caixa de diálogo, onde eu posso, por exemplo, colocar o nome da conexão. Eu vou chamar de “Datawarehouse Sucos”. Então é a conexão de destino.

E aí eu posso escolher entre uma série de fontes de dados. No nosso caso, eu vou escolher o quê? MySQL! Porque a minha base está em uma SQL. Só um parêntese: durante a construção desse exercício, certifique-se que o seu bando MySQL está no ar. É importante!

E aí eu posso colocar a configuração nativa, colocando as propriedades de conexão. Posso usar um “ODBC”, caso eu esteja no ambiente Windows, ou eu posso usar o “JNDI”. Ou seja, a propriedade que está definida aqui. Vamos continuar!

Para eu definir o “JNDI”, basta eu colocar o nome dessa conexão “JNDI” que eu vou estar utilizando. Vocês se recordam, também? Nós criamos no “Kettel.properties” uma variável chamada “banco”, que tem como valor o nome do “JNDI”. Ou seja, vamos ver lá de novo.

Eu tenho o nome da variável “banco = dwsucos” porque “dwsucos” lá no parâmetro do “JDBC roperties, eu tenho o nome definido como “sucos”. Então aqui eu poderia colocar ou “dwsucos”, mas eu vou usar a variável.

E para eu olhar o valor da variável, eu aperto as teclas “Ctrl + Espaço”. Eu aperto “Ctrl + Espaço” e eu tenho todas as variáveis de ambiente existentes. Eu posso escolher a variável “banco”, ou seja, ele vai ver quem é a variável “banco”, vai procurar no nosso arquivo de variáveis “Kettel.properties” quem é a variável banco. Vai achar o valor dela e como é um “JNDI” que eu estou configurado lá, ele vai depois no JDBC Properties e procurar esta propriedade. Acabei riscando demais. Só que tem um problema.

Tem um erro aqui, que eu, durante a gravação dos cursos, esqueci de corrigir. Talvez vocês que estão comprando os cursos não vão encontrar esse problema, porque nos arquivos de configuração dos drivers, esse problema já foi corrigido.

Mas eu, durante a gravação dos treinamentos, não vi esse detalhe. Há um erro aqui. Eu escrevi a palavra “drive” sem o “r”. O certo seria, por exemplo, como está definido aqui em cima. Por exemplo: aqui, “driver”. Esse é que é o certo. Só que eu usei aqui “drive”. Então vamos corrigir isso.

Quem copiou do meu vídeo e viu eu digitando no vídeo, ou copiando e colando, viu que eu colei no vídeo e me copiou, deve ter cometido o mesmo erro. Agora, se você pegou aquele arquivo - deixe-me ver onde está o arquivo, foi o arquivo que foi orientado para que vocês fizessem o download.

Lá no vídeo 4.3, “Configurando JNDI”, eu pedi que vocês abrissem esse arquivo “JNDI_MySQL” e copiassem e colassem lá. Quando eu gravei o vídeo esse arquivo estava errado, mas agora, se vocês fizeram download desse arquivo, vocês fizeram certo.

Aqui dentro, por exemplo, a configuração já está com a palavra “driver”. A minha não, a minha configuração da gravação não está assim. Então vou fazer o seguinte: eu vou vir aqui e vou colocar o “r” de “driver”. Fiz a correção. Vou salvar o JDBC Properties e vou no Spoon. Vou ter que fechar ele e abrir de novo para corrigir esse problema. Agora já carreguei aquele valor como “driver” de forma correta. Vamos de novo aqui. E vou criar uma nova. Vim em “View” e vou criar uma nova conexão.

Vou colocar um nome: “Datawarehouse Sucos”. Vou colocar como “MySQL”. Seleciono a opção “JNDI” e aqui nas propriedades, aperto as teclas “Ctrl + Espaço” e vou colocar “$(banco)”. Vou testar. Tive um erro, “The server time zone value” (horário brasileiro de verão) “is unrecognized”. Olhe só! Eu já sabia que esse erro iria acontecer e eu quis mostrar a vocês.

Acontece o seguinte: o período que eu estou gravando esse vídeo, nós estamos no horário brasileiro de verão e parece que internamente esse “time zone” que o meu sistema operacional Windows configura, o JDBC não entende.

Se vocês estiverem assistindo esse vídeo depois do horário brasileiro de verão - ou seja, nós estamos agora em final de dezembro de 2018 - se vocês estiverem assistindo esse curso já em 2019 e final de fevereiro, março de 2019 ou em diante, talvez vocês não encontrem esse erro.

Mas se vocês estiverem assistindo esse vídeo - eu não sei nem se ele já vai estar no ar antes do fim do horário de verão - mas se estiver no ar antes do fim do horário de verão, vocês talvez encontrem esse erro.

Então, o que eu vou fazer aqui para corrigir isso? Somente vale caso vocês encontrem esse erro do horário brasileiro de verão. Fica até uma dica para programa Java que faz conexão com bando dados, esse erro pode acontecer também. Não é uma coisa exclusiva do Spoon. Eu vou dar “Cancel” e vou fazer o seguinte:

Tem um arquivo associado ao treinamento, que é o “JNDI_Mysql_Errata.bt”. Nesse arquivo ele já está escrevendo “driver” de forma correta. Mas tem a URL do JDBC, caso você trabalhe com o horário brasileiro de verão. Se vocês observarem, depois de “dwsucos”, eu tenho que escrever isso, “?useTimezone=true&serverTimezone=UTC”.

Então eu estou fixando uma zona de tempo específica e não uso a do sistema operacional. Aí eu vou estar usando uma zona de tempo específica e não uso do sistema operacional. Aí eu vou estar usando uma zona que o Java vai entender. Na verdade, o JDBC do MySQL vai entender. Então eu vou fazer isso.

Novamente, eu só estou fazendo isso caso haja problema do horário de verão. Eu vou copiar esse trecho que está marcado. Vou vir no JDBC Properties e vou colar. Então ficou assim: “mysql://localhost:3306/dwsucos?useTimezone=true&serverTimezone=UTC” e temos aqui o “Timezone”.

Vou salvar de novo o JDBC Properties. É claro que eu vou ter que fechar e abrir de novo o Spoon. Pela segunda, e espero, última vez. Fechei e vou abrir o Spoon de novo. Vamos esperar mais um pouco. Vou clicar e dou um “New”. Vou em “View”, vou clicar em “Database connections”, “New”. De novo, vou escolher “MySQL”, “JNDI” e aqui eu vou apertar as teclas “Ctrl + Espaço” e vou achar a variável do banco e vou dar um nome, “Datawarehouse Sucos”. Vou dar um “Test”. Agora conectou com sucesso.

Ou seja, depois de corrigir o “driver” que está escrito “drive” sem o “r”. Depois que eu coloquei na URL o horário de verão, eu resolvi os meus problemas. Talvez você não vá ter problema nenhum, porque no arquivo de cópia para criar as propriedades de conexão já está vindo do arquivo de download a palavra “driver”, e se você estiver assistindo o curso não mais no horário de verão, talvez você não encontre esses erros e a conexão vai ser feita de forma direta. Criei a conexão e dou “OK”. E aí a minha conexão está definida aqui!

Eu posso vir aqui, clicar em “File” e “Save”. Ele me mostra o quê? Ele me mostra não mais o meu disco, não mais a minha área de disco, mas a área do meu repositório. Eu posso, inclusive aqui dentro criar, se eu quiser, pastas e por assim vai. Eu vou criar tudo na raiz e depois eu posso até mover.

Eu vou chamar essa transformação de “DimensaoFabrica”. Vou evitar acentos e vou evitar de usar caracteres diferentes do inglês. Eu vou chamar isso de “DimensaoFabrica” e dar um “Save”. Vamos lá! Não vai salvar? Agora salvou!

Então eu tenho a minha dimensão com a fábrica salva, que tem só a conexão com o “dwsucos”. Se eu olhar no meu arquivo, “disco Local C”, “treinamento” e “repositorio”, olhe lá! Eu já tenho esses arquivos salvos! “Datawarehouse Sucos.kdb”, que é a conexão, está salvo no “repositorio”.

Tenho a “DimensaoFabrica.ktr” e já tenho aqui um “.log”, que vai dizer o que eu estou gravando no meu repositório. Então, assim... Já defini a minha conexão. Então estou pronto para seguir e começar a trabalhar na parte do ETL! Está legal?

Sobre o curso Transformação com ETL: Pentaho Data Integration

O curso Transformação com ETL: Pentaho Data Integration possui 376 minutos de vídeos, em um total de 79 atividades. Gostou? Conheça nossos outros cursos de Business Intelligence em Data Science, ou leia nossos artigos de Data Science.

Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:

Aprenda Business Intelligence acessando integralmente esse e outros cursos, comece hoje!

Plus

  • Acesso a TODOS os cursos da plataforma

    Mais de 1200 cursos completamente atualizados, com novos lançamentos todas as semanas, em Programação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

12X
R$85
à vista R$1.020
Matricule-se

Pro

  • Acesso a TODOS os cursos da plataforma

    Mais de 1200 cursos completamente atualizados, com novos lançamentos todas as semanas, em Programação, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.

  • Alura Challenges

    Desafios temáticos para você turbinar seu portfólio. Você aprende na prática, com exercícios e projetos que simulam o dia a dia profissional.

  • Alura Cases

    Webséries exclusivas com discussões avançadas sobre arquitetura de sistemas com profissionais de grandes corporações e startups.

  • Certificado

    Emitimos certificados para atestar que você finalizou nossos cursos e formações.

  • Alura Língua (incluindo curso Inglês para Devs)

    Estude a língua inglesa com um curso 100% focado em tecnologia e expanda seus horizontes profissionais.

12X
R$120
à vista R$1.440
Matricule-se
Conheça os Planos para Empresas

Acesso completo
durante 1 ano

Estude 24h/dia
onde e quando quiser

Novos cursos
todas as semanas