Domine o Pentaho Data Integration: Do Básico ao Avançado
- Descrição
- Currículo
- FAQ
- Revisões
Pentaho Data Integration (também conhecido como Kettle) é um software que pertence ao conjunto de ferramentas do Pentaho, este software é o responsável pelos processos de Extração, Transformação e Carregamento de dados – mais conhecidos como processos ETL.
O PDI não serve apenas como uma ferramenta ETL, mas também é usado para outros fins, como migração de dados entre aplicativos ou bancos de dados, exportação de dados de bancos de dados para arquivos simples, limpeza de dados e muito mais. O PDI possui um ambiente de design intuitivo, gráfico e de arrastar e soltar, e seus recursos de ETL são poderosos. É muito fácil de usar, você não precisa de nenhum código, você pode fazer todas as atividades com um aplicativo gráfico onde tudo que você precisa fazer é decidir o que você quer saber. No entanto, começar com o PDI pode ser difícil ou confuso.
Este curso fornece a orientação necessária para superar essa dificuldade, abrangendo os principais recursos do PDI. Cada aula apresenta novos recursos, permitindo que você se envolva gradualmente com a ferramenta. No final do curso, você não apenas terá experimentado todos os tipos de exemplos, mas também terá construído um datamart completo, com a ajuda do PDI.
-
1Apresentação do InstrutorVídeo Aula
-
2Apresentação do CursoVídeo Aula
-
3Material de ApoioTexto
Em uma era onde a informação é o novo petróleo, saber como canalizar, interpretar e transformar dados em decisões estratégicas é a chave para dominar o campo digital. Mas aqui está a verdade: enquanto muitos falam sobre ciência de dados e análise, poucos realmente entendem o coração pulsante por trás desses termos - o Data Warehousing e a Inteligência de Negócios (DW/BI).
-
4Instalação de ProgramasVídeo Aula
-
5Novo Local para Download do PentahoVídeo Aula
Baixe Pentaho Community Edition, é uma versão de código aberto com motores principais na plataforma que permite experimentar recursos e capacidades reduzidos. Extraia, transforme e carregue conjuntos de dados (ETL) e crie visualizações com a ferramenta de designer de relatórios do Pentaho.
-
6Configurações PentahoVídeo Aula
-
7Criando Repositório em Banco de DadosVídeo Aula
-
8Adicionando Usuários ao RepositórioVídeo Aula
-
9Criando sua primeira transformação.Vídeo Aula
-
10Transformando dados com PentahoVídeo Aula
-
11Como calcular percentual com PentahoVídeo Aula
-
12Criando um range entre datasVídeo Aula
-
13Como inspecionar dados durante uma transformaçãoVídeo Aula
-
14Adicionando e Modificando valores com diferentes stepsVídeo Aula
-
15Mais detalhes sobre o step Select ValuesVídeo Aula
-
16Tratamento de Erros com PentahoVídeo Aula
-
17Como exibir o motivo do erro com PentahoVídeo Aula
-
18Entendendo Hops no PDI: Fluxo Normal vs. Tratamento de ErrosVídeo Aula
No Pentaho Data Integration (PDI), também conhecido como Kettle, os "hops" são utilizados para definir o fluxo dos dados entre os steps. As setas e ícones nos hops têm significados específicos:
Seta Lisa (sem ícone): Esta seta indica um fluxo de dados normal entre dois steps. Os dados são simplesmente passados do step de origem para o step de destino.
Ícone de Duas Folhas: Este ícone representa um "Error Hop". Ele é usado para direcionar as linhas de dados que encontram algum tipo de erro no step de origem para um step de destino específico. Em outras palavras, se ocorrer um erro durante a execução do step de origem, os registros que causaram o erro serão enviados ao step ligado pelo "Error Hop". Isso é útil para tratamento de erros, registro de problemas ou filtragem de dados que não atendem a certos critérios.
-
19Lendo arquivos de textoVídeo Aula
-
20Expressões Regulares com PentahoVídeo Aula
-
21Como criar arquivos de textoVídeo Aula
-
22Leitura dinâmica de nomes de arquivosVídeo Aula
-
23Como utilizar variáveis do sistemaVídeo Aula
-
24Executando transformações por linha de comando.Vídeo Aula
-
25Agendando transformações com WindowsVídeo Aula
-
26Obtendo dados de um arquivo XMLVídeo Aula
-
27Ordenando dados com step Sort rowsVídeo Aula
-
28Curiosidades sobre o step Sort e Unique rowsVídeo Aula
Nesta aula o aluno irá aprender como trabalhar com os steps unique rows e sort rows em conjunto.
-
29Fazendo cálculos com Group ByVídeo Aula
-
30Descobrindo o Collator strengthVídeo Aula
Se você selecionou S para Classificar com base na localidade atual?, especifique um número inteiro entre 0 e 3 que define que tipo de diferenças condicionais devem ser aplicadas ao fazer uma ordenação.
-
31Formatando Campos NúmericosVídeo Aula
-
32Group by na práticaVídeo Aula
-
33Contando Palavras Frequentes com Filter Rows e Java FilterVídeo Aula
Nesta aula, você tem alguns arquivos de texto simples e deseja saber o que é dito neles. Você não quer lê-los, então decide contar as vezes que as palavras aparecem no texto, e ver as mais frequentes para ter uma ideia do que são os arquivos.
Regex utilizado para remover acentos e caracteres especiais [][!"#$%&'()*+,./:;<=>?@^_`{|}~-] -
34API Json - Coletando Twitter's com Pentaho Data IntegrationVídeo Aula
Atualização Importante Sobre a API do Twitter para os Alunos do Curso
Caros alunos,
É importante que vocês estejam cientes das recentes mudanças anunciadas pelo Twitter em relação ao acesso à sua API. Estas mudanças têm implicações diretas para o nosso curso, principalmente na seção onde ensinamos a extrair dados do Twitter usando o Pentaho Data Integration.
Novos Planos de API do Twitter:
- Planos Disponíveis: Grátis, Básico e Corporativo/Empresarial.
- Plano Grátis: Permite o uso da API apenas para escrita e testes, com um limite de 1.500 tweets publicados por mês via app, não permite coletar Twitters.
- Plano Básico (Pago): Permite publicar até 3.000 tweets por usuário e ler mais 10.000 tweets, com um custo de US$ 100 (aproximadamente R$ 513,59) por mês.
- Plano Pro (Pago): Permite publicar até 300.000 tweets por usuário e ler mais 1 Milhão de tweets, com um custo de US$ 5000 (aproximadamente R$ 24.201,50) por mês.
Impacto no Nosso Curso:
- Descontinuação do Acesso Gratuito: Com o fim do acesso gratuito, não será mais possível para os alunos replicar algumas partes da aula relacionadas à API do Twitter sem custo.
- Aplicação do Conhecimento Adquirido: Apesar desta limitação, os conhecimentos adquiridos em nosso curso são valiosos e podem ser aplicados em diversos contextos, além de serem úteis para aqueles que optarem por se inscrever nos planos pagos da API do Twitter.
Recursos Adicionais:
- Para mais informações sobre os planos da API do Twitter, visite o [Portal do Desenvolvedor](https://developer.twitter.com/en/docs/developer-portal/overview).
- Para aprender a criar Apps e obter tokens para coletar dados de redes sociais, incluindo Twitter, Instagram e LinkedIn, leia este [artigo no Medium](https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a).
Agradecemos a compreensão e estamos à disposição para quaisquer dúvidas ou esclarecimentos adicionais.
-
35Filter Rows AvançadoVídeo Aula
-
36Reaproveitamento de StepsVídeo Aula
-
37Transformação de dados com dois output's diferentesVídeo Aula
Nesta aula será visto como criar duas saídas diferentes para uma mesma entrada de dados. Será apresentado durante a aula um gerador de nuvem de tags todo customizado em Python. O aluno aprenderá como criar uma nuvem de tags utilizando os dados coletados do twitter, será visto como fazer as alterações e analisar logs de erro durante a implementação dos ajustes.
-
38Pesquisando dados em tempo de execuçãoVídeo Aula
Nesta aula veremos como utilizar o step stream lookup.
-
39Como fazer limpeza nos dadosVídeo Aula
Split field to rows
Replace in string
String operators
Split fields
Filter rows
Sort rows
Memory group by
-
40Copiando um conjunto de dadosVídeo Aula
Nesta aula veremos como copiar nosso conjunto de dados e enviá-los para destinos distintos em tempo de execução. Utilizamos nessa aula os steps:
Text file input
Split fields
Select values
If field value is null
Value mapper
Sort rows
Group by
Microsoft excel output
-
41Distribuição de linhas na práticaVídeo Aula
Distribuir linhas é usado para dividir linhas em vários destinos, geralmente para balanceamento de desempenho.
-
42Alterar o fluxo de dados com base em condições part.1Vídeo Aula
-
43Alterar o fluxo de dados com base em condições part.2Vídeo Aula
-
44Utilizando o step Switch/CaseVídeo Aula
O step Switch/Case funciona como um interruptor, onde dependendo da entrada que ele receber, lhe direciona para sentidos diferentes que você define.
-
45Mesclando StreamsVídeo Aula
Nessa aula o aluna aprenderá como unir dois fluxos de dados em apenas um.
-
46Como utilizar o step Append StreamsVídeo Aula
-
47Sorted Merge (Full outer join)Vídeo Aula
O Step Sorted Merge executa um comando similar ao FULL OUTER JOIN do SQL, vez que retorna todos os registros quando há uma correspondência nos registros da tabela esquerda (tabela1) ou direita (tabela2).
Atenção: em SQL, FULL OUTER JOIN e FULL JOIN são a mesma coisa. -
48Identificando diferenças entre duas origensVídeo Aula
-
49Tratando erros e fazendo mesclagem de streams em tempo de execução.Vídeo Aula
Nesta aula o aluno fará um mini projeto onde serão aplicados os conceitos de algumas aulas anteriores. Veremos como tratar erros previstos e erros não previstos, iremos analisar o resultado do ETL após processamento para fazer mais tratamento nos dados caso seja necessário.
-
50Substring no PentahoVídeo Aula
-
54Como converter linhas em colunasVídeo Aula
-
55Como desnormalizar linhas em colunas de dataVídeo Aula
Nesta aula você irá aprender como converter uma lista de datas por status em colunas de status com suas respectivas datas, algo comum no dia a dia de quem trabalha com análise de dados para calcular tempos médios.
-
56Row denormaliser com agregaçãoVídeo Aula
-
57Normalização de dados com PentahoVídeo Aula
-
58Steps para grupos de linhasVídeo Aula
Apresentando o step Row Flattener
-
59Operações com a Linha AnteriorVídeo Aula
Nesta aula, exploramos um dos aspectos mais intrigantes e úteis do Pentaho Data Integration: a capacidade de realizar operações com a linha anterior. Muitas vezes, ao trabalhar com transformações de dados, surge a necessidade de comparar registros consecutivos, calcular variações ou criar acumulativos. Este tutorial detalhado guia você através dos passos e técnicas necessárias para dominar essas operações. Aprenda como:
Configurar e usar o step 'Lag Rows' para acessar dados da linha anterior.
Realizar cálculos entre linhas consecutivas.
Implementar práticas recomendadas para garantir eficiência e precisão.
-
60Lead e Lag com Analytic QueryVídeo Aula
-
61Analytic Query com AgrupamentoVídeo Aula
-
62Criando uma dimensão de tempoVídeo Aula
Dimensões são conjuntos de atributos úteis para descrever um negócio. A dimensão do tempo é especial, usada para descrever um negócio em termos de quando as coisas aconteceram. Basta pensar na dimensão de tempo como uma lista de datas junto com atributos que descrevem essas datas. Por exemplo, dada a data 01/08/2022, você sabe que é um dia de agosto, pertence ao terceiro trimestre do ano, e é segunda-feira. Esses são alguns dos atributos para essa data.
-
63Dimensão Tempo AvançadaVídeo Aula
Nesta aula você verá como funciona uma dimensão tempo real.
-
64Download e Instalação do MySQL DatabaseVídeo Aula
Nesta aula iremos instalar o Banco de Dados MySQL que será utilizado como exemplo para esta seção de integração do Pentaho com Banco de Dados.
Link para download https://dev.mysql.com/downloads/mysql/ -
65MySQL Workbench - Criando database de exemploVídeo Aula
Nesta aula iremos criar o banco de dados que será utilizado como exemplo para as próximas aulas.
-
66Acessando nosso database com DbeaverVídeo Aula
-
67Repositório em Banco de Dados MySQLVídeo Aula
Nesta aula iremos configurar mais um repositório ao Pentaho, mostrando as diferenças entre os servidores de banco de dados PostgreSQL e MySQL
-
68Criando conexão com múltiplos databases (schemas)Vídeo Aula
-
69Conhecendo o explorador de databases do PentahoVídeo Aula
-
70Cuidados com o SQL ANSI entre DatabasesVídeo Aula
-
71Como copiar dados entre bancos de dados diferentesVídeo Aula
Nesta aula veremos como copiar dados de uma tabela do MySQL para o PostgreSQL
-
72Consultando um banco de dadosVídeo Aula
Nesta aula veremos como copiar os dados de um database de stage e enviar para um database de dw.
-
73Como fazer consultas SQL com parâmetrosVídeo Aula
Uma das maneiras de tornar suas consultas mais flexíveis é passando alguns parâmetros. Nesta aula, você aprenderá como fazê-lo.
-
74Como fazer consultas SQL com variáveis KettleVídeo Aula
Outra maneira de tornar suas consultas flexíveis é usando variáveis Kettle. Vamos explicar como fazer isso usando um exemplo.
-
75Como Atualizar ou Inserir registros em uma tabelaVídeo Aula
-
76O que é Ignore lookup Failure?Vídeo Aula
-
77Inserindo ou atualizando dados usando outro step do PDIVídeo Aula
-
78Eliminando dados de um banco de dadosVídeo Aula
Nesta aula veremos como deletar registros utilizando duas opções de steps, Delete e Execute SQL Script.
-
79Criando a dimensão do tempo no banco de dadosVídeo Aula
