Pentaho Data Integration
Ceça Moraes
Setembro/2015
Pentaho Data Integration (PDI)
• PDI ou Kettle
• http://community.pentaho.com/
– http://sourceforge.net/projects/pentaho/files/Dat
a%20Integration/5.4/pdi-ce-5.4.0.1130.zip/download
• Componente da suite do Pentaho responsável
pelos processos de ETL
• Extraction, Transformation and Load
• Descompactar numa pasta
Outra Aplicações do PDI
• Migração de dados entre aplicações/banco de
dados
• Exportar dados de banco de dados para
outros formatos
• Limpeza de dados
Componentes PDI
• Spoon
– Criação de transformações e jobs
• Pan
– Execução de transformações com agendamento
em intervalos
• Kitchen
– Execução de jobs com agendamento em intervalos
• Carte
– web server para execução remota de transformações
e jobs
Kettle
Transformação
• Conjunto de passos interligados ou não
• Contém fontes e saídas dos dados
• Conceito de stream (fluxo de dados) = entrada e saída de um
passo
• Uma transformação para cada dimensão
• Arquivos *.KTR do Spoon
Passos (Steps)
• Unidade mínima da transformação
• Grande variedade de tipos
– Input, Output, Joins,...
• Tipos básicos: entrada, transformação, saída
Passos (Steps)
Hops
• Links entre os steps
• Indicam fluxo dos dados (streams)
– Origem e destino
Jobs
• Conjunto para execução de várias
transformações
• Arquivos *.KJB do Spoon
Tcharan...
ETLS NO PENTAHO DATA
INTEGRATION (KETTLE)
Base Operacional: northwind
Data Warehouse: Vendas
Conexões
Conexões
Dimensão: Produto
Dimensão Produto
Tipo de Steps
• Tipos de steps utilizados
– Table Input (da aba
“Input”)
– Dimension
lookup/update (da aba
“Data Warehouse”
– Execute SQL Script (da
aba “Scripting”)
Dimensão Produto
Dimensão Produto
Dimensão Produto
Dimensão Produto
ATENÇÃO!!!
• Executar todas as ETLs das dimensões ANTES
de executar a ETL do Fato
• A carga da tabela da dimensão tempo
também deve ser feita ANTES da do fato
Fato Vendas
Fato Vendas
Tipo de Steps
• Tipos de steps utilizados
– Table Input (da aba
“Input”)
– Database lookup (da aba
“Lookup”
– Select Values (da aba
“Transform”)
Tipo de Steps
• Tipos de steps utilizados
– Memory Group By (da
aba “Statistics”)
– Table Output (da aba
“Output”
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Fato Vendas
Mãos à obra e divirtam-se!!! 
Download

Pentaho Data Integration