Pentaho Data Integration Ceça Moraes Setembro/2015 Pentaho Data Integration (PDI) • PDI ou Kettle • http://community.pentaho.com/ – http://sourceforge.net/projects/pentaho/files/Dat a%20Integration/5.4/pdi-ce-5.4.0.1130.zip/download • Componente da suite do Pentaho responsável pelos processos de ETL • Extraction, Transformation and Load • Descompactar numa pasta Outra Aplicações do PDI • Migração de dados entre aplicações/banco de dados • Exportar dados de banco de dados para outros formatos • Limpeza de dados Componentes PDI • Spoon – Criação de transformações e jobs • Pan – Execução de transformações com agendamento em intervalos • Kitchen – Execução de jobs com agendamento em intervalos • Carte – web server para execução remota de transformações e jobs Kettle Transformação • Conjunto de passos interligados ou não • Contém fontes e saídas dos dados • Conceito de stream (fluxo de dados) = entrada e saída de um passo • Uma transformação para cada dimensão • Arquivos *.KTR do Spoon Passos (Steps) • Unidade mínima da transformação • Grande variedade de tipos – Input, Output, Joins,... • Tipos básicos: entrada, transformação, saída Passos (Steps) Hops • Links entre os steps • Indicam fluxo dos dados (streams) – Origem e destino Jobs • Conjunto para execução de várias transformações • Arquivos *.KJB do Spoon Tcharan... ETLS NO PENTAHO DATA INTEGRATION (KETTLE) Base Operacional: northwind Data Warehouse: Vendas Conexões Conexões Dimensão: Produto Dimensão Produto Tipo de Steps • Tipos de steps utilizados – Table Input (da aba “Input”) – Dimension lookup/update (da aba “Data Warehouse” – Execute SQL Script (da aba “Scripting”) Dimensão Produto Dimensão Produto Dimensão Produto Dimensão Produto ATENÇÃO!!! • Executar todas as ETLs das dimensões ANTES de executar a ETL do Fato • A carga da tabela da dimensão tempo também deve ser feita ANTES da do fato Fato Vendas Fato Vendas Tipo de Steps • Tipos de steps utilizados – Table Input (da aba “Input”) – Database lookup (da aba “Lookup” – Select Values (da aba “Transform”) Tipo de Steps • Tipos de steps utilizados – Memory Group By (da aba “Statistics”) – Table Output (da aba “Output” Fato Vendas Fato Vendas Fato Vendas Fato Vendas Fato Vendas Fato Vendas Fato Vendas Fato Vendas Fato Vendas Mãos à obra e divirtam-se!!!