Data Warehouse
Professor Edson Emílio Scalabrin
telefone: 0xx41-330-1786
e-mail: [email protected]
download: http://www.ppgia.pucpr.br/~scalabrin
1
Objetivo

Apresentar:
• conceitos
• as características de um Data Warehouse
• algumas arquiteturas
•
•
•
•
•
Modelos de dados
Desenvolvimento do Data Warehouse
Povoamento do Data Warehouse
Extração de informações do Data Warehouse
Análise do uso da tecnologia Data Warehouse
2
Plano








CONCEITOS
As Características de um Data Warehouse
Algumas arquiteturas
Modelos de dados
Desenvolvimento do Data Warehouse
Povoamento do Data Warehouse
Extração de informações do Data Warehouse
Análise do uso da tecnologia Data Warehouse
3
Data Warehouse
Definição I:
• “ É uma coleção de dados orientados por
assuntos, integrados, variáveis no tempo e
não voláteis, para dar suporte ao processo
gerencial de tomada de decisão ” [ Inmon ]
4
Data Warehouse
Definição II:
• “ É um processo em andamento que
aglutina dados de fontes heterogêneas,
incluindo dados históricos e dados
externos para atender às necessidades de
consultas estruturadas e ad-hoc, relatórios
analíticos e de suporte a decisão ”
[Harjinder ]
5
Data Warehouse
Definição III:
• “ É uma coleção de técnicas e tecnologias
que juntas disponibilizam um enfoque
pragmático e sistemático para tratar com o
problema do usuário final de acessar
informações que estão distribuídas em
vários sistemas da organização ”
[ Barquini ]
6
Dados operacionais vs. Data Warehouse
Características BD Operacional
Data Warehouse
Objetivo
Operações diários do negócio Analisar o negócio
Uso
Operacional
Informativo
Tipo de processamento OLTP
OLAP
Unidade de trabalho
Inclusão, alteração, exclusão
Carga e consulta
Número de usuários
Milhares
Centenas
Tipo de usuário
Operadores
Comunidade gerencial
Interação do usuário
Somente pré-definida
Pré-definida e ad-hoc
Condições dos dados
Dados operacionais
Dados Analíticos
Volume
Megabytes - gigabytes
Gigabytes - terabytes
Histórico
60 a 90 dias
5 a 10 anos
7
Dados operacionais vs. Data Warehouse
Características BD Operacional
Data Warehouse
Granularidade
Detalhados
Detalhados e resumidos
Redundância
Não ocorre
Ocorre
Estrutura
Estática
Variável
Manutenção desejada
Mínima
Constante
Acesso a registros
Dezenas
Milhares
Atualização
Contínua (tempo real)
Periódica (batch)
Integridade
Transação
A cada atualização
Número de índices
Poucos / simples
Muitos / complexos
Intenção dos índices
Localizar um registro
Aperfeiçoar consultas
8
Componente de um Data Warehouse
Data Warehouse não é o fim, ele é um meio que as empresas dispõem
para analisar informações podendo utilizá-las para a melhoria dos
processos atuais e futuros
Qualquer fonte
Qualquer Dado
Qualquer acesso
Ferramentas
de consultas
(relatórios)
Dados
Operacionais
Data
Warehouse
Dados
Externos
Ferramentas
de OLAP
Aplicativos
9
Plano








Conceitos
AS CARACTERÍSTICAS DE UM DATA
WAREHOUSE
Algumas arquiteturas
Modelos de dados
Desenvolvimento do Data Warehouse
Povoamento do Data Warehouse
Extração de informações do Data Warehouse
Análise do uso da tecnologia Data Warehouse
10
Data Warehouse
Características
Orientação por assunto
 Integração
 Variação no tempo
 Não volatilidade
 Localização
 Credibilidade dos dados
 Granularidade
 Metadados

11
Data Warehouse
Características

Orientação por assunto
• Um DW sempre armazena dados importantes sobre
temas específicos da empresa e conforme o interesse
das pessoas que irão utilizá-lo.
Exemplo:
• Uma empresa pode trabalhar com vendas de produtos
alimentícios no varejo e o seu maior interesse ser o perfil
de seus compradores, então o DW será voltado para as
pessoas que compram seus produtos e não para os
produtos que ela vende.
12
Data Warehouse
Características

Integração
(a)
Aplicação B
Aplicação A
(b)
Aplicação A
Aplicação B
Aplicação C
Aplicação C
Valor
atual,
2 anos
Incompatibilida
de: mesmo
elemento, nomes
diferentes
Incoerência:
diferentes
elementos, mesmo
nome
Valor
atual,
3 meses
Valor
atual,
1 ano
Valor
atual,
6 meses
13
Data Warehouse
Características

Integração de dados
OPERACIONAL
Aplicação A: m,f
Aplicação B: 1,0
Aplicação C: masculino, feminino
DATA WAREHOUSE
sexo: m, f
Aplicação A: caminho - centímetros
Aplicação B: caminho - pés
Aplicação C: caminho - jardas
Aplicação A: descrição
Aplicação B: descrição
Aplicação C: descrição
Aplicação A: chave char(10)
Aplicação B: chave dec fixed(9,2)
Aplicação C: chave char(12)
caminho:
centímetros
?
descrição
Chave
char(12)
14
Data Warehouse
Características
Integração de dados
OPERACIONAL
Plano de Saúde
- Maria Silva
- Feminino
- 01/12/68
Clinica
- Maria Silva
- Duas internações em 2000
- Equipe médica
- Duração média das
internações
Laboratório de Exames
- Maria Silva
- Exames requeridos
- Resultados
DATA WAREHOUSE
- Maria Silva
- Feminino
- Nascida em 01/12/68
- Duas internações em 2000
- Equipe médica
- Duração média das internações
- Exames requeridos
- Resultados dos exames
- Casada
- 2 filhos
15
Data Warehouse
Características
Variação no tempo
Operacional
Maria Silva
Rua XV, 02
Medicação: X, Y
Entrada: 05/11/00
Alta: 10/11/00
Quais são
medicamentos
ministrados à
Maria Silva
neste momento?
Atômico
Maria Silva
Rua 24 horas, 12
Medicação: X, Z
Entrada: 01/03/98
Alta: 10/03/98
Maria Silva
Rua XV, 02
Medicação: X, Y
Entrada: 10/11/00
Alta: 10/11/00
Quais foram os
medicamentos
ministrados à
Maria Silva nos
últimos 5 anos?
Departamental
Janeiro 4101
Fevereiro 4209
Março 4175
Abril 4215
....
....
....
Estamos
atendendo mais
ou menos
pacientes ao
longo do tempo?
Individual
Pacientes desde
1980 tomando o
medicamento X e
com período de
internação superior
à 5 dias
Quais são os riscos
(tendências) em
relação aos
pacientes que foram
vitimas de infeção
hospitalar?
16
Data Warehouse
Características
Não volatilidade
OPERACIONAL
DATA WAREHOUSE
incluir
alterar
acessar
carregar
excluir
acessar
excluir
incluir
alterar
17
Data Warehouse
Características
Localização
Formas de
armazenamento:
• único local
(centralizado)
• por área de
interesse
(distribuído)
• por nível de
detalhes
Dados altamente
resumidos
Dados levemente
resumidos
Dados detalhados
atuais
Dados detalhados
antigos
18
Data Warehouse
Características

Credibilidade dos dados
• É o mais importante para o sucesso de qualquer projeto
• Discrepâncias simples de todo tipo podem causar sérios
problemas quando se quer extrair dados para suportar
decisões estratégicas para o negócio das empresas;
• Dados não dignos de confiança podem resultar em
relatórios inúteis, que não tem importância alguma
– por exemplo, uma lista de pacientes do sexo masculino e
grávidos;
19
Data Warehouse
Características
Granularidade
• Baixa
– é possível responder a praticamente qualquer consulta
– porém, grande quantidade de recursos computacionais
é necessária para responder perguntas específicas
• Alta
– ocorre uma significativa redução da possibilidade de
utilização dos dados para atender consultas detalhadas
– porém, reduz-se muito o espaço em disco e o número de
índices necessários
20
Data Warehouse
Características
Exemplo de níveis de granularidade
Baixa
Prod.
A1
B1
A1
A1
Data
13/9/00
14/9/00
16/9/00
16/9/00
Qtda.
10
15
20
90
Alta
Valor
100,00
150,00
200,00
890,00
mês/ano Prod. Qtda. Valor
09/00
A1
120
1190,00
09/00
B1
15
150,00
21
Data Warehouse
Características
Metadados
Três diferentes camadas:
• operacionais, centrais do Data Warehouse, nível do usuário
Três diferentes componentes:
• Mapeamento: descrevem como os dados de sistemas operacionais
são transformados antes de entrarem no DW
• Histórico:
descrevem as regras corretas a serem aplicadas nos
dados corretos quando as regras de negócio mudam
• Algoritmos de sumarização:
– mostram a relação entre os diferentes níveis de detalhes dos dados,
indicando inclusive que nível de sumarização é mais adequado para
um dado objetivo.
22
Data Warehouse
Características

Fontes de metadados
• Repositórios de ferramentas CASE
• Documentação do desenvolvimento dos sistemas
operacionais
• Código fonte dos sistemas operacionais
• Entrevistas
• O próprio ambiente do Data Warehouse
– informações tais como freqüência da acesso, em que nível de
agregação, tempo de resposta de cada consulta, etc..
23
Plano








Conceitos
As características de um Data Warehouse
ALGUMAS ARQUITETURAS
Modelos de dados
Desenvolvimento do Data Warehouse
Povoamento do Data Warehouse
Extração de informações do Data Warehouse
Análise do uso da tecnologia Data Warehouse
24
Arquitetura
Genérica de um D/W

Camadas de bancos de dados operacionais e fontes externas:
• É composto pelos dados dos sistemas operacionais das empresas e
informações provenientes de fontes externas que serão integradas para
compor o DW.

Camada de acesso a informação:
• Envolve o hardware e o software utilizado para obtenção de relatórios,
planilhas, gráficos e consultas.
• É nesta camada que os usuários finais interagem com o DW, utilizando
ferramentas de manipulação, análise e apresentação dos dados, incluindose as ferramentas de data-mining e visualização.

Camada de acesso aos dados:
• Esta camada faz a ligação entre as ferramentas de acesso à informação e os
bancos de dados operacionais.
• Esta camada se comunica com diferentes sistemas de bancos de dados,
sistemas de arquivos e fontes sob diferentes protocolos de comunicação, o
25
que se chama acesso universal de dados.
Arquitetura
Genérica de um D/W

Camada de metadados (Dicionário de dados):
• Metadados são as informações que descrevem os dados utilizados pela
empresa
– descrições de registros, comandos de criação de tabelas, diagramas
Entidade/Relacionamentos (E-R), dados de um dicionário de dados, etc.

Camada de gerenciamento de processos:
• É a camada responsável pelo gerenciamento dos processos que contribuem
para manter o DW atualizado e consistente.

Camada de transporte:
• Esta camada gerencia o transporte de informações pelo ambiente de rede.
Inclui a coleta de mensagens e transações e se encarrega de entregá-las em
locais e tempos determinados.

Camada do Data Warehouse:
• Corresponde aos dados utilizados para obter informações.
26
Arquitetura
Genérica de um D/W
27
Arquitetura
2o. Chaudhuri



Um componente back end: conjunto de aplicações responsáveis por extrair,
filtrar, transformar, integrar e carregar os dados de diferentes origens no DW;
Um componente front end: conjunto de aplicações responsáveis por
disponibilizar aos usuários finais acesso ao DW;
Um repositório para armazenar e gerenciar os metadados do sistema.
Data
Warehouse
(SGBD)
Componente
front-end
Componente
back-end
Repositório de
metadados
Fontes internas
Fontes
externas
28
Arquitetura: 2o. Chaudhuri
O fluxo de dados
Outflow
Componente
front-end
Upflow
Metaflow
Inflow
Repositório de
metadados
Fontes
internas
Component
e
back-end
Data
Warehouse
Downflow
Dados
antigos
Fontes
externas
29
Arquitetura:
2o. Valente
Consultas
Data warehouse
Integrador
Extrator
Base de
dados
Extrator
Extrator
Base de
dados
Base de
dados
30
Plano








Conceitos
As características de um Data Warehouse
Algumas Arquiteturas
MODELO DE DADOS
Desenvolvimento do Data Warehouse
Povoamento do Data Warehouse
Extração de informações do Data Warehouse
Análise do uso da tecnologia Data Warehouse
31
Download

Data Warehouse