Kamila T. Lyra
Karina C. S. Nishimura
Thiago P. Colonhezi
William S. Soares





Banco de dados de informações empresariais.
Processamento de consulta e não de
transações.
Torna informações acessíveis e claras para o
uso.
Consultas sem impacto nos dados
operacionais.
Maneira de obter informações corporativas
para tomada de decisões.



Anos 80
Bancos de dados comerciais para SADs
No inicio eram apenas subconjuntos dos
dados operacionais que eram copiados para o
banco de apoio a decisões regularmente.
“Data Warehouse é uma coleção de dados orientada por
assuntos, integrada, variante no tempo, e não volátil
que tem por objetivo dar suporte aos processos de
tomada de decisão.”
Inmon(1997)
“Poder faz dinheiro. Conhecimento é poder. Data
Warehouse aumenta o conhecimento. Portanto,
Data Warehouse faz dinheiro.”
Knowles (1996)

Os Data Marts são
subconjuntos de
dados, dentro de um
Data Warehouse,
projetados para dar
suporte a negócios de
unidade
organizacionais
especificas (NIMER,
1998).


Data Warehouse é um ambiente adaptado
para apenas um objetivo.
Desafios:
◦ Consultas claras e rápidas.
◦ Disponibilizar metadados.

Sistemas de gestão: Business Intelligence
◦ Núcleo do apoio á decisões.





Keneth Iverson – 1962
“A Programming Language” - APL
Necessidade de relatórios dinâmicos
Tecnologia OLAP – década de 90.
Popularidade

Processamento Analítico Online
◦ Manipular e analisar um grande volume de dados
sob múltiplas perspectivas


Otimização de consulta e relatório
BI- síntese de informações corporativas
◦ visões comparativas e personalizadas:
 Apresenta as informações via um modelo de dados
natural e intuitivo.
◦ análises históricas; e
◦ elaboração de cenários.

Tipos básicos de dados:
◦ Medidas:
 Dados numéricos, como quantidades e médias
 Parâmetros utilizados na tomada de decisões
 dimensão especial utilizada para realizar comparações.
◦ Dimensões:
 Uma unidade de análise que agrupa dados de negócio
relacionados.

Conceitos – chave:
◦ Cubo: estrutura multidimensional de dados do
negócio.
◦ Membro: subconjunto de uma dimensão.
◦ Hierarquia: Uma estrutura em árvore lógica que
organiza os membros de uma dimensão.

Conceitos-chave
◦ Drill-up: diminuir o nível de detalhamento
◦ Drill-down: aumentar o nível de detalhamento
◦ Slice and Dice: reorganizar os dados

Uma dimensão

Duas Dimensões

Três Dimensões

Quatro Dimensões


Exemplo: aplicações bancárias
OLTP: Ponto de vista do cliente.
◦ inserção, alteração, remoção de dados individuais.

OLAP: Ponto de vista do Gerente.
◦ Análise global de contas correntes com diversas
visões. Ex:
 Saber qual é o desempenho de contas correntes que
tenham cheque especial e tenham utilizado o valor
máximo dos mesmos em um determinado período de
tempo em algumas regiões.



MOLAP: os dados são armazenados em cubos
multimensionais.
ROLAP: manipula os dados armazenados no
banco de dados relacional para dar a
aparência de funcionalidade slice and dice
do OLAP tradicional.
HOLAP: combinação do MOLAP e ROLAP.


São utilizados por gestores de qualquer nível
da organização;
Análise, navegação e visualização de dados
corporativos:
◦
◦
◦
◦
◦
Alto desempenho
Consistente
Interativa
Dinâmica
Perspectivas diferentes


Escolha de uma ferramenta OLAP inadequada
pode ocasionar severas consequências para
um projeto de datawarehouse.
Não existe nenhuma característica peculiar
que dite como a ferramenta deve ser
construída, qual tecnologia deva ser usada e
que funcionalidades devem ser
implementadas
◦ Grande disponibilidade de dados armazenados
eletronicamente
◦ Existem informações úteis, invisíveis, nesses
grandes volumes de dados;
◦ Aproveitar para prever um conhecimento futuro (ir
além do armazenamento explícito de dados).
◦ Data mining (mineração de dados), é o processo de
extração de conhecimento de grandes bases de
dados, convencionais ou não.
◦ Utiliza técnicas de inteligência artificial que
procuram relações de similaridade ou discordância
entre dados.
◦ Seu objetivo é encontrar, automaticamente,
padrões, anomalias e regras com o propósito de
transformar dados, aparentemente ocultos, em
informações úteis para a tomada de decisão e/ou
avaliação de resultados.
Evolução
Perguntas
Tecnologia disponível
Características
Coleção de
dados
1960
“Qual foi meu
rendimento total nos
últimos cinco anos ?”
Computadores, Fitas,
discos
Retrospectiva,
Dados estáticos
como resposta
Acessos aos
dados
1980
“Qual foi meu
rendimento no Brasil no
último janeiro ?”
RDBMS,
SQL,
ODBC
Restropectiva,
dados dinâmicos a
nível de registos
como resposta
Data
warehousing
& suporte a
decisão
1990
“Qual foi meu
rendimento no Brasil no
último janeiro? Do sul
até o nordeste
Processamento analítico
on-line, banco de dados
multidimencionais, data
warehousing
Retrospectiva,
dados dinâmicos
em múltiplos níveis
como resposta
Data Mining
Atualmente
“Porque alguns produtos
são mais vendidos na
região sul ?”
Algoritmos avançados,
computadores
multiprocessados, B.D.
grandes e poderosos
Prospectivo,
Informações
(perspectivas)
como resposta.
◦ Seleção.
◦ Pré-processamento.
◦ Transformação.
◦ Data mining.
◦ Interpretação e Avaliação.
•
•
Seleção
• Selecionar ou segmentar dados de acordo com critérios
definidos:
• Ex.: Todas pessoas que possuem ensino superior.
Pré-processamento
• Estágio de limpeza dos dados, onde informações julgadas
desnecessárias são removidas.
• Reconfiguração dos dados para assegurar formatos
consistentes (identificação)
• Ex. : graduação: “Graduação”, “Mestrado” ou Doutorado.
•
Transformação
• Transforma-se os dados em formatos utilizáveis.
Esta depende da técnica data mining usada.
• Ex: rede neural  converter valor literal em
valor numérico
• Disponibilizar os dados de maneira usável e
navegável.
•
Data mining
• É a verdadeira extração dos padrões de
comportamento dos dados
• Utilizando a definição de fatos, medidas de
padrões, estados e o relacionamento entre eles.
•
Interpretação e Avaliação
• Identificado os padrões pelo sistema, estes são
interpretados em conhecimentos, os quais darão
suporte a tomada de decisões humanas
• Ex.: Tarefas de previsões e classificações

Indução
◦ Regras indutivas
 É o processo de olhar uma série de dados e, a partir
dela gerar padrões;
 Pode-se trabalhar com dados numéricos ou não;
 Hipóteses;

Árvores de decisão
◦ Representação simples do conhecimento;
◦ Utilização de regras condicionais;
◦ A partir de um conjunto de valores decide SIM ou
NÃO.

Redes Neurais
◦ É uma abordagem computacional que envolve
estruturas matemáticas com a habilidade de
aprender;
◦ Elementos interconectados e possuem entrada e
saída do processamento;
◦ São organizados em camadas que aprendem pela
modificação da conexão

Redes Neurais
•
•
Open Source: Implementada na linguagem
JAVA.
Classificação
• Um classificador (ou modelo de classificação) é
utilizado para identificar a classe à qual pertence
uma determinada observação de uma base de
dados, a partir de suas características (seus
atributos).
•
O Software WEKA utiliza o arquivo .arff para a entrada de dados
o qual possui a seguinte estrutura:
@relation Censo
@attribute Escolaridade {Graduacao, Mestrado, Doutorado}
@attribute Idade {>30, <=30}
@attribute Rido {Sim, Nao}
@data
Mestrado,>30,Sim
Doutorado,<=30,Sim
Mestrado,<=30,Nao
Doutorado,>30,Sim
Graduacao,<=30,Nao
Graduacao,>30,Nao
Arvore de Decisão
Matriz de Confusão
=== Confusion Matrix ===
a b <-- classified as
4 5 | a = Sim
6 3 | b = Nao
Download

Data Mining, Data Warehousing e OLAP