1
Projeto de Banco de
Dados para Web
Prof. Maurício Rodrigues de Morais
[email protected]
2
Aula 2
Mineração de Dado
3
Conteúdo
 Mineração de Dado
 Plataforma WEKA
 Exemplo prático
4
Introdução
 Acúmulo de dados a uma
razão crescente.
 Desenvolvimento das
tecnologias para
armazenamento de dados
 Popularização da Internet
 Métodos tradicionais para
análise de dados inviáveis
 Necessidade de desenvolver
tecnologias para o
entendimento das
informações contidas nas
bases de dados
 Entre outros...
5
Muitos estudos
direcionados ao
desenvolvimento
de tecnologias
para extração
automática de
conhecimento de
bases de dados
5
Conhecimento para
Apoio à Tomada de Decisão
Conhecimento
para Apoio à
Tomada de
Decisões
6
6
Pontos importantes em DM...
 Dado cru é fácil de coletar, mas caro para
analisar.
 Métodos: aprendizado de máquina, estatística,
bases de dados + visualização.
 Uma ferramenta para análises de dados.
 Pode ser combinado com métodos tradicionais.
 Grande interesse desde 1989.
 Sucesso nas aplicações práticas.
7
7
Aquisição de Conhecimento
de Dados
Exemplos
Aprendizado
de Máquina
(AM)
Data Mining
(DM)
Dados
BC
Knowledge
Discovery
in Database
(KDD)
8
8
Algumas Considerações...
 Usualmente percebe-se uma grande confusão
de termos na comunidade como: Data
Warehouse, OLAP, Data Mining, KDD
 KDD (Knowledge Discovery in Databases) e DM
(Data Mining) são muitas vezes utilizados como
sinônimo.
 É comum utilizar DM em contextos industriais,
enquanto que KDD é uma expressão mais
científica.
9
9
Algumas Considerações... (cont.)
 No sentido científico, DM corresponde a somente
uma fase do processo de KDD.
 Como a industria vê Data Mining?
 Suporte a decisão
 Bussiness Inteligence
 Data Warehouse e Data Mining
10
10
Data Warehouse
 Data Warehouse é um repositório de dados,
voltado para suporte à tomada de decisão,
derivado de diversos outros bancos de dados.
 O objetivo principal é ter uma visão mais ampla
das informações relacionadas à
empresa/organização.
11
11
OLAP (On-Line Analytical Processing)
 Voltadas para análise multidimensional de dados de
modo superior aos mecanismos oferecidos pelas
ferramentas tradicionais
 É a análise, síntese e consolidação de grandes volumes de
dados multidimensionais [Codd 93].
 Ferramenta geralmente utilizada para a análise de
Data Warehouse.
12
12
OLAP (cont.)
Idade Motivo Duração Valor
Risco
45
20
37
29
66
Baixo
Alto
Baixo
Alto
Alto
Carro
Negoc.
Casa
Carro
Mobil.
36
20
40
24
10
10,000
35,000
30,000
25,000
7,000
13
13
OLAP (cont.)
Idade Motivo Duração Valor
Risco
45
20
37
29
66
Baixo
Alto
Baixo
Alto
Alto
Carro
Negoc.
Casa
Carro
Mobil.
36
20
40
24
10
10,000
35,000
30,000
25,000
7,000
107,00
14
14
OLAP (cont.)
Idade Motivo Duração Valor
Risco
45
20
37
29
66
Baixo
Alto
Baixo
Alto
Alto
Carro
Negoc.
Casa
Carro
Mobil.
36
20
40
24
10
10,000
35,000
30,000
25,000
7,000
39,4
15
15
Data Mining
Idade Motivo Duração Valor
Risco
45
20
37
29
66
Baixo
Alto
Baixo
Alto
Alto
Carro
Negoc.
Casa
Carro
Mobil.
36
20
40
24
10
10,000
35,000
30,000
25,000
7,000
Se Idade >= 35 e Duração >=20 então Risco = Baixo
16
16
Evolução das Tecnologia Relacionadas com Dados
EVOLUÇÃO
Coleta de dados
(1960s)
Acesso aos Dados
(1980s)
Navegação pelos dados
(1990s)
Data Mining
(2000)
TECNOLOGIA UTILIZADA
Computadores, Fitas, Discos
RDBMS, SQL, ODBC
SGBD, OLAP, Base de Dados
Multidimensionais, Data
Warehouse
Algoritmos Avançados,
Computadores com
Multiprocessadores, Grandes
Bases de Dados
17
17
Definição de Data Mining
Data Mining (DM) refere-se ao processo de extrair
conhecimento de bases de dados, ou seja,
trabalhar com grandes quantidades de dados
com o objetivo de extrair significado e descobrir
novos conhecimentos.
18
18
Data Mining
 Data Mining - processo de extração de
conhecimento de Bases de Dados.
 Definição formal (Fayyad,96)
 Processo não trivial de identificação de padrões:
válidos;
novos;
potencialmente úteis;
compreensíveis.
 Área multidisciplinar.
19
19
Alguns Casos de Sucesso
NIKE
WAL MART
20
20
Processo de Data Mining
PRÉ-PROCESSAMENTO
EXTRAÇÃO
DE PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
PÓS-PROCESSAMENTO
UTILIZAÇÃO DO
CONHECIMENTO
21
21
Conhecimento do Domínio / Identificação do Problema
 A exploração dos dados começa com os
dados?
Grande volume
de dados
Terabytes ou até
PentaBytes (1015 bytes)
Base de
Dados
22
22
Conhecimento do Domínio / Identificação do Problema (cont.)
 A exploração normalmente começa com a
identificação de uma necessidade!
Necessidade:
Decifrar os dados com
informações biológicas
e transformá-los em
conhecimento
Base de
Dados
23
23
Conhecimento do Domínio / Identificação do Problema (cont.)
 Antes do início do processo é imprescindível a
obtenção de um conhecimento inicial do
domínio
 Questões importantes:
 Quais são as principais metas do processo?
 Quais critérios de performance são importantes?
 Qual deve ser a relação entre simplicidade e precisão
do conhecimento extraído?
 Fornece subsídio para todas as etapas do
processo
24
24
Tarefas de Data Mining
 Atividade preditivas
 Classificação
 Regressão
 Atividades descritivas
 Regras de associação
 Sumarização
 Clustering
 etc.
25
25
Escolha do Algoritmo
 Vários algoritmos estão disponíveis para cada
função
 Nesta etapa deve ser escolhido o algoritmo a ser
utilizado bem como a configuração de seus
parâmetros
 Resultados experimentais mostram que não existe
um único bom algoritmo para todas as tarefas.
Assim, a escolha de vários algoritmos pode ser
feita
26
26
Pós-processamento
 Medidas de avaliação
 Desempenho
 Qualidade
Compreensibilidade
Interessabilidade
 Objetiva
 Subjetiva
27
27
Tecnologias que dão suporte para Data Mining
 Aprendizado de máquina
 Estatística
 Arquiteturas
 Visualização
 Sistemas de suporte à decisão
 Gerenciamento de dados
 Data warehouse e OLAP
28
28
Suporte para Data Mining
 Aprendizado de Máquina
 Muito importante em todas as etapas do processo.
 Estatística
 Apoia, especialmente, os métodos na etapa de preparação de
dados.
 Ferramentas de Visualização
 Importante na etapa de pré-avaliação, possibilitando verificar o
que foi extraído, e de que forma está organizado.
 Banco de Dados e Data Warehouse
 Algumas ferramentas são utilizadas para auxiliar a manipulação
dos dados.
29
29
Técnicas e Ferramentas para DM
 Técnicas simbólicas: Árvores de decisão e Regras
de decisão
 Algoritmos genéticos
 Redes neurais
 Técnicas de preparação de dados para
mineração
 Ferramentas para Data Mining
30
30
Algumas Área Relacionadas
 Text Mining
 Web Mining
 Recuperação de Informação
31
31
Algumas Ferramentas para DM
DataMining Suite
Darwin
DataEngine
DataMind
Data Surveyor
Discovery Server
Intelligent Miner
Omega
SAS
Syllogic DMT
Mineset
Weka
Alice
BusinessMiner
Clementine
32
32
Considerações Finais
 DM é muito útil quando há dados disponíveis.
 Exemplos como Wal Mart nos Estados Unidos,
demonstram que DM e TI funcionam.
 Um dos grandes problemas de DM está
relacionado com a utilização/criação dos
algoritmos para grande volume de dados.
 A presença de especialistas nos dados é muito
importante no processo DM.
 Se o custo da descoberta é maior que o ganho,
o esforço pode não justificar!
33
33
Considerações Finais (cont.)
 Alguns Problemas em Data Mining:
 falta de informação;
 buracos na seqüência da informação;
 em bases dinâmicas as trocas nos registros
tipo, etc.) são comuns;
 contaminação da informação por erros;
 incerteza nos dados.
34
(tamanho,
34
Weka
 Biblioteca de algoritmos de Aprendizado de
Máquina implementados em Java
 Paradigmas implementados: estatístico, instancebased e proposicional. Por exemplo: J48 (versão
Java do C4.5), ID3, Naive Bayes, entre outros
 Os algoritmos podem ser utilizados isoladamente
ou por uma aplicação Java escrita pelo usuário
 Pode ser conseguida em:
 http://www.cs.waikato.ac.nz/ml/weka
35
35
Download

Document