Descoberta de Conhecimento
em Bases de Dados - DCBD
(mineração de dados, data mining)
Luis Otavio Alvares – II/UFRGS
[email protected]
Sumário
•
•
•
•
Introdução
Conceito de DCBD
Tipos de descobertas
Processo de DCBD
• Bibliografia
Introdução
• Grande quantidade de informações
armazenadas em muitas áreas:
comércio,indústria, governo, etc.
• Exemplos:
– cada compra em um supermercado fica registrada
em um arquivo (código de barra)
– todas as chamadas telefônicas (origem, destino,
horário, duração, ...)
– o SUS mantém registro magnético de todos os
atendimentos realizados (hospital, data, médico,
diagnóstico, procedimentos realizados, ...)
Exemplo de uso de conhecimento
Michael Dell: venda de assinaturas de
jornais
BDs atuais
• BDs atuais são feitos para armazenar e recuperar rápida
e eficientemente dados operacionais
• BDs atuais são úteis para recuperar dados específicos,
mas não são capazes de extrair conhecimento genérico
• Exemplo: um sistema bancário recupera rapidamente as últimas
movimentações ou o saldo de uma conta, mas teria dificuldade em
descrever o perfil do cliente em relação a outros clientes ou
determinar se ele seria um bom pagador em caso de fazer um
empréstimo
• Introdução
Conceito de DCBD
• Tipos de descobertas
• Processo de DCBD
• Bibliografia
Descoberta de conhecimento
em bases de dados
Objetivo: estudar e desenvolver um processo
capaz de extrair conhecimento novo, útil e
interessante implícito em coleções de dados
(BD) e representá-lo de forma acessível para o
usuário.
Descoberta de conhecimento
em bases de dados
Objetivo:
– descoberta de “conhecimento” a partir de
dados existentes
– identificar relacionamentos entre os dados e
gerar regras para aplicar em casos futuros
Relações da DCBD com outras áreas
• O processo de DCBD utiliza conhecimento de
várias áreas:
– BD
– IA: aprendizagem de máquina, redes neurais,
representação de conhecimento, ...
– estatística
DCBD: Exemplo
Predição de consumo de água:
• Dados:
– consumo diário de água
– aspectos do tempo (temperatura, umidade do
ar, …)
– dia da semana e do mês, feriado, férias, ...
• Objetivo: minimizar o consumo de energia
elétrica no bombeamento
• Introdução
• Conceito de DCBD
Tipos de descobertas
• Processo de DCBD
• Bibliografia
Tipos de descobertas
Os dois principais objetivos de alto nível da DCBD
são a descrição e a previsão
• a descrição se concentra em encontrar padrões que
descrevem os dados de forma compreensível para o
usuário
• a previsão envolve usar valores conhecidos de campos
ou variáveis para prever o valor desconhecido ou futuro
de variáveis de interesse
para isso, utiliza-se vários tipos de descoberta
ou tarefas de DCBD
“Tipos” de descobertas
• Dependência (associação) entre
atributos (o valor de um influencia o outro)
• Exemplos:
– determinados procedimentos médicos aparecem
sempre juntos
– determinados procedimento médicos aparecem
sempre associados a homens e outros a mulheres
– compradores de leite geralmente compram pão na
mesma transação
– em 80% das transações em que é comprada
cerveja, também é comprada batata frita
Exemplo: vendas casadas
PRODUTO A
PRODUTO B
Compra de
produto
PRODUTO A
Oferta de
produto relacionado
“Tipos” de descobertas (cont.)
• Formação de agrupamentos: é uma tarefa
descritiva onde se procura identificar um
conjunto finito de categorias ou agrupamentos
que descrevem os dados
Agrupamento 2
Dívida
+
Agrupamento 1
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Agrupamento 3
+
Renda
“Tipos” de descobertas (cont.)
• Detecção de seqüências: detecção de
dependências em relação ao tempo, em uma
ordem determinada.
• Exemplo:
– determinado procedimento médico sempre precede
outro
– determinado procedimento só pode ser repetido após
um intervalo mínimo de tempo
“Tipos” de descobertas (cont.)
• Detecção de desvios: utilizada para
detectar anomalias em bases de dados. Pode
evidenciar problemas na qualidade dos dados,
fraudes ou descobrir eventos raros
• Exemplos:
– um paciente foi submetido a três cirurgias para
extração de rim
– um homem submetido à cesariana
– a incidência da doença “x” é bem maior no município
“y” do que nos municípios vizinhos
Exemplos de aplicações
• Cartões de crédito
• Empresas de energia elétrica e água
• SUS
exemplo: sistema de mortalidade
• Doenças “P” – Algumas afecções originadas no
período perinatal:
– Uruguaiana apresenta um desvio significativo em
relação a esta doença, pois foram registrados muito
mais casos de morte do que o esperado.
– Porto Alegre registrou menos mortes do que a
quantidade esperada, para esta doença.
• Caxias do Sul apresenta um desvio em relação
às doenças “Q- malformação congênita,
deformidades e anomalias cromossômicas”. Foi
registrado um número de mortes
significantemente maior do que o esperado para
a cidade.
“Tipos” de descobertas (cont.)
• Classificação ou descrição de conceitos
(aprendizado supervisionado): dado um atributo que
indique a classe, o algoritmo monta uma descrição para
cada classe, identificando características comuns entre os
membros da classe
• exemplo:
– se tem salário alto, é casado, tem conta no banco e o
valor da prestação é baixo então é bom pagador
– se tem salário baixo e a prestação é alta então é mau
pagador
Exemplos de uso
• Upgrade de pacotes de TV por assinatura
• Cancelamento de assinaturas
• Análise para concessão de empréstimos
bancários
• Introdução
• Conceito de DCBD
• Tipos de descobertas
Processo de DCBD
• Bibliografia
O processo de DCBD
•
•
•
•
Pouco explorado na bibliografia
Longo
Trabalhoso
Muito dependente do usuário
Metodologia CRISP-DM
• CRISP-DM = CRoss – Industry Standard
Process for Data Mining
(projeto ESPRIT com vários parceiros industriais)
• Geral - não se restringe a ferramenta ou
tecnologia específica
Fases do CRISP-DM
Entendimento do Negócio
(ou do domínio do problema)
Identificação dos objetivos do usuário sob o
ponto de vista de DCBD e preparação de um
plano inicial
• Determinar os objetivos
• Avaliar a situação: disponibilidade de recursos,
limitações, etc.
• Determinar os objetivos da DC: objetivo, tipo de
problema (classificação, clustering,...), critérios para
avaliação do modelo.
• Produzir plano do projeto
Entendimento dos Dados
A partir da coleta inicial, explorar os dados,
verificando suas propriedades e qualidade
• Coletar dados iniciais
• Descrever os dados
–
–
–
–
Número de atributos e instâncias em cada arquivo
Tipos e faixas de valores dos atributos
Significado de cada atributo e sua importância para o objetivo
Estatísticas básicas para alguns atributos(média, DP, máximo,
mínimo, etc.)
– Relações entre os atributos-chave
• Explorar os dados
• Verificar qualidade dos dados
Preparação de Dados
Produção de um conjunto de dados adequado aos
algoritmos de mineração
•
•
•
•
•
Selecionar os dados
Limpar os dados
Construir dados
Integrar dados: combinar múltiplas tabelas ou outras fontes
Formatar dados: modificações sintáticas nos dados, sem alterar o
seu significado. Ex:
– Primeiro atributo tem que ser uma chave única
– O arquivo tem que estar em uma ordem determinada
– Retirar vírgulas dos campos para gerar um arquivo com atributos
separados por vírgulas
Preparação de dados – seleção de
dados
Seleção de atributos
• motivos:
–
–
–
–
–
Requisitos de tempo e espaço
Simplicidade do modelo gerado
Relevância dos atributos
Redundância entre atributos
Acurácia pode ser aumentada
• forma:
– Manual
– Por algoritmos: mais de 30 algoritmos
Preparação de dados – seleção de
dados
• Seleção de instâncias (exemplos, registros)
– Manual
– Por algoritmos
Preparação de dados – Limpeza
dos dados
Visa garantir a qualidade dos dados
• Eliminação de dados errôneos –
• Padronização de dados: formato de datas, abreviaturas, valores de
atributos (ex. sexo: M ou F, 0 ou 1, Mas e Fem, ...)
• Eliminação de duplicatas
• Tratamento de valores ausentes
– Excluir instâncias
– Completar valores ausentes
•
•
•
•
Complemento manual
Complemento com valor constante global: ex: “desconhecido”
Complementar com o valor mais provável
Complementar com o valor médio do atributo
Preparação de dados – Construir
dados
• Transformação de dados
– Normalização
– Transformação de valores simbólicos para numéricos
– Discretização de atributos
• Criação de novos atributos. Ex: área = comprimento x
largura
Cabeça
Corpo
Sorri Segura
Classe
Triangular Triangular Sim
Balão
Amigo
Quadrada Quadrado Sim
Balão
Amigo
Redonda
Bandeira
Amigo
Quadrada Triangular Não
Espada
Inimigo
Triangular Redondo
Espada
Inimigo
Bandeira
Inimigo
Redonda
Redondo
Sim
Sim
Quadrado Não
sorri
sim
inimigo
inimigo
segura
bandeira ou balão
amigo
não
espada
inimigo
Cabeça
Corpo
Sorri Segura
Mesma forma Classe
Triangular Triangular Sim
Balão
Sim
Amigo
Quadrada Quadrado Sim
Balão
Sim
Amigo
Redonda
Bandeira
Sim
Amigo
Quadrada Triangular Não
Espada
Não
Inimigo
Triangular Redondo
Espada
Não
Inimigo
Bandeira
Não
Inimigo
Redonda
Redondo
Sim
Não
Quadrado Não
mesma-forma
sim
amigo
não
inimigo
Modelagem
Corresponde a fase de Mineração de Dados
utilizada por outros autores
• Selecionar a técnica de modelagem
• Gerar projeto de teste
• Construir modelo: mineração propriamente dita (aplicação do
algoritmo)
• Avaliar modelo
Avaliação
• Interpretar e avaliar os resultados em
relação aos objetivos do usuário
• Avaliar resultados
• Revisar o processo
• Determinar próximos passos: ir para a fase final de
disponibilização ou voltar para alguma etapa anterior
Disponibilização
• Planejar disponibilização: decidir a estratégia para a
integração dos resultados obtidos no ambiente da
organização
• Planejar monitoramento e manutenção:
• Produzir relatório final
• Revisar o projeto: avaliar pontos positivos e negativos
do projeto, problemas e sugestões
Descoberta de Conhecimento em
Bases de Dados
DESAFIOS:
Esforço (%)
80
70
60
50
40
30
20
10
Etapa
0
Identificação Preparação
do domínio
do dados
Mineração
de dados
Análise dos
resultados
Fonte: Adriaans
• Introdução
• Conceito de DCBD
• Tipos de descobertas
• Processo de DCBD
Bibliografia
Bibliografia
• ADRIAANS, Pieter, ZANTINGE, Dolf. Data Mining. Harlow :
Addison-Wesley, 1997. 158p.
• FAYYAD, Usama M. et al. Advances in Knowledge Discovery and
Data Mining. Califórnia : American Association for Artificial
Intelligence, 1996. 611p.
• BERRY, Michael J. A.; LINOFF, Gordon. Data Mining techniques
for marketing, sales and custumer support. New York: John
Wiley, 1997. 454p.
• PYLE, Dorian. Data preparation for data mining. San Diego:
Academic Press, 1999. 540p.
Download

DataMiningAula 1