Mineração de
Dados: Introdução
Victor Ströele
[email protected]
05/11/2015
Business Intelligence
Roteiro
BI e Mineração de Dados
 Introdução
 Processo KDD
 Conjuntos de Dados
 Funcionalidades da MD
 Etapas de Desenvolvimento da MD
 Integração DW e MD

Business Intelligence

Inteligência de negócios, ou inteligência
empresarial
 método
que visa ajudar as empresas a tomar
as decisões inteligentes

Análise dos clientes
 Clientes
Mais Valiosos
 Clientes de Maior Potencial
 Clientes Negativos (geram prejuízos)
 Clientes Intermediários
BI e Mineração de Dados



Grande volume de dados armazenado
diariamente pelas empresas
Estratégias de Análise para tornar a empresa
mais competitiva
BI:
 Obter
a partir dos dados operativos brutos,
informação útil para subsidiar a tomada de decisão
nos escalões médios e altos da empresa.

Mineração de Dados:
 Subsidiar
a empresa com conhecimento novo e útil
acerca do seu meio ambiente
Introdução

Problema: Crescimento da quantidade de
informações disponíveis e distribuídas em
diversas bases de dados:
 Bases
de dados das Empresas (várias filiais)
 Bancos (concessão de crédito)
 Internet (Redes Sociais, e-mail)
Introdução
OBJETIVO
“Extrair novos conhecimentos
que estão escondidos em grandes
bases de dados.”
Introdução

Data Warehouse: repositório de múltiplas
fontes de dados heterogêneos unificados
em um único local.
DW
Bases de Dados
Distribuídas
Introdução
Muitos Dados, mas Pouca Informação
KDD
KDD
KDD: Knowledge Discovery from Data.
 KDD é um processo de extração de
informações úteis em bases de dados, no
qual a descoberta de conhecimento é a
sua última etapa.

Processo KDD







Limpeza
Integração
Seleção
Transformação
Mineração dos Dados
Avaliação dos Padrões
Apresentação do
Conhecimento
Processo KDD

Componentes Principais:






Repositório de informações
Servidor de Banco de
Dados
Base de Conhecimentos
Mecanismo de Mineração
de Dados
Avaliação dos padrões
Interface com o usuário
Processo KDD

Repositório de informações (Banco de
Dados, Data Warehouse, Internet): Representa
uma ou um conjunto de bases de dados, ou
qualquer tipo de repositório utilizado para
armazenamento de dados. As etapas de limpeza
dos dados e técnicas de integração do processo
KDD devem ser aplicadas nesses componentes
Processo KDD


Servidor de Banco de Dados ou Data
Warehouses: Esses servidores são
responsáveis pela coleta dos dados relevantes,
com base na solicitação do usuário.
Base de Conhecimento: usada para guiar a
pesquisa ou para avaliar o quão interessante é o
padrão encontrado.
Processo KDD

Mecanismo de Mineração de Dados: Este
componente é fundamental para o processo
KDD e consiste em um conjunto de módulos
funcionais para tarefas como a caracterização,
associação e análise de correlação,
classificação, predição, análise de
agrupamentos (cluster) e análise de outlier.
Processo KDD

Módulo de Avaliação de Padrões: analisa se
os resultados obtidos pelo componente de
mineração de dados são interessantes. Esse
módulo precisa ter uma interação com o módulo
de mineração de dados para focar a busca em
padrões interessantes.
Processo KDD

Interface com Usuário: Estabelece a
comunicação entre o processo KDD e o usuário,
permitindo que o usuário interaja com o sistema
como um todo.
Conjuntos de Dados

Banco de Dados Relacional:
 Modelo
mais utilizado.
Carros
Ano
Cor
Modelo
...
2005
Preto
Astra
...
1974
Azul Claro
Fusca
...
...
...
...
...
Conjuntos de Dados

Data Warehouses:
 União
de diversos conjuntos de dados ou
 Reestruturação de uma base de dados
Conjuntos de Dados

Banco de Dados Transacional:
 Arquivos
ou tabelas que armazenam as informações
de uma transação.
 Podem existir outros arquivos ou tabelas
complementares
Transação Principal
Número
Tipo
Meio
0001
Venda de
Carro
Vendedor
Loja
Venda de
Som
Internet
...
...
0002
...
Transação Secundária
Número
Data
Responsável
0001
05/07/2008
José
0002
08/07/2008
Internet
...
...
...
Conjuntos de Dados

Sistemas de Informação e de Dados
Avançados:
 Banco
de dados objeto-relacional
 Banco de Dados Temporais
 Banco de Dados Textuais
 World Wide Web
Funcionalidades

Descrição de Classe/Conceito
Pessoas
Compram muito ou pouco
Itens
Adulto ou Infantil
Funcionalidades

Descrição de Classe/Conceito
 Caracterização:
resumo das características gerais
ou características de uma classe de destino de
dados.
 Discriminação: comparação entre as características
gerais dos dados dos objetos da classe principal
com as características gerais dos objetos de uma ou
um conjunto de classes contrastantes.
Funcionalidades

Mineração de Padrões Freqüentes,
Associações e Correlações
 Padrões
Freqüentes: são os padrões que ocorrem
com freqüência no conjunto de dados.
 Associação: indica como os padrões freqüentes
estão relacionados.
 Correlação: análise estatística para determinar se as
regras de associações encontradas são relevantes.
Funcionalidades

Mineração de Padrões Freqüentes,
Associações e Correlações
 Regras
de Associação:
Compra(X, “computador”)  Compra(X, “software”)
[suporte = 1%, confiança = 50%]
 Confiança

é a certeza de que a regra irá ocorrer
50% das pessoas que compram computadores compram
softwares.
 Suporte
é a quantidade relativa que a regra
representa

1% das pessoas compraram computadores.
Funcionalidades

Mineração de Padrões Freqüentes,
Associações e Correlações
 Regras
de Associação:
Idade(X, “20...29”) ^ Renda(X, “300,00...900,00”)  Compra(X, “CD”)
[suporte = 2%, confiança = 60%]
 60%
das pessoas que possuem entre 20 e 29 anos
e têm renda entre 300,00 e 900,00 compram CDs.
 2% das pessoas analisadas possuem entre 20 e 29
anos e têm renda entre 300,00 e 900,00.
Funcionalidades

Classificação e Predição
 Classificação
é um processo de encontrar um
modelo (ou função) que descreve e distingue
classes de dados, com a finalidade de ser capaz de
usar o modelo para prever a classe de objetos cujo
rótulo da classe é desconhecido.
 Predição é utilizada para definir um provável valor
para uma ou mais variáveis. Ex.: a previsão da
cotação de uma ação na bolsa de valores.
Funcionalidades

Agrupamento
(clustering)
 Diferentemente
das
técnicas de classificação
e predição as técnicas
de agrupamento
analisam os objetos sem
o conhecimento prévio
de qual classe cada
objeto pertence.
Classificação dos Sistemas de
Mineração de Dados

Interdisciplinaridade da técnica
A
mineração de dados é um campo interdisciplinar, a
confluência de um conjunto de disciplinas
Estatística
Banco de dados
Outras Disciplinas
Mineração de dados
Inteligência Artificial
(Redes Neurais)
Visualização
Biologia
Etapas do Desenvolvimento da
Mineração de Dados

Permitir a interação entre o usuário e o processo
de mineração de dados

Analisar os resultados sobre ângulos diferentes

Usuário “interfere” no processo de mineração de
dados

Permite um desenvolvimento em etapas
Etapas do Desenvolvimento da
Mineração de Dados

Conjunto dos dados relevantes na mineração de
dados:
 Parte
do banco de dados ou o conjunto de dados de
interesse por parte do usuário
 Banco de Dados?
 Data Warehouse?
 Quais atributos?
Etapas do Desenvolvimento da
Mineração de Dados

Tipo de conhecimento a ser extraído:
 Especifica
as funcionalidades da mineração de dados
que serão executadas
 Caracterização?
 Regras de Associação?
 Previsão?
 Agrupamento ou classificação?
Etapas do Desenvolvimento da
Mineração de Dados

Base de conhecimentos previamente extraídos:
 Auxilia
no processo de descoberta de conhecimento e
na análise dos padrões encontrados
 Hierarquia de Conceitos
Etapas do Desenvolvimento da
Mineração de Dados

Medidas mais interessantes ou critérios padrões
de avaliação:
 Auxiliam
o processo de mineração ou, após
descoberta de conhecimento, ajudam na avaliação
dos padrões encontrados
 Regras de associação
 Suporte e confiança
Etapas do Desenvolvimento da
Mineração de Dados

Representação visual dos padrões encontrados:
 Refere-se
à forma em que os padrões descobertos
são exibidos
 Regras de associação
 Tabelas
 Gráficos
 Diagramas
 Árvores de Decisão
Integração: Data Mining com
Data Warehouse


A comunicação das ferramentas de mineração
de dados e as ferramentas de bancos de dados é
uma etapa crítica para o processo de extração de
conhecimento
Sistema DM autônomo ou incorporado em
aplicativos (não utiliza sistemas de bancos de
dados ou DW)
 Desenvolvimento
de algoritmos de mineração de
dados, nos quais as informações sobre os dados já
são conhecidas e estão embutidas no código fonte.
Integração: Data Mining com
Data Warehouse

Sistema de Mineração de dados com nenhum
acoplamento
 Utiliza
arquivos para recuperar dados e gravar os
resultados obtidos.

Sistemas com acoplamento flexível
 Lê
os dados de um banco de dados ou DW e
armazena os resultados em qualquer outra fonte de
dados (Banco de Dados, DW, arquivos).
Integração: Data Mining com
Data Warehouse

Sistema com acoplamento semi-apertado
 Os
sistemas de Banco de Dados e DW possuem
funcionalidades de mineração de dados.
 Resultados intermediários são armazenados e
auxiliam a Mineração de Dados futura.

Sistemas com acoplamento apertado
 Sistemas
de banco de dados e mineração de dados
estão completamente integrados
 Sistema de informação que engloba Banco de Dados
ou DW e a mineração de dados
Download

Etapas do Desenvolvimento da Mineração de Dados