Aplicações práticas da
descoberta de conhecimento em BD
Jacques Robin e Francisco de A. T. de Carvalho
CIn-UFPE
Aplicações da Mineração de Dados
Marketing e comércio
Gerenciamento
de relação com clientes
• descrição multi-dimensional, agrupamento e
classificação de clientes, associações entre
produtos ou serviços, para otimização e
personalização de:


campanhas de propaganda e de promoções
sugestões de produtos e serviços
• mineração comparativa de evolução de compras,
produtos ou serviços oferecidos e preços para:


promover retenção de clientes
definir política de preço altamente dinâmica (ex,
passagem aérea)
Marketing e comércio
Gerenciamento
de relação com clientes
• ambos a partir de:


Transações com cartões de fidelidade, de requisitos
de programa a la carte (TV, vídeo, música), de
reservas (passagens, hoteis, ingressos)
Log de servidor ‘Web para comércio eletrónico
Finanças e segurança
 Serviços
financeiros:
• mineração de series temporais de valores na bolsa para
especulação
• mineração de associação e grupos de valores para
definição de portfolio de investimento e planos de
aposentadoria
• previsão de inadimplência para definir política de
empréstimo
 Detecção
de fraude:
• descrição multi-dimensional e mineração de series
excepcionais de:




de uso de cartão de créditos para serviços financeiros
pedidos de acesso a sites para segurança de sistemas
transferências de fundos para lavagem de dinheiro sujo e
sonegação de imposto
chamadas para telecomunicações
Finanças e segurança
 Detecção
de tentativas de intrusão
• mineração de padrões temporais de comandos de
protocolos em arquivos de log de servidores
• batch e tempo real
Jogos, esportes e
recursos humanos
 Jogos:
• mineração de regras estratégicas e táticas a partir de
BD de partidas (xadrez, futebol de robôs)
 Jogos,
esportes e re-engenharia de
organizações:
• OLAP, agrupamento e mineração multi-dimensional de
series de resultados para identificar fatores internos
(ex, composição do time, tática usada) e externos (ex,
tipo de adversário, local do jogo) contribuindo a
vitórias e a derrotas
Jogos, esportes e
recursos humanos
 Jogos
de esportes virtuais, esportes e
recrutamento:
• previsão do desempenho e popularidade futuro de
atletas, artistas e funcionários para contratação e
transferência
Serviços de infra-estrutura:
energia, água, transporte,
telecomunicação, Internet
 descrição
multi-dimensional e previsão
comparativa
 de demanda e da capacidade das fontes ou
equipamentos
 para:
• planejar investimentos e otimizar rotas para evitar
interrupção de serviços e congestionamento
• definir vários níveis de qualidade de serviços, seus
preços e seus clientes potenciais
• detecção de fraudes
Serviços de infra-estrutura:
energia, água, transporte,
telecomunicação, Internet
 previsão
de falha de equipamento para definir
política de prevenção de falha
 mineração de regras de diagnóstico para análise
de falha
Saúde
 Indústria
farmacêutica:
• previsão dos efeitos de um novo remédio composto a
partir dos efeitos dos seus componentes em remédios
testados
 Medicina
e epidemiologia:
• mineração de regras de diagnostico
• previsão de predisposição a doenças e resposta a
tratamento
• a partir de BD de órgãos de saúde (CDC, ministério da
saúde)
Saúde
 Pesquisa
em genética e biologia molecular:
• mineração comparativa de seqüências de genes em
células sanas e doentes (adaptação da mineração de
series temporais para dados categóricos)
• mineração de associações e grupos de genes baseada
na sua co-ocorrência em várias classes de células
• previsão da forma 3D de uma proteína a partir da sua
seqüência de ácidos-amidos
Conclusão sobre a aplicabilidade de KDD
 Ainda
existe muito mais tarefas e domínios de
aplicação prática da descoberta de conhecimento
em BD não mencionadas
 Ubiqüidade
da necessidade por mineração de
dados e descoberta de conhecimento em BD
O
mais difícil não é identificar setores de
atividade que precisam dessa tecnologia e sim
identificar setores que não podem beneficiar-se
dela
Sistemas e Protótipos
de Data Mining
Como escolher um Sistema de
Data Mining?
 Os
sistemas comerciais de data mining tem
pouco em comum
• Diferentes funcionalidades ou metodologias de data
mining
• Podem trabalhar com conjuntos de dados de tipos
completamente diferentes
 Tipos
de dados: relational, transacional, texto,
sequencia temporal, espacial?
 Questões sobre o sistema
• execução em um ou vários sistemas operacionais?
• arquitetura cliente/servidor?
• Fornece Web-based interfaces e permite XML data
como entrada e/ou saída?
Como escolher um Sistema de
Data Mining? (2)
 Fontes
de dados
• arquivos texto ASCII, fontes de dados relacionais
multiplas
• suporte de conexões ODBC (OLE DB, JDBC)?
 Funções
e metodologias de Data mining
• Única vs. multiplas funções de data mining
• Único vs. vários metodos por função

Mais funções e métodos por função fornece ao usuário grande
flexibilidade e poder de análise
Como escolher um Sistema de
Data Mining? (2)
 Acoplamento
com BD e/ou data warehouse
• Quatro formas de acoplamento: sem acoplamento,
acoplamento “frouxo”, acoplamento semifirme, e
acoplamento firme

Idealmente, um sistema de data mining deve ser firmemente
acoplado com um sistema de bases de dados
Como escolher um Sistema de
Data Mining? (3)
 Scalabilidade
• Escalabilidade por linhas
• Escalabilidade por coluna
• realizar um sistema com escalabilidade por coluna é
um desafio é muito maior do que realizar um sistema
com escalabilidade por linha
 Ferramentas
de Visualização
• “Uma figura vale milhares de palavras”
• Categorias de visualização: visualização de dados,
visualização dos resultados da mineração,
vizualização do processo de mineração, e visual data
mining
 Interface
gráfica e linguagem de interrogação
(query) de Data mining
• Interface gráfica de alta qualidade e fácil de usar
Exemplos de Sistemas de
Data Mining (1)
 IBM
Intelligent Miner
 SAS
Enterprise Miner
• Uma ampla faixa de algoritmos de data mining
• Algoritmos de mineração escaláveis
• Kit de ferramentas: algoritmos de redes neurais,
métodos estatisticos, preparação de dados,
ferramentas de visualização
• Firme integração com o sistema de bases de dados
relacionais IBM's DB2
• Grande variedade de ferramentas de análise
estatistica
• Ferramentas de Data warehouse e multiplos
algoritmos de data mining
 Mirosoft
SQLServer 2000
• Integração de BD e OLAP com mineração
Exemplos de Sistemas de
Data Mining (2)
 SGI
MineSet
• Multiplos algoritmos de data mining e métodos
estatísticos avançados
• Ferramentas de visualização avançadas
 Clementine
(SPSS)
• Meio ambiente de desenvolvimento integrado de data
mining para usuários e programadores
• Multiplos algoritmos de data mining and ferramentas de
visualização
Exemplos de Sistemas de
Data Mining (2)
 DBMiner
(DBMiner Technology Inc.)
• Multiplos módulos de data mining: análise OLAP,
associação, classificação, agrupamento
• Funções eficientes de mineração de padrões sequenciais e
associação, ferramentas de classificação visual
• Mineração de bases de dados relacionais e de data
warehouses
Temas Adidionais em
Mineração de Dados
Data Mining Visual
Visualização: uso de computação gráfica para criar
imagens visuais que ajudam a entender representações
massivas e complexas de dados
 Data Mining Visual: processo de descoberta de
conhecimento implicito a partir de grandes conjuntos de
dados usando tecnicas de visualização

Computação
Gráfica
Computação
de alto
desempenho
Multimidia
Interface
Homem
Máquina
Rconhecimento
de Padrões
Visualização
Proposito
da Visualização
• Fornecer uma visão geral qualitativa de grandes
conjuntos de dados
• Busca de padrões, tendencias, estrutura,
irregularidades, relações entre dados.
• Ajuda para encontrar regiões interessantes e
parametros apropriados para posterior análise
qualitativa.
Data MiningVisual &
Visualização de Dados
 Integração
•
•
•
•
da visualização e do data mining
visualização de dados
visualização dos resultados do data mining
visualização do processo de data mining
data mining visual interativo
 Visualização
de dados
• Dados em um BD ou em uma data warehouse pode
ser visualizado
 em diferentes níveis de abstração
 via diferentes combinações de atributos (ou
dimensões)
• Os dados podem ser apresentados em várias formas
visuais
Visualização dos Resultados
do Data Mining
 Apresentação
visual dos resultados (ou
conhecimento) obtidos da mineração de dados
 Exemplos
• Scatter plots and boxplots (obtidos do data mining
descritivo)
• Árvores de Decisão
• Regras de Association
• Agrupamentos
• Outliers
• Regras de generalização
Boxplots (Statsoft): Multiplas
Combinações de Variáveis
Visualização dos resultados doData Mining
(SAS Enterprise Miner): Scatter Plots
Visualização de Regras de Associação
(SGI/MineSet 3.0)
Visualização de uma Árvore de decisão
(SGI/MineSet 3.0)
Visualização do Processo
de Data Mining
 Apresentação
dos varios processos de data
mining em formas visuais de tal forma que o
usuário pode ver
• O processo de extração de dados
• Onde os dados são extraídos
• Como os dados são limpados, integrados,
proprocessados e minerdos
• O método selecionado para o data mining
• Onde os resultados são armazenados
• Como eles podem ser vistos
Data Mining Visual Interativo
 Uso
de ferramentas de visualização no
processo de mineração para ajudar os usuários
a realizarem decisões locais astuciosas para a
mineraçãos
 Exemplo
• Mostar a distribuição dos dados em um conjunto de
atributos usando setores coloridos
• Usar o resultado para decidir qual setor dever ser
selecionado para a classificação e onde fica um
“bom” ponto de corte desse setor
Audio Data Mining
Usar sinais de audio para ressaltar padrões de dados
ou caracteristicas dos resultados da mineração
 Alternativa a mineração visual
 Data mining visual pode ressaltar padrões
interessantes usando gráficos, mas exige que o
usuário se concentre na busca visual de padrões
 Em vez disso: transformar padrões em sons e música e
ouvir ritmos, tons, e melodias para identificar algo
interessante ou não usual

Impactos sociais da
Mineração de Dados
Data Mining é uma moda ou é algo
persistente?
 Data
mining é uma tecnologia
 Ciclo
de vida tecnológico
• Inovação
• Adesão inicial
• Ruptura
• Maioridade inicial
• Maioridade tardia
• Legado
Cilco de vida de adoção tecnológica
 Data
mining está na ruptura!?
• Os sistemas de data mining existentes são muito
genericos
• É necessário soluções de data mining especificas e
integração da lógica das organisações com as
funções da mineração
Impactos Sociais: Ameaça a
privacidade e a segurança dos dados?
 Data
mining é uma ameaça para a privacidade e
segurança dos dados?
• “Big Brother”, “Big Banker”, e “Big Business” estão
vigiando voce cuidadosamente
• Informações de perfil são coletadas o tempo todo


cartão de crédito, cartão de fidelidade, etc
Surfar a Web, alugar um video, preencher um formulario,
• Coletar dados pessoais pode ser benefico para as
organisações e as pessoas, mas existe o perigo de uso
indevido

Registros médicos, Avaliação do empregado, Etc.
Proteção da Privacidade e da
Segurança dos Dados
 Praticas
corretas
• Regras internacionais para a proteção da
privacidade de dados
• Cobre aspectos relacionados a coleta de dados,
proposito, uso, qualidade, acesso, participação
individual, etc
• Especificação do propósito e Limitação do Uso
• Acesso: Individuos tem o direito de conhecer que
informação é coletada sobre ele, quem tem acesso a
os dados, e como os dados são usados
 Desenvolvimento
de tecnicas segurança
• criptografia
• bases de dados anonimas
Tendencias em Mineração de Dados
Tendencias em Data Mining (1)
 Aplicações
• desenvolvimento de sistemas de data minig para
aplicações especificas
• Data mining invisivel (mineração como função interna)
 Métodos
de data mining com escalabilidade
• Constraint-based mining: uso de restrições para guiar
os sistemas de data maning na busca por padrões
interessantes
 Integração
de data mining com bases de dados,
data warehouse e bases de dados na Web
 Data mining invisivel
Tendencias em Data Mining (2)
 Padronização
da linguagem do data mining
• A padronização facilitará o desenvolvimento sistemático,
melhorará a interoperabilidade, e promoverá a instrução e
o uso de sistemas de data mining na indústria e na
sociedade
 Data
mining Visual
 Novos métodos para minerar tipos de dados
complexos
• Maior esforço de pesquisa para a integração de métodos
de mineração de dados com técnicas existentes da análise
de dados para os tipos complexos de dados
 Web
mining
 Proteção da privacidade e segurança da informação
na mineração dos dados
Download

AplicacoesKDD