Capítulo 1
Introdução
O que é Data Mining?
Produzir conhecimento novo
escondido em grandes bases de dados
A coleta de dados (transações bancárias, registros de compras, perfil de uso da internet,
integração das informações de diversos sistemas, código de barras, via sensores remotos
(sistemas fotográficos ou óptico-eletrônicos capazes de detectar e registrar, sob a forma de
imagens ou não, o fluxo de energia radiante refletido ou emitido por objetos distantes),
satélites, processamento analítico on line (OLAP), documentos), tem atingido grandes
proporções
acarretou problema na área do conhecimento
novo ramo do
conhecimento (KDD – Knowledge Discovery in Databases), o qual visa otimizar e
automatizar o processo de descrição das tendências e dos padrões contidos neste processo,
potencialmente úteis e interpretáveis.
1
Os dados:
•
Os dados geralmente originam-se de diversas fontes, e combinando-se as
informações destas pode-se encontrar “algumas coisas” novas e não triviais,
usuais.
• A necessidade por informações melhores e rápidas, tem gerado grande
interesse na construção de data warehouse capazes de trabalhar rapidamente
em conjunto e fornecer as informações necessárias de forma prática (úteis).
• Um conjunto de dados típico apresenta milhares de observações.
• Uma observação pode representar um consumidor, uma transação específica,
ou um chefe de família.
•Como estas informações são utilizadas depende das questões de interesse
da pesquisa.
• Os arquivos de dados contém informações específicas (variáveis) sobre
cada observação tais como informações demográficas, histórico de vendas,
informações financeiras.
• Bases de dados: relacional, data warehouse, transacional, orientado a
objetos, espaciais, séries temporais, textos, multimedia (imagem, vídeo,
áudio).
2
Padrão:
Um evento ou combinações de eventos numa base de dados que
ocorre com mais freqüência do que esperamos. Significa que sua
ocorrência é significativamente diferente do que se esperaria
devido ao acaso.
Padrões são guiados pelos dados e geralmente refletem os próprios
dados; Exemplo: se “salário < T, então a pessoa não efetuou o
pagamento” pode ser um padrão para uma escolha adequada de T.
Úteis:
Representa o grau de utilidade de um padrão, isto é, até que ponto a descoberta
ajuda a responder os objetivos inerentes ao processo de KDD.
Interpretáveis:
Um dos objetivos do KDD é gerar padrões compreensíveis para os analistas na
perspectiva de um melhor entendimento dos dados.
Válidos:
Para dados novos ou arquivo de teste com certo grau de certeza.
Novo, desconhecido:
Especialmente no sentido de interessante, não usual.
3
A extração de conhecimento de bases de dados é um processo complexo e, ainda
hoje, muito dependente da experiência e do trabalho do analista (formulação do
problema, preparação dos dados, análises e interpretações dos resultados,
avaliações). É indispensável a presença do mesmo. É atribuído às máquinas a
responsabilidade de manipular conjuntos de dados, procurando sempre de
maneira eficaz, padrões que satisfazem os problemas apresentados. Utiliza-se um
conjunto de técnicas estatísticas e de inteligência artificial.
Data Mining se relaciona com a análise de dados e o uso de ferramentas
computacionais (softwares) na busca de características, regras e regularidades em
um grande conjunto de dados.
A interdisciplinaridade da técnica
Data mining é, também, uma área interdisciplinar, envolvendo banco de dados,
técnicas de estatísticas, redes neurais, de aprendizado de máquinas, de
reconhecimento de padrões e de visualização de dados.
4
Estatística
Banco de dados
Outras Disciplinas
Mineração de dados
Visualização
Redes Neurais
5
Capítulo 2
Observando e Aprendendo
Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre
vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o
solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os
clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos.
Porém, só isto não basta, o proprietário precisa conhece-los, como por exemplo,
qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele
poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto,
duas necessidades:
conhecimento e aprendizado
Uma pequena loja  poucos clientes  atendimento personalizado
Uma grande empresa  milhares de clientes  dificuldade em dar um
atendimento dedicado
8
Qual a tendência nos dias atuais?
Ter clientes leais, através de um relacionamento pessoal, umpara-um, entre a empresa e o cliente.
Dentro desta tendência, as empresas desejam identificar os clientes cujos valores
e necessidades sejam compatíveis com o uso prolongado de seus produtos, e nos
quais é válido o risco de investir em promoções com descontos, pacotes, brindes
e outras formas de criar essa relação pessoal.
Esta mudança de foco requer mudanças em toda a empresa, mas principalmente
nos setores de marketing, vendas e atendimento ao cliente.
9
Memória e Inteligência
Na pequena empresa, o proprietário
com sua inteligência e memória
aprende, conhece o cliente.
10
Data Warehouse: a memória da empresa
Para criar relações um-para-um em uma grande empresa, o proprietário humano
precisa ser substituído por uma máquina capaz de tratar grandes números, o
computador. A memória do proprietário é substituída por um grande banco de
dados denominado de Data Warehouse, enquanto a capacidade de aprendizado é
substituída por técnicas de inteligência artificial e estatística genericamente
denominadas de Data Mining (Mineração de Dados).
Diariamente gera-se dados, por exemplo, considere gera-se e armazena-se atributos
tais como: o número do telefone, a duração da chamada, o número do cartão de
crédito, o endereço da entrega, o produto escolhido, renda, escolaridade, lazer, etc.
Certamente, só armazenar dados não significa aprender sobre o cliente.
11
Dados armazenados
Fonte de
informações
preciosas para
a empresa
12
Data Mining: a inteligência da empresa
Para o aprendizado ocorrer, uma série de informações de diferentes formatos e
fontes precisa ser organizada de maneira consistente na grande memória
empresarial denominada data warehouse. Após isto, métodos de análise estatística
e inteligência artificial precisam ser aplicados sobre esses dados e relações novas e
úteis à empresa devem ser descobertas, ou seja, os dados devem ser minerados
(data mining). A mineração dos dados consiste mais especificamente em
descobrir relações entre produtos, classificar consumidores,
prever vendas, localizar áreas geográficas potencialmente
lucrativas para novas filiais, inferir necessidades, entre outras.
Definição de data mining
Uso de técnicas, preferencialmente automáticas, de exploração de grandes
quantidades de dados de forma a descobrir novos padrões e relações que, devido ao
volume de dados, não seriam facilmente descobertos a olho nú pelo ser humano
(Carvalho, 2001).
13
Data Warehouse
Data Mining
Na grande empresa, a memória é o
data warehouse, enquanto a
inteligência é o data mining
14
Alguns resultados do data mining numa empresa:
 melhor relação entre empresa e cliente
 aumenta as vendas
 dirige as estratégias de marketing
 diminuir custos operacionais
Áreas de aplicação:
 Medicina
 Agronomia
 Economia
 Administração
 Geologia
 Outros.
É indispensável a presença de um analista com conhecimento profundo da área
de estudo.
15
Motivação:
 O volume de dados armazenados atualmente é muito grande
Data mining é uma técnica aplicável a grandes bancos de dados. Estes são
necessários para construir e treinar modelos que serão utilizados para
realizar alguma tarefa de data mining.
Exemplo: empresas de telefonia, cartões de crédito, bancos, televisão por
assinatura, comércio eletrônico e outros.
 Os dados estão sendo organizados
Com a tecnologia data warehousing os dados de várias fontes estão sendo
organizados e padronizados de forma a possibilitar sua organização
dirigida para o auxílio à decisão. As técnicas de data mining necessitam
de bancos de dados limpos, padronizados e organizados.
 Os recursos computacionais possuem grande capacidade
Algoritmos computacionalmente intensivos (processos iterativos).
Preços de memória, discos, etc. estão diminuindo.
 A competição empresarial exige técnicas mais modernas de decisão
 Programas de data mining já podem ser adquiridos
16
Alguns exemplos (aplicações)
de data mining
1. O governo dos EUA se utiliza do data
mining já há bastante tempo para identificar
padrões de transferências de fundos
internacionais que se parecem com lavagem
de dinheiro do narcotráfico. Data mining
usado para identificar fraudes.
17
2. Supermercados apresentam ofertas aos clientes
que se cadastram, fornecendo informações
importantes sobre suas vidas financeiras e
preferências. A partir de então, esses dados são
cruzados com suas compras mês a mês e as
informações sobre compras casadas e nível de
consumo são utilizadas para organizar as
prateleiras de melhor forma a propiciar compras
casadas, além de oferecer brindes e descontos
personalizados. Esses supermercados vendem
suas informações para que outras empresas façam
propaganda e ofertas apropriadas para os clientes
18
cujos dados foram minerados.
3. Com dados de clientes, é possível definir hábitos
de consumo e prever necessidades de outras
classes sociais em outras cidades (community
knowledge). Por exemplo, podemos realizar uma
pesquisa como perguntar ao cliente que tipo de
filmes e músicas ele gosta e, baseado nesses
dados, extrapolar e classificá-lo em certa
categoria de consumo e preferência. A partir daí,
ofertas podem ser dirigidas a ele, pois seu perfil
está enquadrado pelo data mining.
19
4. Vendas cruzadas podem ser realizadas
com facilidade se um banco de dados
com informações sobre o passado do
cliente existir. Sabendo das necessidades
e gostos do cliente, novos produtos
podem ser oferecidos pela empresa,
mantendo a fidelidade do cliente que não
precisa ir buscar o produto em outro
local.
20
5. Devido a competição empresarial, clientes
mudam de empresa com facilidade. O data
mining pode ser usado para verificar por
que os clientes trocam uma empresa por
outra e oferecer serviços, vantagens e
ofertas que evitam essa fuga de clientes.
Com o data mining, pode-se localizar que
oferta fazer a que cliente para mantê-lo na
empresa, ou mesmo localizar os clientes
que podem sair da empresa sem representar
prejuízo.
21
6. Na medicina já é possível a criação e
manutenção de grandes bancos de dados com
informações sobre sintomas, resultados de
exames, diagnósticos, tratamentos e curso das
doenças para cada paciente. A mineração desses
dados pode fornecer conhecimento novo, como,
por exemplo, a relação entre algumas doenças e
certos perfis profissionais, sócio-culturais,
hábitos pessoais e local de moradia. Essas
relações são usadas para melhor entendimento
das doenças e seus tratamentos.
22
7. Com o uso de data mining na sua base de
dados, você pode construir modelos
preditivos (Predictive Modeling Techniques:
Regression Models, Decision Treees, Neural
Networks), que mostram consumidores que
estão sob risco, ou seja, estão na eminência
de mudar para uma empresa competidora.
Por exemplo, empresas de telefones
celulares, cartões de créditos.
8. Internet - Identificação de determinados
padrões em home pages, busca e
agrupamento de documentos.
23
9. Marketing e comércio - Identificação
do comportamento de compra dos
clientes, predição de respostas para
campanhas de marketing,
determinação de associações entre
itens comprados e entre características
demográficas dos clientes.
24
10. Seguros e Planos de saúde - Predição de
quais clientes ou grupos de clientes
comprariam novas apólices de seguro, ou
planos de saúde, identificação de
clientes/pacientes de risco, identificação de
clientes ou sinistros fraudulentos,
verificação de quais procedimentos médicos
e/ou odontológicos são utilizados
conjuntamente.
25
11.Setor bancário - Estudo do comportamento do uso de
cartões de crédito para determinados grupos de clientes,
detecção de cartões de crédito roubados, estudo do
comportamento do uso de cartões de crédito roubados,
identificação de clientes fiéis, detecção de correlações
“escondidas” entre diferentes indicadores financeiros,
credit scoring e behaviour scoring (relacionados à
determinação do comportamento de clientes de risco).
12.Meio ambiente - determinação do impacto ambiental de
instalação de fábricas em uma determinada região,
estudo de difusão de poluentes.
26
13. Crimes – causas sócio-econômicas e
sua relação com o tipo de crime de
acordo com a região de ocorrência. Se
a ocorrência da criminalidade está
associada com locais de consumo de
bebidas alcoólicas, drogas.
27
14. Marketing direto. Imagine uma
empresa que quer aumentar a venda de
telefones celulares. Temos:
1. Através do histórico de
compradores da empresa, pode-se
criar duas classes: i) pessoas que já
compraram pelo menos um telefone
celular e ii) pessoas que nunca
compraram este tipo de aparelho.
28
14. Marketing direto. Imagine uma
empresa que quer aumentar a venda de
telefones celulares. Temos:
2. Após define-se alguns atributos
preditivos (classe social, estilo de vida,
região demográfica, etc.). Assim, definese um conjunto de treinamento contendo
dados de compradores e não
compradores de celulares.
29
14. Marketing direto. Imagine uma
empresa que quer aumentar a venda de
telefones celulares. Temos:
3. Gera-se a árvore de classificação. Após
esse passo a empresa poderá identificar
novos clientes como potenciais
compradores (ou não) de celulares, e de
tempos em tempos formar uma base de
clientes que devem receber mala-direta
sobre promoção de celulares.
30
Capítulo 3
O Processo KDD
Historicamente, a noção de encontrar padrões úteis em dados em seu estado bruto
tem recebido diversos nomes, inclusive descoberta de conhecimento em base de
dados (KDD – Knowledge Discovery in Database)
Definição:
KDD é a descoberta de novos conhecimentos, seja padrões, tendências, relações,
associações, probabilidades ou fatos, que não são óbvios ou de fácil identificação.
31
As fases e os passos do processo KDD
O processo KDD envolve duas grandes fases:
1.
Preparação de dados
2.
Mineração de dados
Essas fases possuem inúmeros passos, os quais envolvem um número elevado
de decisões a serem tomadas pelo usuário, ou seja, é um processo interativo. É
também um processo iterativo, pois ao longo do processo KDD, um passo será
repetido tantas vezes quantas se fizerem necessárias para que se chegue a um
resultado satisfatório.
O processo KDD está representado na figura do próximo slide.
32
Assimilação
(Conhecimento)
⃟⃟⃟⃟⃟⃟⃟⃟
°°°°
°°°°
°°°°
°°°°
Base de dados
••••
••••
Padrões
Dados
transformados
Dados
processados
Dados
selecionados
(a analisar)
Preparação de dados
Mineração de dados
33
Tríade: dados  informação 
conhecimento
34
A fase de preparação dos dados
Esta fase envolve seleção, pré-processamento e transformação dos dados. É uma
etapa que exige bastante tempo, aproximadamente entre 60 e 80% do tempo
utilizado em todo o processo, com a maior parte do tempo consumido com a
limpeza dos dados.
1.
O primeiro passo é a definição do problema ou do objetivo do trabalho, que é o
conhecimento desejado pelo usuário final, ou seja, é definido o tipo de conhecimento
que se deseja extrair do banco de dados. Exemplo: o departamento financeiro de uma
grande loja de vestuário, notou pelos seus bancos de dados, que o faturamento sofreu
uma queda significativa nos últimos meses. Isto ocorreu pela queda das vendas em
suas lojas que estão espalhadas por todo o país. Uma análise humana simples
constatou que a queda das vendas se deu em quase todas as regiões do país com
predominância nas regiões Sudeste, Nordeste e Norte. Esta é a primeira fase do data
mining: a definição do problema ou, a definição de um objetivo a ser alcançado
(questões importantes). Algumas soluções propostas pelos diversos departamentos da
empresa foram:

O setor de marketing poderia desenvolver uma campanha publicitária;

O setor de crédito pessoal proporia aumentar a oferta do cartão de crédito
35

O setor de planejamento sugestionaria uma mudança no formato da rede, tornando suas
lojas mais atrativas com novos layouts;

O setor de vendas poderia propor um serviço de mala direta com o envio de catálogos
periódicos.
Todas estas propostas custam muito dinheiro e possuem a característica de não
atacarem o problema causador da queda das vendas que, por enquanto, é desconhecido
por nós.
2.
O segundo passo é a criação de um conjunto de dados-alvo, ou dados selecionados.
Nesta fase, seleciona-se um conjunto de dados ou focaliza-se em um subconjunto de
atributos (variáveis) ou de instâncias de dados, em que a descoberta deverá ser
efetuada. Certamente a seleção dos dados vai variar de acordo com os objetivos da
empresa. As variáveis selecionadas podem ser de dois tipos: qualitativas
(categorizadas) ou quantitativas. As variáveis qualitativas referem-se a uma
qualidade, a um atributo e assumem valores finitos, diferem na forma, e podem ser
nominais ou ordinais. As variáveis qualitativas ordinais apresentam, como o próprio
nome indica, um ordem entre os possíveis valores, por exemplo, grau de instrução
(primeiro grau, segundo grau, superior) e escore de crédito pessoal (ruim, regular,
bom). Quando uma variável qualitativa não apresentar esta ordenação, temos uma
variável nominal, por exemplo, estado civil (casado, solteiro, divorciado,
desconhecido), sexo (masculino, feminino). As variáveis quantitativas assumem valores
36
numéricos e podem ser do tipo contínua (os possíveis valores são os números reais),
por exemplo, receita, taxa, salários, e discretas (os possíveis valores fazem parte de
um conjunto finito ou infinito numerável), por exemplo, número de empregados,
número de filhos de uma família.
Esquematicamente, temos:
ordinal
Qualitativas
nominal
Variáveis
Quantitativas
discreta
contínua
As variáveis selecionadas para data mining são denominadas de variáveis
ativas uma vez que elas são ativamente usadas para distinguir segmentos, fazer
predições ou desenvolver outras operações específicas de data mining.
Muitas vezes, o sucesso desse processo depende da correta escolha dos dados
que formam o conjunto de dados-alvo. Para isso, são usadas técnicas, linguagens,
ferramentas e comandos convencionais de bancos de dados, como o SQL. É difícil
fazer-se uma boa seleção das variáveis de entrada sem se ter um bom conhecimento do
problema em estudo.
37
3.
O terceiro passo é a limpeza e o pré-processamento dos dados.
As grandes bases de dados são altamente susceptíveis a ruídos (outliers), valores
faltantes e inconsistentes.
Dados limpos e compreensíveis são requisitos básicos para o sucesso da mineração
dos dados.
O pré-processamento dos dados tem por objetivo assegurar a qualidade dos dados
selecionados.
Esta fase inicia-se com uma revisão geral da estrutura dos dados e algumas
medidas de sua qualidade (mínimo, máximo, média, mediana, desvio padrão).
38
Isto pode ser feito utilizando-se uma combinação de métodos estatísticos e técnicas de
visualização (Análise Exploratória de Dados)(ver capítulo 10 de Diniz e Neto, 2000).
Para entender os dados, no caso de variáveis categorizadas, podemos construir as
distribuições de freqüências dos valores e/ou utilizar ferramentas gráficas, como, por
exemplo, gráficos de setores.
No caso de variáveis quantitativas, também podemos construir as distribuições de
freqüências para entender as variáveis. Uma forma de verificar a presença de dados
inválidos é através do cálculo de estatísticas (valores mínimo e máximo, média, mediana,
quartis, desvio padrão amostral).
O box plot e diagrama de dispersão são ferramentas gráficas extremamente úteis no caso
de variáveis quantitativas. Os box plots podem ser usados para comparação de várias
distribuições, inclusive comparar médias ou desvio padrão de duas ou mais variáveis,
enquanto o diagrama de dispersão é um gráfico simples, bidimensional, que representa a
relação entre duas variáveis contínuas. (ver capítulo 10 de Diniz e Neto, 2000).
Dados com erros (valores discrepantes), registros repetidos e valores faltantes (missing
values) são problemas que naturalmente são resolvidos no passo pré-processamento dos
dados.
39
Valores que são significativamente fora do esperado são denominados de valores
discrepantes ou, em inglês, outliers. Os outliers podem indicar uma boa ou má notícia.
Uma boa notícia se indicarem uma nova tendência de resultados para as variáveis em
questão e uma má notícia se realmente forem dados inválidos.
Um tipo comum de outlier é devido a erro humano, como um registro de compra da
ordem de milhões de reais. Estes registros devem ser corrigidos se valores razoáveis ou
válidos estão disponíveis, caso contrário, estes registros devem ser excluídos da análise.
Outro tipo de outlier é criado quando alguma mudança no sistema operacional ainda não
tenha sido refletida no ambiente da mineração de dados. Por exemplo, novos códigos de
produtos, que aparecerão no ambiente como sendo outliers. Neste caso deve-se atualizar
o sistema.
Regressão: Os valores discrepantes (outliers) podem ser substituídos através do ajuste de
uma função matemática aos dados.
Dados incoerentes podem ser corrigidos manualmente usando referências externas. Pode
haver incoerências devido a integração dos dados, onde um determinado atributo pode
receber diferentes nomes em diferentes bases de dados.
Médias móveis (página 110 do HAN & KAMBER)
40
Os valores missing incluem os valores que simplesmente não estão presentes no conjunto
selecionado e os valores inválidos que foram eliminados durante a detecção de outliers. Os
valores missing podem ocorrer devido a erros humanos, ou porque a informação não está
disponível no momento do levantamento dos dados, ou quando os dados são selecionados
considerando-se diferentes origens, gerando informações contraditórias.
Uma forma de tratamento de valores missing é eliminar todo o registro (toda a linha), ou
coluna (campo) de observações que contenha valores faltantes. Isto é simples porém há
perda de informação. A decisão de eliminar observações ou variáveis não é fácil.
Existem técnicas que podem ser usadas para substituir os valores missing. Para variáveis
quantitativas , a mais simples, é o uso da média. Para variáveis categorizadas, pode-se
utilizar um novo atributo para a variável, como por exemplo, usar a denotação
Desconhecido.
Use a média da variável para todas as amostras pertencentes a mesma classe. Por exemplo:
numa classificação dos consumidores de acordo com o risco de crédito, substitua os valores
missing, com o valor médio do rendimento na mesma categoria de risco.
Use o valor mais provável para preencher os valores missing. Técnicas mais avançadas, para
ambos os tipos de variáveis, como modelos de predição (análise de regressão, árvores de
decisão) e técnicas de imputação, estão também disponíveis. Por exemplo: usando os outros
atributos dos consumidores do seu arquivo de dados, você pode construir uma árvore de
decisão para predizer o valor faltante para rendimento.
41
4.
O quarto passo é a redução e transformação de dados.
Um dos objetivos principais da transformação de dados é converter o conjunto
bruto de dados em uma forma padrão de uso. Técnicas como discretização
(converter variáveis contínuas em categorizadas e, após, em discretas), 1 a n
(converte variáveis categorizadas em discretas) e técnicas de redução de
dimensionalidade (combinar várias variáveis em uma única) são comumente
usadas.
Agregação, onde uma operação resumo é aplicada aos dados. Por exemplo:
vendas diárias podem ser agregadas para calcular as vendas mensais, anuais.
Transformação, onde os dados de um atributo são padronizados (normalizados)
para cair dentro de uma faixa de valores, por exemplo, -1,0 a 1,0 ou, 0,0 a 1,0.
Um método de normalização é o Normalização Min-Max. Por exemplo: suponha
que os valores mínimo e máximo da variável rendimento são R$ 12,00 e R$
98,00, respectivamente. Desejamos transformar a variável rendimento na faixa
[0,0; 1,0]. Por este método, um valor de rendimento igual a R$ 73,6, transformase em:
73,6  12,0
1,0  0,0  0,0  0,716
v 
98,0  12,0
'
42
“Alisamento”, usada para remover valores discrepantes (análise de
regressão).
Construir novas variáveis a partir de um conjunto de outras variáveis.
Exemplo de transformação: números inteiros passar para proporção;
número inteiros grandes, fazer transformação logarítmica.
Muitas vezes a base de dados usada apresenta muitas variáveis (centenas),
porém poucas são utilizadas para a decisão, ou seja, muitas são irrelevantes
ou redundantes. Deve-se ter o cuidado para que apenas as variáveis
irrelevantes sejam retiradas da base de dados. Na seleção de variáveis o
objetivo é encontrar um subconjunto editável
comparável ao conjunto
original.
Métodos para selecionar subconjuntos de variáveis:
1) Métodos automáticos: a) Forward stepwise; b) Backward
stepwise e) Combinação de forward selection e backward
elimination.
2) As árvores de decisão também são utilizadas para seleção de
variáveis. Todas as variáveis que não aparecem na árvore são
consideradas irrelevantes. O conjunto de variáveis que aparecem
na árvore formam o conjunto de variáveis selecionadas.
43
A fase de mineração dos dados
1.
Num processo de data mining, a linha mestre é o objetivo a ser alcançado.
Portanto, não devemos esquecer que temos um problema que exige uma solução ou
um objetivo a ser alcançado. Reporte-se ao exemplo do item 1 da fase de preparação
dos dados. Alguns objetivos: classificação, predição, segmentação, descrição,
associações e descoberta de alterações significativas nos dados. Para que a mineração
de dados tenha sucesso, precisamos saber quais resultados ela deve produzir.
2.
Descoberta do conhecimento. Esta é a fase de mineração dos dados, que é
caracterizada pela busca de padrões de interesse em uma forma particularmente
representativa ou em um conjunto dessas representações.
Esta é a fase de descoberta de novas relações,não identificáveis a olho nú, mas que
podem ser visualizadas com técnicas de Inteligência Artificial e Técnicas Estatísticas,
por meio de uma análise sistemática e exaustiva sobre, por exemplo, os milhares de
registros de clientes nos bancos de dados da empresa.
Continuando com o exemplo, uma análise preliminar sobre as séries temporais das
vendas da empresa, feita globalmente para toda a rede, por região e por ponto de
venda, constatou que a queda das vendas se deu em quase todas as regiões do país com
predominância nas regiões Nordeste e Norte.
44
Outra análise mais aprofundada buscou encontrar pontos comuns entre os dados das
vendas de cada uma das regiões, concluindo que a queda do volume de vendas das
regiões Norte e Nordeste se deu a partir, aproximadamente, do mês de julho,
recuperando-se um pouco a partir do mês de outubro, mas ainda assim
permanecendo, daí para frente, em níveis mais baixos. Enquanto a queda das vendas
nas regiões Sudeste e Sul não foi tão acentuada, porém progressiva ao longo de todo
o ano.
Outra nova relação descoberta foi a diminuição das vendas nos cartões de crédito da
financiadora da empresa, em todas as regiões do país. Uma análise mais aprofundada
por data mining desta nova relação permitiu visualizar um elemento comum entre os
clientes que deixaram de comprar no cartão de crédito, a saber, um alto percentual de
reclamações desses clientes no serviço de atendimento ao cliente.
3.
Análise das relações descobertas. Terminada a fase de mineração de dados inicia-se
a fase de análise das descobertas. Esta etapa é desenvolvida pelo raciocínio do
analista (especialista da área). É possível que se retorne a alguma fase anterior para
maior documentação ou interação. A questão é como incorporar informação nos
negócios, portanto, as análises das relações descobertas são parte do processo de
mineração de dados.
45
Da análise das novas descobertas pelo data mining, concluiu-se que dois fatores
sobrepostos determinaram a queda das vendas. Em primeiro lugar, a ocorrência
de um inverno muito brando no ano considerado, não tendo a empresa oferecido
opções de vestuário mais leve em sua rede, isto seria fundamental para as regiões
Norte e Nordeste.
A nova relação descoberta de que as vendas nos cartões de crédito da rede caíram
progressivamente ao longo do ano representa o segundo fator que se sobrepõe ao
primeiro, piorando ainda mais as vendas nas regiões Norte e Nordeste e
diminuindo, menos acentuadamente, as vendas nas regiões Sul e Sudeste.
4.
Consolidação ou uso das relações descobertas. Decisões são tomadas de forma
a utilizar da melhor forma possível as relações fornecidas pela mineração de
dados. É possível gerar um plano de ações necessário para viabilizar a efetiva
aplicação do conhecimento gerado no problema definido na área a qual foi
proposta inicialmente. Geração de relatórios para as partes interessadas.
Verificação e resolução de potenciais conflitos gerados pelo conhecimento obtido.
Continuando com o exemplo, um possível uso das relações descobertas poderia
ser a oferta de vestuário mais leve em conjunto com vestuário apropriado ao
inverno em todas as lojas da rede nos meses de julho a setembro e não a fixação
de todo o vestuário à estação do ano, como fora realizado.
46
5.
Avaliação dos resultados. Só após uma avaliação criteriosa podemos
realmente afirmar que as causas do problema foram sanadas ou o objetivo da
empresa alcançado.
Continuando com o exemplo, sem uma análise por data mining, a empresa
teria possivelmente investido em algumas soluções genéricas
apresentadas por cada um dos setores da empresa. Esse investimento
traria retorno com o aumento de vendas, porém a real causa da evasão
da clientela não teria sido resolvida e o risco de novas evasões estaria
sempre presente.
47
As etapas de data mining
Definição do problema ou objetivo
Análise dos
resultados
Aplicação das
relações
descobertas
Data Mining
Análise das
relações
descobertas
48
Retorno
Se, após a avaliação dos resultados, novos objetivos precisam ser definidos,
ou as soluções propostas não são eficientes, deve-se voltar à primeira fase do
processo iniciando, assim, um processo iterativo de trabalho, como é de praxe
na aplicação do método científico.
49
Capítulo 4
A metodologia de data mining
Este capítulo está voltado à mineração de dados (análise dos dados) onde a informação
resultante é usada para produzir conhecimento.
A mineração de dados pode ser realizada de três diferentes formas, em função do nível
de conhecimento que se tenha do problema estudado.
I.
Quando se possui um bom conhecimento sobre o campo de atuação da empresa
ou alguma idéia sobre que relação nova se está buscando, pode-se definir uma
hipótese e verificar sua comprovação ou não comprovação por meio da
metodologia de data mining denominada de teste de hipóteses. Hipótese: nós
pensamos sobre possíveis explicações para o comportamento observado. Os
dados a serem analisados devem ser escolhidos de acordo com estas hipóteses.
II.
Se nada se sabe sobre o comportamento do fenômeno, pode-se simplesmente
deixar as técnicas de data mining procurarem nos dados relações “novas”
existentes, e que a olho nú não poderiam ser localizadas. Procura-se reconhecer
padrões nos dados. Este método é chamado de descoberta não supervisionada
de relações. Com a aplicação de um método não supervisionado de mineração
50
podem surgir novas hipóteses.
III.
Quando se tem um nível maior de conhecimento da área e da relação que se deseja
ajustar, procede-se com a metodologia de descoberta supervisionada de relações ou
modelagem de dados. Aqui, a tarefa é explicar o valor de um determinado campo
(rendimento, idade, crédito (R$)) em termos de outros campos. Selecionamos o
campo objeto (target) e o computador nos mostra como estimar, classificar, predizer
este campo.
Teste de Hipóteses e Descoberta de Conhecimento
A abordagem de teste de hipóteses tenta comprovar ou não idéias preconcebidas. A
descoberta de conhecimento inicia com os dados e procura nos dizer alguma coisa
que realmente não conhecíamos.
51
Verificação de hipóteses
O especialista que analisa as relações descobertas pode levantar alguma hipótese
associada a elas, por exemplo, notando a preocupação dos consumidores de
chocolate com sua estética e saúde, consumindo, assim, produtos dietéticos em
quantidade razoável, pensa se não é também possível que esses consumidores se
utilizem comumente de produtos de beleza. O teste da validade de uma hipótese é
feita através da análise dos dados que podem ser obtidos através de
levantamentos ou experimentos.
O processo de teste de hipóteses
Passos do método para realizar um teste de hipótese:
(Referência: Berry &
Linoff, 1997, pág. 65)
1.
Formular as hipóteses (Gerar boas idéias);
2.
Determinar quais os dados que vão permitir que esta hipótese seja testada;
3.
Localizar os dados;
4.
Preparar os dados para a análise (Resumo, valores inexistentes, dados textuais, etc.);
5.
Construir o modelo baseado nos dados;
6.
Avaliar se o modelo confirma ou rejeita a hipótese.
52
Comentários sobre os passos 5 e 6.
5. Construir o modelo baseado nos dados
Modelo pensado (hipótese):
“Famílias com crianças matriculadas em séries mais avançadas apresentam
maior probabilidade de responder a uma oferta de linha de internet”
Este modelo dever ser transformado num modelo estatístico que possa ser
testado com os dados reais.
6. Avaliar se o modelo confirma ou rejeita a hipótese
Depende da hipótese e do modelo. Dependendo das hipóteses, e do modelo, pode
ser feita através da interpretação de um único valor proveniente de uma única e
simples pergunta, pode ser feito através da interpretação de um conjunto de regras
de associação gerada pela análise de cestas de compras (Market basket analysis),
ou pela significância da correlação encontrada por meio de um modelo de
regressão.
53
Descoberta de conhecimento supervisionada
O analista poderia desejar conhecer melhor esse consumidor de chocolate, obtendo
informações sobre seu nível sócio-econômico, pois seria interessante avaliar se ele
consumidor possui condições de investir em chocolates finos, importados e mais
caros, além dos nacionais. O analista, fazendo data mining nos seus dados, pode
avaliar se a quantidade de consumidores deste tipo e seu poder aquisitivo
compensariam que uma nova seção de chocolates importados fosse criada.
Relações matemáticas entre os dados serão então criadas, permitindo que o analista
verifique margens de lucros e previsões de vendas para esses consumidores de
chocolate importado em função do seu perfil e poder aquisitivo.
A modelagem matemática é caracterizada pela presença de uma única variável
objetivo (target field) cujo valor deve ser predito em termos de outros campos da
base de dados; um conjunto fixo de categorias nas quais os registros devem ser
atribuídos (alocados); um relacionamento específico que desejamos explorar.
54
Procura responder questões como:
 quem é mais provável comprar um seguro?
 qual o lucro esperado para um novo consumidor?
Passos no processo de descoberta de conhecimento supervisionado
1.
Identificar fontes de dados disponíveis.
2.
Preparar os dados para a análise.
3.
Construir e treinar modelos.
4.
Validar o modelo.
55
1.
É preciso ter dados bons para responder as questões. O ideal é ter um data
warehouse (dados limpos e testados). Se são de diferentes fontes, devem ser
integrados. As vezes é necessário pré-classificar os dados (fraude; não fraude).
2.
Lidar com dados provenientes de diferentes (incompatíveis) arquiteturas; várias
maneiras para representar a mesma coisa (F ou W para mulher); dados textuais
com formato livre e dados incompletos ou nulos. Criação de novas variáveis,por
exemplo, índice_obesidade=altura/peso.
Dividir os dados em arquivos de treinamento, teste e validação.
Treinamento: usado para construir o modelo inicial.
Teste: é usado para ajustar o modelo inicial para torna-lo mais geral. Verificar a
sua qualidade, se o modelo vale a pena. Usado para monitorar e refinar o
modelo. Exemplo: ajustar os pesos numa rede neural; verificar a poda numa
árvore de decisão; resolver problemas de super treinamento.
Validação: é usado para avaliar a performance do modelo com dados novos
(dados ainda não visto pelo modelo).
56
3.
Este passo depende da técnica a ser utilizada e será discutida nos próximos
capítulos. O arquivo de treinamento é usado para gerar uma explicação da
variável dependente (target) em termos de variáveis independentes (inputs).
Pode ser feito por uma rede neural, regressão ou árvore de decisão.
4.
Considerando o modelo já testado, ainda não sabemos quão bem é o seu
desempenho com dados novos (ainda não visto). Vamos usar o modelo no
arquivo de validação. A taxa de erro no arquivo de validação é uma boa
estimativa da taxa de erro com dados novos.
57
Descoberta não supervisionada de relações
Neste caso não existe um compromisso com qualquer relação predeterminada,
representando apenas uma observação exaustiva sobre os dados de forma, quem sabe,
a descobrir-se uma relação nova e útil. Não se faz distinção entre variáveis respostas
(variável objetiva, target) e preditoras.
Os métodos mais comumente utilizados são os modelos de variáveis latentes, por
exemplo, componentes principais e análise fatorial; análise de cluster (registros são
agrupados se eles tem alguma coisa em comum) e cesta de compras (market basket
analysis) (quais produtos vendem juntos?)
Com a aplicação da técnica muitas relações novas surgem. Essas relações, são, então,
analisadas por um especialista da área para realmente definir aquelas que são
relevantes. Por exemplo:
1.
Mulheres consomem mais chocolate que os homens;
2.
Consumidores de chocolate consomem muitos produtos dietéticos.
Assim, o gerente do supermercado poderia organizar melhor as prateleiras do
estabelecimento, colocando os dois tipos de produtos próximos.
58
Passos no processo de descoberta de conhecimento não supervisionado
1.
Identificar fontes de dados disponíveis.
2.
Preparar os dados para a análise.
3.
Construir e treinar modelos.
4.
Validar o modelo.
5.
Aplicar o modelo para dados novos.
6.
Identificar potenciais variáveis targets para a descoberta de conhecimento
supervisionado.
7.
Gerar novas hipóteses para testes.
59
Comentários sobre os passos 6 e 7.
6.
A análise não supervisionada é um campo fértil para gerar idéias que podem
ser verificadas usando métodos diretos. Por exemplo, um resultado da
análise de cestas de compras pode levar a questões: quem está comprando
combinações particulares de produtos?, e quando as compras tendem a ser
feitas?.
7.
Por exemplo, da análise de agrupamentos, encontramos um cluster de
adultos que tem visto muitos filmes de criança. Isto nos leva a suspeitar que
os pais são um importante segmento da população que vão ao cinema. Para
testar esta hipótese precisamos pegar mais dados.
60
Capítulo 5
As técnicas ou tarefas de data mining
Qualquer uma das três possíveis metodologias de data mining necessitam basicamente das
mesmas técnicas para a sua realização. Este capítulo dá uma visão das tarefas na
perspectiva dos problemas e desafios em data mining.
As técnicas são de caráter genérico e podem ser implementadas por meio de ferramentas
diferentes, como Inteligência Artificial e Métodos Estatísticos.
Seis tarefas de data mining são as mais utilizadas:
1.
Classificação
2.
Estimação
3.
Previsão e Predição
4.
Análise de afinidade
5.
Análise de agrupamento
6.
Descrição
Geralmente, num mesmo problema, são usadas
várias técnicas. A familiaridade com as
técnicas é necessário para resolver os
problemas de data mining.
61
Classificação
Associa ou classifica um item (registro) em uma ou várias classes prédefinidas.
O ser humano está sempre classificando o que percebe à sua volta:
• criando classes de relações humanas diferentes, aí temos, por exemplo,
colegas de trabalho, amigos, familiares, e dando a cada classe uma forma
diferente de tratamento;
• definindo classes sociais
No data mining são comuns as tarefas de classificação de clientes em baixo,
médio ou alto risco de empréstimo bancário; de clientes potencialmente
consumidores de um determinado produto a julgar pelo seu perfil; de
transações financeiras como legais, ilegais ou suspeitas; de ações da bolsa de
valores com lucros baixos, médios e altos.
Ferramentas mais utilizadas:
Redes Neurais artificiais, Árvores de decisão(CHAID, CART)
Estatística (Análise discriminante, Regressão logística)
62
Exemplo:
Uma base de dados relativa a empréstimos pessoais. O tipo de conhecimento que
se deseja extrair desses dados é como identificar os mutuários negligentes. Um
especialista considerou que as variáveis (atributos) mais representativos do
conhecimento desejado são: salário, débito e regularidade de pagamento. Veja
figura composta de 14 mutuários.
Cluster
x
Débitos
x
x
Rede
x
x
x
x
Regressão
neural
x
t
Em dia
Débito com pagamento
salários
63
Na figura tem-se uma partição simples dos dados em duas regiões distintas de
classes. Caso o banco queira usar a região de classificação para uma decisão
automática de futuros empréstimos, a decisão linear não é considerada uma
perfeita separação das classes.
Classificar um objeto é determinar com que grupo
de entidades, já classificados anteriormente, esse
objeto apresenta mais semelhança
64
Estimação
Dado alguns valores de entrada (variáveis explicativas) usamos a estimação para
retornar (obter) um valor para alguma variável desconhecida, tal como: rendimento,
altura, saldo do cartão de crédito.
Estimar a probabilidade de um paciente sobreviver, dado o resultado de um conjunto
de diagnósticos de exames; estimar a probabilidade de um consumidor realizar uma
compra.
A arte de estimar é exatamente esta: determinar da melhor maneira possível um valor
médio baseando-se em outros valores de situações idênticas, mas nunca exatamente
iguais.
Ferramentas mais utilizadas:
Redes Neurais artificiais, Algoritmos genéticos, Estatística (intervalos de
confiança, intervalos de estimação (regressão)).
65
Estimar uma grandeza é avaliá-la tendo
como base casos semelhantes nos quais
essa grandeza esteja presente
66
Previsão e Predição
A técnica de previsão resume-se na avaliação do valor futuro de algum índice, baseandose em dados do comportamento passado deste índice (Modelo de série temporal).
A técnica de predição resume-se na avaliação de um novo registro, para uma variável de
interesse, em função de várias outras variáveis de entrada.
Exemplo: 1) determinar se o índice Bovespa subirá ou descerá amanhã; 2) qual será a
população de uma cidade daqui a 5 anos; 3) predição de quais consumidores deixarão
(abandonarão) dentro dos próximos seis meses; 4) Predizer a demanda do consumo de um
novo produto em função da despesa feita.
A previsão consiste na determinação do
futuro de uma grandeza
Ferramentas mais utilizadas:
Redes Neurais artificiais, Árvores de decisão, Estatística (Regressão
linear múltipla, Regressão logística binária).
67
Análise de Afinidade (Associação)
(Market Basket Association Analysis)
O exemplo mais fácil é o do carrinho do supermercado do qual se pode extrair muita
informação sobre que produtos os consumidores compram em conjunto com grande
chance.
Dos modelos obtidos da análise de afinidade, podem-se extrair “regras” que regem o
consumo de alguns itens.
A análise de associação gera redes de interações e conexões presentes nos conjuntos de
dados usando as associações item a item. Onde por associação item a item entende-se que
a presença de um item implica necessariamente na presença de outro item na mesma
transação.
Considere um banco de dados de compras, onde cada compra (transação) consiste de
vários artigos (itens) comprados por um consumidor. A aplicação de técnicas de análise de
associação neste conjunto de transações pode revelar afinidades entre uma coleção de
itens. Estas afinidades entre itens são representadas por regras de associação. Uma regra
expõe, em forma textual, quais itens implicam a presença de outros itens.
68
O objetivo da análise de afinidade é encontrar quais produtos ou serviços os
consumidores buscam conjuntamente.
Um mercado de vendas à varejo pode dispor os produtos vendidos
conjuntamente no mesmo corredor;
Um comerciante da web pode usar a análise de afinidade para determinar o
layout do seu catálogo;
Bancos e companhias telefônicas podem usar análise de afinidade para
determinar quais novos produtos oferecer para seus consumidores
preferenciais.
A análise de afinidade preocupa-se em
descobrir que elementos dos eventos têm
relações no tempo
Ferramentas mais utilizadas: Regras de associação.
69
Análise de Agrupamento
(Cluster Analysis)
Um banco coleta e mantém um grande banco de dados sobre atributos de correntistas,
tais como, conta corrente, poupança, depósitos, empréstimos e cartão de crédito.
Baseado nestes atributos (variáveis), o banco desejaria segmentar os correntistas em
grupos: ativo, moderado e passivo, baseado em dados dos últimos três anos. A divisão
de marketing usa a segmentação dos clientes para definir estratégias diferenciadas
para os vários grupos (cluster).
70
Empréstimo
x x
Cluster 1x
xx
Ativo
x
x x x Cluster 2 -
xx x
x
x
x
x x x Cluster 3 Passivo
Moderado
Saldo conta corrente
Agrupar é simplesmente classificar uma massa de dados em classes desconhecidas a
priori em número ou forma.
Uma tarefa é, dadas várias categorias ou classes conhecidas, dizer a qual delas um
certo dado pertence; outra tarefa semelhante em objetivo, porém muito mais
complexa, é, de posse de uma massa de dados, dizer em quantas classes esses dados
se distribuem e como são essas classes. Dada uma massa de dados sobre o consumo
no Brasil, determinar quantas classes ou padrões de comportamento consumista
existem.
71
De fato pode não haver tais classes no base de dados, não sendo possível
caracterizar os grupos. Na análise de agrupamentos, os grupos ou classes são
construídos com base na semelhança entre os elementos, cabendo ao analista das
classes resultantes avaliar se estas significam algo útil. Exemplo de sintomas e
doenças, onde várias doenças apresentam os mesmos sintomas.
A análise de agrupamentos é normalmente uma técnica preliminar utilizada
quando nada ou pouco se sabe sobre os dados, como na metodologia da
descoberta não supervisionada de relações.
Segmentação de mercado é uma típica aplicação de análise de agrupamentos.
Agrupar é, baseado em medidas de
semelhança, definir quantas e quais
classes existem em um conjunto de
entidades.
Ferramentas mais utilizadas:
Redes neurais artificiais, Estatística (Análise de conglomerados (Cluster
Analysis)) e Algoritmos genéticos.
72
Descrição
Algumas vezes o propósito na realização de data mining é descrever o que
está acontecendo numa base de dados, de forma que aumente o nosso
entendimento (conhecimento) sobre os consumidores, produtos. Se
fizermos uma boa descrição do comportamento facilitará encontrar uma
explicação para o mesmo.
73
Implementação de um protocolo de
mineração de dados
Com o que já foi dito sobre as fases, os métodos e as técnicas de data mining,
podemos esboçar um protocolo geral aplicável à maioria dos casos de mineração de
dados, independentemente de suas áreas.
Uma etapa importante para a mineração de dados é a preparação dos dados. Os
dados a serem utilizados no data mining precisam ser preparados, pois as
ferramentas de Estatística e Inteligência Artificial necessitam de dados em
determinados formatos, completos e, de preferência, representativos do fenômeno
em estudo.
A fase de preparação envolve a seleção dos dados. Tanto a limitação da massa de
dados (casos, observações, linhas) a ser explorada quanto a redução do número de
variáveis (campos) consideradas na análise são fatores importantes para a
eficiência e eficácia da mineração. Estes dois processos são realizados com base no
conhecimento do analista ou com técnicas estatísticas.
74
Outra etapa importante da preparação de dados é a sua complementação. Num grande
banco de dados é comum a presença de dados faltantes por falhas de digitação, erros
de preenchimento de formulários, ou mesmo porque os registros pertencem a
empresas ou épocas diferentes nas quais aquele dado em específico não era
questionado ou considerado importante. Muitas ferramentas de data mining precisam
de registros completos, com todos os dados. Para complementarmos os dados
podemos simplesmente assumirmos um valor padrão. Outra forma melhor é
utilizarmos a média dos demais registros. Finalmente, podemos usar uma ferramenta
de inteligência artificial ou estatística para imputação de dados.
A etapa de preparação de dados pode lidar ainda com processos de eliminação de
registros cujos dados pareçam “errados” ou “não representativos” do fenômeno em
estudo, além da eliminação de “ruído” que de alguma forma tenha sido adicionado ao
dado. Aqui, também pode-se usar técnicas estatísticas e de inteligência artificial,
como se fosse um data mining prévio ao data mining final.
75
Protocolo:
1.
Definição do problema a ser estudado ou o objetivo a ser alcançado
2.
Descoberta das relações pelo uso das técnicas de data mining
1.
Nesta fase necessita-se de conhecimento das tarefas (classificação, agrupamento,
predição, previsão, estimação, etc.) aplicáveis e das ferramentas (regressão, cluster,
árvores de decisão, redes neurais artificiais,etc) capazes de realizá-las.
2.
Após a escolha da tarefa e da ferramenta em função do problema estudado, é preciso
realizar a etapa operacional de preparação dos dados
3.
Após estas etapas inicia-se a aplicação do data mining propriamente dito e cujo
resultado é um conjunto de relações “novas” descobertas mecanicamente.
76
3.
Análise das “novas” relações
1.
4.
Aplicação das novas relações
1.
5.
Nesta etapa os analistas estudam (explicam) as novas relações encontradas e
seleciona aquelas relevantes
Escolhidas as relações consideradas “novas” e utilizáveis, a próxima etapa é
sua aplicação, dependendo do objetivo do trabalho. Numa empresa, precisase de relações utilizáveis ou transformáveis em algum lucro ou eficiência.
Avaliação dos resultados
1.
Finalmente temos a etapa de avaliação na qual os resultados da aplicação, ou
explicação, das novas relações escolhidas são contrapostos aos objetivos
iniciais da primeira etapa. Eventualmente, retorna-se para a redefinição do
problema.
77
Download

DATA MINING