Mineração de Dados
MINERAÇÃO DE
DADOS
Conceitos / Autores chave.................................................
3
1. Introdução......................................................................
4
2. Conceitos de Mineração de Dados............................. 5
3. Aplicações de Mineração de Dados........................... 7
4. Ferramentas de Mineração de Dados........................ 8
5. Conclusões................................................................... 9
Materiais complementares.............................................. 9
Bibliografia......................................................................10
Curso - Mineração de Dados
Universidade Anhembi Morumbi
Sumário
Conceitos / Autores-chave
Dados
Conjunto de fatos F, como instâncias de um
banco de dados. Por exemplo, uma coleção de
n cadastros de pessoa física contendo idade,
profissão, renda etc.
Padrão
Expressão E em uma linguagem L descrevendo
fatos em um subconjunto FE de F. E é chamado
padrão se for mais simples do que a enumeração
de todos os fatos em FE. Por exemplo, o padrão:
“Se renda < $r então a pessoa não recebe
financiamento” seria aplicável para uma escolha
apropriada de r.
Processo
Geralmente em KDD, processo é uma seqüência
de vários passos que envolve preparação de dados,
pesquisa de padrões, avaliação de conhecimento,
refinação envolvendo iteração e modificação.
Validade
Compreensível
Os padrões descobertos devem ser válidos em
novos dados com algum grau de certeza. Por
exemplo, se um limite de padrão de crédito é
ampliado, então a medida de certeza diminuiria,
uma vez que mais financiamentos seriam
concedidos a um grupo até então restrito a esta
operação.
Novo
Em geral, assume-se que “novidade” pode ser
medida por uma função N(E,F), que pode ser uma
função booleana ou uma medida que expresse
grau de “novidade” ou “surpresa”. Exemplo de
um fato que não é novidade: sejam E = “usa
tênis” e F = “alunos de colégio” então N(E,F) =
0 ou N(E,F) = falso. Por outro lado: sejam E =
“bom pagador” e F = “trabalhador da construção
civil” então N(E,F) = 0,85 ou N(E,F) = true.
Potencialmente útil
Padrões devem levar potencialmente à alguma
atitude prática, conforme medidos por alguma
função de utilidade. Por exemplo, regras obtidas
no processo podem ser aplicadas para aumentar
o retorno financeiro de uma instituição.
Um dos objetivos de KDD é tornar padrões
compreensíveis para humanos, visando
promover uma melhor compreensão dos
próprios dados. Embora seja um tanto
subjetivo medir compreensibilidade, um dos
fatores freqüentes é a medida de simplicidade.
Por exemplo: o log (registro de acessos) de
um servidor Web não é uma representação
compreensível; já fatos estatísticos extraídos
deste log, tais como totais de acesso ou
classificação dos acessos realizados, fornecem
informação num formato mais intuitivo e de
granularidade humanamente compreensível.
Pontos Críticos
Diferenças entre Mineração de
Dados (Data Mining - DM) e
Descoberta de Conhecimento
em Banco de Dados (Knowledge
Discovery in Database - KDD)
Knowledge Discovery in Databases, KDD, ou
Descoberta de Conhecimento em Bancos de
Dados, é o processo não trivial de extração
de informações implícitas, anteriormente
desconhecidas, e potencialmente úteis de
uma fonte de dados.
Curso - Mineração de Dados
Universidade Anhembi Morumbi
Descoberta de conhecimento em
bancos de dados (KDD) é o processo não
trivial de identificar em dados padrões
que sejam válidos, novos (previamente
desconhecidos), potencialmente úteis
e compreensíveis, visando melhorar o
entendimento de um problema ou um
procedimento de tomada de decisão
(Félix, 1998).
Enquanto, Mineração de dados é o passo do processo de KDD que produz
um conjunto de padrões sob um custo computacional aceitável. KDD utiliza
algoritmos de mineração de dados para extrair padrões classificados como
“conhecimento”. Incorpora também tarefas como escolha do algoritmo
adequado, processamento e amostragem de dados e interpretação de
resultados.
Mineração de dados é o principal passo do KDD, que consiste na
exploração e análise dos dados, por meios automáticos ou semiautomáticos, em grandes quantidades de dados, com o objetivo
de descobrir regras ou padrões interessantes.
Um conceito muito difundido e errado sobre mineração de dados é
o que define os sistemas de mineração de dados como sistemas que
podem automaticamente minerar todos os conceitos valiosos que
estão escondidos em um grande banco de dados sem intervenção
humana. Quando na realidade, se trata de um processo altamente
cooperativo entre homens e máquinas, que visa à exploração de
grandes bancos de dados, com o objetivo de extrair conhecimento
por meio do reconhecimento de padrões e relacionamento entre
variáveis, conhecimentos esses que podem ser obtidos por técnicas
comprovadamente confiáveis e validados pela sua expressividade
estatística.
A
cada dia, as bases de dados das organizações
vêm assumindo maiores proporções, e extrair
informação útil a partir desta grande quantidade de
dados passou a ser uma tarefa fundamental. Infelizmente, a
extração realizada apenas por consultas rotineiras dos usuários
não mais satisfaz a esta necessidade e são precisas outras
formas de extração para que informações sejam descobertas
a partir desta massa de dados, principalmente aquelas ocultas,
imperceptíveis à intuição ou aos olhos humanos.
Neste cenário, a mineração de dados surgiu como uma solução
extremamente útil às organizações que querem melhor explorar
a informação que possuem em seus repositórios de dados
(Mendonça, 2002).
Segundo (Fayyad et al 1996), mineração de dados “é
o processo de descoberta de padrões válidos, novos,
potencialmente úteis e compreensíveis, embutidos
nos dados”.
Um claro exemplo de mineração de dados
é o caso de uma loja, que a partir de sua
base de dados com informações sobre seus
clientes e suas compras, pode traçar perfis
de grupos de clientes, e até mesmo de cada
cliente individualmente, classificando-os como
desejar, por exemplo, como adimplente ou
inadimplente.
Curso - Mineração de Dados
Universidade Anhembi Morumbi
1. Introdução
Nos diferentes segmentos da sociedade, as instituições têm
buscado na tecnologia recursos que agreguem valor aos seus
negócios, seja agilizando operações, suportando ambientes ou
viabilizando inovações.
As ferramentas e técnicas empregadas para análise inteligente destes imensos
repositórios são os objetos tratados pelo campo emergente da Descoberta de
Conhecimento em Bancos de Dados, da expressão em inglês Knowledge Discovery
in Databases (KDD).
Diariamente, pessoas e instituições disponibilizam dados oriundos de
tarefas cotidianas, a estas plataformas tecnológicas, através de simples
atividades como compras no supermercado do bairro ou operações
bancárias. Os sistemas de computação participam da vida das pessoas
de forma cada vez mais próxima e constante. Não obstante, institutos
científicos, indústrias, corporações e governos acumulam volumes
gigantescos de dados, impulsionados também pela versatilidade e
alcance, proporcionados pela Internet.
Na verdade, KDD é um processo mais amplo consistindo das seguintes etapas, como
ilustrado na figura a seguir:
Esta ampla disponibilidade de imensas bases de dados, aliada à
eminente necessidade de transformar tais dados em informação
e conhecimento úteis para o suporte à decisão, têm demandado
investimentos consideráveis da comunidade científica e da indústria
de software. A informação e o conhecimento obtidos podem ser
utilizados para diversas aplicações, que vão do gerenciamento de
negócios, controle de produção e análise de mercado ao projeto de
engenharia e exploração científica.
Mineração de dados é a etapa em KDD responsável pela
seleção dos métodos a serem utilizados para localizar padrões
nos dados, seguida da efetiva busca por padrões de interesse
numa forma particular de representação, juntamente com a
busca pelo melhor ajuste dos parâmetros do algoritmo para a
tarefa em questão.
Mineração de Dados trata-se de extrair ou minerar
conhecimento de grandes volumes de dados. Muitas
pessoas consideram o termo Mineração de Dados como
sinônimo de Knowledge Discovery in Databases (KDD) ou
Descoberta de Conhecimento em Banco de Dados.
Processo de Descoberta de Conhecimento em Banco de Dados (KDD)
1. Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes.
Universidade Anhembi Morumbi
2. Conceitos de Mineração de Dados
2. Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas
produzindo um único repositório de dados.
Curso - Mineração de Dados
3.
4.
Transformação dos dados: etapa onde os
dados são transformados num formato apropriado
para aplicação de algoritmos de mineração (por
exemplo, através de operações de agregação).
5.
Mineração: etapa essencial do processo
consistindo na aplicação de técnicas inteligentes,
a fim de se extrair os padrões de interesse.
6. Avaliação ou Pós-processamento: etapa onde
são identificados os padrões interessantes de
acordo com algum critério do usuário.
7.
Visualização dos Resultados: etapa onde
são utilizadas técnicas de representação de
conhecimento, a fim de apresentar ao usuário o
conhecimento minerado.
O autor, (ZAIANE, 2000), afirma que atualmente as empresas são pobres
em informação, mas ricas em dados. Com o intuito de facilitar a análise
e visualização de dados, bem como a descoberta de informações úteis
à tomada de decisão, é que surgiram as ferramentas de mineração
de dados, ou seja, ferramentas computacionais que procuram por
informações em grandes bases de dados, informações ditas como
não triviais. Estas informações são ditas não triviais, pois não seriam
encontradas ou percebidas por simples sistemas de análise, e as
mesmas são de caráter desconhecido até a sua mineração. O autor
afirma que o objetivo da mineração não é o de encontrar um “alfinete”
em um “monte de feno”, pois os sistemas gerenciadores de banco de
dados “sabem” como realizar esta tarefa, mas sim, tentar entender
qual será a conseqüência da existência deste “alfinete”, caso ele
realmente exista.
A mineração de dados encontra-se como uma das etapas
que formam o processo maior, denominado Descoberta
de Conhecimento em Base de Dados (KDD).
Este processo constitui-se em várias etapas, as quais foram citadas acima. Essas etapas juntas
propiciam a descoberta de conhecimento. Como exemplo de uma aplicação prática de
KDD e mineração de dados, REATEGUI e FELDENS (2000), descrevem o caso de aplicação
em base de dados que continham informações sobre o histórico de pacientes, informações
sobre hospitais bem como, o perfil de atuação dos médicos credenciados. Através do uso
de mineração a empresa intitulada Golden Cross descobriu que os segurados que mais
cancelavam o seguro de saúde eram os que menos faziam uso do mesmo. A descoberta
possibilitou a criação de uma campanha para retenção destes clientes.
Curso - Mineração de Dados
Universidade Anhembi Morumbi
Seleção: etapa onde são selecionados os
atributos que interessam ao usuário. Por exemplo,
o usuário pode decidir que informações como
endereço e telefone não são relevantes para
decidir se um cliente é um bom comprador ou
não.
3. Aplicações em Mineração de Dados
Importante
Os resultados obtidos com a
mineração de dados podem ser
usados
no
gerenciamento
de
informação,
processamento
de
pedidos de informação, tomada
de decisão, controle de processo e
muitas outras aplicações.
A mineração de dados pode ser aplicada de
duas formas: como um processo de verificação
e como um processo de descoberta (Groth,
1998).
No processo de verificação, o usuário sugere
uma hipótese acerca da relação entre os dados
e tenta prová-la aplicando técnicas como análises
estatísticas e multidimensionais sobre um banco
de dados contendo informações passadas
(abordagem top-down).
No processo de descoberta não é feita nenhuma
suposição antecipada (abordagem bottom-up).
Analisa os dados e extrai padrões. Esse processo
usa técnicas, tais como descoberta de regras
de associação, árvores de decisão, algoritmos
genéticos e redes neurais.
A tecnologia de mineração de dados pode ser
aplicada a uma grande variedade de áreas, tais
como:
Saúde
As aplicações incluem a análise da eficácia de
certos tratamentos; a otimização de processos
dentro de um hospital e a análise de efeitos
colaterais de drogas.
Marketing
as aplicações incluem a análise do
comportamento do consumidor com base
em padrões de compra; a determinação
de estratégias de marketing, incluindo
propaganda, localização de lojas e mala direta;
a segmentação de clientes, lojas ou produtos;
bem como, o projeto de catálogos, o layout de
lojas e campanhas publicitárias.
Indústria
As aplicações envolvem a otimização de
recursos como equipamentos, força de
trabalho e matéria-prima; o projeto ótimo de
processos de produção e projetos de produtos
com base nas exigências dos clientes.
Finanças
As aplicações incluem a análise da avaliação
para concessão de créditos a clientes,
segmentação de contas a receber, análise de
desempenho de investimentos financeiros
como ações e detecção de fraudes.
Outras Aplicações
Ciência
Técnicas de mineração de dados podem ajudar
cientistas em suas pesquisas, por exemplo,
encontrar padrões em estruturas moleculares,
dados genéticos, mudanças globais de clima,
oferecendo conclusões valiosas rapidamente.
Diversas áreas de conhecimento começam
a utilizar técnicas de mineração de dados,
visando conhecer e identificar padrões até
então desconhecidos. Entre essas áreas
destacam-se a área de seguros, bancos,
comunicações e exploração de petróleo.
Curso - Mineração de Dados
Universidade Anhembi Morumbi
Os
principais
objetivos
da
mineração de dados são descobrir
relacionamentos
entre
dados
e fornecer subsídios para que
possa ser feita uma previsão de
tendências futuras baseadas no
passado.
4. Ferramentas de Mineração de Dados
Entretanto, segundo os autores, a conexão rígida
entre a ferramenta de descoberta de conhecimento
e a base de dados analisada, utilizando o suporte
do SGBD (Sistema de Gerenciamento de Banco
de Dados) existente, é claramente desejável.
Para Goebel e Gruenwald (O’BRIEN, 2007),
as características a serem consideradas na
escolha de uma ferramenta de mineração
de dados devem ser as seguintes:
A habilidade de acesso a uma variedade de fontes
de dados, de forma on-line e off-line;
A capacidade de incluir modelos de dados
orientados a objetos ou modelos não padronizados
(tal como multimídia, espacial ou temporal);
A capacidade de processamento com relação ao
número máximo de tabelas/tuplas/atributos;
A capacidade de processamento com relação ao
tamanho do banco de dados;
Variedade de tipos de atributos que a ferramenta
pode manipular; e Tipo de linguagem de
consulta.
Existem ferramentas que implementam uma ou mais técnicas de mineração de dados. A tabela abaixo
relaciona algumas dessas ferramentas, fornecendo informações tais como: a empresa fornecedora, as
técnicas implementadas de mineração de dados e exemplos de aplicações.
FERRAMENTA/
EMPRESA
FORNECEDORA
TÉCNICAS DE
MINERAÇÃO DE
DADOS
APLICAÇÕES
AIRA / Hycones IT (1998)
Regras de associação
Gerenciamento de relacionamento de cliente,
Marketing, detecção de fraude, controle de
processo e controle de qualidade.
Alice 5.1 Isoft A.S. (1998)
Árvore de decisão
Raciocínio baseado em casos
Política de crédito, marketing, saúde, controle de
qualidade, recursos humanos.
Clementine / Integral Solutions
Limited (ISL, 1996)
Indução de regras
Árvores de decisão
Redes neurais
Marketing direto, identificação de oportunidades
de venda cruzada, retenção de cliente, previsão de
lucro do cliente, detecção de fraude, segmentação
e lucro do cliente.
DataMind / DataMind Technology
Center (1998), (Groth, 1998)
(abordagem própria)
Não identificadas.
Decision Series / Neovista
Solutions Inc. (1998)
Árvore de decisão
Métodos estatísticos
Indução de regras
Redes neurais
Marketing direcionado, detecção de fraude,
retenção de cliente, análise de risco, segmentação
de cliente, análise de promoção.
Intelligent MIner / IBM (1997)
Árvores de decisão
Redes neurais
Segmentação de cliente, análise de conjunto de
itens, detecção de fraude.
KnowledgeSEEKER / Angoss IL
(Groth, 1998)
Árvores de decisão
Indução de regras
Lucro e segmentação de cliente para detecção de
fraude e análise de risco, controle de processo,
marketing direto.
MineSet / Silicon Graphics
Computer Systems (2000)
Métodos estatísticos
Árvores de decisão
Indução de regras
Áreas da saúde, farmacêutica, biotecnologia e
química.
NeuralWorks Predict / NeuralWare
(Groth, 1998)
Rede neural
Indústria
PolyAnalyst
/
Megaputer
Intelligence Ltd. (1998)
Algorítmo genético
Métodos estatísticos
Indução de regras
Marketing direto, pesquisa médica, análise de
conjunto de itens.
Universidade Anhembi Morumbi
Muitas ferramentas atualmente disponíveis
são ferramentas que geralmente operam
separadamente da fonte de dados, requerendo
uma quantidade significativa de tempo gasto
com exportação e importação de dados, pré
e pós-processamento e transformação de
dados.
Ferramentas de Mineração de Dados
Curso - Mineração de Dados
5. Conclusões
A aplicação de mineração de dados pode ser
justificada por questões do tipo: grande aumento
no volume de dados devido às novas tecnologias;
o poder computacional está disponível através de
diversos fabricantes de hardware e software, o que
permite a diminuição de custos e popularização de
tecnologia e o aumento da pressão da competição
entre empresas.
A aplicação da mineração de dados, atualmente pode ser vista
como um diferencial competitivo, pois a descoberta de perfil
de clientes permite um tratamento individualizado pela oferta
de produtos direcionados, sendo aplicado em larga escala em
uma nova área denominada marketing de precisão (REATEGUI e
FELDENS, 2000).
A mineração, dos dados no ambiente da Internet, apresenta-se como uma aplicação e área de pesquisa
com excelentes perspectivas de futuro devido à variedade de informações disponíveis na mesma, sendo
uma das principais áreas de aplicação no mercado atual.
Materiais complementares
Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. “From Data Mining to Knowledge Discovery: An Overview”. In:
Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996.
GORDON, J. R.; Gordon, Steven R. Sistemas de Informação: Uma abordagem Gerencial. LTC, 2006.
Goebel, M. and Gruenwald, L. 1999. A survey of data mining and knowledge discovery software tools. SIGKDD
Explor. Newsl. 1, 1 (Jun. 1999), 20-33. Disponível em: http://doi.acm.org/10.1145/846170.846172
Curso - Mineração de Dados
Universidade Anhembi Morumbi
A aplicação de ferramentas e técnicas de
mineração permite a descoberta de informações
ou conhecimento, que até a mineração, estavam
armazenados fisicamente na base de dados da
empresa, porém, não eram percebidos por não
serem triviais ou explícitos.
Bibliografia
Félix, L. C. M. Data Mining no Processo de Extração de Conhecimento de Base de Dados. Instituto de Ciências Matemáticas
e de Computação, São Carlos, Universidade de São Paulo, 1998.
O’BRIEN, James A. Sistemas de Informação e As Decisões Gerenciais na Era da Internet. São Paulo: Saraiva, 2007.
REATEGUI, Eliseo; FELDENS, Miguel. Roadmaps para projetos de Marketing de precisão. Hycones Information Technology.
Disponível em: http://www.marketingdeprecisao.com.br/ dm_roadmaps.doc. Acesso em: 15 de maio 2001.
ZAIANE, Osmar R., WEB Mining: Concepts, Practices and Research. In: Simpósio Brasileiro de Banco de Dados, Tutorial,
XV SBBD, 2000, João Pessoa. Anais. João Pessoa: SBBD, 2000. p. 410-474.
Universidade Anhembi Morumbi
HACKNEY, Douglas. Data Warehouse Delivery: Who are You? Part I. DM Review Magazine, v.8, n. 2, 1998.
Curso - Mineração de Dados
10
Download

MINERAÇÃO DE DADOS - Universidade Anhembi Morumbi