Mineração de dados sobre pesquisa
de hábitos de consumo de energia
no sul do Brasil
Francisco Daniel de Oliveira Costa
Ana Carolina Greef
Denise Fukumi Tsunoda, Profa. Dra.
Universidade Federal do Paraná
Programa de Pós-Graduação em Ciência, Gestão e Tecnologia da Informação
Curitiba/PR
[email protected]
1
SUMÁRIO
 Introdução;
 Algoritmo Apriori para mineração de dados;
 Processo de Descoberta de Conhecimento em Bases de
Dados;
 Aplicação do KDD;
 Considerações finais;
 Referências.
2
INTRODUÇÃO
 Pesquisa experimental;
 Artigo sobre dados do Programa Nacional de Conservação de Energia
Elétrica (Procel) - de 1985 - subordinado à Eletrobrás - controlada pelo
Ministério de Minas e Energia, do Brasil;
 Promover a racionalização da produção e do consumo de energia elétrica;
 Base de dados nacional, relativa a questionário sobre posse de
eletrodomésticos e hábitos de consumo de energia, em 2005;
 Dados selecionados da Região Sul – estudo “piloto”;
 Dados de 2010 ainda não publicados;
 Algoritmo Apriori – ausência de atributo meta, descoberta de regras
embutidas nos dados cuja noção prévia seria inviável.
3
APRIORI
 Regra de associação  formato X→Y .
 Correspondência a um suporte (X U Y): ocorrências individuais
e conjuntas de cada valor de cada atributo;
 Correspondência e a uma confiança (X →Y): número de
registros que contemplam todos os componentes de uma
regra, sobre os registros que contemplam o antecedente.
4
KNOWLEDGE DISCOVERY IN DATABASE
(KDD)
 Processo de Descoberta de Conhecimento em Bases de Dados
(KDD):
 seleção dos dados a serem minerados;
 limpeza dos mesmos para eliminação de ruídos, dados irrelevantes e
duplicidades;
 integração com outras bases de dados, com objetivo de agregar
abrangência e confiabilidade ao resultado esperado;
 transformação de valores, por exemplo, em categorias;
 mineração dos dados, para aplicação de algoritmos de associação,
clusterização ou classificação;
 Interpretação. (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).
5
KDD SOBRE DADOS DO PROCEL –
REGIÃO SUL DO BRASIL (1/4)
 Estudo estruturado com a base de dados e o questionário
utilizado para obtenção desses:
 102 questões relativas a: perfil socioeconômico; posse de
eletrodomésticos; valores e períodos de consumo; atitudes para
economia de energia e relacionamento do cliente com a respectiva
concessionária;
 questões discursivas, objetivas, de atribuição de nota, de ordenação
de prioridades e tabelas;
 ausência de padronização no instrumento de coleta, realizada
manualmente.
6
KDD SOBRE DADOS DO PROCEL –
REGIÃO SUL DO BRASIL (2/4)
SELEÇÃO
LIMPEZA
• Programa Nacional de
Conservação de
Energia Elétrica
(Procel).
• Por exemplo “código
da residência”, “ação
para redução de
consumo: geladeira,
ar condicionado,
freezer, chuveiro, lava
roupas, stand by,
microondas,
lâmpadas, outro.”;
• Limpeza devido à não
pertinência ou à
desestruturação dos
dados.
PRÉPROCESSAMENTO /
TRANSFORMAÇÃO
• Por exemplo “Tempo
de moradia em anos”
e “Tempo de moradia
em meses” –
convertidas em
meses;
• Manutenção de
valores “99” – “Não
sabe ou Não
respondeu”, e “888” –
“Vazio”;
MINERAÇÃO
• WEKA 3.6.4;
• Suporte mínimo 0,8
(80%);
• Confiança mínima 1
(100%);
• 1754 regras:
• 19 dos 72 atributos
da base.
7
KDD SOBRE DADOS DO PROCEL –
REGIÃO SUL DO BRASIL (3/4)
 RESULTADOS

952 ocorrências: “Se não houve Desligamento / Queima de disjuntor, e não houve
Choque elétrico em eletrodomésticos nos últimos 3 meses, na residência, então
não houve Aquecimento de parede no mesmo período” (Resultado do software:
1. tresDoisB=2 tresDoisD=2 952 ==> tresDoisE=2 952 conf:(1)).

Das 1754 regras, 1626 tiveram “Não ocorrência de Aquecimento de parede nos
últimos 3 meses” como consequente;

837 ocorrências na base: “Se os vidros da residência não são coloridos ou têm
película, Não houve desligamento / Queima de disjuntor, queda de tensão,
tampouco aquecimento da parede nos últimos 3 meses, então Não houve Choque
elétrico em eletrodomésticos nos últimos 3 meses, na residência” (Resultado do
software: 1282. doisQuatroI=2 doisOito=1 tresDoisB=2 tresDoisC=2 tresDoisE=2
cinco=1 809 ==> tresDoisD=2 809 conf:(1)).
8
KDD SOBRE DADOS DO PROCEL –
REGIÃO SUL DO BRASIL (4/4)
 Interpretação:
 Somente perfis de consumidores, e não de consumo de energia;
 Atributos relevantes para ações de distribuição de energia,
conscientização sobre consumo sustentável e adequação de serviços
foram ignorados pela ferramenta;
 Devido ao processo de pesquisa?
 Devido ao instrumento de pesquisa desestruturado e à forma manual de
coleta e tabulação?
 Devido à baixa representatividade dos dados existentes?
 Defasagem dos resultados devido ao período em que a pesquisa foi
realizada e em que os dados foram distribuídos.
9
CONSIDERAÇÕES FINAIS
 Processo decisório estruturado = organização de dados que o
fundamentam;
 O formato de condução da pesquisa dificulta a melhoria contínua do
processo decisório no que tange ao Procel (Zhang; Zhou, 2004);
 falhas incorrem em tratamento e interpretação custosos e incertos;
 o não uso de tecnologias para constituição da base de dados em si,
compromete sua credibilidade.
 Sugestão de aplicação das etapas do KDD aos dados das demais regiões do
Brasil, na mesma base, e a atualização das regras com dados de 2010 –
quando disponíveis.
10
REFERÊNCIAS
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge
discovery in databases. American Association for Artificial Intelligence, 1996.
Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996Fayyad.pdf>. Acesso em: 29 mai. 2011.
PROGRAMA NACIONAL DE CONSERVAÇÃO DE ENERGIA ELÉTRICA – Procel. Disponível
em: <http://www.eletrobras.com/elb/procel/>. Acesso em: 29 mai. 2011.
ZHANG, D.; ZHOU, L.. Discovering golden nuggets: data mining in financial application,
IEEE transactions on systems, man, and cybernetics—part c: applications and
reviews, v. 34, n. 4, nov. 2004. Disponível em:
<http://suraj.lums.edu.pk/~cs631s05/Papers/financial.pdf>. Acesso em: 31 mai. 2011.
11
Download

Mineração de dados sobre pesquisa de hábitos de