Mineração de dados sobre pesquisa de hábitos de consumo de energia no sul do Brasil Francisco Daniel de Oliveira Costa Ana Carolina Greef Denise Fukumi Tsunoda, Profa. Dra. Universidade Federal do Paraná Programa de Pós-Graduação em Ciência, Gestão e Tecnologia da Informação Curitiba/PR [email protected] 1 SUMÁRIO Introdução; Algoritmo Apriori para mineração de dados; Processo de Descoberta de Conhecimento em Bases de Dados; Aplicação do KDD; Considerações finais; Referências. 2 INTRODUÇÃO Pesquisa experimental; Artigo sobre dados do Programa Nacional de Conservação de Energia Elétrica (Procel) - de 1985 - subordinado à Eletrobrás - controlada pelo Ministério de Minas e Energia, do Brasil; Promover a racionalização da produção e do consumo de energia elétrica; Base de dados nacional, relativa a questionário sobre posse de eletrodomésticos e hábitos de consumo de energia, em 2005; Dados selecionados da Região Sul – estudo “piloto”; Dados de 2010 ainda não publicados; Algoritmo Apriori – ausência de atributo meta, descoberta de regras embutidas nos dados cuja noção prévia seria inviável. 3 APRIORI Regra de associação formato X→Y . Correspondência a um suporte (X U Y): ocorrências individuais e conjuntas de cada valor de cada atributo; Correspondência e a uma confiança (X →Y): número de registros que contemplam todos os componentes de uma regra, sobre os registros que contemplam o antecedente. 4 KNOWLEDGE DISCOVERY IN DATABASE (KDD) Processo de Descoberta de Conhecimento em Bases de Dados (KDD): seleção dos dados a serem minerados; limpeza dos mesmos para eliminação de ruídos, dados irrelevantes e duplicidades; integração com outras bases de dados, com objetivo de agregar abrangência e confiabilidade ao resultado esperado; transformação de valores, por exemplo, em categorias; mineração dos dados, para aplicação de algoritmos de associação, clusterização ou classificação; Interpretação. (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). 5 KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (1/4) Estudo estruturado com a base de dados e o questionário utilizado para obtenção desses: 102 questões relativas a: perfil socioeconômico; posse de eletrodomésticos; valores e períodos de consumo; atitudes para economia de energia e relacionamento do cliente com a respectiva concessionária; questões discursivas, objetivas, de atribuição de nota, de ordenação de prioridades e tabelas; ausência de padronização no instrumento de coleta, realizada manualmente. 6 KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (2/4) SELEÇÃO LIMPEZA • Programa Nacional de Conservação de Energia Elétrica (Procel). • Por exemplo “código da residência”, “ação para redução de consumo: geladeira, ar condicionado, freezer, chuveiro, lava roupas, stand by, microondas, lâmpadas, outro.”; • Limpeza devido à não pertinência ou à desestruturação dos dados. PRÉPROCESSAMENTO / TRANSFORMAÇÃO • Por exemplo “Tempo de moradia em anos” e “Tempo de moradia em meses” – convertidas em meses; • Manutenção de valores “99” – “Não sabe ou Não respondeu”, e “888” – “Vazio”; MINERAÇÃO • WEKA 3.6.4; • Suporte mínimo 0,8 (80%); • Confiança mínima 1 (100%); • 1754 regras: • 19 dos 72 atributos da base. 7 KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (3/4) RESULTADOS 952 ocorrências: “Se não houve Desligamento / Queima de disjuntor, e não houve Choque elétrico em eletrodomésticos nos últimos 3 meses, na residência, então não houve Aquecimento de parede no mesmo período” (Resultado do software: 1. tresDoisB=2 tresDoisD=2 952 ==> tresDoisE=2 952 conf:(1)). Das 1754 regras, 1626 tiveram “Não ocorrência de Aquecimento de parede nos últimos 3 meses” como consequente; 837 ocorrências na base: “Se os vidros da residência não são coloridos ou têm película, Não houve desligamento / Queima de disjuntor, queda de tensão, tampouco aquecimento da parede nos últimos 3 meses, então Não houve Choque elétrico em eletrodomésticos nos últimos 3 meses, na residência” (Resultado do software: 1282. doisQuatroI=2 doisOito=1 tresDoisB=2 tresDoisC=2 tresDoisE=2 cinco=1 809 ==> tresDoisD=2 809 conf:(1)). 8 KDD SOBRE DADOS DO PROCEL – REGIÃO SUL DO BRASIL (4/4) Interpretação: Somente perfis de consumidores, e não de consumo de energia; Atributos relevantes para ações de distribuição de energia, conscientização sobre consumo sustentável e adequação de serviços foram ignorados pela ferramenta; Devido ao processo de pesquisa? Devido ao instrumento de pesquisa desestruturado e à forma manual de coleta e tabulação? Devido à baixa representatividade dos dados existentes? Defasagem dos resultados devido ao período em que a pesquisa foi realizada e em que os dados foram distribuídos. 9 CONSIDERAÇÕES FINAIS Processo decisório estruturado = organização de dados que o fundamentam; O formato de condução da pesquisa dificulta a melhoria contínua do processo decisório no que tange ao Procel (Zhang; Zhou, 2004); falhas incorrem em tratamento e interpretação custosos e incertos; o não uso de tecnologias para constituição da base de dados em si, compromete sua credibilidade. Sugestão de aplicação das etapas do KDD aos dados das demais regiões do Brasil, na mesma base, e a atualização das regras com dados de 2010 – quando disponíveis. 10 REFERÊNCIAS FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. American Association for Artificial Intelligence, 1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996Fayyad.pdf>. Acesso em: 29 mai. 2011. PROGRAMA NACIONAL DE CONSERVAÇÃO DE ENERGIA ELÉTRICA – Procel. Disponível em: <http://www.eletrobras.com/elb/procel/>. Acesso em: 29 mai. 2011. ZHANG, D.; ZHOU, L.. Discovering golden nuggets: data mining in financial application, IEEE transactions on systems, man, and cybernetics—part c: applications and reviews, v. 34, n. 4, nov. 2004. Disponível em: <http://suraj.lums.edu.pk/~cs631s05/Papers/financial.pdf>. Acesso em: 31 mai. 2011. 11