Data Mining como ferramenta de Gestão SIE INFORMAÇÃO OPORTUNA G I S TI O I S Base de Dados ÚNICA Funções Empresariais Denis Rezende EIS SAD ERP DW IA SE DM ST AE AQUISIÇÃO DE CONHECIMENTO DATA MINING SISTEMAS ESPECIALISTAS SISTEMAS INTELIGENTES PARA APOIO NA TOMADA DE DECISÕES PODEM USAR: ALGORITMOS GENÉTICOS REDES NEURAIS LÓGICA FUZZY RBC Monard (1997) Não-planejado Planejado Resposta SI Tradicionais Antecipado Não-antecipado Estímulo INTERPRETAÇÃO/ AVALIAÇÃO DATA MINING CONHECIMENTO ? PADRÕES TRANSFORMAÇÃO PRÉ-PROCESSAMENTO DADO PROCESSADO SELEÇÃO DADO ANALISADO DADOS DADO TRANSFORMADO FAYYAD 1996 Tarefas de Data Mining • Classificação • Descoberta de Regras de Associação • Clustering Classificação Sexo M M F F F M M F F M País França Inglaterra Franca Inglaterra França Alemanha Alemanha Alemanha França França Idade 25 21 23 34 30 21 20 18 34 55 Comprar sim sim sim sim não não não não não não Classificação • • • • SE (país = “Alemanha”) ENTÃO (comprar=“não”) Se (país = “Inglaterra”) ENTÃO (comprar = “sim”) SE (país = “França” E idade 25) ENTÃO (comprar = “sim”) SE (país = “França” E idade > 25) ENTÃO (comprar = “não”) Classificação A2 + + + + + - + + - - - + + - - - - + + - - A1 (Freitas 200) Descoberta de Regras de Associação Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. num 1 2 3 4 5 6 7 8 9 10 leite não sim não sim não não não não não não café sim não sim sim não não não não não não (FREITAS & LAVINGTON 98) cerveja não sim não não sim não não não não não pão sim sim sim sim não não sim não não não manteiga sim sim sim sim não sim não não não não arroz não não não não não não não não sim sim feijão não não não não não não não sim sim não Descoberta de Regras de Associação Uma regra de associação é um relacionamento do tipo: SE (x) ENTÃO (y) onde x e y são conjuntos de itens X Y = A cada regra são atribuídos dois fatores: Suporte Confiança Tarefa é descobrir todas a regras de associação com suporte ao suporte mínimo e confiança confiança mínima (Freitas 200) Descoberta de Regras de Associação • • • • • • • SE (café) ENTÃO (pão) SE (café) ENTÃO (manteiga) SE (pão) ENTÃO (manteiga) SE (manteiga) ENTÃO (pão) SE (café E pão) ENTÃO (manteiga) SE (café E manteiga) ENTÃO (manteiga) SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1 sup=0.3 conf.=1 sup=0.4 conf.=0.8 sup=0.4 conf.=0.8 sup=0.3 conf.=1 sup=0.3 conf.=1 sup=0.3 conf.=1 (Freitas 200) Análise de Cluster Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a característica de cada grupo. GTI (2002) - Deborah R. Carvalho Estudo de Caso • A base de dados 44.361 alunos. • Primeira fase - cursos de Computação, restringiu-se a base para 1557 alunos: 459 - PD - 398 - EC, 504 CC e 196 - BSI. Estudo de Caso Curso Tec. Proc. Dados Eng. Comput. Ciencia Computação Bachar. Sistem. Inform. Feminino Qtde % 136 29,63 36 9,05 73 14,48 35 17,86 Masculino Qtde % 323 70,37 362 90,95 431 85,52 161 82,14 Estudo de Caso 200 180 160 140 120 100 80 60 40 20 52 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 0 Reprovado por Nota e Frequencia Reprovado por Nota Reprovado por Frequencia Reprovado Nao-Cursou Aprovado Estudo de Caso 120,00 100,00 1997 80,00 1998 60,00 1999 2000 40,00 2001 20,00 2002 0,00 Estudo de Caso GEOMETRIA ANALITICA ESTRUTURA DE DADOS E GRAFOS PROJETO DE GRADUACAO CALCULO DIFERENCIAL E INTEGRAL II PROGRAMACAO DE COMPUTADORES I METODOS NUMERICOS ENGENHARIA DE SOFTWARE I LOGICA MATEMATICA CIRCUITOS DIGITAIS MATERIAIS ELETRICOS ELETRICIDADE BASICA 20,00 20,91 21,11 22,77 22,94 23,38 24,14 26,92 27,93 28,57 59,09 Estudo de Caso 100 90 80 70 60 Feminino 50 40 Masculino 30 20 10 0 Aprovado Não-Cursou Reprovado por Freqüência Reprovado por Nota Reprovado por Nota e Freqüência Estudo de Caso Curso CC EC BSI PD Aprovado 54,04 74,17 74,98 82,66 Não-Cursou 17,88 6,66 0,36 4,17 Reprovado por Reprovado por Reprovado por Nota e Freqüência Nota Freqüência 0,16 11,47 16,46 0,26 8,68 10,23 0,64 10,51 13,51 0,15 6,27 6,75 Estudo de Caso - 4 cursos • • • • • • • • MATEMATICA (A) <- ARQUIT. COMPUT. RNF (10.7%, 41.3%) INTROD. LOGICA (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 43.1%) CIDADANIA (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 45.0%) LINGUAGEM E TEC. PROG. (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 48.6%) SISTEMASDECOMPUTACAO (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 48.6%) INGLES (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 50.5%) ALGEBRA BOOLEANA E CIRC LOG (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 44.0%) DINAMICA GRUPO E REL. HUM. (A) <- ARQUIT. COMPUT. (RNF) (10.7%, 68.8%) Estudo de Caso - BSI • INT. COMP. (A) <- ENG. SW (RNF)FUND.MAT.(A) (10.5%, 94.7%) • FUND.MAT.(A) <- ENG. SW (RNF) INT. COMP. (A) (11.0%, 90.0%) • DIN. GRUPO E REL. HUM. A <- ENG. SW (RNF) FUND.MAT.(A) (10.5%, 94.7%) • INT. COMP. (A) <- ENG. SW (RNF) HAB. ACAD. (A) (10.5%, 94.7%) • HAB. ACAD. (A) <- ENG. SW (RNF) INT. COMP. (A) (11.0%, 90.0%) • DIN. GRUPO E REL. HUM. (A)<- ENG. SW (RNF) HAB. ACAD. (A) (10.5%, 94.7%) • DIN. GRUPO E REL. HUM. (A) <- ENG. SW (RNF) INT. COMP. (A) (11.0%, 95.0%) • DIN. GRUPO E REL. HUM. (A) <- ENG. SW (RNF) LING. PROG. (A) (10.5%, 94.7%) Estudo de Caso - CC • INT. COMP. (A) (11.4%, 55.0%) • HAB. ACAD. (A) (RN) (12.0%, 57.1%) • PROG. COMP. (RNF) PROG.(RNF) (15.7%, 67.3%) • LOG. PROG. (RNF) (RNF) (16.2%, 64.9%) • PROG. COMP. (RNF) (16.0%, 58.9%) • INT. COMP. (RNF) (RNF) (16.2%, 57.9%) • CALC. DIF. INTEG I (RNF) (16.0%, 55.4%) • INT. COMP. (RNF) PROG. COMP. (RNF) (10.5%, 73.0%) <- LOG. PROG. (RN) <- PROG. COMP. <- LOG. <- PROG. COMP. <- INT. COMP. (RNF) <- PROG. COMP. <- INT. COMP. (RNF) <- LOG. PROG.(RNF) Estudo de Caso - EC • CALC. DIF. INTEG A (RN) (10.0%, 53.8%) • DESENHO TEC. (A) (10.0%, 65.4%) • ALGEBRA LINEAR (RNF) (10.4%, 66.7%) • GEOM. ANAL. (RNF) (RNF) (12.7%, 54.5%) • DESENHO TEC. (A) (RN) (15.4%, 60.0%) <- GEOM. ANAL. (RN) <- GEOM. ANAL. (RN) <- GEOM. ANAL. (RNF) <- ALGEBRA LINEAR <- CALC. DIF. INTEG A Estudo de Caso - PD • SIST. COMP. (A)<- ARQUIT. COMPUT. (RNF) MATEMATICA (A) ALGEBRA BOOLEANA E CIRCUITOS LOGICOS (A) (10.8%, 100.0%) • INGLES (A) <- ARQUIT. COMPUT. (RNF) INTRODUCAO LOGICA (A) ALGEBRA BOOLEANA E CIRCUITOS LOGICOS (A) DIN. GRUPO E REL. HUM. (A) (11.1%, 100.0%) • DIN. GRUPO E REL. HUM. (A) <- ESTRUTURA DADOS (RN) ALGEBRA BOOLEANA E CIRCUITOS LOGICOS (A) (12.2%, 100.0%) • INGLES (A) <- ESTRUTURA DADOS (RN) SISTEMAS DE COMPUTACAO (A) (11.9%, 100.0%) • DIN. GRUPO E REL. HUM. (A) <- ESTRUTURA DADOS (RN) SISTEMAS COMPUTACAO (A) (11.9%, 100.0%) Conclusões: A Importância dos Dados • Requisito básico para a realização dos experimentos; • “Boa” quantidade de dados é uma necessidade. A qualidade da solução indicada é fortemente dependente da qualidade dos dados; • Data mining não pode ser considerado uma alquimia; não é possível tranformar pedra em ouro. That’s all folks! [email protected]