Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador) Introdução Aprendizado supervisionado T Algoritmo de Aprendizagem x Classificador Conhecimento 2 Motivação Melhora em desempenho Remoção de: Dados ruidosos Dados irrelevantes 3 Definição Técnicas de Redução 4 Características I Representação dos dados Direção da busca Pontos de borda ou centrais Função de dissimilaridade Números de vizinhos 5 Características II Estratégias de avaliação: Capacidade de redução Melhora em desempenho Precisão em generalização Tolerância a ruídos Desempenho Capacidade de aprendizagem incremental 6 Técnicas I Condensed Nearest Neighbor Rule (CNN) Reduced Nearest Neighbor Rule (RNN) Edited Nearest Neighbor Rule (ENN) Repeated Nearest Neighbor Rule (RENN) All-KNN Instance-Based Learning Algorithm 1 e 2 (IB2 e IB3) 7 Técnicas II Decremental Reduction Optimization Procedures (DROP1, DROP2, DROP3, DROP4 e DROP5) Decremental Encoding Length (DEL) 8 CNN 1. Adicione uma instância aleatória de T em S 2. Enquanto houver modificação no conjunto S 3. Para as demais instâncias t em T 4. Se classe(t) ≠ classe(vizinhos de t em S) 5. Adicione t ao subconjunto S 9 DROP1 I Definição Associados k+1 Vizinhos de X: Y, W, Z e V Y List a s de Associa dos X W Z Y W Z V ... X X X X ... ... ... ... ... ... V 10 DROP1 II 1. Seja S = T 2. Para cada instância s em S 3. Encontre, e guarde, os k+1 vizinhos mais próximos de s 4. Adicione s à lista de associados de cada um de seus 5. Para cada instância s em S 6. Seja x = número de associados de s classificados incluindo s 7. Seja y = número de associados de s classificados excluindo s 8. Se (y – x) ≥ 0 9. Remova s de S 10. Para cada associado a de s 11. Encontre um novo vizinho para a 12. Adicione a à lista de associados do novo vizinho 13. Para cada vizinho n de s 14. Remova s da lista de associados de n vizinhos corretamente corretamente 11 Experimentos I 10 bases de dados Australian, Breast Cancer, CRX, Glass, Hepatitis, Ionosphere, Iris, Liver, Pima Diabetes e Wine ten-fold cross validation Classificador KNN, com k = 3 12 Experimentos II Medidas de distância Euclidiana Simple Adaptative Distance Heterogeneous Value Difference Metric (HVDM) 13 Resultados I Distância Euclidiana Precisão (%) Hepatitis Ion osph ere Média KNN 82,63 ± 3,02 84,62 ± 3,44 83,62 CNN 78,04 ± 4,39 85,20 ± 3,78 81,62 RNN 76,79 ± 2,60 84,91 ± 3,79 80,85 ENN 83,33 ± 3,92 83,19 ± 3,46 83,26 RENN 83,33 ± 3,92 83,19 ± 3,46 83,26 All-KNN 83,96 ± 4,60 84,04 ± 3,32 84,00 IB2 72,83 ± 4,45 85,48 ± 2,94 79,16 IB3 78,08 ± 2,71 83,19 ± 4,64 80,64 DEL 82,63 ± 4,06 84,33 ± 3,03 83,48 DROP1 82,63 ± 3,02 83,45 ± 3,37 83,04 DROP2 84,50 ± 4,35 85,48 ± 2,55 84,99 DROP3 81,96 ± 2,95 85,47 ± 1,58 83,71 DROP4 80,58 ± 3,53 88,02 ± 2,42 84,30 DROP5 85,17 ± 4,14 87,18 ± 2,04 86,17 Média 81,18 84,84 83,01 Redu ção (%) Hepatitis Ion osph ere KNN 100,00 ± 0,00 100,00 ± 0,00 CNN 37,77 ± 0,98 25,77 ± 0,62 RNN 36,56 ± 1,25 25,83 ± 0,59 ENN 81,72 ± 0,75 84,87 ± 0,52 RENN 81,72 ± 0,75 84,87 ± 0,52 All-KNN 87,81 ± 0,41 90,06 ± 0,37 IB2 25,88 ± 0,97 19,15 ± 0,87 IB3 10,39 ± 1,45 9,43 ± 2,82 DEL 86,81 ± 0,60 92,47 ± 0,31 DROP1 9,75 ± 0,51 6,49 ± 0,39 DROP2 16,78 ± 1,24 11,08 ± 0,70 DROP3 12,26 ± 0,83 6,49 ± 0,42 DROP4 11,76 ± 0,83 8,67 ± 0,51 DROP5 12,12 ± 0,97 9,18 ± 0,64 Média 43,67 41,03 Média 100,00 31,77 31,19 83,30 83,30 88,94 22,51 9,91 89,64 8,12 13,93 9,37 10,22 10,65 42,35 Tempo (s) Hepatitis Ion osph ere Média KNN 0,000 ± 0,000 0,000 ± 0,000 0,000 CNN 0,031 ± 0,003 0,183 ± 0,016 0,107 RNN 0,081 ± 0,011 0,452 ± 0,134 0,267 ENN 0,032 ± 0,002 0,271 ± 0,002 0,152 RENN 0,060 ± 0,000 0,501 ± 0,004 0,281 All-KNN 0,063 ± 0,002 0,546 ± 0,017 0,305 IB2 0,004 ± 0,003 0,035 ± 0,004 0,020 IB3 0,069 ± 0,008 1,319 ± 0,298 0,694 DEL 0,129 ± 0,004 1,240 ± 0,026 0,685 DROP1 0,169 ± 0,003 1,398 ± 0,043 0,784 DROP2 0,225 ± 0,008 3,350 ± 0,057 1,788 DROP3 0,292 ± 0,007 4,864 ± 0,058 2,578 DROP4 0,293 ± 0,008 4,166 ± 0,050 2,230 DROP5 0,408 ± 0,010 5,549 ± 0,104 2,979 Média 0,133 1,705 0,919 14 Resultados II Distância Adaptativa Precisão (%) Hepatitis Ion osph ere Média KNN 80,63 ± 2,63 93,16 ± 1,68 86,89 CNN 80,00 ± 4,41 92,58 ± 2,05 86,29 RNN 78,54 ± 4,93 93,72 ± 1,88 86,13 ENN 79,33 ± 5,35 92,59 ± 2,54 85,96 RENN 79,33 ± 5,35 92,59 ± 2,54 85,96 All-KNN 80,58 ± 4,32 92,59 ± 2,36 86,59 IB2 76,79 ± 4,34 92,30 ± 2,03 84,55 IB3 70,88 ± 6,37 89,75 ± 1,20 80,31 DEL 78,17 ± 4,13 93,44 ± 1,36 85,81 DROP1 76,25 ± 7,01 76,37 ± 6,82 76,31 DROP2 83,83 ± 3,16 87,17 ± 4,22 85,50 DROP3 75,00 ± 7,35 79,22 ± 3,65 77,11 DROP4 78,08 ± 2,20 90,03 ± 2,45 84,06 DROP5 78,08 ± 3,46 87,74 ± 3,99 82,91 Média 78,25 89,52 83,88 Redu ção (%) Hepatitis Ion osph ere KNN 100,00 ± 0,00 100,00 ± 0,00 CNN 38,14 ± 1,12 17,60 ± 0,76 RNN 37,06 ± 0,97 16,37 ± 0,51 ENN 82,29 ± 0,50 95,44 ± 0,25 RENN 82,29 ± 0,50 95,44 ± 0,25 All-KNN 88,89 ± 0,60 94,21 ± 0,47 IB2 23,44 ± 1,04 14,37 ± 0,57 IB3 11,11 ± 1,05 13,04 ± 0,61 DEL 89,39 ± 0,99 97,47 ± 0,22 DROP1 8,61 ± 1,24 6,55 ± 0,40 DROP2 14,55 ± 1,10 12,25 ± 0,48 DROP3 8,10 ± 0,77 11,33 ± 0,37 DROP4 10,11 ± 0,98 10,83 ± 0,47 DROP5 9,82 ± 1,22 12,44 ± 0,68 Média 43,13 42,67 Média 100,00 27,87 26,71 88,87 88,87 91,55 18,91 12,08 93,43 7,58 13,40 9,72 10,47 11,13 42,90 Tempo (s) Hepatitis Ion osph ere KNN 0,000 ± 0,000 0,000 ± 0,000 CNN 0,204 ± 0,008 0,634 ± 0,057 RNN 0,583 ± 0,103 1,565 ± 0,239 ENN 0,177 ± 0,002 1,465 ± 0,033 RENN 0,298 ± 0,003 2,678 ± 0,056 All-KNN 0,571 ± 0,013 5,582 ± 0,223 IB2 0,032 ± 0,005 0,178 ± 0,014 IB3 0,950 ± 0,187 6,272 ± 0,514 DEL 0,845 ± 0,038 5,810 ± 0,196 DROP1 1,915 ± 0,019 26,512 ± 0,181 DROP2 2,406 ± 0,043 33,753 ± 0,387 DROP3 2,184 ± 0,036 33,300 ± 0,279 DROP4 1,967 ± 0,024 30,974 ± 0,352 DROP5 2,218 ± 0,045 28,593 ± 0,349 Média 1,025 12,665 Média 0,000 0,419 1,074 0,821 1,488 3,077 0,105 3,611 3,328 14,214 18,080 17,742 16,471 15,406 6,845 15 Resultados III Distância HVDM Precisão (%) Hepatitis Ion osph ere Média KNN 81,38 ± 3,39 84,60 ± 3,39 82,99 CNN 79,33 ± 3,36 85,47 ± 3,12 82,40 RNN 80,00 ± 2,77 84,91 ± 2,84 82,46 ENN 83,29 ± 2,94 81,18 ± 3,04 82,24 RENN 83,29 ± 2,94 81,18 ± 3,04 82,24 All-KNN 83,33 ± 3,89 83,17 ± 2,67 83,25 IB2 75,00 ± 5,29 84,89 ± 2,45 79,94 IB3 36,67 ± 13,70 88,88 ± 3,12 62,77 DEL 80,08 ± 3,43 84,32 ± 3,59 82,20 DROP1 80,04 ± 4,91 85,75 ± 3,70 82,89 DROP2 83,29 ± 3,34 89,17 ± 2,11 86,23 DROP3 81,96 ± 4,59 82,63 ± 2,16 82,29 DROP4 84,54 ± 2,67 85,75 ± 3,02 85,14 DROP5 82,08 ± 5,10 87,17 ± 2,55 84,63 Média 78,16 84,93 81,55 Redu ção (%) Hepatitis Ion osph ere KNN 100,00 ± 0,00 100,00 ± 0,00 CNN 36,63 ± 0,66 25,70 ± 0,66 RNN 37,05 ± 1,99 25,77 ± 0,85 ENN 81,73 ± 1,43 84,24 ± 0,48 RENN 81,73 ± 1,43 84,24 ± 0,48 All-KNN 89,89 ± 0,56 90,35 ± 0,37 IB2 24,01 ± 0,83 19,28 ± 0,65 IB3 4,80 ± 2,14 16,56 ± 0,52 DEL 88,96 ± 0,95 92,78 ± 0,22 DROP1 8,39 ± 1,09 6,58 ± 0,37 DROP2 14,41 ± 1,29 11,65 ± 0,49 DROP3 9,68 ± 1,82 7,06 ± 0,52 DROP4 9,90 ± 1,73 9,12 ± 0,37 DROP5 12,26 ± 1,75 10,03 ± 0,49 Média 42,82 41,67 Média 100,00 31,17 31,41 82,98 82,98 90,12 21,65 10,68 90,87 7,49 13,03 8,37 9,51 11,15 42,24 Tempo (s) Hepatitis Ion osph ere Média KNN 0,000 ± 0,000 0,000 ± 0,000 0,000 CNN 0,215 ± 0,016 0,265 ± 0,019 0,240 RNN 0,657 ± 0,152 0,544 ± 0,151 0,601 ENN 0,242 ± 0,003 0,368 ± 0,005 0,305 RENN 0,437 ± 0,003 0,666 ± 0,011 0,552 All-KNN 0,484 ± 0,004 1,140 ± 0,046 0,812 IB2 0,032 ± 0,003 0,053 ± 0,003 0,043 IB3 0,657 ± 0,116 1,309 ± 0,188 0,983 DEL 0,610 ± 0,014 1,731 ± 0,019 1,171 DROP1 0,817 ± 0,017 2,509 ± 0,044 1,663 DROP2 1,082 ± 0,037 4,368 ± 0,056 2,725 DROP3 1,222 ± 0,035 5,200 ± 0,086 3,211 DROP4 1,435 ± 0,010 5,157 ± 0,097 3,296 DROP5 2,200 ± 0,153 7,700 ± 0,115 4,950 Média 0,721 2,215 1,468 16 Resultados IV Média Geral (HVDM) KNN CNN RNN ENN RENN All-KNN IB2 IB3 DEL DROP1 DROP2 DROP3 DROP4 DROP5 Média Precisão (%) 82,45 81,46 80,91 82,25 82,25 82,70 78,46 77,04 81,68 77,14 82,10 80,67 81,57 79,63 80,74 Armazen amen to (%) 100,00 35,17 35,32 82,64 82,64 90,51 24,70 13,69 67,53 12,28 19,13 12,53 14,14 14,43 43,19 17 Resultados V Média Geral (Euclidiana) Gráfico (tempo de execução) KNN CNN RNN ENN RENN Al l -KNN IB2 Tem po (s) IB3 DEL DROP1 DROP2 DROP3 DROP4 DROP5 0 ,0 0 0 0 ,5 0 0 1 ,0 0 0 1 ,5 0 0 2 ,0 0 0 2 ,5 0 0 3 ,0 0 0 3 ,5 0 0 4 ,0 0 0 4 ,5 0 0 5 ,0 0 0 18 Resultados VI Medidas de Distância (Precisão) 100,00 90,00 Euclidiana Adaptativa HVDM Precisão 80,00 70,00 60,00 in W e a er es et ab e er is ph Di os m Pi v Li s Ir i n Io t it pa He nc Ca n lia ra s as Gl X CR st st ea Br Au er Bases d e Dad os Eu clidian a Adaptativa HVDM Au stralian 82,85 82,31 79,54 Breast Can cer 95,04 95,49 92,50 CRX 83,80 82,21 80,16 Glass 64,32 63,75 64,23 Hepatitis 81,16 77,20 78,82 Ion osph ere 84,88 87,28 85,02 Iris 94,67 94,83 92,80 Liver 63,92 64,17 61,00 Pima Diabetes 70,21 70,00 71,29 Win e 70,38 68,89 94,91 Média 79,12 78,61 80,03 19 Resultados VII Medidas de Distância (Armazenamento) Armazenamento (%) 50,00 45,00 40,00 Euclidiana Adaptativa HVDM 35,00 30,00 25,00 in W e a er es et ab e er is ph Di os m Pi v Li s Ir i n Io t it pa He nc Ca n lia ra s as Gl X CR st st ea Br Au er Bases d e Dad os Eu clidian a Adaptativa HVDM Au stralian 38,79 37,82 36,36 Breast Can cer 33,19 32,35 32,87 CRX 38,69 38,66 36,18 Glass 39,87 41,21 39,37 Hepatitis 37,31 36,49 36,51 Ion osph ere 34,87 36,79 35,49 Iris 30,06 36,76 30,14 Liver 43,60 43,44 45,77 Pima Diabetes 39,55 38,42 40,85 Win e 34,38 35,23 28,66 Média 37,03 37,72 36,22 20 Conclusão I CNN e RNN ENN, RENN e All-KNN Ótimos filtros IB2 e IB3 Melhor relação: precisão x redução x tempo Boa redução DEL Redução tímida porém boa precisão 21 Conclusão II DROP1 Melhor taxa de redução DROP2-5 Melhor relação: precisão x redução 22 Algoritmos de Aprendizagem Baseados em Instâncias: Técnicas de Redução Cesar Lima Pereira George Darmiton da Cunha Cavalcanti (Orientador)