Plano de Dissertação Otimização de Pesos e Arquitetura de Redes Neurais Utilizando Group Search Optimizer Danielle Nathália [email protected] Danielle Nathália 1 Índice Introdução Motivação Objetivo Justificativa Group Search Optimizer (GSO) Metodologia Proposta Esquema da Metodologia Proposta Cronograma Referências Danielle Nathália 2 Introdução Motivação – O que influenciou na escolha do tema, ou seja, porque estudar e propor técnicas para otimizar o treinamento de Redes Neurais. Objetivo – Qual o objetivo do trabalho. Justificativa – Justificar as escolhas das técnicas que serão usadas para resolver o problema. Danielle Nathália 3 Motivação A eficiência das Redes Neurais Artificiais(RNAs), que têm sido aplicadas com sucesso em uma diversidade de problemas do mundo real, depende do seu bom desenvolvimento que envolve a definição de vários parâmetros, como, por exemplo, o tipo de rede, a arquitetura, o algoritmo de treinamento utilizado, os parâmetros de treinamento, os critérios de parada, dentre outros. Em geral, o treinamento das RNAs é realizado através de repetidas tentativas com diferentes topologias de rede, até serem obtidos resultados satisfatórios para o problema. Consome tempo e exige experiência no treinamento de RNAs, além do fato de poder obter redes com conexões e unidades de processamento desnecessárias. Quanto maior a topologia da rede mais complexo é o ajuste do valor destas conexões. Danielle Nathália 4 Motivação A Inicialização de pesos, arquitetura, entre outros parâmetros, de uma rede neural Multilayer Perceptron (MLP) pode ser formulado como um problema de otimização, onde cada solução representa os pesos iniciais, por exemplo, e a medida de custo pode ser em função do erro de treinamento. Métodos de otimização global podem ser combinados baseado na técnica do gradiente (por exemplo, o algoritmo backpropagation), formado em uma abordagem híbrida, que tenta juntar, no mesmo sistema, a eficiência global dos métodos de otimização com o ajuste fino das técnicas baseada no gradiente. Esta combinação de métodos de otimização global, com técnicas de busca local, que é chamado de "formação híbrida“. Assim, otimização simultânea de arquiteturas e pesos de RNA é uma abordagem interessante para a geração de redes eficientes com topologia pequenas. Danielle Nathália 5 Objetivo O objetivo deste trabalho é a proposição, implementação e análise de um método de otimização simultânea de pesos e arquiteturas que possa levar a uma solução de baixa complexidade e boa generalização; Será considerada uma solução ideal aquela cuja os erros médios dos conjuntos de treinamento, validação e teste sejam equivalentes ou melhor aos dos métodos atuais. Ou seja, o objetivo é minimizar o principal problema do algoritmo de backpropagation que é a convergência local, realizando a otimização simultânea dos pesos e arquiteturas da rede Multilayer Perceptron (MLP); Danielle Nathália 6 Justificativa Porque hibridizar técnicas de otimização global com técnicas de otimização local Técnicas de otimização global são relativamente ineficientes para o ajuste fino em buscas locais, por isso será adicionado ao método proposto à heurística da técnica de busca local Backpropagation. Porque usar GSO Tem sido recentemente utilizado para resolver problemas de alta dimensionalidade e vem obtendo resultados promissores comparados com os de outras técnicas. É uma técnica que explora o espaço de soluções de uma forma diferente das outras técnicas comumente usadas. Danielle Nathália 7 Justificativa Comparação entre o GSO e duas técnicas de otimização mais semelhante. Características GSO PSO (Exame de Partículas) ACO (Colônia de Formigas) Inspiração Conceitual Comportamento social de busca dos animais Comportamento de enxame dos animais Comportamento de seguir o caminho da formiga Estratégia de Busca Produzindo, Buscando e Localizando Concentrar-se Seguindo rastro de feromônio Memória Produtor lembrar-se do seu ângulo de “cabeça anterior”. Lembra a melhor posição Feromônio age como memória Compartilhamento de Informação Dada pelo produtor Dado pela melhor partícula Dada pelo feromônio Problemas Adequados Contínuo, de grande dimensão, multimodal Contínuo, multimodal Discreto Danielle Nathália 8 Group Search Optimizer O modelo GSO, descrito em [18], assume a existência de um produtor em cada geração e os membros restantes são scroungers (pedintes) e membros dispersos; Foi inspirado em comportamento do animal, especialmente no comportamento de busca de animais; Mecanismo de Busca: Visão. Outros mecanismos: contato físico, químico ou auditivos. Danielle Nathália 9 Group Search Optimizer Estratégia: Produdor: Pesquisar (produzir) alimentos, recursos; Scroungers: Juntar (arrecadar) recursos descoberto por outros. Metodologia do Scrounger: Copiando Área: Movendo através do espaço em volta da área do produtor. Ex: Tubarão e a Rêmora Danielle Nathália 10 Group Search Optimizer Membros Dispersos: Representam na natureza os membros que possuem forma de busca e habilidades competitivas diferentes dos outros membros do grupo. Eles geralmente são subordinados e possuem menor eficiência no seu método de busca por recursos do que os membros dominantes. Danielle Nathália 11 Group Search Optimizer Cada indivíduo possui uma posição, altura máxima que ele pode ir, ângulo máximo que sua cabeça pode girar para procurar recursos e distância máxima que pode atingir. Inspirado no peixe branco Danielle Nathália 12 Group Search Optimizer “Percurso típico” Nesta figura, o produtor foi artificialmente colocado no mínimo global, portanto, todos os pedintes "copiam área" e realizam corrida em direção ao produtor e finalmente convergiram para o mínimo global. Danielle Nathália 13 Group Search Optimizer Parâmetros: θmax = ângulo máximo que ele pode perseguir; max = ângulo máximo que ele pode girar a cabeça; l max = distância máxima que ele pode alcançar; 0 = Varia a inicialização dos ângulos; Θmax = (4*pi) / (a^2), onde a = round(√n + 1); max = Θmax/2 l max = ni=1 (Ui - Li)2 , onde U e L são menor e maior limites da dimensão. Danielle Nathália 14 Group Search Optimizer TABELA I PSEUDOCÓDIGO PARA O ALGORITMO GSO Fixe k := 0; Inicializar aleatoriamente a posição Xi e o angulo i de todos os membros; Calcule o valor do fitness inicial dos membros: f (Xi ); Enquanto (as condições não são atendidas) Para (cada membros i do grupo) Escolha produtor: Encontre o produtor Xp do grupo; Executar produção: 1) O produtor vai varrer (varredura visual) a zero grau e depois varrer lateralmente por amostragem aleatória de três pontos no campo de varredura usando (2) a (4). 2) Procurar o melhor ponto com os melhores recursos (valor de fitness). Se o melhor ponto tem um melhor recurso do que a sua atual posição, então ele vai voar para este ponto. Caso contrário, irá permanecer em sua posição atual e virar a cabeça para um novo ângulo usando (5). 3) Se o produtor não pode achar um melhor área após a iterações, este irá transformar o angulo para voltar ao grau zero usando (6); Executar scrounging: selecionar aleatoriamente 80% dos membros de descanso para realizar scrounging; Executar dispersão: Para os membros restantes, serão dispersos de sua posição atual para executar determine: 1). Gerar um ângulo aleatório usando (5) e 2). Escolher uma distância aleatória li a partir da distribuição de Gauss usando (8) e passar para o novo ponto usando (9); Calcular fitness: Calcule o valor do fitness do membro atual: f (Xi); Fim do Para Ajuste k := k + 1; Fim do Enquanto Danielle Nathália 15 Metodologia Proposta GSO Estratégia de busca igual do GSO; Escolher 10% dos melhores para serem os produtores e não apenas 1; Escolher 20% dos piores para serem os membros dispersos e não 20% do grupo, pois podem ir membros com aptidão alta para este grupo; Tabu Search – como método de memória Estratégia de armazenar nas lista tabu as n soluções visitadas; Avalia um conjunto de soluções, enquanto o GSO avalia apenas uma solução; As soluções serão mantidas em um histórico para evitar a geração de soluções repetidas. A solução só é aceita se não estiver na lista. Porém pode ser inserida uma solução com um custo maior do que o custo da solução atual. Para resolver isso pode-se usar outro critério de aceitação da nova solução, como por exemplo, só aceitar a nova solução de for menor que a atual. Danielle Nathália 16 Metodologia Proposta Tabu Search: Idéia básica: Escolhe aleatoriamente uma solução inicial. Guarda a solução em melhor solução e na lista tabu. Enquanto critérios de parada não forem satisfeitos, Gera um conjunto de N soluções vizinhas a partir da atual. Escolhe o vizinho de menor custo que não esteja na lista tabu. Atualiza melhor solução e lista tabu. Retorna melhor solução. Usar Tabu Search aumenta o custo computacional; O tamanho da lista é um fator de grande influência no processo, pois feita à opção por uma lista de tamanho pequeno, o processo ficará reduzido a pequenas regiões de busca. Danielle Nathália 17 Metodologia Proposta Geração: é selecionado 10% dos melhores indivíduos para ser o produtor, dos que sobrarem 20% dos piores membros serão os membros dispersos e 80% serão scrounger . Fitness: O valor de aptidão de cada indivíduo é dado pelo erro da rede neural utilizando os dados separados para treino. Condição de parada: Crescimento do valor do aptidão, número máximo de gerações e alcançar valor mínimo de aptidão 0. Bases de Dados: 10 bases divididas entre problemas de classificação e previsão; Tentar usar base real do programa de pesquisa Xiscanoé. Danielle Nathália 18 Esquema da Metodologia Proposta 1º Divisão do conjunto de treinamento e conjunto de treinamento, validação e teste. Para os K folds Inicia o GSO+”X” 1º Recebe o conjunto de treinamento e validação 2º Avalia usando o erro de uma RNA SHI Pega o melhor resultado do SIH e avalia o desempenho da rede usando o conjunto de teste Danielle Nathália 19 Cronograma 1. 2. 3. 4. 5. 6. 7. Danielle Nathália 20 Janeiro 2. Dezembro 1. Novembro Outubro Setembro Agosto Julho Junho 5. 6. 7. Atividade Maio 4. Mês Abril 3. Atividades Aquisição dos Dados Pesquisar Sobre a Metodologia Proposta Implementar o Método Proposto Avaliar o Método Implementado Escrever Artigo Escrever Dissertação Defender Dissertação Referências [1] Haykin, S. (1994). Neural Networks. Macmillan College Publishing Company. Ontario. Canada. [2] D. B. Fogel, “The advantages of evolutionary computation,” in Proc.BioComputing Emergent Comput., Singapore: World Scientific Press,1997, pp. 1– 11. [3] C. J. Barnard and R. M. Sibly, “Producers and scroungers: A generalmodel and its application to captive flocks of house sparrows,” Animal Behavior, vol. 29, pp. 543–550, 1981 [4] X. Yao. Evolving artificial neural networks. Proceedings of the IEEE, 87(9):1423–1447, September 1999. [5] R.S. Sexton, B. Alidaee, R.E. Dorsey, and J.D. Johnson, “Global optimization for artificial neural networks: A tabu search application,” Eur. J. Oper. Res., vol. 106, no. 2-3, pp. 570-584, 1998. Danielle Nathália 21 Referências [6] R.S. Sexton, R.E. Dorsey, and J.D. Johnson, “Optimization of neural networks: A comparative analysis of the genetic algorithm and simulated anneling.” Eur. J. Oper. Res., vol. 114, pp. 589-601, 1999. [7] J.Tsai, J. Chou, and T. Liu, “Turning the structure and parameters of a neural network by using hybrid Taguchi-genetic algorithm,” IEEE Trans. Neural Netw., vol 17, no. 1, pp. 69-80, Jan. 2006. [8] T.B. Ludermir, A. Yamazaki, and C. Zanchettin. An optimization methodology for neural network weights and architectures. IEEE Transactions on Neural Networks, 17(6):1452–1459, 2006. [9] L.M. Almeida and T.B. Ludermir. A hybrid method for searching near-optimal artificial neural networks. In Hybrid Intelligent Systems, 2006. HIS ’06. Sixth International Conference on, pages 36–36, Dec. 2006. [10] A. P. S. Lins, T. B. Ludermir, "Hybrid Optimization Algorithm for the Definition of MLP Neural Network Architectures and Weights," his, pp.149-154, Fifth International Conference on Hybrid Intelligent Systems (HIS'05), 2005. Danielle Nathália 22 Referências [11] A. Yamazaki, “Neural Network Training with Global Optimization Techniques”, (In Portuguese) Ph.D. Thesis, Center of Informatics, Federal University of Pernambuco, Brazil, 2004. [12] VESTERSTROEM, J.; THOMSEN, R. A comparative study of differential evolution, particle swarm optimization, and evolutionary algorithms on numerical benchmark problems. Proc. Congr. Evol. Comput., vol. 2, 2004. p. 1980–1987. [13] Jarmo Ilonen, Joni-Kristian Kamarainen, and Jouni Lampinen. Differential evolution training algorithm for feed-forward neural networks. Neural Processing Letters, 17(1):93–105, 2003. [14] E. Bonabeau, M. Dorigo, and G. Theraulza, “Inspiration for optimization from social insect Behavior,” Nature, vol. 406, pp. 39–42, Jul. 2000. [15] J. Kennedy, R. C. Eberhart, and Y. H. Shi, Swarm Intelligence. San Mateo, CA: Morgan Kaufmann, 2001. Danielle Nathália 23 Referências [16] C. W. Clark and M. Mangel, “Foraging and flocking strategies: Information in an uncertain environment,” Amer. Naturalist, vol. 123, pp. 626–641, 1984. [17] C. J. Barnard and R. M. Sibly, “Producers and scroungers: A general model and its application to captive flocks of house sparrows,” Animal Behavior, vol. 29, pp. 543–550, 1981. [18] S. He, Member, H. Wu, and J. R. Saunders, Group Search Optimizer: An Optimization Algorithm Inspired by Animal Searching Behavior. IEEE Transaction on Evolutionary Computation, Vol. 13, pp. 973-990, 2009. [19] C. L. Higgins and R. E. Strauss, “Discrimination and classification of foraging paths produced by search-tactic models,” Behavioral Ecology, vol. 15, no. 2, pp. 248–254, 2003. Danielle Nathália 24