Automatização do processo de determinação do número de ciclos de treinamento de uma Rede Neural Artificial André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto Laboratório Protem Departamento de Computação Universidade Estadual de Londrina 23 de outubro de 2008 André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 1 / 22 Introdução Redes Multilayer Perceptron (MLP) Aprendizagem da Rede MLP Algoritmo backpropagation Número de ciclos de treinamento Validação Cruzada André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 2 / 22 Motivação Rede MLP é a rede mais largamente utilizada [Basheer and Hajmeer, 2000] Aprendizagem é um dos processos mais importantes de uma rede MLP [Haykin, 1999] Tempo dispendido para determinação do número ideal de ciclos de treinamento Um número alto de ciclos de treinamento é fixado Validação cruzada do tipo Holdout André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 3 / 22 Objetivos Determinar automaticamente o número de ciclos de treinamento Para isso utilizou-se: Validação cruzada Regressão linear Evitar sub-treinamento da rede Evitar super-treinamento da rede (overtraining) André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 4 / 22 Fundamentação Teórica Validação cruzada Validação cruzada É uma técnica estatı́stica utilizada para estimar com maior precisão a acurácia de um classificador [Kohavi, 1995]. Conceito básico é dividir o conjunto de dados em subconjuntos menores, e posteriormente utilizá-los para treinamento e teste. Vários tipos de validação cruzada: Holdout K -fold Leave-one-out André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 5 / 22 Fundamentação Teórica Regressão Linear Regressão linear É um modelo estatı́stico que analisa a dependência de uma variável em relação a uma ou mais variáveis, objetivando estimar e/ou prever a média da população [Gurajati, 2000]. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 6 / 22 Fundamentação Teórica Regressão Linear Equação que expressa o modelo é dada por: Y = α + βX + (1) α interceptação no eixo Y; β inclinação da linha de regressão; perturbação estocástica. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 7 / 22 Materiais e Métodos Modelo Proposto Utiliza regressão linear simples de duas variáveis: Número de épocas Erro quadrado médio Núcleo do método é baseado na inclinação da reta (β). - Comportamento do erro Erro diminuindo + 0 Erro aumentando Erro constante β Significado Em processo de aprendizagem Overtraining Rede treinada André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 8 / 22 Materiais e Métodos Modelo Proposto Algumas definições: Janela de Análise Número de pontos (erros) utilizados para realizar a regressão linear. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 9 / 22 Materiais e Métodos Modelo Proposto Faixa de Convergência Faixa de Convergência (µ) Utilizada para considerar como zero uma faixa de erro, devido a oscilação do erro na fase final de convergência. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 10 / 22 Materiais e Métodos Modelo Proposto Considerações sobre o método Estipular um número máximo de ciclos; Obtêm-se os erros de teste pela validação cruzada; Realizar uma regressão linear sobre os erros; Analisar β em relação ao comportamento da rede. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 11 / 22 Resultados e Discussão Simulações Rede MLP aplicada em um problema de classificação entre indivı́duos normais ou com DPOC (Doença Pulmonar Obstrutiva Crônica) Foram consideradas cinco medidas fisiológicas distintas: Capacidade Vital Forçada (CVF); Volume Expiratório Forçado no Primeiro Segundo (VEF1); Pico de Fluxo Expiratório (PFE); Fluxo Expiratório Forçado Médio (FEF25-75%) e Ventilação Voluntária Máxima (VVM) André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 12 / 22 Resultados e Discussão Simulações Dados obtidos do Lab. de Fisioterapia Pulmonar da Universidade Estadual de Londrina Dados coletados de 222 pacientes: 142 normais 80 com DPOC já diagnosticada André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 13 / 22 Resultados e Discussão Simulações Número máximo de ciclos de treinamento: 100 Parâmetros da Rede MLP: Taxa de Aprendizagem: 0.5 Constante de Momento: 0.9 Número de neurônios ocultos: 7 Computador Celeron D 2.3 GHz Plataforma Slackware Linux 12.0 André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 14 / 22 Resultados e Discussão Resultados Tempo de processamento: 63,549 segundos. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 15 / 22 Resultados e Discussão Resultados Realizados testes com diversos valores de tamanho de janela e faixa de convergência. Análise do tamanho da Janela de Análise. Tamanho da Janela 3 5 10 15 Número de épocas obtido 6 30 40 45 Tempo de execução (segundos) 0,4 1,989 2,607 3,03 *Valor de faixa de convergência fixado em 10−3 . André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 16 / 22 Resultados e Discussão Análise da Faixa de Convergência Faixa de Convergência 10−2 10−3 10−4 10−5 Número de épocas obtido 5 30 30 75 Tempo de execução (segundos) 0,501 1,989 2,52 6,126 *Valor de tamanho de janela fixado em 5. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 17 / 22 Resultados e Discussão Considerações sobre resultados Tamanho da janela de análise entre 5 e 10 é suficiente; Faixa de Convergência entre 10−4 e 10−3 são bons valores; Faixa de convergência muito pequena, método muito sensı́vel; Muito grande, método perde sensibilidade; André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 18 / 22 Conclusões Conclusões Método obteve precisamente números ideais de ciclos de treinamento; Método trabalha sobre a curva de aprendizagem; André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 19 / 22 Trabalhos Futuros Trabalhos Futuros Estender o método a não necessidade de informar o número máximo de ciclos de treinamento. André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 20 / 22 Referências Basheer, I. A. and Hajmeer, M. (2000). Artificial neural networks: fundamentals, computing, design, and application. Journal of Microbiological Methods, 43:3–31. Gurajati, D. N. (2000). Econometria Básica. Makron Books, São Paulo. Haykin, S. (1999). Redes Neurais, Princı́pios e prática. Bookman, 2 edition. Kohavi, R. (1995). A study a cross validation a bootstrap for accuracy estimation and a model selection. In International Joint Conference on Artificial Intelligence (IJCAI). André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 21 / 22 André Ricardo Gonçalves [email protected] www2.dc.uel.br/˜argoncalves André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto 23 de outubro de 2008 22 / 22