Automatização do processo de determinação do
número de ciclos de treinamento de uma Rede
Neural Artificial
André Ricardo Gonçalves;
Maria Angélica de Oliveira Camargo Brunetto
Laboratório Protem
Departamento de Computação
Universidade Estadual de Londrina
23 de outubro de 2008
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
1 / 22
Introdução
Redes Multilayer Perceptron (MLP)
Aprendizagem da Rede MLP
Algoritmo backpropagation
Número de ciclos de treinamento
Validação Cruzada
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
2 / 22
Motivação
Rede MLP é a rede mais largamente utilizada
[Basheer and Hajmeer, 2000]
Aprendizagem é um dos processos mais importantes de uma
rede MLP [Haykin, 1999]
Tempo dispendido para determinação do número ideal de ciclos
de treinamento
Um número alto de ciclos de treinamento é fixado
Validação cruzada do tipo Holdout
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
3 / 22
Objetivos
Determinar automaticamente o número de ciclos de treinamento
Para isso utilizou-se:
Validação cruzada
Regressão linear
Evitar sub-treinamento da rede
Evitar super-treinamento da rede (overtraining)
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
4 / 22
Fundamentação Teórica
Validação cruzada
Validação cruzada
É uma técnica estatı́stica utilizada para estimar com maior precisão a
acurácia de um classificador [Kohavi, 1995].
Conceito básico é dividir o conjunto de dados em subconjuntos
menores, e posteriormente utilizá-los para treinamento e teste.
Vários tipos de validação cruzada:
Holdout
K -fold
Leave-one-out
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
5 / 22
Fundamentação Teórica
Regressão Linear
Regressão linear
É um modelo estatı́stico que analisa a dependência de uma variável
em relação a uma ou mais variáveis, objetivando estimar e/ou prever a
média da população [Gurajati, 2000].
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
6 / 22
Fundamentação Teórica
Regressão Linear
Equação que expressa o modelo é dada por:
Y = α + βX + (1)
α interceptação no eixo Y;
β inclinação da linha de regressão;
perturbação estocástica.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
7 / 22
Materiais e Métodos
Modelo Proposto
Utiliza regressão linear simples de duas variáveis:
Número de épocas
Erro quadrado médio
Núcleo do método é baseado na inclinação da reta (β).
-
Comportamento
do erro
Erro diminuindo
+
0
Erro aumentando
Erro constante
β
Significado
Em processo de
aprendizagem
Overtraining
Rede treinada
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
8 / 22
Materiais e Métodos
Modelo Proposto
Algumas definições:
Janela de Análise
Número de pontos (erros) utilizados para realizar a regressão linear.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
9 / 22
Materiais e Métodos
Modelo Proposto
Faixa de Convergência
Faixa de Convergência (µ)
Utilizada para considerar como zero uma faixa de erro, devido a
oscilação do erro na fase final de convergência.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
10 / 22
Materiais e Métodos
Modelo Proposto
Considerações sobre o método
Estipular um número máximo de ciclos;
Obtêm-se os erros de teste pela validação cruzada;
Realizar uma regressão linear sobre os erros;
Analisar β em relação ao comportamento da rede.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
11 / 22
Resultados e Discussão
Simulações
Rede MLP aplicada em um problema de classificação entre
indivı́duos normais ou com DPOC (Doença Pulmonar Obstrutiva
Crônica)
Foram consideradas cinco medidas fisiológicas distintas:
Capacidade Vital Forçada (CVF);
Volume Expiratório Forçado no Primeiro Segundo (VEF1);
Pico de Fluxo Expiratório (PFE);
Fluxo Expiratório Forçado Médio (FEF25-75%) e
Ventilação Voluntária Máxima (VVM)
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
12 / 22
Resultados e Discussão
Simulações
Dados obtidos do Lab. de Fisioterapia Pulmonar da Universidade
Estadual de Londrina
Dados coletados de 222 pacientes:
142 normais
80 com DPOC já diagnosticada
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
13 / 22
Resultados e Discussão
Simulações
Número máximo de ciclos de treinamento: 100
Parâmetros da Rede MLP:
Taxa de Aprendizagem: 0.5
Constante de Momento: 0.9
Número de neurônios ocultos: 7
Computador Celeron D 2.3 GHz
Plataforma Slackware Linux 12.0
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
14 / 22
Resultados e Discussão
Resultados
Tempo de processamento: 63,549 segundos.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
15 / 22
Resultados e Discussão
Resultados
Realizados testes com diversos valores de tamanho de janela e
faixa de convergência.
Análise do tamanho da Janela de Análise.
Tamanho
da Janela
3
5
10
15
Número de
épocas obtido
6
30
40
45
Tempo de execução
(segundos)
0,4
1,989
2,607
3,03
*Valor de faixa de convergência fixado em 10−3 .
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
16 / 22
Resultados e Discussão
Análise da Faixa de Convergência
Faixa de
Convergência
10−2
10−3
10−4
10−5
Número de épocas
obtido
5
30
30
75
Tempo de execução
(segundos)
0,501
1,989
2,52
6,126
*Valor de tamanho de janela fixado em 5.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
17 / 22
Resultados e Discussão
Considerações sobre resultados
Tamanho da janela de análise entre 5 e 10 é suficiente;
Faixa de Convergência entre 10−4 e 10−3 são bons valores;
Faixa de convergência muito pequena, método muito sensı́vel;
Muito grande, método perde sensibilidade;
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
18 / 22
Conclusões
Conclusões
Método obteve precisamente números ideais de ciclos de
treinamento;
Método trabalha sobre a curva de aprendizagem;
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
19 / 22
Trabalhos Futuros
Trabalhos Futuros
Estender o método a não necessidade de informar o número
máximo de ciclos de treinamento.
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
20 / 22
Referências
Basheer, I. A. and Hajmeer, M. (2000).
Artificial neural networks: fundamentals, computing, design, and
application.
Journal of Microbiological Methods, 43:3–31.
Gurajati, D. N. (2000).
Econometria Básica.
Makron Books, São Paulo.
Haykin, S. (1999).
Redes Neurais, Princı́pios e prática.
Bookman, 2 edition.
Kohavi, R. (1995).
A study a cross validation a bootstrap for accuracy estimation and
a model selection.
In International Joint Conference on Artificial Intelligence (IJCAI).
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
21 / 22
André Ricardo Gonçalves
[email protected]
www2.dc.uel.br/˜argoncalves
André Ricardo Gonçalves; Maria Angélica de Oliveira Camargo Brunetto
23 de outubro de 2008
22 / 22
Download

Automatização do processo de determinação do número de ciclos