Universidade Federal do Rio de Janeiro
GRADUAÇÃO - 2008/2
Modelo MLP
www.labic.nce.ufrj.br
Antonio G. Thomé
thome@nce.ufrj.br
Sala - 1013
(021)2598-3268
Análise e Tratamento dos Dados
• Separação dos conjuntos
• Tratamento de outliers
• Normalização
• Redução de dimensionalidade
2
Jul-08
1
Separação dos Conjuntos
• Quantidade disponível
• Pequena
• Usar Crossvalidation (validação cruzada)
• Gerar dados artificiais (características estatísticas)
• Boa
• Separar conjunto de treinamento / teste, ou
• treinamento / validação / teste
(*) Preocupação – representatividade estatística
3
Jul-08
Tratamento dos Outliers
• O que são outliers?
• Pontos fora da curva
• Qual sua influência no aprendizado (convergência da rede)?
• Dificultam, podendo até impedir o aprendizado
• Como tratar os outliers?
• Eliminar (há casos em que não podem ser eliminados)
• Ajustar
4
Jul-08
2
Normalização dos Dados
• O que é Normalizar?
• Colocar em uma mesma faixa de valores
• Por que Normalizar?
• Evitar que uma dimensão se sobreponha em relação às outras
• Evitar que o aprendizado fique estagnado
• Como Normalizar?
• Por dimensão do problema
• Usando alguns métodos de Normalização
5
Jul-08
Métodos de Normalização
• Max-Min
utiliza os valores máximo / mínimo para normalizar linearmente os
dados entre [-1,1) ou (-1, 1].
novo _ x =
x
max(abs( x ))
(*) influência dos outliers
6
Jul-08
3
Métodos de Normalização
• Max-Min Equalizado
Utiliza os valores máximo e mínimo para normalizar linearmente os
dados entre [0, 1].
novo _ x =
x − min( x )
max( x ) − min( x )
7
Jul-08
Métodos de Normalização
• Z-score
Os dados são normalizados no entorno da média e do desvio padrão
ficando com média igual 0 e variância igual a 1
novo _ x =
8
x−x
σx
Jul-08
4
Métodos de Normalização
• Sigmoidal
A partir da média e do desvio padrão realiza a normalização
sigmoidal dos dados entre 0 e 1 (sofre pouca influência de outliers)
1
novo _ x =
−
x− x
1+ e σ x
9
Jul-08
Arquitetura da Rede Neural
• Número de camadas
1 camada → aproximação de funções
2 camadas → classificação de padrões
3 camadas → ...
• Número de neurônios por camada (parâmetros livre da função)
sugestões:
média aritmética entre E/S
média geométrica entre E/S
10
Jul-08
5
Redução de Dimensionalidade
• Importância?
• Custo Computacional
• Quantidade de parâmetros livres
• Generalização
• Métodos
• Principal Component Analysis (PCA)
• Análise de Sensibilidade
11
Jul-08
6
Download

Modelo MLP Análise e Tratamento dos Dados