Alcir Garcia Reis
Método de Síntese Espacialmente
Estruturada para Memórias Associativas
Hierarquicamente Acopladas
Orientador:
Prof. Dr. José Luiz Acebal
CEFET-MG
Co-orientador:
Prof. Dr. Henrique Elias Borges
CEFET-MG
Belo Horizonte – MG
Julho de 2006
Alcir Garcia Reis
Método de Síntese Espacialmente
Estruturada para Memórias Associativas
Hierarquicamente Acopladas
Dissertação apresentada ao Curso de
Mestrado em Modelagem Matemática
e Computacional do Centro Federal de
Educação Tecnológica de Minas Gerais,
como requisito parcial à obtenção do título
de Mestre em Modelagem Matemática e
Computacional.
Área de concentração:
Sistemas Inteligentes
Orientador:
Prof. Dr. José Luiz Acebal
CEFET-MG
Co-orientador:
Prof. Dr. Henrique Elias Borges
CEFET-MG
D IRETORIA
DE
DPPG-CEFET-MG
P ESQUISA E P ÓS -G RADUAÇÃO DO C ENTRO F EDERAL
T ECNOLÓGICA DE M INAS G ERAIS
Belo Horizonte – MG
Julho de 2006
DE
E DUCAÇÃO
Folha de aprovação do projeto. Esta folha será fornecida
pelo Programa de Pós-Graduação e deverá substituir esta.
Dedico esta dissertação a Deus, a meus
pais e aos meus irmãos que nunca
deixaram de estar presentes em todos os
momentos da minha vida.
Agradecimentos
Dedico meus sinceros agradecimentos:
Ao professor Dr. José Luiz Acebal, pela orientação, dedicação e incentivo;
Ao Doutorando Rogério Martins Gomes pela grande ajuda prestada;
Ao professor Dr. Henrique Elias Borges, pelas sugestões e revisão;
Aos colegas do CEFET-MG e da FEAMIG, pelo apoio e contribuições;
Ao LSI pelo suporte técnico e infra-estrutura disponibilizados;
E a todos que direta ou indiretamente contribuíram para o êxito do trabalho.
O presente trabalho foi realizado com o apoio parcial do CNPq, uma entidade do
Governo Brasileiro voltada ao desenvolvimento científico e tecnológico.
Resumo
Diversas abordagens têm surgido com o intuito de explicar o fenômeno cognitivo. Uma dessas abordagens, a Theory of Neuronal Group Selection (TNGS), descreve que os processos de memórias podem ser organizados, funcionalmente, em
níveis hierárquicos, onde os níveis funcionais mais elevados coordenariam e correlacionariam conjuntos de funções dos níveis mais baixos. Inspirados nesta abordagem e
baseado na criação de memórias artificiais multi-níveis através do uso de rede neurais
artificiais, propomos um novo método de síntese de redes neurais artificiais acopladas,
tendo como fundamento a mudança de bases em um espaço vetorial. Este método
busca resgatar, nas redes neurais artificiais acopladas, um conjunto de memórias previamente armazenadas procurando-se preservar seus comportamentos individuais.
Além disso, uma outra importante característica desejada das memórias associativas
baseadas em redes neurais seria a de dotá-las de capacidade de aprendizado e esquecimento de padrões. Desta forma, este trabalho prescreve, também, um procedimento de aprendizado e esquecimento para as sub-redes acopladas, compatível com
o método de síntese. Finalmente, a viabilidade do método proposto é demonstrada
através de uma seqüência de experimentos.
PALAVRAS-CHAVE: Theory of Neuronal Group Selection, Síntese de Redes, Aprendizado e Esquecimento.
Abstract
Many approaches have emerged in the attempt to explain the cognitive phenomenon.
One of these approaches, the Theory of Neuronal Group Selection (TNGS), establishes that memory processes can be organized, functionally, in hierarchical levels,
where higher functional levels would coordinate and correlate sets of functions of the
lower levels. Inspired on this idea and based on the creation of multi-level artificial
memories through artificial neural networks, we have proposed a new method of synthesis of coupled artificial neural networks, having as stand point the change of basis in a vectorial space. This method aims to recover, in the coupled artificial neural
networks, a set of memories previously stored in an attempt to preserve their individual behaviours. Moreover, another important characteristic of associative memories
based on neural networks would be enduing themselves with the capacity of learning
and forgetting of new patterns. In this way, this work presents learning and forgetting
procedures for coupled sub-networks, suitable for the above method of synthesis. Finally, the viability of the considered method is demonstrated through a sequence of
experiments.
KEYWORDS: Theory of Neuronal Group Selection, synthesis of networks, Learning
and Forgetting.
Lista de Figuras
1
Diagrama em blocos de um neurônio. . . . . . . . . . . . . . . . . . .
2
Modelo de neurônio continuamente valorado: função de ativação sigmoidal.
p. 22
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 22
3
Função Ativação do Modelo BSB . . . . . . . . . . . . . . . . . . . . .
p. 23
4
Rede de Hopfield . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 25
5
Diagrama em Blocos do modelo BSB . . . . . . . . . . . . . . . . . .
p. 29
6
Acoplamento de redes em dois níveis. . . . . . . . . . . . . . . . . . .
p. 35
7
Parabolóide elíptico que se abre para cima. . . . . . . . . . . . . . . .
p. 50
8
Parabolóide elíptico que se abre para baixo. . . . . . . . . . . . . . . .
p. 50
9
Parabolóide hiperbólico. . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 51
10
Projeções em x1 x2 das normais à função de energia e à face do hipercubo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Representação bidimensional da translação do domínio para um dos
vértices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
p. 60
p. 63
Convergência para uma densidade de acoplamento inter-redes de
50% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 4 memórias de primeiro nível e 2 de segundo nível.
13
. . . . . .
p. 84
Convergência para uma densidade de acoplamento inter-redes de
50%, sendo 4 memórias de primeiro nível e 2 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
14
p. 88
Convergência para uma densidade de acoplamento inter-redes de
58% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 4 memórias de primeiro nível e 4 de segundo nível. . . . . . . .
p. 88
15
Convergência para uma densidade de acoplamento inter-redes de
71%, sendo 4 memórias de primeiro nível e 4 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
16
p. 89
Convergência para uma densidade de acoplamento inter-redes de
50% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 8 memórias de primeiro nível e 2 de segundo nível. . . . . . . .
17
p. 89
Convergência para uma densidade de acoplamento inter-redes de
50%, sendo 8 memórias de primeiro nível e 2 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
18
p. 90
Convergência para uma densidade de acoplamento inter-redes de
64% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 8 memórias de primeiro nível e 4 de segundo nível. . . . . . . .
19
p. 90
Convergência para uma densidade de acoplamento inter-redes de
64%, sendo 8 memórias de primeiro nível e 4 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
20
p. 91
Convergência para uma densidade de acoplamento inter-redes de
69% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 8 memórias de primeiro nível e 8 de segundo nível. . . . . . . .
21
p. 91
Convergência para uma densidade de acoplamento inter-redes de
76%, sendo 8 memórias de primeiro nível e 8 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
22
p. 93
Convergência para uma densidade de acoplamento inter-redes de
50% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 12 memórias de primeiro nível e 2 de segundo nível. . . . . . .
23
p. 93
Convergência para uma densidade de acoplamento inter-redes de
50%, sendo 12 memórias de primeiro nível e 2 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
24
p. 94
Convergência para uma densidade de acoplamento inter-redes de
64% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 12 memórias de primeiro nível e 4 de segundo nível. . . . . . .
p. 94
25
Convergência para uma densidade de acoplamento inter-redes de
64%, sendo 12 memórias de primeiro nível e 4 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
26
p. 95
Convergência para uma densidade de acoplamento inter-redes de
73% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 12 memórias de primeiro nível e 8 de segundo nível. . . . . . .
27
p. 95
Convergência para uma densidade de acoplamento inter-redes de
73%, sendo 12 memórias de primeiro nível e 8 de segundo nível (pelo
método proposto por Gomes (2005)). . . . . . . . . . . . . . . . . . .
28
p. 96
Convergência para uma densidade de acoplamento inter-redes de
64% com 12 vetores ortogonais compondo a base das sub-redes,
sendo 12 memórias de primeiro nível e 12 de segundo nível. . . . . .
29
p. 96
Convergência para uma densidade de acoplamento inter-redes de
64%, sendo 12 memórias de primeiro nível e 12 de segundo nível
(pelo método proposto por Gomes (2005)). . . . . . . . . . . . . . . .
30
p. 97
Convergência para uma densidade de acoplamento inter-redes de
50% com 12 vetores LI compondo a base das sub-redes, sendo 4
memórias de primeiro nível e 2 de segundo nível, sem ortogonalizar
a base. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 101
31
Convergência para uma densidade de acoplamento inter-redes de
50% com 12 vetores LI compondo a base das sub-redes, sendo 4
memórias de primeiro nível e 2 de segundo nível, com base ortogonalizada.
32
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 101
Convergência para uma densidade de acoplamento inter-redes de
50%, sendo 4 memórias LI de primeiro nível e 2 de segundo nível
no método proposto por Gomes (2005). . . . . . . . . . . . . . . . . . p. 102
Lista de Tabelas
1
Números de padrões de primeiro e segundo níveis testados . . . . . .
p. 79
2
Memórias de segundo nível para acoplamento de três sub-redes. . . .
p. 83
3
Memórias de segundo nível para acoplamento de três sub-redes. . . .
p. 87
4
Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo
SDM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo
método proposto por Gomes (2005). . . . . . . . . . . . . . . . . . . .
6
p. 99
Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo
SDM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
p. 98
Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo
método proposto por Gomes (2005). . . . . . . . . . . . . . . . . . . .
8
p. 98
Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo
SDM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
p. 97
p. 99
Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo
método proposto por Gomes (2005). . . . . . . . . . . . . . . . . . . . p. 100
10
Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo
SDM com vetores LI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 102
11
Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo
método proposto por Gomes (2005) para vetores LI. . . . . . . . . . . p. 103
12
Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo
SDM com vetores LI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 103
13
Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo
método proposto por Gomes (2005) para vetores LI. . . . . . . . . . . p. 104
14
Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo
SDM com vetores LI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 104
15
Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo
método proposto por Gomes (2005) para vetores LI. . . . . . . . . . . p. 105
Lista de Abreviaturas e Siglas
AI Artificial Intelligence
ANN Artificial Neural Networks
BSB Brain-State-in-a-Box
DST Dynamic Systems Theory
GBSB Generalized-Brain-State-in-a-Box
LDS Linear Dynamical System
LI Linearly Independent
LD Linearly Dependent
LM Local Map
NG Neuronal Group
SDM Spectral Decomposition Method
TNGS Theory of Neuronal Group Selection
Sumário
1 Introdução
p. 16
1.1 Considerações Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 16
1.2 Escopo do trabalho de pesquisa . . . . . . . . . . . . . . . . . . . . .
p. 18
1.3 Relevância do trabalho para a área de Sistemas Inteligentes . . . . .
p. 18
1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 19
1.5 Organização da dissertação . . . . . . . . . . . . . . . . . . . . . . . .
p. 19
2 Modelos de ANN dinâmicas
p. 21
2.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 21
2.2 Redes de Hopfield . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 24
2.3 Redes BSB (Brain-State-in-a-Box) . . . . . . . . . . . . . . . . . . . .
p. 29
2.4 Redes GBSB (Generalized-Brain-State-in-a-Box) . . . . . . . . . . . .
p. 32
2.5 Modelo GBSB acoplado . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 34
2.6 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 37
3 Prescrições para síntese de padrões em ANN dinâmicas acopladas
p. 38
3.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 38
3.2 ANN desacopladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 41
3.2.1 Comportamento dinâmico das redes treinadas pelo SDM . . .
p. 43
3.3 ANN acopladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 46
3.3.1 Elemento de reforço das memórias de segundo nível . . . . .
p. 49
3.3.2 Discussão sobre independência linear e ortogonalidade . . . .
p. 53
3.3.3 Ortogonalização de bases LI . . . . . . . . . . . . . . . . . . .
p. 55
3.3.4 Definição dos Fatores de realimentação β e γ . . . . . . . . . .
p. 56
3.3.5 Translação do domínio do LDS . . . . . . . . . . . . . . . . . .
p. 60
3.3.6 Definição do bias field . . . . . . . . . . . . . . . . . . . . . . .
p. 63
3.4 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 65
4 Aprendizagem e Esquecimento
p. 67
4.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 67
4.1.1 Aprendizagem por inserção de padrões . . . . . . . . . . . . .
p. 68
4.1.2 Aprendizagem através de inserção de neurônios . . . . . . . .
p. 71
4.1.3 Aprendizagem através de inserção de NG . . . . . . . . . . . .
p. 73
4.2 Esquecimento (forgetting) . . . . . . . . . . . . . . . . . . . . . . . . .
p. 74
4.2.1 Eliminando parâmetros da rede . . . . . . . . . . . . . . . . . .
p. 74
4.2.2 Esquecimento por retirada de neurônios da rede . . . . . . . .
p. 75
4.2.3 Desacoplando redes . . . . . . . . . . . . . . . . . . . . . . . .
p. 76
4.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 77
5 Experimentos computacionais e análise dos resultados
p. 78
5.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 78
5.2 Experimentos usando base ortogonal . . . . . . . . . . . . . . . . . .
p. 80
5.3 Experimentos usando base LI . . . . . . . . . . . . . . . . . . . . . . . p. 100
5.4 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 105
6 Conclusão
p. 108
6.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 108
6.2 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . p. 110
6.3 Dificuldades encontradas . . . . . . . . . . . . . . . . . . . . . . . . . p. 110
6.4 Perspectivas de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . p. 111
REFERÊNCIAS
p. 113
16
1
Introdução
Neste capítulo, apresenta-se uma introdução desta dissertação de mestrado. A
seção 1.1 contextualiza os princípios do acoplamento hierárquico de redes neurais. Na
seção 1.2, descreve-se o escopo do trabalho de pesquisa. Na seção 1.3, apresenta-se
a relevância de propor um método de síntese para redes hierarquicamente acopladas.
Na seção 1.4, define-se os objetivos, tanto gerais quanto específicos, que se pretende
alcançar. Ao final, na seção 1.5, apresenta-se a organização do trabalho.
1.1 Considerações Iniciais
Na tentativa de transmitir às máquinas a capacidade de realizar comportamentos
considerados inteligentes, sob o ponto de vista dos seres humanos, surgiu a área de
Artificial Intelligence (AI), que é um ramo da ciência que tenta, através de diferentes
abordagens, explicar o fenômeno cognitivo e desenvolver mecanismos de software
e/ou hardware que apresentem comportamento inteligente. Segundo Santos (2003),
estas abordagens poderiam ser agrupadas em duas categorias: a da objetividade e
a da não-objetividade. Na objetividade, o conhecimento é visto como a criação e a
transformação de representações internas de um mundo externo, isto é, a realidade
é objetiva, pré-dada e independente do sujeito. Para a abordagem não-objetivista, o
conhecimento é visto como o resultado de interações mútuas e congruentes entre o
indivíduo e seu ambiente, isto é, a realidade, neste caso, não é mais objetiva, pré-dada
e independente do sujeito.
Dentro da objetividade, uma das abordagens mais tradicionais é denotada por
conexionismo (RUMELHART, 1989). Com base nesta linha de pensamento, na AI, o
fenômeno cognitivo é representado pelas Artificial Neural Networks (ANN), onde as
unidades representam os neurônios naturais e as conexões entre estas unidades representam as sinapses (HAYKIN, 2001).
1.1 Considerações Iniciais
17
Dentro da não-objetividade, por sua vez, poderia-se-ia destacar, como as mais
representativas, as abordagens denotadas por Cognição Situada (CLANCEY, 1997),
Enação (ROSH, 1991), Biologia do Conhecer (MATURANA; VARELA, 1980) e Ecologia da
Mente (BATESON, 1988). Essas abordagens estão baseadas nos estudos recentes na
área da neurociência e da ciência cognitiva que têm procurado por novas formas de
explicar o fenômeno cognitivo. Tendo em vista que todas essas abordagens compartilham os mesmos princípios epistemológicos e ontológicos, elas podem ser referenciadas pela mesma expressão ’cognição situada’.
A cognição situada, através dos seus fundamentos teórico-conceituais sobre o
fenômeno cognitivo, passou a contribuir, de maneira expressiva, para o desenvolvimento de sistemas inteligentes (CLANCEY, 1997).
Uma das abordagens da cognição situada, a Theory of Neuronal Group Selection
(TNGS) proposta por Edelman (EDELMAN, 1987), está baseada em estudos recentes
que têm revelado, através de evidências experimentais, que certas áreas do cérebro,
como por exemplo, o cortex cerebral, podem ser descritas como sendo organizadas
funcionalmente em níveis hierárquicos, onde os níveis funcionais mais elevados coordenariam conjuntos de funções dos níveis mais baixos.
Desta forma, a TNGS tem sido usada como uma das formas para compreender a
cognição humana e para construir sistemas inteligentes através dos conceitos sobre
auto-organização e interações ou acoplamentos (FOERSTER, 1962).
A construção de sistemas inteligentes, tendo como inspiração a cognição humana,
poderia ser estudada através da Dynamic Systems Theory (DST) (ELIASMITH, 2003)
(HASELAGER, 2003) (van GELDER; PORT, 1995), que, em geral, estuda o comportamento
de sistemas complexos através de equações diferenciais, procurando compreender
sua evolução ao longo do tempo. A DST constitui uma forma de compreender as mudanças globais que acontecem em um determinado sistema com relação a seu estado
global precedente, independente de sua estrutura interna (THELEN; SMITH, 1994). Isto
é, não se deseja reproduzir o comportamento celular individual, mas o comportamento
do conjunto.
1.2 Escopo do trabalho de pesquisa
18
1.2 Escopo do trabalho de pesquisa
O presente trabalho procura estudar o comportamento de ANN hierarquicamente
acopladas, sob um contexto inspirado em sistemas biológicos, através do conceito de
acoplamento dinâmico.
Assim, o objeto deste trabalho é uma proposta de síntese de sistemas dinâmicos
hierárquicos, baseado na auto-estrutura do espaço vetorial, semelhante ao método
de auto-estrutura (MICHEL; FARRELL, 1990), que opera mediante o particionamento do
espaço vetorial do sistema composto em sub-espaços, seguido de mudanças de base
adequadas. Tais sistemas, compostos por ANN dinamicamente orientadas, podem
ser vistos como sistemas dinâmicos para os quais, tanto de forma individual quanto
acoplados, serão estudados através da DST. Quando os sistemas estão acoplados,
cada ANN individual representaria um Neuronal Group (NG) (memória de primeiro
nível), ou uma sub-rede, e a rede acoplada, representaria um agrupamento destes
NG, ou uma rede, que produziria um segundo nível de memória. É importante salientar
que novos níveis hierárquicos poderiam surgir quando estes grupos de ANN fossem
acoplados (EDELMAN, 1987). Conseqüentemente, estas novas redes hierarquicamente
acopladas passariam a apresentar um novo comportamento global, que emergiria das
partes (ALEKSANDER, 2004), passando a incorporar também os conceitos da DST. Para
o presente trabalho, o estudo se limita a um segundo nível hierárquico de acoplamento.
1.3 Relevância do trabalho para a área de Sistemas Inteligentes
A AI tem como principal objetivo capacitar o computador a executar funções que
são desempenhadas pelo ser humano usando conhecimento e raciocínio (REZENDE,
2003). Para tanto, desde que se tome o modelo biológico como inspiração, é necessário
ter fundamentos teóricos consistentes para que os modelos artificiais possam atingir
o objetivo descrito. Assim, baseado na TNGS, o estudo de redes hierarquicamente
acopladas passa a ter a consistência teórica necessária.
Levando em conta que os treinamentos de ANN, na literatura, vêm sendo majoritariamente feitos para uma única rede, a principal contribuição do trabalho é uma
proposta de síntese de matrizes para redes acopladas, com os estudos analíticos
necessários, que elucide o comportamento de todos os graus de liberdade do pro-
1.4 Objetivos
19
blema, garantindo boa previsibilidade sobre sua convergência. Este trabalho contribui
também para o desenvolvimento viável de sistemas computacionais inteligentes pela
construção de ANN inter-conectadas, para aplicações diversas, mesmo fora do contexto biológico.
1.4 Objetivos
O objetivo geral deste trabalho é estudar matematicamente sistemas dinâmicos
acoplados no contexto das redes neurais analisando os efeitos do acoplamento na
dinâmica individual e global dos sistemas.
Os objetivos específicos são:
• Prescrever um método de síntese para ANN hierarquicamente acopladas, dando
a ele a consistência teórica necessária;
• estimar a influência do acoplamento em modelos dinâmicos, para que se possa
preservar os comportamentos das redes locais;
• determinar, através de recursos algébricos e computacionais, condições suficientes sobre os fatores de realimentação intra e inter-grupos, para bom comportamento global e local do sistema;
• apresentar propostas de aprendizado e esquecimento para o presente método;
• implementar uma ANN acoplada, treiná-la pelo método proposto e comparar os
resultados com outro método de treinamento.
1.5 Organização da dissertação
Nesta dissertação, no Capítulo 2 é feita uma descrição dos principais modelos
de ANN orientados dinamicamente, no capítulo 3, são feitas as prescrições de um
método de síntese para redes individuais e acopladas. O capítulo 4 é uma proposta
de aprendizado e esquecimento para redes treinadas pelo método descrito no presente trabalho. No capítulo 5 são descritos os experimentos, a análise e discussão
dos resultados obtidos, com as comparações necessárias com outro método a fim
1.5 Organização da dissertação
20
de mostrar a viabilidade de tal proposta. No capítulo 6 são apresentadas as considerações finais deste projeto, discutidas as principais dificuldades encontradas e as
principais contribuições deste projeto, bem como as perspectivas de trabalhos futuros.
21
2
Modelos de ANN dinâmicas
Neste capítulo, após um breve comentário sobre as ANN na seção 2.1, apresentaremos as redes que serão estudadas neste projeto. Essas redes são dinamicamente orientadas, sem neurônios escondidos, e permitem trabalhar com o conceito
de minimização de energia potencial (HAYKIN, 2001). Nas seções 2.2, 2.3, 2.4 e 2.5
apresentam-se as principais características da rede de Hopfield, BSB (Brain-Statein-a-Box), GBSB (Generalized-Brain-State-in-a-Box) e GBSB acopladas, respectivamente. Procuramos, nestas seções, estudar e comparar os modelos de energia através
do cálculo do gradiente dessas funções. Ao final, na seção 2.6, faz-se alguns comentários e uma síntese do capítulo.
2.1 Considerações iniciais
Nas ANN, o neurônio é a menor unidade de processamento de dados no qual,
cada sinal de entrada xj , no tempo k, é multiplicado por um peso sináptico wij no iésimo neurônio da rede. Os produtos são então somados, em um combinador linear,
ao bias field. Este tem, entre outros objetivos, o de adiantar ou atrasar o disparo do
neurônio. Finalmente, a saída do combinador linear passa por uma função restritiva,
denominada função de ativação, que regula a amplitude do sinal de saída (ver Fig. 1).
Há dois tipos de neurônios: com ’limiar determinado’ e continuamente valorado
(HAYKIN, 2001). O modelo de neurônio de limiar determinístico estabelece, para uma
dada entrada, uma saída binária 0 e 1, ou ainda -1 e 1, sem valores intermediários. Os
neurônios continuamente valorados, que faz parte do escopo deste trabalho, assumem
valores contínuos na saída nos mesmos intervalos descritos anteriormente. Outra
característica importante do modelo de neurônio continuamente valorado é que sua
função de ativação pode ser diferenciável (ver Fig. 2).
2.1 Considerações iniciais
22
Figura 1: Diagrama em blocos de um neurônio.
Figura 2: Modelo de neurônio continuamente valorado: função de ativação sigmoidal.
2.1 Considerações iniciais
23
Os neurônios que servirão de base para nosso estudo são descritos pela função
linear por partes, onde a i-ésima componente, no tempo discreto k, é:
xi (k + 1) = ϕ[yi (k)]
ϕ[yi (k)]


+1 se yi (k) > +1







=
yi (k) se −1 ≤ yi (k) ≤ +1








−1 se yi (k) < −1
(2.1)
e cujo gráfico pode ser visto na Figura (3).
xi
+1
-1
0
+1
yi
-1
Figura 3: Função Ativação do Modelo BSB
As redes neurais, que podem ser entendidas como um grupo de neurônios interligados, tem a propriedade de recuperar dados. Elas podem ser treinadas, ou sintetizadas, para que seus neurônios se saturem formando padrões preestabelecidos, de
tal sorte que, fornecendo à entrada valores próximos dos padrões, estes possam ser
restabelecidos. Ou seja, fornecendo à sua entrada um certo dado armazenado em sua
memória, e distorcido por um ruido, ela deve ser capaz de recuperá-lo. O chamado
"padrão armazenado" pode ser entendido como um vetor no qual as suas componentes são as respostas de cada neurônio individualmente. Podemos então definir
padrão armazenado na rede como correspondente a uma memória dessa rede.
As ANN dinâmicas, objeto do presente trabalho, podem ser estudadas de modo
complementar por funções de energia. Estas funções oferecem a vantagem de ter
em seus mínimos os padrões armazenados pela rede. Desta forma, o estudo da
capacidade de recuperação de padrões armazenados através dessas funções, passa
a ser o estudo de seu comportamento próximo de seus mínimos de energia.
2.2 Redes de Hopfield
24
Basicamente, as dificuldades envolvidas na implementação de uma rede neural de
associação de memória podem ser numeradas como (MICHEL; FARRELL, 1990):
1. armazenar cada padrão como um vetor que assuma, na função de energia, um
mínimo, ou seja, que cada um dos padrões armazenados seja um ponto de
equilíbrio assintoticamente estável da rede;
2. controlar a extensão das bacias de atração dos padrões armazenados. Em outras palavras, controlar os domínios de atração de cada um dos pontos de equilíbrio assintoticamente estáveis da rede;
3. minimizar o número de memórias, ou padrões, indesejáveis, denominados padrões
espúrios.
Os tipos de redes que servirão de base para nosso estudo são: as redes de Hopfield (1984), as redes BSB - Brain-State-in-a-Box, propostas por Anderson et al.
(1985) e as redes GBSB - Generalized-Brain-State-in-a-Box, uma modificação do
modelo anterior, de Hui e Zak (HUI; ZAK, 1992).
2.2 Redes de Hopfield
O modelo de Hopfield consiste de um conjunto de neurônios formando um sistema realimentado. A saída de cada neurônio é realimentada à entrada dos demais neurônios da rede com um atraso unitário. Nessa rede, portanto, não há autorealimentação, ou seja, a saída de um neurônio não realimenta sua própria entrada
(Fig. 4). Ela é capaz de recuperar padrões armazenados acrescidos de ruído (HAYKIN,
2001).
A dinâmica da rede determinística de Hopfield é
Ã
yj = Sinal
N
X
i=1
!
wji yi + fj
, j = 1, 2, . . . , N ,
(2.2)
2.2 Redes de Hopfield
25
Figura 4: Rede de Hopfield
onde:
• N é o número de neurônios da rede;
• wji é o ji-ésimo peso sináptico;
• yi é o estado binário;
• fj é bias field do j-ésimo neurônio;
• uj =
N
P
wji yi + fj argumento da função de ativação;
i=1


1 se uj ≥ 0





• Sinal(uj ) =

0 se uj < 0 .





O estudo do comportamento das redes de Hopfield pode ser feito via funções
de Lyapunov, ou funções de energia. Para tanto, são realizados dois estudos, um
2.2 Redes de Hopfield
26
contínuo e outro discreto (HAYKIN, 2001). Para que o modelo contínuo sirva também
ao modelo discreto, considera-se wjj = 0 na função descrita por (HOPFIELD, 1984):
N
N
N
X 1
1 XX
E(x) = −
wji xi xj +
2 i=1 j=1
aR
j=1 j j
Z
xj
ϕ−1 (x)dx
(2.3)
0
i6=j
onde, à equação determinística são acrescidos os seguintes fatores:
• xi é a i-ésima entrada;
• xj é a j-ésima entrada;
• aj é o ganho do neurônio j;
• Rj é a resistência de fuga do j-ésimo neurônio;
• ϕ−1 (x) é a forma padrão da relação inversa entrada-saída e é definida como:
ϕ−1 (x) = − log(
1−x
).
1+x
(2.4)
Através de um ganho muito grande do neurônio, maneira pela qual a função sigmóide se aproxima da função limitadora do tipo degrau, o segundo termo da equação
(2.3) se torna desprezível, transformando-a:
N
N
1 XX
E(x) = −
wji xi xj .
2 i=1 j=1
(2.5)
Também, por essa mesma condição de um ganho muito grande, o modelo descrito
pela equação (2.5) pode ser visto como modelo discreto de Hopfield. Escrito na forma
matricial
1
E(x) = − xT W x
2
(2.6)
onde, x é o vetor de entradas da rede; W é a matriz de pesos sinápticos; e xT é a
transposta do vetor de pesos x.
Em qualquer um dos casos descritos anteriormente, a função de energia possui
a característica de ter mínimos locais nos padrões armazenados. A análise desta
2.2 Redes de Hopfield
27
função consiste em buscar esses mínimos ou tentar controlá-los, a fim de se ter somente os padrões desejados como memórias armazenadas em mínimos de energia.
Para isso, é fundamental saber que um Sistema Hamiltoniano é uma classe de Sistemas Dinâmicos para a qual se pode definir uma função de energia e obter de modo
apropriado, através das Equações de Hamilton, o sistema de equações diferenciais
associado (MONTEIRO, 2002). Os diversos sistemas físicos da Mecânica Clássica são
exemplos desta classe. Em particular, existem os sistemas gradientes onde a tendência de movimento, ou de evolução do sistema, se dá de maneira governada por uma
função potencial semelhante à energia potencial. De modo mais específico, pode-se
obter o sistema de equações diferenciais com o uso do gradiente da função potencial,
ou função energia do sistema. Por exemplo, o movimento dos ventos em regimes não
críticos se dá no sentido oposto ao gradiente da pressão atmosférica. Um fato interessante dos sistemas gradientes, é que o espaço de estados coincide com o espaço
no qual o próprio sistema evolui. É precisamente este o nosso caso. Como E(x) é
uma função com derivadas parciais de primeira ordem contínuas, o gradiente ∇x E,
está bem definido e aponta, no domínio, para o sentido de maior crescimento de E.
É conveniente, portanto, interpretá-lo como sendo um sistema gradiente. De fato, o
sistema de equações diferenciais é obtido pelo gradiente da seguinte maneira:
dxj
∂E
=−
j = 1, . . ., n.
dt
∂xj
(2.7)
A partir daí, teremos um sistema dinâmico, cujo campo vetorial das tangentes das
trajetórias é o gradiente da função E. Neste contexto, o estudo da função de energia
(2.6) pode ser feito através do cálculo de seu gradiente. Fazendo isto, teremos:
dx
= −∇x E
dt
(2.8)
mas,
N
N
1 XX
−∇x E = ∇x (
wji xi xj )
2 i=1 j=1
(2.9)
2.2 Redes de Hopfield
28
N
(−∇x E)k
N
∂ 1 XX
(
=
wji xi xj )
∂xk 2 i=1 j=1
N
=
N
1 X X ∂xi
∂xj
(
wji xj + xi wji
).
2 i=1 j=1 ∂xk
∂xk
(2.10)


1 se i = k





Onde
∂xi
= δik =
é o delta de Kronecker da i-ésima componente que

∂xk
0 se i 6= k





elimina um dos somatórios. O mesmo vale para a j-ésima componente. Assim,
N
(−∇x E)k
N
∂E
1X
1X
=−
=
wkj xj +
xi wik
∂xk
2 j=1
2 i=1
N
P
wki xi
=
(2.11)
i=1
dx
= Wx.
dt
(2.12)
Finalmente, pode-se destacar as seguintes características do modelo de Hopfield
como sendo as mais significativas para o presente trabalho (GOMES, 2005):
• Recorrência;
• Simetria nas conexões sinápticas, wij = wji ;
• Os padrões são armazenados em regiões do espaço de estados dinamicamente
estáveis;
• Cada padrão armazenado fica localizado em um mínimo local da função de Lyapunov com sua região de atração;
• Como os padrões são binários, do tipo 0 e 1 ou -1 e 1, a rede é capaz de armazenar 2N estados distintos, onde N é o número de neurônios da rede. No
entanto, nem todos estes 2N estados podem ser atratores para um dado treinamento;
2.3 Redes BSB ( Brain-State-in-a-Box)
29
• Este tipo de sistema dinâmico pode operar como memória associativa (endereçável
por conteúdo).
2.3 Redes BSB (Brain-State-in-a-Box)
O modelo BSB é um sistema de realimentação positiva com limitação de amplitude. Esse modelo de rede foi proposto por Anderson et. al. em 1977 (ANDERSON
et al., 1985). Ele pode ser visto como uma versão do modelo de Hopfield (HOPFIELD,
1984) com estados contínuos ao invés de estados discretos e com atualização síncrona (GOMES, 2005) e consiste em um sistema totalmente realimentado incluindo
auto-realimentação. A realimentação deve ser positiva para que possa, através de um
número finito de iterações, amplificar um padrão incompleto na entrada. Desta forma,
todos os neurônios da rede se saturam, levando a um padrão estável do modelo. Essa
dinâmica pode ser representada pelo diagrama em blocos da Figura (5).
Figura 5: Diagrama em Blocos do modelo BSB
O modelo BSB original é uma rede neural não-linear, auto-associativa de minimização de energia que pode ser definido pelas equações:
x(k + 1) = ϕ (x(k) + βW x(k)) ,
(2.13)
2.3 Redes BSB ( Brain-State-in-a-Box)
30
onde β é um fator de realimentação positivo, x(k) é um vetor N -por-1, que representa
o estado do modelo no tempo discreto k e W é uma matriz de pesos simétrica N -porN . A função de ativação ϕ é uma função linear por partes do tipo (2.1), cujo gráfico
pode ser visto na Figura (3), e y(k) = (x(k) + βW x(k)).
O estudo do modelo de energia dessa rede, tendo como foco a busca pelos mínimos de energia, foi feito inicialmente por Cohen e Grossberg (COHEN; GROSSBERG,
1983), que considerou o domínio das variáveis contínuas. Pouco depois, Golden realiza o estudo do comportamento dessa rede para tempo discreto (GOLDEN, 1986a).
Ele propõe um modelo de energia para essa rede em (GOLDEN, 1986b) que, escrito na
forma matricial, tem a seguinte equação:
β
E(x) = − xT W x .
2
(2.14)
Para a qual definimos o domínio de validade B para a i-ésima componente de x como:



 B i = {xi ∈ R| − 1 ≤ xi ≤ 1} i = 1, ..., N



(2.15)
B = B 1 xB 2 x...xB N
ou então,
B = B ∪ ∂B ,
(2.16)
onde ∂B é a fronteira de B e B é o complemento de ∂B em relação à B.
Golden também forneceu, no formalismo das variáveis discretas, as circunstâncias que garantem a redução dos valores de energia da função para padrões iniciais
estáveis do modelo (GOLDEN, 1986a). Para isso, a matriz de pesos W deveria ser
simétrica, W = W T , e semidefinida positiva, isto é, que λmin ≥ 0, onde λmin é o menor
autovalor real de W . Usando as restrições da função de ativação (2.1) para os estados do sistema, é possível verificar que os pontos mínimos da função de energia E
definem os estados de equilíbrio, definidos por:
x(k + 1) = x(k) .
Com exceção dos pontos de coordenadas unitárias e a origem, qualquer estado
2.3 Redes BSB ( Brain-State-in-a-Box)
31
inicial do Linear Dynamical System (LDS) será amplificado pela realimentação positiva do modelo, se dirigindo a um ponto de estabilidade. Para garantir a prevalência
deste tipo de realimentação e, com isto, permitir que todos os pontos de coordenadas
unitárias sejam estados de equilíbrio, é necessário que W seja dominante diagonal 1 .
A estabilidade de um estado de equilíbrio ocorre nas vizinhanças dos mínimos de
energia. Para que todos os pontos de coordenadas unitárias sejam atratores pontuais
possíveis (GREENBERG, 1988), é suficiente que a matriz de pesos W seja fortemente
dominante diagonal, ou seja, obedecer a seguinte condição:
wjj >
P
|wij | para j = 1, 2 . . . , N .
i6=j
(2.17)
O estudo da estabilidade deste modelo foi feito por Lillo et al. (1992), que considerou a matriz de pesos W assimétrica e dominante diagonal.
Partindo de cada vetor de estados instável da rede, Braz (1998) mostrou que eles
navegam dentro de um hipercubo, com centro na origem dos eixos coordenados, até
atingir um de seus vértices.
No presente estudo, como foi feito para o modelo de energia das redes de Hopfield
(2.8), a prescrição de uma proposta de síntese para a matriz de pesos W será feita
através do cálculo de seu gradiente.
É fácil observar nessa equação que o fator de realimentação β é uma constante
f = βW . Assim, de forma
global multiplicativa. Com isso, podemos considerar W
análoga ao modelo de Hopfield (eq. 2.8), pode-se afirmar que:


fij xi se xi ∈ Bi
W





dxj
= (−∇x E)j =

dt
0





1
n
P
i6=j
se xi ∈ (∂B)i .
(2.18)
A condição de dominância diagonal é a de se ter para cada linha i da matriz pesos W , Wij ≥
|Wij |, onde wij é o ij-ésimo elemento de W . Ver (HAYKIN, 2001) p.760.
2.4 Redes GBSB ( Generalized-Brain-State-in-a-Box)
32
2.4 Redes GBSB (Generalized-Brain-State-in-a-Box)
Hui e Zak (HUI; ZAK, 1992) modificaram o modelo anterior criando assim uma generalização do modelo BSB, denominado GBSB (Generalized-Brain-State-in-a-Box).
Eles discutiram sua estabilidade levando em conta que:
• a matriz de pesos não precisa ser simétrica;
• aos neurônios são aplicados bias field e;
• as taxas de disparo máxima e mínima das unidades do modelo podem ser diferentes para cada unidade do sistema.
A assimetria da matriz de pesos é importante para que se possa estabelecer correlações biológicas mais fieis.
A equação determinística do modelo GBSB, na forma matricial, é:
x(k + 1) = ϕ((In + β W )x(k) + βf) ,
(2.19)
onde ϕ é a mesma função linear por partes do modelo BSB (2.1), IN é a matriz identidade N x N , o vetor coluna de bias field f, e a matriz N x N de pesos W não
necessariamente simétrica.
Desta forma, se fizermos no modelo GBSB a matriz de pesos W simétrica e o
vetor de bias field f = 0, teremos, como caso particular, o modelo BSB (2.13).
A função de energia em tempo discreto para esse modelo de rede, estudada por
Golden (1986a) é:
#
" n
n
n
n
X
1 X 2 XX
βfi xi ,
βwij xi xj +
E (x) = −
x +
2 i=1 i
i=1
i=1 j=1
(2.20)
onde xT = [x1 . . . xn ] é um vetor de valor real, wij é o ij-ésimo elemento de uma matriz
real W e fi é o i-ésimo elemento de um vetor real f.
Seu equivalente para tempo contínuo é:
E (x) = −
¤
β£ T
x W x + xT f .
2
(2.21)
2.4 Redes GBSB ( Generalized-Brain-State-in-a-Box)
33
Usando mais uma vez o gradiente da função (2.21), como nos casos anteriores
(eq. 2.8 e 2.18), obtém-se:


fij xi + fi se xi ∈ Bi
W





dxj
= (−∇x E)j =

dt
0





se xi ∈ (∂B)i .
(2.22)
Como a equação (2.22) se diferencia das equações (2.8) e (2.18) apenas por um
vetor constante f, para fins de análise, usaremos uma matriz W 0 , no lugar de W , como
sendo a correspondente assimétrica de W .
É necessário supor a assimetria da matriz de pesos W pois, o problema no estudo
da função de energia do modelo GBSB é que a equação (2.20), proposta por Golden,
elimina a parte anti-simétrica da matriz de pesos. A fim de evidenciar isto, observe
que, para uma matriz W qualquer tem-se:
1
W S = (W + W T )
2
(2.23)
é a parte simétrica de W , cuja transposta é W T , e
1
W A = (W − W T )
2
(2.24)
é sua parte anti-simétrica. Assim,
W = WS + WA .
(2.25)
No entanto, a matriz W aparece na forma bilinear xT W x da equação (2.21). Este
produto por sua vez, pode ser escrito como:
2.5 Modelo GBSB acoplado
34
xT W x = xT W S x + xT W A x
P S
P A
=
wjk xj xk + wjk
xj xk
jk
=
jk
P
jk
=
P
jk
S
wjk
xj xk +
1X
1X
wjk xj xk −
wkj xj xk
2 jk
2 kj
(2.26)
S
xj xk .
wjk
Em outras palavras, desse tipo de uma função de energia, emerge sempre uma
matriz de pesos simétrica.
2.5 Modelo GBSB acoplado
Pela TNGS proposta por Edelman (EDELMAN, 1987), certas áreas do cérebro podem ser descritas como sendo funcionalmente organizadas em níveis hierárquicos,
em que os níveis funcionais mais elevados coordenariam e correlacionariam conjuntos de funções mais simples dos níveis mais baixos (CLANCEY, 1997). Sob este
ponto de vista, a construção de redes GBSB acopladas consiste de uma representação artificial de memórias multi-níveis com plausibilidade biológica (GOMES; BRAGA;
BORGES, 2005b). Assim, cada ANN individual, ou sub-rede, representaria um NG ou
uma memória de primeiro nível e a ANN acoplada, ou rede, representaria um agrupamento de NG produzindo um segundo nível de memórias ou Local Map (LM).
Na Figura (6) observa-se que alguns neurônios de NG distintos realizam sinapses
com neurônios em outros NG, formando um segundo nível de memória denotada como
LM.
Este acoplamento deve ser feito sem que as redes individuais modifiquem fundamentalmente suas características. O comportamento global do sistema pode ser
descrito pela seguinte equação (GOMES, 2005):


xai (k + 1) = ϕ xai (k) + β a

Na
X
j=1
a a
wij
xj (k) + β a fia +
Nq
Nr X
X
b=1
b6=a
j=1

b
γ ab (wcor )ab
ij xj (k) ,
(2.27)
2.5 Modelo GBSB acoplado
35
Figura 6: Acoplamento de redes em dois níveis.
onde xai (k) representa o estado do i-ésimo neurônio da a-ésima sub-rede no tempo
a
discreto k, β a > 0 é o fator de realimentação dos neurônios da a-ésima sub-rede, wij
é o peso sináptico entre o i-ésimo e o j-ésimo neurônio da a-ésima sub-rede, fia é o
bias field do i-ésimo neurônio da a-ésima sub-rede, γ ab > 0 é o fator de acoplamento
dos neurônios da a-ésima sub-rede com os neurônios da b-ésima sub-rede, (wcor )ab
ij
é o peso de correlação entre o i-ésimo neurônio da a-ésima sub-rede com o j-ésimo
neurônio da b-ésima sub-rede, xbj (k) é o estado do j-ésimo neurônio da b-ésima subrede no tempo discreto k. ϕ é uma função de ativação linear por partes definida na
equação (2.1).
Em notação matricial temos,
Ã
xak+1
a
= ϕ (In + β W
a
) xak
a a
+β f +
Nr
X
b=1,b6=a
!
γ
ab
(Wcor )ab xbk
,
(2.28)
2.5 Modelo GBSB acoplado
36
Já a função de energia para o presente modelo pode ser definida como (GOMES;
BRAGA; BORGES, 2005b):
"M N
#
M X
Na
M X
Na
a
X
X
1 XX
a a a
E =−
(xai )2 + β a
wij
xi xj − β a
fia xai −
2 a=1 i,j=1
a=1 i,j=1
a=1 i=1
(2.29)
Nb
Na P
M P
P
a,b=1
a6=b
i=1 j=1
a b
γ ab (wcor )ab
ij xi xj ,
onde M é o número de sub-redes GBSB, Na é o número de neurônios existentes na
a-ésima sub-rede, Nb é o número de neurônios de uma sub-rede b conectados aos
neurônios de outra sub-rede a e os demais elementos já foram descritos na equação
(2.27)
Na busca por mínimos da função de energia (2.29), segundo (GOMES, 2005), podese fazer a análise em relação à a-ésima sub-rede. Para isso, considera-se que:
M
X
βa £ a T a a¤
a a T a
E(x , x ) = −
γ ab (xb )T (Wcor )ab xa .
(x ) W x − β (x ) f −
2
b=1,b6=a
a
b
(2.30)
Calculando o gradiente para a equação de energia do modelo acoplado (2.30),
obtém-se:
d a
x = (−∇x E)i
dt i
∂E
=
∂xai
Nb
M
Na
Na
Na X
X
X
X
∂ βa X
a b
a a a
a
a a
=
γ ab (wcor )ab
[
w x x +β
xi f i +
ij xj xi ]
∂xai 2 i,j=1 ij i j
i=1
b=1,b6=a i=1 j=1
M
Na
Na
Na
P
P
P
P
b
a a
γ ab (wcor )ab
fja +
xj + β a
= βa
wij
ij xj
j=1
ou,
j=1
b=1,b6=a j=1
(2.31)
2.6 Considerações finais
M
X
dxa
a
a a
a a
=β W x +β f +
γ ab (Wcor )ab xb ,
dt
b=1,b6=a
37
(2.32)
na qual seus elementos já foram descritos anteriormente, para todo x ∈ B.
A partir da equação (2.32) podemos ver que reduzimos nosso estudo a um sistema
de equações diferenciais lineares de primeira ordem.
Pelo mesmo motivo descrito para o produto xT W x em (2.26), as matrizes W a
f a e (W
fcor )ab ,
e (Wcor )ab são simétricas. Assim, faz-se necessário substitui-las por W
respectivamente, suas correspondentes assimétricas, para fins de análise.
2.6 Considerações finais
No desenvolvimento de modelos de ANN capazes de descrever cada vez melhor
o fenômeno cognitivo e que podem ser analisadas através da DST, deve-se destacar
os modelos de Hopfield, BSB e GBSB.
Destacamos algumas das suas diferenças:
• as redes de Hopfield não possuem auto-realimentação e, normalmente, a dinâmica
de atualização dos estados dos neurônios é assíncrona;
• as redes BSB e GBSB possuem auto-realimentação e dinâmica de atualização
dos estados é síncrona;
• as redes GBSB permitem um melhor controle das bacias de atração dos padrões
armazenados, em relação ao modelo BSB, através do termo βf.
Foi visto neste capítulo que tais redes podem ser estudadas através das equações
diferenciais de suas equações de energia. Tal estudo apresenta a característica comum de se resumir a LDS de primeira ordem, no qual o objetivo passa a ser a analise
de sua auto-estrutura.
É importante salientar também que na fronteira do domínio do LDS, a função de
energia não necessariamente determina seu comportamento. Portanto, o estudo foi
feito levando-se em conta a parte do domínio diferenciável.
38
3
Prescrições para síntese de
padrões em ANN dinâmicas
acopladas
Este capítulo apresenta as prescrições para ANN individuais e acopladas. Na
seção 3.1 são feitas algumas considerações sobre as técnicas de treinamento de ANN.
Prescrevemos então o método de síntese para sub-redes na seção 3.2, onde será
analisado o comportamento dinâmico do sistema e estabelecido procedimentos para
otimizar a recuperação de padrões com intuito de minimizar padrões de memórias indesejáveis. Segue então as prescrições para síntese de redes para o modelo acoplado
na seção 3.3, onde é feita uma discussão sobre os elementos que serão usados para
definir as matrizes de acoplamento, o uso de vetores Linearly Independent (LI) ou ortogonais como padrões de memória, a relação entre os fatores de realimentação intra
e inter-redes e o elemento de perturbação do sistema dinâmico, o bias field. Ao final,
na seção 3.4, apresenta-se alguns comentários e uma síntese do capítulo.
3.1 Considerações iniciais
O projeto de memórias associativas tem sido objeto de estudo nas últimas duas
décadas, e alguns métodos foram propostos. Estes métodos e técnicas foram revisados e sumarizados por alguns autores, donde citamos (YEN; MICHEL, 1991), (ZAK; LILLO;
HUI, 1996) e (MICHEL; FARRELL, 1990).
O primeiro deles é o método do produto externo (outer product method) (HOPFIELD, 1984). Este método, primeiro utilizado por Hopfield, foi motivado pela hipótese
de Hebb (HEBB, 1961). Segundo Hebb, quando dois padrões são excitados simultaneamente, há um aumento da força entre eles. Assim, para reforçar r vetores escolhidos como padrões, a matriz de pesos será definida por:
3.1 Considerações iniciais
39
W =
r
X
vi (vi )T ,
(3.1)
i=1
onde vi é o i-ésimo vetor coluna e (vi )T seu transposto.
Uma rede treinada pela equação (3.1), com r padrões de entrada, possui estruturas de conexões simétricas, uma capacidade de armazenamento de 0,15n padrões
arbitrários e capacidade de aprendizado. Porém, os padrões não estarão necessariamente localizados em pontos de equilíbrio da rede, ou seja, os padrões não serão
todos estáveis.
Na regra de projeção de aprendizado (projection learning rule), proposta por
Personnaz et. al. (PERSONNAZ; DREYFUS, 1986), a matriz N xN de pesos da rede
neural, denotada pela letra W , é uma projeção ortogonal do espaço vetorial RN em
um subespaço de dimensão r < N . Para realizar essa projeção, suponha V um
conjunto de r vetores LI tais que, V = {v1 , ..., vr }, define-se então
W = VV†,
(3.2)
onde V † é a pseudo-inversa de V , definida por:
V † = (V T V )−1 V T .
(3.3)
Esta regra de treinamento possibilita que todos os padrões armazenados sejam
pontos de equilíbrio estáveis da rede. Sua capacidade de armazenamento é de 0,5n
padrões e ainda possui capacidade de aprendizagem. No entanto a estrutura de interconexão é simétrica.
O método de auto-estrutura (eigenstructure method) considera a rede neural
como um sistema de equações diferenciais lineares ordinárias, cujo domínio está confinado no interior de um hipercubo de vértices unitários (LI; MICHEL; POROD, 1989). As
equações diferenciais que regem esse modelo são:
d
v = Wv + I ,
dt
(3.4)
onde v = {v1 , ..., vN }T ∈ RN , com −1 ≤ vi ≤ 1 e i = 1, ..., N ; W é uma matriz de pesos
simétrica N xN e; I = I1 , ..., IN T é um vetor constante real representando as entradas
3.1 Considerações iniciais
40
externas.
Usando uma base ortonormal de RN , gerada a partir da decomposição em valores
singulares da matriz dos padrões a serem armazenados como memórias da rede,
determina-se a matriz de pesos W , pelo método do produto externo, resultando assim
em uma matriz simétrica.
Através deste método, é possível armazenar com eficiência alguns padrões em
pontos de equilíbrio assintoticamente estáveis1 e ainda ter uma capacidade maior que
a ordem2 da rede. Como características ele possui uma estrutura simétrica nas suas
interconexões e não há previsão de capacidade de aprendizado.
Logo depois, Michel apresentou a Modificação para o método de auto-estrutura
(modified eigenstructure method) (MICHEL; FARRELL, 1990) (YEN; MICHEL, 1991). Usando a regra de projeção de aprendizado para definir a matriz de pesos W , permitiu que
a rede passasse a armazenar os padrões em pontos de equilíbrio assintoticamente
estáveis, não sendo necessário que se tenha uma estrutura de interconexão simétrica.
A rede ainda possui capacidade de aprendizado e permite o uso de técnicas de modelamento com funções de Lyapunov.
Além disso, cabe salientar que há uma redução da quantidade de padrões armazenados para 0,5n e não é possível garantir estados globais estáveis para interconexões assimétricas.
O presente trabalho propõe um método para o projeto de redes, também baseado
em auto-estrutura do espaço vetorial, tal como o método de autoestruta (MICHEL;
FARRELL, 1990), usando a decomposição de uma matriz, porém através de transfor-
mações de similaridade. Para tanto, será prescrito um método de síntese que trata das
matrizes de intra e inter-conexão das redes, usando para isso a técnica de mudança
de base de espaços vetoriais.
No capítulo anterior, mostrou-se que as equações de energia (2.6), (2.14), (2.21) e
(2.30), após calcular-se seus gradientes, podem ser estudadas através de sistemas de
equações diferenciais lineares de primeira ordem. Nos dois primeiros casos, equações
(2.8) e (2.18), de forma direta e nos dois últimos, equações (2.22) e (2.32), anulando o
f = W 0 , sua correspondente assimétrica. Portanto, as presbias field e considerando W
crições para a síntese das matrizes de peso das ANN pelo Spectral Decomposition
1
Um ponto de equilíbrio é dito assintoticamente estável se existir em torno de si uma região atratora,
na qual o sistema evolua de tal modo que se aproxime sempre e cada vez mais deste ponto.
2
Número de neurônios da rede.
3.2 ANN desacopladas
41
Method (SDM), serão feitas considerando o modelo de equação:
dx
= W x se x ∈ B ,
dt
(3.5)
onde B é o subconjunto aberto definido em (2.16). Deste modo, o estudo da evolução
de tais modelos se reduz ao estudo de um LDS homogêneo. A conexão entre eles
dar-se-á quando o estado atingir a fronteira da região ∂B.
3.2 ANN desacopladas
Para que se possa fazer a síntese das matrizes de peso de uma ANN desacoplada
pelo SDM, devemos iniciar com a equação diferencial ordinária de primeira ordem
(3.5). O comportamento dinâmico do sistema, regido por esta equação, no que diz
respeito a um dado vetor de estado inicial evoluir em uma direção do espaço vetorial,
depende dos autovalores associados aos vetores que compõem sua base (SCHEINERMAN, 1996). Dessa forma, a prescrição do método leva em consideração que:
• todo espaço n-dimensional pode ser finitamente gerado por n vetores LI que
determinam uma base;
• uma quantidade m de vetores LI menor que n determina um subespaço vetorial
de n, com dimensão m;
• uma quantidade de vetores maior que n forma necessariamente um conjunto
Linearly Dependent (LD);
• a todo autovalor positivo associado a um dos vetores LI que compõem a base,
corresponde uma região atratora do LDS, enquanto que autovalores negativos,
correspondem a regiões que repelem os estados do sistema dinâmico;
• para os padrões a serem reforçados, os autovalores não devem ser muito maiores
que a unidade, para que a saturação não ocorra demasiadamente rápido. Visto
que os modelos possuem domínio limitado 0 ≤ xi ≤ 1 ou −1 ≤ xi ≤ 1.
Suponha na equação (3.5) que W seja uma matriz diagonalizável e que D seja
sua forma diagonal, portanto, escrita na base de seus autovetores, então:
3.2 ANN desacopladas
42
P −1 W P = D ,
(3.6)
onde P é uma matriz quadrada de dimensão N xN composta pelos n autovetores de W
que determinam uma base do espaço vetorial V, P −1 é a matriz inversa de P e D é uma
matriz diagonal composta pelos autovalores de W . Dessa forma, propomos sintetizar
a matriz de pesos W , explorando a relação entre a base dos eixos coordenados e a
base dos autovetores, da seguinte forma:
W = P DP −1 ,
(3.7)
WP = PD .
(3.8)
ou
Para isso deve-se:
• escolher n vetores LI, em uma rede com n neurônios, para serem os candidatos
a memórias da rede e para compor uma base do espaço vetorial V;
• guardar esses n vetores para que possam ser usados nos algoritmos de aprendizagem e esquecimento quando necessário;
• reforçar os vetores pj de P , desejados como memórias para a rede, escolhendo
autovalores associados em D λjj > 1;
• inibir os vetores pk indesejados, escolhendo −1 < λkk < 0;
• Lembrar que para ambos os casos, λ não deve ser muito maior que 1, para
reforço, ou |λ| muito maior que 0, para inibição, para que não comprometa o
comportamento do LDS;
• Usar autovalores distintos e guardá-los para o caso de aprendizagem e esquecimento;
• Finalmente efetuar o produto proposto em (3.7) para determinar W .
3.2 ANN desacopladas
43
3.2.1 Comportamento dinâmico das redes treinadas pelo SDM
Com a equação (3.7) é possível prever e controlar o comportamento do sistema
através da escolha dos autovalores. Uma importante característica é que, quando
montamos a matriz de pesos W através desse processo, estamos sintetizando-a na
base dos autovetores e transformando-a para a base canônica. Ou seja, estamos
encontrando uma matriz que proporcione ao LDS na base dos autovetores, o mesmo
efeito que W na base canônica. Isto porque, sendo vm um autovetor não nulo, têm-se
W vm = λm vm
(3.9)
WP = PD ,
(3.10)
ou,
onde P é invertível e






P =





v11 v12 . . . v1n


v21 v22 . . . v2n 


.
. . . . . 
.

.
. . . . . 

.
. . . . . 

vn1 vn2 . . . vnn
(3.11)
D é composta pelos autovalores λjj relativos a vj ,






D=





λ11
0
0
. . .
λ22 . . .
.
.
. . .
.
.
. . .
.
.
. . .
0
0
. . .
0


0 


. 
.

. 

. 

λnn
(3.12)
Assim,
P −1 W P = D
(3.13)
3.2 ANN desacopladas
44
ou
W = P DP −1 .
(3.14)
Montando a equação de diferenças associada a (3.5), para analisarmos o comportamento do sistema discreto, teremos:
xk+1 = W xk ,
(3.15)
onde xk é o vetor de estado no tempo discreto k e xk+1 é próximo passo do sistema.
Computando, então, as iterações para k=1,2,3,...,q
x0
∆x1 = W x0
∆x2 = W x1 = W 2 x0
∆x3 = W x2 = W 3 x0
∆x4 = W x3 = W 4 x0
(3.16)
.
.
.
∆xq = W xq−1 = W q x0 ,
sendo
W q = P DP −1 P DP −1 P DP −1 ...P DP −1
(3.17)
W q = P Dq P −1 .
(3.18)
e P P −1 = I, então
Como D é a matriz diagonal de autovalores definida em (3.12), temos
3.2 ANN desacopladas
45






q
D =





λq11
0
0
. . .
0
λq22 . . .
0
.
.
. . .
.
.
.
. . .
.
.
.
. . .
.
0
0
. . . λnnq






.





(3.19)
Já que P é um conjunto formado por vetores LI, todo vetor nessa base pode ser
escrito como uma combinação linear dos vetores de P (4.12). Analisando as iterações
para W xk encontra-se
= c01 v1 + c02 v2 + ... + c0n vn
x0
∆x1 = W x0 = c01 W v1 + c02 W v2 + ... + c0n W vn
(3.20)
ou
∆x1 = c01 λ11 v1 + c02 λ22 v2 + ... + c0n λnn vn
∆x2 = W x1 = c01 .λ211 v1 + c02 λ222 v2 + ... + c0n λnnn vn
.
.
(3.21)
.
∆xq = c01 λq11 v1 + c02 λq22 v2 + ... + c0n λqnn vn .
De (3.21) observa-se que com um grande número de iterações, q → ∞, para λ > 1 o
autovetor associado tem sua direção cada vez mais reforçada, enquanto que no caso
−1 < λ < 0 a direção é cada vez mais suprimida.
Percebe-se que, com estas escolhas de autovalores, o comportamento de reforço
de autovetores é garantido para um grande número de iterações. Pode-se afirmar
também que a dimensão do autovalor determina a intensidade com que um valor inicial
é atraído para uma direção ou mesmo repelido desta. Como o ponto de saturação dos
neurônios é 0 e 1 ou -1 e 1, os autovalores escolhidos devem ser comparáveis à
unidade, para reforço, ou negativos e bem próximos de zero, para inibição. Assim, a
saturação não ocorre muito rapidamente e, com isso, o sistema produz as evoluções
suficientes para um bom comportamento do LDS. Portanto, uma escolha adequada
3.3 ANN acopladas
46
dos autovalores determinará a extensão das bacias de atração e a velocidade de
evolução do sistema.
3.3 ANN acopladas
O acoplamento entre redes tem sido objeto de estudo de alguns autores (GOMES;
BRAGA; BORGES, 2005b) (GOMES, 2005). Para realizar tal acoplamento, usou-se nestes
trabalhos o método do produto externo com o objetivo de sintetizar memórias de segundo nível. Uma memória de segundo nível consiste de um conjunto de padrões
(memórias de primeiro nível), um único para cada sub-rede. Ao serem acopladas as
sub-redes, deseja-se que sejam recuperadas as memórias de segundo nível. Portanto, deve ocorrer recuperação em conjuntos pré-definidos (multipletos) constituídos
de combinações de memórias de primeiro nível. Dessa forma, o número de memórias
de segundo nível depende exclusivamente do número de agrupamentos formados entre as memórias das sub-redes. O objetivo então passa a ser resgatar o máximo de
grupos de padrões desejados.
Baseado na proposta para sub-redes desacopladas (3.7), devemos estabelecer
um reforço dos padrões que serão associados, a fim de constituírem o grupo de
memórias de segundo nível. Para tanto, procede-se da seguinte forma:
• dispor os mesmos autovetores usados para compor a base das sub-redes, em
sub-matrizes, em uma matriz diagonal em blocos, deixando as demais submatrizes nulas (matriz 3.22);
• montar uma matriz diagonal, composta das sub-matrizes conservando seus autovalores, associados aos autovetores como no caso das sub-redes (matriz 3.23);
• acoplar, na matriz diagonal, os autovalores λii e λjj , dois a dois, associados aos
padrões que formarão o grupo das memórias de segundo nível, com um valor
αij = αji na matriz diagonal;
• o escalar α deve ser maior que 1 e seu quadrado menor que o produto dos
autovalores a serem reforçados, se os autovalores conectados são distintos. Se
1
os autovalores forem iguais, então 0 < α < ;
2
• encontrar a inversa de S e efetuar o produto (3.7).
3.3 ANN acopladas
47
Chamando de S a matriz em blocos cuja diagonal é composta pelas matrizes P
dos autovetores dos NG,

















S=

















v11 v12
. . . v1n
v21 v22
. . . v2n
.
.
. . .
.
.
.
. . .
.
0
vn1 vn1 . . . vnn
.
.
.
vh h
vh h+1
. . .
vh m
vh+1 h vh+1 h+1 . . . vh+1 m
0
.
.
. . .
.
.
.
. . .
.
.
.
. . .
.
vm h
vm h+1
. . .
vm m

































(3.22)
e
















Λ=















λ11






























.
.
0
.
λnn
.
.
.
λhh
0
.
.
.
(3.23)
λmm
a matriz diagonal dos autovalores dos NG, ordenados pelos blocos dos grupos na
matriz (3.22) associados a seus autovetores.
3.3 ANN acopladas
48
Em Λ, conecta-se os autovalores, associados às memórias de primeiro nível de NG
independentes, desejadas como memórias de segundo nível, através de escalares α.
No caso da matriz (3.23), são reforçados os padrões 1, do primeiro grupo, e h, do
h-ésimo grupo, com α1h = αh1 . Cabe salientar que os padrões são vetores coluna na
b
matriz (3.22). Assim, de Λ, obtém-se D















b =
D















λ11 . . .
.
.
.
.

. . . α1h
.















.














.
.
.
.
.
.
λnn
.
.
.
.
.
.
.
.
.
αh1 . . .
.
.
. . . λhh
.
.
.
(3.24)
λmm
Finalmente, basta efetuar o produto
f = S DS
b −1 .
W
(3.25)
A disposição das matrizes em blocos busca preservar, ao máximo, o comportamento individual dos grupos. Com ela, obtém-se como resultado do produto, uma maf que possui como blocos diagonais as mesmas matrizes dos grupos prescritas
triz W
em 3.2. As demais sub-matrizes serão as matrizes de correlação dos NG.
Destacando na matriz (3.24) o subespaço formado pelos autovalores e os elementos de reforço, obtém-se a seguinte sub-matriz:
Ã
A=
λ11 α1h
αh1 λhh
!
.
(3.26)
Para este subespaço cabe a análise de dois aspectos enumerados anteriormente:
o primeiro, se refere ao fato do elemento de correlação α ser maior que 1, para au-
3.3 ANN acopladas
49
1
, para conectar autovalores iguais, a fim de promover
2
reforço ao invés de inibição; e o outro, de um limite para esse parâmetro, quando
tovalores distintos, e 0 < α <
α > 1, para que não comprometa o comportamento do LDS.
3.3.1 Elemento de reforço das memórias de segundo nível
A idéia de se usar um elemento de correlação3 na matriz de autovalores vem do
fato de que todo sistema linear pode ser decomposto em sub-sistemas. Estes subsistemas por sua vez, através de manipulações adequadas, poderiam produzir no
sistema global o comportamento desejado.
Observando o subespaço determinado pela matriz (3.26) podemos explorar o comportamento da função de energia E associado a este subespaço f : R2 → R, E = −f
definida por
³
f (x1 , xh ) ≡
´
x1 xh
Ã
λ11 α1h
αh1 λhh
!Ã
x1
!
xh
(3.27)
= ξ T Aξ ,
sendo α um escalar qualquer diferente de zero e λ11 e λhh variáveis não nulas.
Diagonalizando4 A, observa-se que existem cinco possibilidades distintas para os
autovalores δ complexos: Se são reais puros e ambos positivos, f será um parabolóide
elíptico côncavo para cima, reforçando as direções associadas (Fig. 7); se reais e
ambos são negativos, o parabolóide elíptico será côncavo para baixo, inibindo as direções (Fig. 8); por último, se os valores de δ são reais e têm sinais opostos, temos
um parabolóide hiperbólico, reforçando uma direção e inibindo outra (Fig. 9).
Em nossas análises posteriores, mostraremos que o elemento de correlação α
1
deve ser maior que 1, para autovalores distintos, e 0 < α < , para autovalores iguais.
2
Deve também ser limitado, no primeiro caso, tendo seu quadrado menor que o produto
dos autovalores a serem reforçados. Tais condições se fazem necessárias para não
comprometer o comportamento do LDS.
Para verificar essa afirmação, calcula-se os autovalores de (3.26),
3
Usamos o termo ’correlação’ no sentido que os elementos α1h e αh1 mediam o produto entre as
variáveis independentes x1 e xn , em f .
4
Como α1h = αh1 a matriz 3.26 é simétrica. Toda matriz simétrica é diagonalizável.
3.3 ANN acopladas
50
Figura 7: Parabolóide elíptico que se abre para cima.
Figura 8: Parabolóide elíptico que se abre para baixo.
det (A − δ.I) =
(3.28)
3.3 ANN acopladas
51
Figura 9: Parabolóide hiperbólico.
Ã
det
λ11 − δ
α1h
αh1
λhh − δ
!
.
(3.29)
Suas raízes são:
√
λ11 + λhh + ∆
δ=
2
(3.30)
onde
2
∆ = (λ11 + λhh )2 − 4λ11 λhh + 4α1h
(3.31)
2
∆ = (λ11 − λhh )2 + 4α1h
.
(3.32)
ou,
Já que λ11 e λhh são reais, para que ∆ > 0 é suficiente que α1h = αh1 > 0.
Para incrementar os padrões desejados, devemos ter nesse espaço R2 xR um
parabolóide elíptico que se abre para cima. Para que isso ocorra, é condição necessária
e suficiente que os autovalores δ1 , δ2 > 0. Assim, deve-se ter
3.3 ANN acopladas
52
λ11 + λhh >
√
∆.
(3.33)
Resolvendo a inequação (3.33), obtém-se:
2
.
λ11 λhh > α1h
(3.34)
Ao se considerar o novo sistema de eixos coordenados formados pelos autovetores de A, teremos, em geral, uma transformação de coordenadas que envolve rotações dos eixos originais. Esse novo sistema provocará, em geral, uma rotação dos
eixos coordenados do sistema anterior. Para que essa rotação não comprometa a
direção do sistema original, escolhido de modo que os vetores da base indiquem atratores posicionados concomitantemente aos vértices do hipercubo, faz-se necessário
controlar a rotação dos autovetores do acoplamento.
Determinando os autovetores associados a esses autovalores temos:
Ã
λ11 − δ
α1h
α1h
λhh − δ
!Ã
x
e1
!
x
eh
= 0.
(3.35)
Resolvendo a equação para os autovetores, obtém-se:
√
λhh − λ11 + ∆
x
eh =
,
2α1h
x
e1 = 1 .
(3.36)
Analisando o ângulo de rotação θ do novo sistema de eixos em relação ao anterior,
tan θ =
Arbitrando uma rotação máxima de
x
eh
.
x
e1
(3.37)
π
rad, tem-se que −1 < tan θ < 1.
4
Como os valores de δ não podem ser ambos negativos, já que para construir
memórias de segundo nível, desejamos associar padrões treinados em primeiro nível,
λ11 e λhh são necessariamente ambos positivos (veja eq. 3.30), temos três hipóteses
possíveis para (3.37):
• (Hipótese 1) λ11 > λhh e α1h > 0
eh =
Caso a) Para x
√
λhh −λ11 − ∆
2α1h
< 0, temos, via (3.36) e (3.37),
√
λhh −λ11 − ∆
2α1h
> −1.
3.3 ANN acopladas
53
Resolvendo o sistema de inequações, com o uso de (3.32 e 3.33), obtémse: λ11 < λhh , o que contradiz a hipótese;
Caso b) Para x
eh =
√
λhh −λ11 + ∆
2α1h
> 0, temos
√
λhh −λ11 + ∆
2α1h
< 1. Resolvendo o sis-
tema, com o uso de (3.32 e 3.33), obtém-se: λ11 > λhh , (hipótese). A
direção se mantém próxima da antiga.
• (Hipótese 2) λhh > λ11 e α1h > 0
Caso a) Para x
eh =
√
λhh −λ11 + ∆
2α1h
> 0, temos
√
λhh −λ11 + ∆
2α1h
< 1 Resolvendo o sistema
de inequações, com o uso de (3.32 e 3.33), obtém-se: λhh < λ11 , o que
contradiz a hipótese;
Caso b) Para x
eh =
√
λhh −λ11 − ∆
2α1h
< 0, temos
√
λhh −λ11 − ∆
2α1h
> −1 Resolvendo o sis-
tema, com o uso de (3.32 e 3.33), obtém-se: λhh > λ11 , (hipótese). Também
mantém a direção próxima da antiga.
• (Hipótese 3) λhh = λ11 e α1h > 0
√
λhh −λ11 − ∆
2α1h
√
λhh −λ11 + ∆
=
2α1h
Caso a) Teremos x
eh =
Caso b) Para x
eh =
√
= 0, temos − ∆ > −1
√
0, temos ∆ < 1 Resolvendo a inequação,
com o uso de (3.32 e 3.33), obtém-se: 0 < α1h < 21 , condição do elemento
de reforço para que a direção se mantenha próxima da antiga.
Daí percebe-se que, com as condições propostas no projeto das redes, a rotação
π
máxima muda a direção do vetor em um ângulo menor que rad. O que ainda é
4
capaz de produzir uma saturação no padrão desejado, já que os autovalores δ no
novo sistema de eixos são positivos, tal como discutido entre (3.30) e (3.33).
3.3.2 Discussão sobre independência linear e ortogonalidade
A questão sobre o uso de vetores LI ou ortogonais tem conseqüências sobre o
desempenho do sistema. Tanto no modelo de redes desacopladas como no modelo
acoplado, a própria característica desses tipos de vetores influi no comportamento do
LDS. Sendo vetores LI, portanto, não são necessariamente ortogonais, haverá, em
geral, projeções não nulas de um certo vetor sobre os subespaços complementares.
No caso das sub-redes, como o sistema foi treinado tendo como referência os autovetores que apontavam exatamente para os vértices que formam a base do espaço
vetorial, o problema da independência linear ou ortogonalidade é menos crítico. Por
3.3 ANN acopladas
54
outro lado, na seção 3.3.1 foi sugerido, para o acoplamento entre as redes, que a correlação entre os padrões que formarão as memórias de segundo nível através de um
π
escalar, produza uma rotação máxima de rad. No entanto, sabe-se que:
4
cos θ =
v1 .v2
,
kv1 k.kv2 k
(3.38)
onde 0 < θ < π é o ângulo entre os vetores linearmente independestes v1 e v2 , v1 .v2
é seu produto escalar e kv1 k e kv2 k são suas normas euclideanas.
Como dois vetores distintos v1 e v2 , que participaram do treinamento do primeiro
nível, têm n componentes vj = ±1, teremos:
n−2
0 ≤ cos θ ≤ √ √ .
n. n
(3.39)
Sendo ortogonais, seu cosseno é nulo, caso contrário, o menor ângulo entre eles
ocorre quando os vértices de componentes unitárias do hipercubo são adjacentes.
Neste caso, o produto escalar é n − 2 para valores de dimensão n ≥ 2 e as normas
√
euclideanas são ambas iguais a n pela natureza de suas componentes. Isto leva a
seguinte situação:
0 ≤ cos θ ≤
n−2
2
=1− ,
n
n
(3.40)
que para valores de n cada vez maiores, ou seja, para um número maior de neurônios
na rede, ainda no caso de vetores adjacentes, θ se aproxima de zero. Observe que
para 4 neurônios, se os padrões forem escolhidos de forma aleatória, podemos ter
π
situações em que eles determinam um ângulo de rad. Para uma rotação próxima de
3
π
rad, no sistema de coordenadas, o sistema poderá se saturar em outro padrão que
4
não o desejado. Essa saturação em um padrão indesejado de uma das sub-redes,
ocasionará o surgimento de uma memória de segundo nível indesejada.
Esse problema pode ser resolvido de duas formas distintas:
• usando padrões ortogonais;
• ou ortogonalizando a base de autovetores do sistema.
Pode-se pensar que a escolha de padrões com ângulos maiores possa resolver
o problema. No entanto, por menor que seja a projeção de um vetor sobre outro, o
3.3 ANN acopladas
55
sistema poderá se saturar em um padrão indesejado. Por este motivo, optando pelo
uso de vetores LI, a base deve ser ortogonalizada. Assim é possível conseguir um bom
comportamento do sistema com boas possibilidades de recuperação das memórias de
segundo nível.
3.3.3 Ortogonalização de bases LI
O uso de bases LI5 para a síntese das matrizes de peso das redes pelo SDM, normalmente não produz resultados satisfatórios, pelos motivos citados na seção precedente. A influencia das projeções dos vetores sobre os outros provoca, em muitos
casos, a saturação em padrões indesejados. Para evitar esse efeito, pode-se usar o
método de ortogonalização de bases de Gram-Schmidt (LEON, 1980). Excluindo do
processo a normalização dos vetores coluna, desnecessária na dinâmica do sistema,
ele pode ser enunciado da seguinte forma:
Definição 1
Dada uma base P = {v1 , v2 , ..., vn ) do espaço vetorial V, munido de
produto interno, podemos a partir desta base, encontrar uma base ortogonal U =
{u1 , u2 , ..., un ) de V, na qual
i−1
X
vi .uk
ui = vi −
uk ,
u
k .uk
k=1
(3.41)
onde vi .uk é o produto interno euclideano do i-ésimo vetor da base V pelo k-ésimo
vetor determinado para a base U.
A fim de não alterar a prescrição do SDM para vetores LI, podemos definir uma
matriz ortogonalizante, T, para a base dos autovetores P, na equação (3.7), tal que:
PT = U
(3.42)
T −1 P −1 = U −1 .
(3.43)
e
5
Apesar da redundância do uso da expressão bases LI, já que toda base é formada por vetores
necessariamente LI, usamos esta expressão para diferenciar bases compostas por vetores ortogonais
das demais.
3.3 ANN acopladas
56
Assim, partindo de
b −1 ,
W = P DP
(3.44)
obtemos, por inserção da identidade I = T T −1 ,
b T −1 )P −1
W = P (T T −1 )D(T
(3.45)
b )(T −1 P −1 ) .
W = (P T )(T −1 DT
(3.46)
b
b −1 .
W = U DU
(3.47)
b
b = T −1 DT
D
(3.48)
ou,
Daí,
Assim,
b
b que, além de produzir a ortogonalização de P, ainda é capaz de
tem-se uma matriz D
reforçar os padrões desejados como memórias da rede através do presente método,
inibindo os demais vetores da base.
Há, porém, um problema de arbitrariedade no método de Gram-Schmidt que se
trata da escolha do vetor a partir do qual se inicia a ortogonalização. Isto pode ter a
conseqüência de que o k-ésimo vetor da base, ao ser ortogonalizado, saia da direção
da bacia de atração.
3.3.4 Definição dos Fatores de realimentação β e γ
Tanto no modelo BSB de Anderson et al. (1985), quanto em sua generalização,
o modelo GBSB, o fator de realimentação β é um parâmetro de ajuste que permite,
através de suas variações, determinar um melhor rendimento da rede. O mesmo
ocorre com o parâmetro γ, usado no modelo acoplado de Gomes (2005), na correlação
entre NG, ou seja, entre neurônios de sub-redes distintas.
3.3 ANN acopladas
57
As técnicas para se projetar redes neurais exibidas no capítulo 2 tinham como foco
apenas os padrões desejados como memória. Na presente proposta, a síntese da
matriz de pesos da rede procura, através de uma interpretação do comportamento do
sistema de equações diferenciais ao longo do espaço de estados do sistema, preparar
as matrizes de pesos sinápticos de forma mais direta, usando uma base do espaço
vetorial - a base dos autovetores - na qual o sistema se mostra simplificado.
O uso dos conceitos de álgebra linear, no comportamento dinâmico do sistema,
nos permitiu que todo o processo de prescrição do método de síntese de uma rede
pudesse ser representado como um sistema de equações diferenciais lineares de
primeira ordem (3.5). Vimos que, para que essa equação servisse de modelo para
nossa preparação, fazia-se necessário que considerássemos:
W 0 = βW
(3.49)
f = [Wij ] =
no modelo desacoplado e, no modelo acoplado, a matriz por blocos W
[(Wab )i0 j 0 ], onde a, b = 1, ..., R, para R sub-redes, é índice dos blocos; i0 , j 0 = 1, ..., M a ,
R
P
M a neurônios totais
neurônios na sub-rede a é o índice intra-bloco; e i, j = 1, ...,
a=1
na rede é o índice da matriz acoplada. Wab é, portanto, uma sub-matriz da matriz por
f . Assim, ela se organiza por blocos da seguinte forma
blocos W
f=
W




β a W ab
,a = b


 (γ ab + γ ab )[(W cor )ab + (W cor )ba ]
(3.50)
, a 6= b
ou
f=
W




b ab
H


 (H
b cor )ab
,a = b
(3.51)
, a 6= b .
A síntese das redes feita sob este ponto de vista, permite que os resultados obtidos pelas redes não dependam muito de ajustes usando o parâmetro β, já que estes
fatores foram absorvidos nos elementos das matrizes. O resultado do comportamento
dinâmico das redes foi estabelecido através de critérios matemáticos pouco flexíveis,
o que reduz de forma significativa a necessidade de ajustes.
3.3 ANN acopladas
58
Por sua vez, o parâmetro γ de correlação entre redes, apesar de ter sido treinado
sob o mesmo critério, não é um fator multiplicativo de uma simples mudança da base
dos autovetores para a base canônica, já que o escalar α foi acrescido na matriz dos
autovalores com conseqüência de superposição dos diversos fatores. Se isto não
tivesse sido feito, o argumento usado para justificar a pouca influência do fator β no
comportamento matemático do sistema também se aplicaria aqui. No entanto, sabese que a inclusão desse escalar α produz, em geral, rotações nos eixos do sistema. A
rotação, analisada na seção 3.3.1, não produz um desvio significativo da direção dos
padrões armazenados, mas pode-se, com um ajuste de γ, melhorar o desempenho
do sistema.
Além da necessidade de ajuste dos fatores de realimentação, o uso de ANN inspiradas em modelos biológicos, necessita de tais fatores, β e γ respectivamente, para
que representem a intensidade com que ocorre as sinapses de um neurônio com
neurônios do grupo a que pertence e a intensidade com que se correlaciona com
neurônios de outros grupos (GOMES; BRAGA; BORGES, 2005b).
Desta forma, para atender a essas necessidades, podemos definir o fator β de tal
maneira que respeite as proporções já treinadas e que consista em parâmetro para
controlar a ordem de grandeza com que os neurônios realizam suas sinapses. A
escolha desse parâmetro não pode afetar o comportamento global da rede. Assim,
deve-se defini-lo extraindo das matrizes de peso das sub-redes.
Analisando as sub-redes separadamente, a síntese proposta foi realizada para a
matriz [β a W aa ] e, o que importa em uma matriz de pesos é a intensidade relativa dos
seus elementos, podemos então redefinir
c aa .
β a W aa → W
(3.52)
c aa usando, por exemplo, a norma do supremo:
Por esse motivo, podemos normalizar W
c aa | ,
N a ≡ sup|W
(3.53)
que significa extrair a maior componente da matriz de pesos W aa em módulo. Assim,
1 c aa c
g
W ≡ W aa .
a
N
(3.54)
3.3 ANN acopladas
59
Daí, estabelecemos
g
aa = W aa
c
W
(3.55)
β = Na .
(3.56)
e, portanto,
Possíveis ajustes não são de todo descartados pois, na passagem do modelo
contínuo para o discreto, o fator de realimentação β incorpora em si, o passo temporal
discreto do sistema. Isto porquê, dado um sistema linear em tempo contínuo,
dx
e x + βf
e
= βW
dt
(3.57)
x(t + τ ) − x(t)
e x(t) + βf
e
= βW
τ
(3.58)
x[(k + 1)τ ] − x(kτ )
e x(kτ ) + βf
e .
= βW
τ
(3.59)
Passando para o modelo discreto,
x(k + 1) − x(k)
e x(k) + βf
e
= βW
τ
(3.60)
e W )x(k) + (βτ
e )f ,
x(k + 1) = (I + βτ
(3.61)
onde τ representa o passo do sistema discreto. Ocorre, em geral, a redefinição abaixo:
e →β.
βτ
(3.62)
Dessa forma, β pode ser redimensionado a fim de se evitar que a realimentação
do sistema faça com que x(k + 1) seja muito diferente de x(k), ou seja, que o sistema
dinâmico se sature muito rapidamente.
A partir de um valor para β, poderemos treinar as sub-redes e obter, através de
experimentos computacionais, um valor mais adequado para γ.
3.3 ANN acopladas
60
3.3.5 Translação do domínio do LDS
A incidência de padrões indesejáveis de memória, em uma rede neural, pode ser
minimizada com uma translação adequada do domínio das funções de energia. Para
determinar os parâmetros da translação, usamos o método dos multiplicadores de
Lagrange. Este método maximiza funções de várias variáveis sujeitas a uma ou mais
restrições (LANDAU, 1980).
Sejam E = E(x1 , x2 , ..., xn ) as funções de energia (2.6), (2.14), (2.21) e (2.30) de
várias variáveis e uma das faces do hipercubo, de equação G(x1 , x2 , ..., xn ) = 0. Desejamos obter o máximo da função de energia E ao longo da face G(x1 , x2 , ..., xn ) = 0.
Isto é, o máximo de E = E(x1 , x2 , ..., xn ) restrito a G(x1 , x2 , ..., xn ) = 0. No ponto
onde as superfícies de nível de E = E(x1 , x2 , ..., xn ) tangenciam as faces, a reta normal à superfície é também normal à face. Ou seja, Quando os vetores normais a
E(x1 , x2 , ..., xn ) e a G(x1 , x2 , ..., xn ) = 0 têm a mesma reta suporte (Fig. 10), temos
uma condição de extremo de E sujeita ao vínculo da fronteira do cubo ∂E|G=0 = 0,
Figura 10: Projeções em x1 x2 das normais à função de energia e à face do hipercubo.
então, a condição de colinearidade das retas normais às superfícies é
∇E = ξ∇G
(3.63)
3.3 ANN acopladas
61
para algum ξ ∈ R, ou ainda, por componentes





























∂E
∂x1
∂E
∂x2
∂G
= ξ ∂x
1
.
.
.
.
.
.
∂E
∂xn
∂G
= ξ ∂x
n
G(x1 , x2 , ..., xn )
= 0.
∂G
= ξ ∂x
2
(3.64)
São n equações para x1 , x2 , ..., xn e a equação de vínculo G(x1 , x2 , ..., xn ) = 0, compatível com o acréscimo de uma variável: ξ.
Definindo então a função
L(x1 , x2 , ..., xn , ξ) = E(x1 , x2 , ..., xn ) − ξ.G(x1 , x2 , ..., xn ) ,
(3.65)
observa-se que as condições de (3.64) serão satisfeitas quando

∂L


∂x1



∂L



∂x2





 .
.




.




∂L



∂xn


 ∂L
∂ξ
=0
=0
.
.
(3.66)
.
=0
= 0,
na qual ξ é denominado multiplicador de Lagrange.
Para a j-ésima face G = xj ± 1. Assim, a k-ésima equação é
∂L
∂E
∂G
=
+ξ
=0
∂xk
∂xk
∂xk
(3.67)
n
X
∂L
Wkj xj − ξδjk = 0
=−
∂xk
j=1
(3.68)
3.3 ANN acopladas
62
−
n
X
Wkj xj − ξδjk = 0
(3.69)
j=1
então,
W x = −ξb
ek ,
(3.70)
no qual b
ek é o k-ésimo vetor da base canônica do sistema, com k = 1, 2, ..., n. Como
∂L
= 0,
∂ξ
(3.71)
temos G = 0, ou xj = ±1.
Assim, depois de ter sido feita a síntese da matriz de pesos e, considerando o
sistema linear (3.5) que representa a generalização dos modelos de rede em estudo,
resolve-se o seguinte sistema linear
(
W x = −ξb
ek
xb
ek
= ±1 .
(3.72)
Cada solução deste sistema determinará um vetor na forma
< x1 , x2 , ..., xn , ξ > .
(3.73)
As n primeiras componentes do vetor (3.73) são as coordenadas do ponto de
máximo local da função, Rq =< x1 , x2 , ..., xn >, na q-ésima face do hipercubo, tangente
à função. A última componente, ξ, é o multiplicador de Lagrange. Cada face pode ter
somente um máximo local, pois o sistema linear permite uma, e somente uma, solução
por face e tem um número p de soluções distintas de até n vetores, já que nem toda
face deve ser tangente à função.
Após determinados todos os máximos locais da função, restritos às faces do hipercubo, podemos definir o vetor de translação do domínio da função de energia deslocando esses máximos para um dos vértices C oposto a um dos padrões armazenados como memória (Fig. 11). A necessidade da escolha desse vértice se deve às
características evolutivas do LDS, já que o autovalor na equação (3.7) reforça a direção e não o sentido do vetor, produzindo um padrão espúrio para cada memória
3.3 ANN acopladas
63
armazenada. Assim, chamando de t o vetor translação, temos:
p
X
t=
(Rq − C) .
(3.74)
q=1
Finalmente, a translação do domínio da função de espaço de estados do sistema
será obtida substituindo X(k), nas equações (2.2), (2.13), (2.19) e (2.28), por X(k) +
t. A partir desse deslocamento dos máximos teremos uma redução considerável de
possibilidades de incidência de mínimos locais de energia em pontos indesejáveis do
sistema.
Figura 11: Representação bidimensional da translação do domínio para um dos vértices.
3.3.6 Definição do bias field
O bias field tem, entre outros, o objetivo de adiantar ou de atrasar o disparo do
neurônio. Na rede GBSB, a antecipação ou atraso no disparo, associada ao fator
de realimentação β, ajuda a controlar a extensão das bacias de atração dos padrões
assintoticamente estáveis (ZAK; LILLO; HUI, 1996).
Pensando nisso, a definição de um valor para o bias field deve levar em conta, no
modelo das sub-redes GBSB, que:
3.3 ANN acopladas
64
E = −xT W x ,
(3.75)
onde W incorpora a constante multiplicativa β. Levando-se em conta a translação
vista na seção 3.3.5, podemos dizer que:
E = −(xT + tT )W (x + t) .
(3.76)
Efetuando o produto, obtém-se
E = −(xT W x + 2xT W t + tT W t) ,
(3.77)
onde t é o vetor de translação do sistema, prescrito em (3.74).
Extraindo o fator de realimentação β de 2W t, que age como elemento de reforço,
o bias field pode ser definido como:
ef = 2 W t ,
Na
(3.78)
onde N a é a norma do supremo da a-ésima rede.
Esta definição do bias field faz desse elemento muito mais que um simples fator
de perturbação do sistema como dito na seção 2.1. Ele passa a atuar como elemento
de reforço dos padrões armazenados melhorando o desempenho do LDS.
É evidente que o resultado da equação (3.78) pode gerar um vetor cujas componentes tenham valores absolutos maiores que 1. Como os neurônios com limiar
determinísticos saturam em -1, 0, ou 1, a dimensão dos parâmetros de ef estariam
inadequadas. Já que o principal papel do bias é privilegiar uma direção, para compensar este problema, pode-se definir um fator de compressão ψ que ajustaria a norma
euclideana de ef. Assim,
f = ψef .
(3.79)
Com este ajuste, torna-se possível encontrar um vetor com as mesmas características desejadas, porém com sua norma ajustada. Para tanto, sugere-se, a partir de
testes experimentais, que ψ seja tal que a componente de maior valor absoluto do
3.4 Considerações finais
65
vetor f seja menor que 0,5.
3.4 Considerações finais
O uso de um número de vetores igual ao número de neurônios da rede para compor a matriz P se deve à possibilidade de controle do sistema baseado nas teorias de
álgebra linear (DATTA, 1995). Percebe-se que o uso da pseudo-inversa para criação da
matriz de pesos, produz, em alguns casos, uma matriz que, se diagonalizável e escrita
em uma base que contenha os padrões armazenados, possui autovalores associados
a padrões indesejáveis com parte real positiva e maior que 1. Isso significa que: se o
autovalor é real puro e maior que 1, o vértice cuja direção é reforçada por ele passa
a ser um ponto de atração assintoticamente estável, formando assim um padrão espúrio. Se o autovalor é menor que -1 o comportamento passa a ser imprevisível, já que
o reforço da direção do vetor a ele associado sofre uma alteração constante de sentido no espaço de estados do sistema, dado ao fato do sinal negativo desse autovalor.
Com isso, o neurônio pode se saturar em qualquer um dos estados opostos nessa direção, dependendo do número de iterações. Finalmente, se o autovalor é complexo, a
análise é semelhante à anterior, levando-se em consideração a parte real do mesmo.
A parte imaginária determina somente que a trajetória do sistema é espiralada, em
direção ao ponto estável ou se afastando do ponto instável (BOYCE; DIPRIMA, 1994).
Li, Michel e Porod (1989) procuraram resolver este problema no método de autoestrutura, através da decomposição em valores singulares, alcançaram um aumento
considerável na capacidade da rede. Porém, a simetria nas interconexões tornouse a principal desvantagem para seu uso em problemas de modelagem do processo
cognitivo. Quando Michel e Farrell (1990) modificaram o método para conseguir uma
assimetria da matriz de pesos, eles reduziram consideravelmente a capacidade da
rede.
Em aplicações onde o acoplamento das redes artificiais representam os LM no
modelo biológico, um ganho importante proporcionado pelo presente método é que as
matrizes de correlação entre dois grupos são distintas. Ou seja, a intensidade da força
sináptica entre dois neurônios de grupos distintos é diferente, já que as sub-matrizes
Wij e Wji , na matriz (3.25), não são idênticas. Isto ocorre devido ao uso de elementos
de reforço na matriz diagonal dos autovalores. Desta forma, a mudança da base dos
autovetores para a base dos eixos coordenados, em (3.25), não proporciona simetria
3.4 Considerações finais
66
nem de elementos, nem de blocos.
Cabe salientar que, o uso de um subespaço bidimensional para determinar as
condições sob as quais se deve definir o elemento de acoplamento α, se mostraram
satisfatórias para presente trabalho. Já que no contexto biológico, é suficiente que
uma rede com n neurônios tenha uma capacidade de recuperação próxima de 0, 5n
memórias. Esses resultados foram alcançados e podem ser vistos no capitulo 5.
67
4
Aprendizagem e Esquecimento
Este capítulo apresenta as propostas de aprendizado e esquecimento para o método
de síntese proposto. Na seção 4.1 são feitas algumas considerações iniciais sobre
a capacidade de aprendizagem e esquecimento para uma ANN. Podemos pensar
na aprendizagem através da adição de novos padrões à rede já existente 4.1.1, ou
através da inserção de um ou mais neurônios a uma dada rede 4.1.2. Essa inserção
de neurônios pode ocorrer através do acoplamento de NG a LM 4.1.3.
No caso do esquecimento, serão propostas as formas de exclusão de padrões de
uma dada rede já existente 4.2.1, ou a eliminação de um ou mais neurônios dessa
rede 4.2.2, ou ainda, através do desacoplamento de NG de LM 4.2.3. Na seção 3.4
encerra-se o capítulo com as considerações finais.
4.1 Considerações iniciais
A capacidade de aprendizagem (learning) é uma importante propriedade das
redes neurais, em particular, das redes neurais para memórias associativas. Entendese como aprendizagem a habilidade de uma rede em adquirir um novo padrão de
memória sem que os anteriores sejam afetados (YEN; MICHEL, 1991). Estabelecer
novos padrões que possibilitem novas associações de memória para uma rede neural
já existente, evita a criação de uma nova rede a cada novo padrão desejado. Portanto,
faz-se necessário estabelecer um algoritmo que possibilite a inserção desses padrões
na rede de forma simples e precisa.
O esquecimento (forgetting) é entendido como a capacidade de se remover
padrões armazenados sem afetar a estabilidade dos demais (YEN; MICHEL, 1991). É
importante retirar padrões de uma rede, que não serão mais usados, a fim de se evitar
associações de memória indesejáveis.
4.1 Considerações iniciais
68
4.1.1 Aprendizagem por inserção de padrões
Normalmente, o que se deseja em um algoritmo de aprendizagem é que, através
dele, seja possível modificar somente as linhas e/ou colunas afetadas com o treinamento de um novo padrão. Quanto menor a quantidade de cálculos envolvidos melhor
o algoritmo. Isso permite que se gaste menos tempo, por exemplo, em treinamentos
de rede on-line. No entanto, desenvolver um processo de modificações de elementos
específicos em uma rede treinada pelo método proposto no presente trabalho, não é
possível. Já que todos os elementos da matriz de pesos W , em geral, sofrem influência direta de todos os elementos da inversa da matriz de autovetores P (ver eq. 3.7).
Através do algoritmo proposto para a criação da matriz de pesos em (3.7), poderemos
entender melhor o porquê dessa impossibilidade.
Sendo
W = P DP −1 ,
(4.1)
onde P = [vij ] uma matriz nxn, D = [λjj ] a matriz diagonal de autovalores e P −1 = [sji ]
a inversa de P. A equação W = [wij ] tem cada elemento da i-ésima linha na j-ésima
coluna definidos por:
wij =
n
X
vik λkk ski ,
(4.2)
k=1
O reforço de um padrão no treinamento depende da escolha de um autovalor de
módulo menor que 1 ou maior que 1. Como cada elemento de W sofre a influência
de todos os autovalores usados no método de síntese, não podemos, através de uma
operação de linhas e colunas específicas acrescentar um novo padrão à rede.
Este problema poderia ser resolvido utilizando vetores ortonormais no lugar de
vetores simplesmente LI. Como já foi dito, Li et. al. (LI; MICHEL; POROD, 1989) fizeram uma proposta de treinamento, em seu método de auto-estrutura, que consiste
no uso de vetores ortonormais. Esses vetores possibilitam, na equação (3.7), que a
inversa seja igual a transposta. Obter uma matriz inversa igual à transposta, permite
que os elementos sofram influência específica de apenas alguns elementos da matriz de autovetores S de acordo com a equação (4.2). O problema de se utilizar este
procedimento é o de se determinar uma matriz de pesos simétrica, o que é pouco re-
4.1 Considerações iniciais
69
alístico para fins de correlação biológica. Pensando nisso, a proposta de aprendizado
feita no presente trabalho exige recalcular as matrizes de pesos das redes neurais
desacopladas, ou seja, dos NG.
Admitindo-se que através deste método a capacidade máxima de uma rede com
n neurônios seja de n padrões, as prescrições para o aprendizado em uma dada rede
são:
• Utilizar os mesmos n vetores LI que compunham a base do seu espaço vetorial;
• Reforçar os vetores desejados como novas memórias para a rede substituindo
seus autovalores −1 < λ < 0 por λ > 1 para cada um deles;
• Finalmente efetuar o produto proposto em (3.7) para determinar a nova W.
Utilizar os mesmos autovalores e autovetores usados para a criação da matriz
de pesos, possibilita uma escolha melhor dos padrões a serem usados como novas
memórias. Um dos novos atratores pode ter uma capacidade de recuperação maior
ou menor que os anteriores, através do controle das bacias de atração, dimensionadas pelos autovalores usados. Por exemplo, aqueles padrões com maior autovalor
possuem uma bacia de atração maior que os demais.
O maior problema em não armazenar os dados que deram origem à matriz de pesos é que, a determinação dos vetores originais da base, dependem dos autovalores
utilizados e vice-versa. Dessa forma, não tendo nem os autovalores, nem os autovetores, é necessário utilizar um programa que proporcione a diagonalização para
fornecê-los. Isto poderia ser feito utilizando algum algoritmo apropriado. No entanto,
em geral, os algoritmos fornecem autovetores cuja direção é reforçada pelos autovalores associados. Isso implica que os vetores fornecidos por este algoritmo podem ser
os mesmos que foram usados na criação da matriz de pesos, ou seus simétricos. Fica,
então, a cargo do usuário desfazer a normalização e refazer a translação para a nova
direção, a fim de evitar padrões espúrios. No entanto, se os autovalores utilizados
para reforço ou inibição não são distintos, a diagonalização pode levar a um conjunto
de padrões completamente diferentes dos anteriores, dependendo do número de autovalores iguais. Cabe salientar que, quanto maior o número de autovalores iguais,
maior a distorção em relação a base escolhida anteriormente. Por isso, apesar de determinar bacias de atração diferentes, sugerimos que os autovalores escolhidos sejam
distintos.
4.1 Considerações iniciais
70
No caso do aprendizado realizado por NG acoplados, as restrições do método
ainda se aplicam. Por exemplo, no caso de se desejar incluir uma nova memória
de segundo nível, ou seja, um novo conjunto de vetores, um de cada NG acoplado,
deve-se recalcular novamente todas as matrizes de acoplamento, já que todas são
influenciadas pelas inversas das matrizes de autovetores dos sub-grupos (eq. 4.2).
No entanto, como temos a matriz diagonal em blocos (3.22) igual a

ab


 S
S =


 0
a=b
(4.3)
a 6= b ,
onde S aa são os blocos diagonais dos autovetores que formam a base do a-ésimo NG;

ab


 Λ
D =
Γ =
,a = b
(4.4)


 0
, a 6= b ,



 0
a=b


 Γab ,
(4.5)
a 6= b ,
e = D + Γab
D
(4.6)
formada pelos blocos Λaa , das matrizes diagonais de autovalores do a-ésimo NG, e
Γab , composto pelos escalares α, que conectam os autovalores do a-ésimo grupo com
os autovalores do b-ésimo NG, usados para reforço dos autovetores desejados como
padrões de memórias de segundo nível; e

ab −1


 (S )
S
−1
=



a=b
(4.7)
0
a 6= b ,
cujos blocos diagonais são as inversas dos blocos S aa . Como
f = S DS
e −1 ,
W
(4.8)
4.1 Considerações iniciais
71
f = S(D + Γ)S −1 ,
W
(4.9)
f = SΛaa S −1 + SΓab S −1 .
W
(4.10)
que equivale a
O primeiro produto de (4.10) corresponde a uma matriz diagonal em blocos, na
f aa = S aa Λaa (S −1 )aa , do a-ésimo NG, não modificada
qual cada bloco tem a forma W
com o processo de aprendizado. O segundo produto é formado pelas matrizes de
f ab , tais que:
correlação entre o a-ésimo e o b-ésimo NG, W
f ab = S aa Γab (S bb )−1 , a 6= b.
W
(4.11)
Portanto, para que seja incluída uma nova memória de segundo nível, é necessário
treinar novamente as matrizes de correlação de acordo com (4.11). Lembrando que
o reforço através dos escalares deve acontecer na linha i e coluna j dos autovalores
associados aos autovetores a serem reforçados.
4.1.2 Aprendizagem através de inserção de neurônios
Inserir um novo neurônio em uma rede tem respaldo biológico já que, no cérebro,
os neurônios realizam sinapses que mudam constantemente com o tempo (EDELMAN,
1992). Em outras palavras, um neurônio pode estar conectado a um conjunto de
neurônios numa dada época e, posteriormente, se conectar a outros.
Para que se possa analisar a inclusão de um novo neurônio em um NG, devese considerar que o método sugerido no presente trabalho parte de uma base LI de
vetores que geram o espaço vetorial em estudo. Dessa forma, cabe então verificar se
a inserção de um ou mais neurônios na rede possibilita a criação de novos padrões LI
sem que os anteriores sejam afetados e, ainda, se a esse novo sistema é passível do
mesmo método de síntese proposto neste trabalho.
Inicialmente, vamos verificar que a inserção de novos neurônios pode ser feita sem
afetar o comportamento anterior do grupo.
Seja V = {v1 , v2 , ..., vn } um conjunto de padrões constituídos por vetores LI que
4.1 Considerações iniciais
72
compõem a base de um espaço vetorial associado a um conjunto de n neurônios.
Consideremos um conjunto {kj : j = 1, ..., n} de constantes reais e façamos uma
combinação linear, igualando a zero
k1 v1 + k2 v2 + ... + kn vn = 0
(4.12)


k1 v11 + k2 v21 +...+ kn vn1 = 0





k1 v12 + k2 v22 +...+ kn vn1 = 0




 .
.
.
.

.
.
.
.






.
.
.
.




k1 v1n + k2 v2n +...+ kn vnn = 0 .
(4.13)
ou,
Como o conjunto V é LI, o sistema tem como única solução
k1 = k2 = ... = kn = 0 .
(4.14)
Inserindo mais µ neurônios nesta rede, os vetores terão um aumento de um número
µ ≥ 1 em suas componentes. Assim, o sistema (4.13) ficará então:


k1 v11






k1 v12





.






.





.


k1 v1n




k1 v1n+1





.






.





.




 kv
1 1n+µ
+
k2 v21
+...+
kn vn1
=
0
+
k2 v22
+...+
kn vn1
=
0
+
.
.
.
.
.
.
.
.
.
k2 v2n
+...+
kn vnn
=
0
+ k2 v2n+1 +...+ kn vnn+1 =
0
.
.
.
.
.
.
.
.
.
(4.15)
+ k2 v2n+µ +...+ kn vnn+µ = 0 .
Como esse sistema linear é "sobredeterminado”1 e homogêneo, ele é "consis1
Um sistema com mais equações que incógnitas é chamado sobredeterminado. Ver (ANTON H. E HOR2001) p.195
RES,
4.1 Considerações iniciais
73
tente”2 . Logo possui pelo menos a solução trivial. Por outro lado, os vetores linha da
matriz estão no espaço Rn e os vetores-coluna estão no espaço Rn+µ , como o posto
de uma matriz é, no máximo, a dimensão do espaço do menor dimensionalidade, para
a matriz de coeficientes desse sistema linear, o posto é no máximo n. Como o sistema
foi formado a partir de n vetores LI, o posto da matriz é exatamente n. Daí concluímos
que a única solução para (4.15) é a solução trivial, ou seja, os novos vetores coluna
são necessariamente LI.
Por fim, a entrada de um ou mais neurônios em um NG implica na possibilidade
de se inserir novos padrões. Como o conjunto de vetores V ficou com os mesmos
n vetores, porém com mais componentes, a dimensão de V é (n + µ)x(n), onde µ
é um natural maior ou igual a 1. Isso faz de V um subespaço vetorial de uma base
(n+µ)x(n+µ). Como toda base de Rn+µ é formada por n+µ vetores LI e esta já possui
n vetores com essa condição, podemos ainda encontrar mais µ vetores LI para compor
a base desse espaço. O procedimento é equivalente à adição de um subespaço de
dimensão µ.
Com isso, conclui-se que a inclusão de novos vetores possibilita uma aquisição
de aprendizado para a rede com manutenção dos padrões anteriores, além de se
poder usar o SDM, já que os vetores são LI, possibilitando a recomposição do espaço
vetorial.
4.1.3 Aprendizagem através de inserção de NG
Como já foi dito, as sinapses são instáveis, o que possibilita que neurônios de um
grupo se conectem a outros de outros grupos no modelo biológico. Essa instabilidade
permite também que neurônios pertencentes a NG distintos realizem novas sinapses,
formando assim outros LM. Dessa forma, no estudo do aprendizado, faz-se necessário
determinar uma forma de se incluir um novo padrão às memórias de segundo nível,
através da inserção de uma sub-rede às redes existentes.
Esse estudo baseia-se na criação de novas matrizes em blocos usando equação
(4.11). Observe que, por esta equação, a inclusão de novas sub-redes dependente
da base e dos autovalores das demais. Portanto, para incluir um dos vetores do novo
grupo aos padrões que formam as memórias de segundo nível da rede, é necessário:
2
Um sistema é dito consistente se possuir pelo menos uma solução. Ver (ANTON H. E HORRES, 2001)
p.28
4.2 Esquecimento ( forgetting)
74
• utilizar a mesma matriz aumentada de autovetores de cada rede, ou NG,
denominada S em (3.22);
• acrescentar os novos vetores que compõem a base do espaço vetorial da nova
rede a S;
• acoplar os vetores que representam memórias de primeiro nível da nova rede, e
que se deseja incluir às memórias já existentes, formando assim o novo segundo
nível. Lembrando que esse acoplamento deve ser feito através de um escalar α
que obedeça as mesmas condições descritas na seção 3.3;
fij que realizarão o
• e efetuar o produto (4.11), para determinar as matrizes W
acoplamento com as sub-redes existentes.
4.2 Esquecimento (forgetting)
Pelos mesmos motivos citados para o aprendizado, nessa proposta de síntese
para as matrizes de pesos, o esquecimento também implica em trocar autovalores a
fim de se inibir padrões que antes eram reforçados. Essa troca, como foi demonstrado
através da equação (4.2), não pode ser feita sem afetar todos os elementos de uma
mesma rede.
Portanto, a proposta de esquecimento é um algoritmo que modifica todos os elementos da rede em questão. Também, como foi proposto na aprendizagem quando as
redes estão acopladas, o esquecimento de uma memória de segundo nível modificará
somente as matrizes que estejam relacionadas com os padrões a serem esquecidos.
4.2.1 Eliminando parâmetros da rede
Como o esquecimento de um padrão em uma rede implica em refazer o cálculo
da matriz de pesos, as prescrições para o esquecimento, obedecerão os mesmos
critérios utilizados para o aprendizado:
• Utilizar os mesmos n vetores LI que compunham a base do seu espaço vetorial;
• inibir os vetores indesejados como memórias para a rede, ou seja, transformar as
memórias a serem esquecidas em pontos de instabilidade do LDS, substituindo
seus autovalores λ > 1 por −1 < λ < 0 para cada um deles;
4.2 Esquecimento ( forgetting)
75
• Finalmente efetuar o produto proposto em (3.7) para determinar W.
Mais uma vez, cabe salientar que, armazenar os dados que deram origem à matriz
de pesos é de grande importância para o algoritmo de esquecimento. Como esse
procedimento necessita dos autovalores e autovetores a eles associados, não tê-los
armazenado previamente no script do programa, levará o programador aos problemas
citados na seção 4.1.1.
Quando as redes neurais estão acopladas, o esquecimento de uma ou mais
memórias de segundo nível implica em recalcular novamente as sub-matrizes que
estabelecem o acoplamento das redes. Este cálculo deve ser feito apenas para as
sub-matrizes de correlação, isto porquê, os sub-grupos não são afetados internamente
com o acoplamento, como mostra a equação (4.10). Então, para proporcionar o esquecimento de um grupo de padrões definidos como memórias de segundo nível,
anula-se o elemento de correlação nas matrizes Γij na equação (4.11). Como já foi
dito, o elemento de correlação está na linha e coluna dos autovalores associados aos
autovetores reforçados. Basta observar na matriz (3.24) que os elementos não correlacionados são nulos.
4.2.2 Esquecimento por retirada de neurônios da rede
Se um neurônio pode realizar sinapses com neurônios de NG diferentes do seu,
acrescentando assim a possibilidade de inserção de um novo padrão à rede, ele pode
também se desligar diminuindo assim a capacidade de armazenamento dessa rede.
A exclusão de um ou mais neurônios do grupo implica em uma nova síntese da
matriz de pesos. Para que essa síntese seja efetuada de acordo com a proposta
de mudança de bases, é necessário verificar se a retirada de k neurônios da rede
possibilita a obtenção de um subespaço vetorial (n − k)x(n − k) LI contido nos padrões
do espaço vetorial nxn.
Mostrar isso exige o princípio da indução finita (ou matemática)3 . Na equação
de prescrição de W , (3.7), a condição de independência linear dos padrões a serem
armazenados implica na invertibilidade da matriz P. Sabe-se que uma matriz P é invertível se, e somente se, det P 6= 0. Assim, vamos supor que posto(P ) ≥ n − k, isto
é, os vetores linha/coluna de P formam uma base de um subespaço tendo associado
3
Mais detalhes sobre o método podem ser encontrados em (STEWART, 2002), p.79.
4.2 Esquecimento ( forgetting)
76
a ele um conjunto de vetores LI, ou seja, devemos mostrar que sempre vai existir pelo
menos um subconjunto de vetores, base de Rn , cujo determinante é diferente de zero.
Para k = 1, ou seja, suprimindo um neurônio, e expandindo P em cofatores, o
determinante de P é definido como:
det P = p11 .P11 + p12 .P12 + ... + p1 n−1 .P1 n−1 ,
(4.16)
onde p1j é o j-ésimo elemento da primeira linha de P e P1j é o seu respectivo cofator.
Este por sua vez é definido como
P1j = p1j (−1)1+j M1j ,
(4.17)
onde M1j é o determinante da sub-matriz (n − 1)x(n − 1), suprimindo a primeira linha
e a j-ésima coluna. Como det P 6= 0 e os elementos p1j são componentes dos autovetores iguais a ±1, então pelo menos uma das sub-matrizes M1j deve ser diferente de
zero. Daí concluímos que, retirando um neurônio da rede, pelo menos um subespaço
(n − 1)x(n − 1) será composto de vetores LI.
Admitindo-se que, retirando k neurônio da rede, pelo menos um subespaço
(n − k)x(n − k), com 1 < k < n, seja LI (hipótese da indução), provaremos que
essa afirmação é verdadeira para [n − (k + 1)]x[n − (k + 1)], para todo (k + 1) ≤ n.
00
Chamemos de M1j
todos os determinantes das sub-matrizes obtidas suprimindo a
primeira linha e a j- ésima coluna de cada um dos subespaços vetoriais [n−(k+1)]x[n−
(k + 1)]. No entanto, pelo menos um desses subespaços vetoriais foi determinado a
partir de um espaço LI. Assim, pelo menos um dos determinantes é não nulo. Com
isso, de todos os subespaços vetoriais (n−k)x(n−k), pelo menos um será LI (hipótese
da indução).
Concluindo, podemos afirmar que retirando um número k de neurônios da rede,
ainda será possível encontrar um subespaço vetorial entre as componentes originais
que possibilite a aplicação do método para recalcular a matriz de pesos.
4.2.3 Desacoplando redes
Inspirados no comportamento dos neurônios no cérebro humano, segundo Edelman, os NG, através de um processo seletivo natural de fortalecimento ou enfraque-
4.3 Considerações finais
77
cimento das sinapses, podem acoplar-se ou desligar-se de outros grupos (EDELMAN,
1987). Pensando no esquecimento como uma forma de desacoplamento de NG, isto
também poderá ser feito através do Spectral Decomposition Method.
O desacoplamento de sub-redes pelo presente método é feito simplesmente eliminando a sub-rede a ser desacoplada e as sub-matrizes que correlacionam esta subrede com as demais. Não há a necessidade de se recalcular os elementos da matriz.
Para verificar essa afirmação, basta observar na equação (4.11) que as matrizes Γab
são definidas através do produto da sub-matriz S aa , base da a-ésima sub-rede a ser
desacoplada, pela sub-matriz (S bb )−1 , inversa da b-ésima base da sub-rede correlacionada com a anterior. Assim, como o processo não afeta as demais sub-matrizes
da rede, não há a necessidade de um novo processo de síntese.
4.3 Considerações finais
O que normalmente se deseja em um processo de aprendizagem e esquecimento
para uma rede neural, é o uso de um algoritmo que possibilite inserir ou retirar padrões
sem a necessidade de se recalcular as matrizes. Apesar de ser necessário recalcular
somente as sub-matrizes que estão diretamente ligadas no modelo acoplado, ainda
assim a mudança de todos os elementos da sub-matriz é inevitável. Esta poderia ser
uma limitação para a presente proposta. No entanto, sob o contexto para o qual ela
foi elaborada, a rede é preparada para resgatar memórias preestabelecidas, sem que
haja a necessidade modificação do comportamento de uma rede já preparada. Desta
forma, havendo desejando-se inserir ou retirar padrões à rede, o esforço computacional não torna a proposta de síntese inviável.
A proposta de esquecimento pode parecer matemática e computacionalmente
mais simples que a aprendizagem. Porém, em ambos os casos, a modificação de
todos os elementos das matrizes de pesos é um fato. Ou seja, o esforço para se
adicionar ou retirar padrões da rede é o mesmo.
78
5
Experimentos computacionais e
análise dos resultados
Neste capítulo são apresentados, na seção 5.1, os critérios adotados para os experimentos realizados. Na seção 5.2, apresenta-se uma seqüencia de experimentos
utilizando bases ortogonais e suas respectivas análises de acordo com o estudo feito
nos capítulos anteriores e com as prescrições do SDM. Os mesmos experimentos são
então repetidos para uma base LI na seção 5.3. Em ambas situações, os resultados
foram comparados com aqueles obtidos utilizando o método de treinamento proposto
para redes acopladas em (GOMES, 2005). O capítulo é encerrado na seção 5.4 com
as considerações finais, baseadas nos resultados obtidos pelos testes.
5.1 Considerações iniciais
A capacidade de convergência do sistema consiste no cálculo do percentual de
memórias de segundo nível recuperadas. Para cada grupo de padrões que compõem
as memórias de segundo nível, foi calculado com que freqüência a rede convergiu
para algum destes padrões, consistindo na recuperação de tais memórias. Por exemplo: para um sistema composto por 4 sub-redes acopladas, onde cada memória de
segundo nível é composta por 4 padrões de primeiro nível, um de cada sub-rede,
verificou-se o percentual de conjuntos recuperados com 1, 2, 3 ou quatro destes
padrões. Ou seja, foi determinado o percentual de padrões integrais recuperados,
com 4 memórias de primeiro nível, e o percentual de parte destes padrões recuperados, com 1, 2 ou 3 memórias de primeiro nível.
Essa capacidade foi medida através do método de treinamento proposto nesta
dissertação, considerando 3, 4 e 5 sub-redes GBSB acopladas como mostrado na
Figura (6), para o caso de 3 sub-redes. Os resultados foram então comparados com
as mesmas sub-redes treinadas pelo método proposto por Lillo et al. (1994), para as
5.1 Considerações iniciais
79
memórias de primeiro nível, e pelo método do produto externo, para segundo nível.
Esta proposta de treinamento para dois níveis hierárquicos de acoplamento, inspirada no trabalho de Edelman (1987), pode ser encontrada em (GOMES, 2005). Foi
Calculada, então, a densidade percentual de acoplamento entre os grupos em cada
caso. Isto significa dizer que foi determinado o percentual de neurônios que realizavam
sinapses com neurônios de outros grupos.
Em nossas simulações, cada sub-rede foi projetada com 12 neurônios. Como cada
neurônio satura em ±1, tem-se um total de 4096 (212 ) padrões distintos possíveis.
Destes, no máximo 12 foram passíveis de ser selecionados como memórias, ou seja,
o número de padrões selecionados não ultrapassa o número de neurônio da subrede. Foram, então, selecionados 4, 8 e 12 padrões para serem armazenados como
memórias de primeiro nível. Estes conjuntos de padrões selecionados foram escolhidos aleatoriamente, considerando vetores ortogonais ou LI. Entre todos os conjuntos
de memórias de primeiro nível, sendo uma de cada sub-rede, foram selecionados alguns destes conjuntos para constituir as memórias de segundo nível. O número de
padrões, ou memórias, de segundo nível, escolhidos entre as memórias de primeiro
nível, pode ser visto na Tabela (1).
Padrões passíveis
Memórias de
Padrões passíveis de segundo nível para
Memórias de
de primeiro nível
primeiro nível
3, 4 e 5 sub-redes, respectivamente
segundo nível
12
4
64, 256 e 1.024
2e4
12
8
512, 4.096 e 32.768
2, 4 e 8
12
12
1.728, 20.736 e 165.888
2, 4, 8 e 12
Tabela 1: Números de padrões de primeiro e segundo níveis testados
Em cada teste, uma das sub-redes é escolhida aleatoriamente e é inicializada no
tempo k = 0 em um dos padrões de primeiro nível, também aleatoriamente, escolhido entre aqueles que correspondem a alguma memória de segundo nível. As outras
sub-redes, por sua vez, foram inicializadas em uma das 4096 possíveis combinações,
também, de forma aleatória. Em cada teste, foram realizadas 100 inicializações distintas para cada valor de γ, variando-o de um décimo, no intervalo fechado de zero a
8. O total de recuperações, transformado em percentual, foi plotado em um gráfico ou
dele se extraiu o seu máximo, para fins de comparação.
Nos experimentos o valor de β foi calculado conforme definido na seção 3.3.4, o
1
passo do sistema discreto foi definido como τ = , para que o valor de beta permitisse
4
o bom comportamento do LDS, ou seja, para que sua evolução seja lenta e não sature
rapidamente, evitando, assim, o resgate de um padrão indesejado. O vetor de bias
5.2 Experimentos usando base ortogonal
80
field foi escolhido para incrementar o reforço dos padrões desejados como memória e
1
seu fator de correção foi estimado em ψ =
, conforme discutido na seção (3.3.6).
200
5.2 Experimentos usando base ortogonal
Inicialmente, foi escolhida uma base ortogonal de autovetores para os sistemas de
primeiro nível:
vT1 = [
1
1
1
1
-1
-1
1
1
-1
-1
1
1
]
vT2 = [
-1
1
1
-1 -1
1
1
1
1
1
-1
1
]
vT3 = [
-1
1
1
-1
1
-1
-1
1
-1
-1
-1
-1
]
vT4 = [
-1
1
-1
1
1
-1
1
-1
-1
1
-1
1
]
vT5 = [
1
1
-1
-1
1
-1
-1
1
1
1
1
1
]
vT6 = [
1
-1
1
-1
-1 -1
-1
-1
-1
1
-1
1
]
vT7 = [
1
1
-1
1
-1
1
-1
1
-1
1
-1
-1
]
vT8 = [
-1
-1 -1
-1
-1
-1
1
1
-1
1
1
-1
]
vT9 = [
1
-1
-1
-1
1
1
1
1
-1
-1
-1
1
]
vT10 = [
1
1
-1
-1
-1
-1
1
-1
1
-1
-1
-1
]
vT11 = [
-1
1
-1
-1 -1
1
-1
-1
-1
-1
1
1
]
vT12 = [
-1
-1 -1
1
-1
-1
1
1
-1
-1
1
]
-1
(5.1)
Destes, foram sorteados 4 padrões para compor as memórias de primeiro nível,
v3 , v4 , v7 e v10 , que foram reforçados usando autovalores λ iguais a λ(3,3) = 2, 1 ,
5.2 Experimentos usando base ortogonal
81
λ(4,4) = 2, 2 , λ(7,7) = 2, 3 e λ(10,10) = 2, 4 , na matriz






D=





λ11
0
0
. . .
λ22 . . .
.
.
. . .
.
.
. . .
.
.
. . .
0
0
. . .
0


0 


. 
.

. 

. 

λnn
(5.2)
Os demais vetores foram inibidos com autovalores λ(i,i) = −0, 1 associados a eles.
Efetuou-se o produto da equação (5.3) para determinar a matriz de pesos das
sub-redes:
W = P DP −1 .
(5.3)
Através da norma do supremo, definida na equação (3.53), e aplicando o passo
1
do sistema τ = , o valor de beta calculado para esta sub-rede foi β = 0, 175.
4
Escolhendo como vetor C o vetor oposto ao padrão v4 , teremos:














C=













1


−1 


1 

−1 


−1 


1 


−1 

1 


1 


−1 

1 

−1
(5.4)
Desprezando o Multiplicador de Lagrange, que não influi diretamente na escolha
do vetor de translação, este vetor calculado para a matriz (5.3), a partir da equação
(3.74) e utilizando o vetor (5.4), é:
5.2 Experimentos usando base ortogonal
82














t=













−8, 5


−8, 5 


8, 5 

−22, 5 


−15, 5 


−8, 5 


−8, 5 

−8, 5 


15, 5 


−15, 5 

15, 5 

22, 5
(5.5)
e o vetor bias field para esta sub-rede, dado pela equação (3.78) e ajustado pelo fator
1
de correção ψ =
, dado na seção 5.1, é:
200














f=













−0, 2717


0, 0517 


0, 2033 

−0, 0283 


−0, 0283 


0, 1233 
.

−0, 0283 

−0, 083 


0, 3550 


−0, 0283 

0, 2033 

0, 1233
(5.6)
Feito isto, foram acopladas 3 sub-redes com características idênticas a esta e foi
escolhido, aleatoriamente, 2 padrões como memórias de segundo nível. Ou seja, compondo com o vetor v4 da primeira sub-rede, tem-se os vetores v3 da segunda e v10 da
terceira, formando assim a primeira memória de segundo nível, VT1 = {vT4 , vT3 , vT10 }. Já
a segunda memoria de segundo nível, VT2 = {vT3 , vT7 , vT7 }, foi composta pelos vetores
v3 da primeira, v7 da segunda e v7 da terceira, também sorteados aleatoriamente.
Ficando assim:
5.2 Experimentos usando base ortogonal
83
Conjuntos de memórias de segundo nível
v4 , v3 , v10
v3 , v7 , v7
Tabela 2: Memórias de segundo nível para acoplamento de três sub-redes.
Essas memórias de segundo nível foram reforçadas usando α = 2 como elemento
de acoplamento na matriz

λ11

α1h


.



.


.



λnn



.


D=
.


.


 αh1
λhh



.


.



.
















.














(5.7)
λmm
Provocando uma variação do fator de realimentação inter-redes, γ, de zero a 8, de
1 em 1 décimo, e realizando 100 inicializações em padrões aleatórios para o sistema1 ,
obteve-se o seguinte resultado para 50% de acoplamento2 , onde o total de recuperações foi transformado em percentual e a legenda especifica o número de padrões de
primeiro nível que compõem as memórias de segundo nível3 :
1
Cabe salientar que cada uma delas terá um padrão de primeiro nível, pertencente a uma memória
de segundo nível, e os demais, das outras sub-redes, em padrões não pertencentes a mesma memória.
2
Fração de neurônios que se permite fazer sinapses com neurônios de outras sub-redes.
3
Neste teste é possível verificar se a rede recupera parte das memórias de segundo nível, ou seja, se
dentre os três padrões de primeiro nível que compõem estas memórias, a rede não recuperou nenhum
deles, se recuperou um ou dois deles.
5.2 Experimentos usando base ortogonal
84
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.175
40
Acoplamento= 0.50
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 12: Convergência para uma densidade de acoplamento inter-redes de 50%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 4 memórias de
primeiro nível e 2 de segundo nível.
Pela Figura 12 é possível observar que o percentual de padrões de segundo nível
recuperados é bem alto para uma larga faixa de valores de gama, chegando a 99%
para gama igual a 3,9.
Como esse método tem a característica de treinar a rede para a saturação nos
padrões que compõem as memórias de segundo nível, através de critérios matemáticos bem rigorosos, a recuperação parcial destas memórias é rara. Pode-se, assim,
perceber que a recuperação de 1, ou 2 padrões de primeiro nível, que compõem estas memórias de segundo nível, praticamente não ocorre. Em outras palavras, a rede
consegue associar corretamente as 3 memórias de primeiro nível para produzir (recuperar) a memórias de segundo nível na quase totalidade dos casos.
Com o objetivo de validar o método proposto no presente trabalho, usaremos o
método de treinamento para redes hierarquicamente acopladas proposto por Gomes
(2005). No referido trabalho, Gomes propõe para treinamento das memórias de primeiro
nível, projetadas por sub-redes GBSB, o método proposto por Lillo et al. (1994) e para
as matrizes de correlação entre grupos, o método do produto externo, descrito pela
equação (3.1).
Desta forma, a matriz de pesos para as sub-redes GBSB pode ser calculada por
(LILLO et al., 1994):
5.2 Experimentos usando base ortogonal
85
Wa = (Da Va − Fa )(Va )† + Λa (In − Va (Va )† ) ,
onde Da é uma matriz RN
∈ {−1, 1}N
a ×S
a ×N a
(5.8)
£
¤
fortemente dominante diagonal, Va = v1 , v2 , . . . , vS
, são os padrões armazenados, (Va )† é a pseudo-inversa de Va , Fa =
[f, f, . . . , f] ∈ RN
a ×S
são os vetores de bias f repetidos S vezes, IN é uma matriz identia ×N a
dade N a × N a e Λa ∈ RN
.
Os padrões escolhidos para compor as memórias de primeiro nível são:
vT1 = [
1
1
1
1
-1
-1
1
1
-1
-1
1
1
]
vT2 = [
-1 1
1
-1
-1
1
1
1
1
1
-1
1
]
vT3 = [
-1 1
1
-1
1
-1
-1
1
-1
-1
-1
-1
]
vT4 = [
-1 1
-1
1
1
-1
1
-1
-1
1
-1
1
].
(5.9)
Para a matriz Da o único critério definido é que seja fortemente dominante diagonal
(ver eq. 2.17). Levando-se em conta este fato, criamos a seguinte matriz:






a
D =





4, 5
−0, 1
0, 3
0, 5
0, 3
0, 0
−0, 7
6, 2
−0, 1
0, 1
−0, 3
0, 6
−0, 5
0, 5
4, 7
0, 0
0, 5
−0, 5
−0, 4
0, 0
−0, 5
4, 3
0, 1
0, 7
−0, 5
−0, 4
−0, 5
0, 5
5, 3
−0, 3
0, 2
0, 3
0, 3
0, 2
0, 3
4, 8
−0, 3
0, 5
−0, 3
0, 5
0, 1
−0, 5
−0, 7
0, 1
0, 2
−0, 3
0, 1
0, 1
−0, 4
0, 5
−0, 7
0, 2
0, 4
−0, 7
−0, 3
0, 0
−0, 1
0, 2
0, 2
−0, 2
−0, 3
−0, 5
0, 2
0, 0
0, 2
−0, 3
−0, 7
−0, 4
0, 6
0, 7
−0, 4
−0, 6
−0, 3
0, 1
0, 7
−0, 2
−0, 7
−0, 1
0, 2
−0, 7
0, 3
0, 6
5, 1
0, 4
0, 4
0, 4
−0, 2
−0, 2
−0, 1
0, 4
−0, 1
5, 3
0, 7
−0, 3
0, 1
−0, 7
−0, 7
0, 3
0, 5
−0, 2
0, 3
−0, 5
0, 0
−0, 1
4, 8
−0, 1
−0, 1
−0, 7
0, 4
−0, 2
0, 3
−0, 3
0, 2
−0, 7
−0, 2
0, 1
0, 4
4, 3
−0, 7
−0, 5
0, 1
0, 5
−0, 2
−0, 2
0, 4
0, 6
−0, 1
0, 4
−0, 1
0, 3
4, 2
0, 1
0, 6
0, 0
0, 5
0, 1
0, 7
−0, 5
−0, 4
−0, 7
0, 0
−0, 4
−0, 3
5, 2






.





(5.10)
As componentes do vetor Fa devem ser selecionadas obedecendo o seguinte sistema de inequações:
d(i,a)(i,a)
Np
X
¯
¯ ¯
¯
¯d(i,a)(j,b) ¯ + ¯f(i,a) ¯ ,
<
i = 1, . . . , Np
(5.11)
j=1,j6=i
e
f=
Ns
X
²(i,a) v(i,a) , ²i > 0, i = 1, . . . , Np .
i=1,j6=i
Procedendo desta forma, obtemos um vetor Fa igual a:
(5.12)
5.2 Experimentos usando base ortogonal
86














a
F =













−3, 5


5, 2 


2, 2 

−0, 6 


0, 8 


−2, 5 
.

2, 1 

2, 2 


−2, 5 


0, 5 

−3, 5 

2, 1
(5.13)
Já para a matriz Λa , as componentes do vetor Λa foram selecionadas de tal forma
que:
λ(i,a)(i,a)
Np
X
¯
¯ ¯
¯
¯λ(i,a)(j,b) ¯ − ¯f(i,a) ¯ ,
<−
i = 1, . . . , Np .
(5.14)
j=1,j6=i
Assim, Λa será escolhida como:






a
D =





−22, 1
0, 4
−1, 0
0, 9
−0, 2
0, 5
0, 7
1, 1
0, 2
−1, 0
−0, 6
1, 1
1, 0
−21, 0
−1, 2
−1, 2
0, 9
0, 4
1, 0
−0, 4
0, 2
0, 4
0, 2
1, 0
−0, 6
0, 9
−15, 0
−0, 9
0, 0
1, 2
0, 9
0, 4
0, 5
−0, 3
−1, 1
0, 3
−0, 6
−0, 8
0, 9
−6, 6
0, 8
0, 1
−0, 3
−0, 3
0, 0
−0, 9
0, 2
−0, 6
0, 9
−0, 8
1, 1
−0, 2
−8, 3
−0, 2
0, 3
0, 3
0, 7
0, 2
0, 5
0, 9
−0, 7
1, 2
−0, 6
1, 0
−0, 1
−14, 1
0, 6
0, 5
0, 0
0, 8
1, 1
0, 0
0, 8
−0, 2
−0, 8
0, 6
−0, 1
0, 3
−11, 5
−0, 3
−0, 8
0, 4
0, 6
0, 6
1, 0
−0, 4
0, 9
0, 5
−0, 2
0, 6
1, 0
−14, 3
0, 5
1, 2
0, 6
−0, 2
−0, 7
−0, 5
−0, 7
−0, 4
1, 0
−0, 3
0, 2
0, 4
−14, 9
1, 2
−0, 2
1, 2
−0, 7
−0, 3
0, 4
−0, 9
−1, 2
−1, 2
0, 3
0, 8
0, 8
−8, 9
0, 3
−1, 1
−1, 1
−0, 3
1, 2
−0, 9
−0, 5
−0, 2
−0, 6
−0, 3
0, 5
−0, 3
−21, 0
0, 1
−1, 1
0, 2
0, 4
−0, 8
−1, 1
0, 6
0, 1
−0, 2
0, 0
0, 1
−1, 0
−13, 9






 . (5.15)





Foi realizado então o cálculo da matriz de pesos Wa conforme a equação (5.8).
Foram, então, acopladas 3 sub-redes, como no experimento anterior, com características idênticas ao caso anterior. Escolheu-se, aleatoriamente, 2 padrões como
memórias de segundo nível. Ou seja, compondo com o vetor v1 da primeira sub-rede,
tem-se os vetores v3 da segunda e v1 da terceira, formando assim a primeira memória
5.2 Experimentos usando base ortogonal
87
de segundo nível. A segunda memoria foi composta pelos vetores v2 da primeira, v1
da segunda e v3 da última, também sorteados aleatoriamente (ver Tabela 3).
Conjuntos de memórias de segundo nível
v1 , v3 , v1
v2 , v1 , v3
Tabela 3: Memórias de segundo nível para acoplamento de três sub-redes.
Estes padrões foram treinados usando a regra do produto externo, de acordo com
a equação (3.1). Como exemplo, a matriz de correlação entre os duas primeiras subredes é definida como:
cor
T
T
Wcor
12 = W21 = v1 v3 + v2 v1 .
(5.16)
Procedendo desta forma, o percentual de convergência da rede obtido pode ser
observado na Figura (13) onde os valores de γ variam no intervalo de zero a 8, como
nos experimentos anteriores, e foram realizadas 100 inicializações aleatórias para o
sistema, como descrito na seção 5.1, com 50% de acoplamento.
Da Figura 13, é possível observar que os resultados obtidos pelos dois métodos
são praticamente idênticos.
Numa segunda fase de experimentos, ainda com vetores ortogonais, associamos
todas as 4 memórias de primeiro nível, formando assim 4 memórias de segundo nível.
Realizamos os testes sob as mesmas condições descritas para o experimento anterior
e obtivemos os resultados apresentados nas Figuras (14) e (15) para o SDM e o
método de Gomes, respectivamente.
Estes dois resultados mostram a eficácia do SDM, Figura (14), quando o número
de memórias de segundo nível aumenta. Com uma densidade de acoplamento menor,
58%, obteve-se uma recuperação máxima de 96% dos padrões, enquanto que, para
71% dos neurônios conectados a neurônios de outras sub-redes, o segundo método,
Figura (15), obteve uma recuperação máxima de 57%. O desempenho da rede caiu
quase pela metade no segundo método.
5.2 Experimentos usando base ortogonal
88
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.300
Acoplamento= 0.50
40
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 13: Convergência para uma densidade de acoplamento inter-redes de 50%,
sendo 4 memórias de primeiro nível e 2 de segundo nível (pelo método proposto por
Gomes (2005)).
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
40
Beta = 0.175
30
Acoplamento= 0.58
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 14: Convergência para uma densidade de acoplamento inter-redes de 58%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 4 memórias de
primeiro nível e 4 de segundo nível.
5.2 Experimentos usando base ortogonal
89
Padrões Globais
90
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
80
% de recuperação
70
60
50
40
Beta= 0.300
30
Acoplamento= 0.71
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 15: Convergência para uma densidade de acoplamento inter-redes de 71%,
sendo 4 memórias de primeiro nível e 4 de segundo nível (pelo método proposto por
Gomes (2005)).
Aumentando agora o número de padrões de primeiro nível para 8 e, destes, determinando 2, 4 e 8 memórias de segundo nível para cada um dos métodos descritos.
Observamos os seguintes resultados:
1o teste: 8 memórias de primeiro nível com 2 selecionadas para segundo nível.
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.325
40
Acoplamento= 0.50
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 16: Convergência para uma densidade de acoplamento inter-redes de 50%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 8 memórias de
primeiro nível e 2 de segundo nível.
5.2 Experimentos usando base ortogonal
90
É possível observar que o percentual de recuperação é praticamente idêntico para
os dois casos, Figuras (16 e 17), e ainda, foi verificada a mesma densidade de acoplamento.
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.300
40
Acoplamento= 0.50
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 17: Convergência para uma densidade de acoplamento inter-redes de 50%,
sendo 8 memórias de primeiro nível e 2 de segundo nível (pelo método proposto por
Gomes (2005)).
2o teste: 8 memórias de primeiro nível com 4 selecionadas para segundo nível.
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
40
Beta= 0.325
30
Acoplamento= 0.64
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 18: Convergência para uma densidade de acoplamento inter-redes de 64%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 8 memórias de
primeiro nível e 4 de segundo nível.
As duas redes foram sintetizadas com uma densidade de acoplamento de 64%,
5.2 Experimentos usando base ortogonal
91
no entanto, o desempenho das redes treinadas pelo SDM, Figura (18), chegou a um
percentual de recuperação de 95% em relação a 84% no segundo treinamento, Figura
(19).
Padrões Globais
100
90
80
% de recuperação
70
60
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
Beta= 0.300
50
Acoplamento= 0.64
40
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 19: Convergência para uma densidade de acoplamento inter-redes de 64%,
sendo 8 memórias de primeiro nível e 4 de segundo nível (pelo método proposto por
Gomes (2005)).
3o teste: 8 memórias de primeiro nível com 8 selecionadas para segundo nível.
Padrões Globais
80
Beta= 0.325
Acoplamento= 0.69
70
% de recuperação
60
50
40
30
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 20: Convergência para uma densidade de acoplamento inter-redes de 69%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 8 memórias de
primeiro nível e 8 de segundo nível.
5.2 Experimentos usando base ortogonal
92
No segundo método, Figura (21), o aumento do número de padrões de memórias
de segundo nível produz uma queda muito grande do percentual de recuperação da
rede, necessitando também de uma densidade de acoplamento cada vez maior. No
SDM, Figura (20), também há uma queda do desempenho das redes, mas o percentual de recuperação é significativamente maior que no segundo caso.
Finalmente, aumentando o número de padrões para 12, dimensão das sub-redes,
foram feitos testes para 2, 4, 8 e 12 memórias de segundo nível.
4o teste: 12 memórias de primeiro nível com 2 selecionadas para segundo nível.
É possível observar que o comportamento das ANN, para 2 padrões de segundo
nível, acopladas não é significativamente influenciado quando aumenta-se o número
de memórias de primeiro nível, em ambos os treinamentos, Figuras (22 e 23).
5o teste: 12 memórias de primeiro nível com 4 selecionadas para segundo nível.
A Figura (24) mostra a tendência de estabilidade de recuperação do modelo,
dobrando-se o número de padrões de segundo nível, quando a rede é sintetizada
pelo SDM.
O ligeiro aumento na capacidade de convergência na Figura (25) em relação ao
mesmo número de padrões de segundo nível para 8 memórias de primeiro nível, na
Figura (19) se deve a aleatoriedade de escolha dos padrões de primeiro nível. Como
eles participam diretamente na montagem da matriz de pesos, os resultados de uma
mesma rede com o mesmo número de padrões distintos pode ser completamente
diferente.
5.2 Experimentos usando base ortogonal
93
Padrões Globais
100
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
90
80
% de recuperação
70
Beta= 0.300
60
Acoplamento= 0.76
50
40
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 21: Convergência para uma densidade de acoplamento inter-redes de 76%,
sendo 8 memórias de primeiro nível e 8 de segundo nível (pelo método proposto por
Gomes (2005)).
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.500
40
Acoplamento= 0.50
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 22: Convergência para uma densidade de acoplamento inter-redes de 50%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 12 memórias de
primeiro nível e 2 de segundo nível.
5.2 Experimentos usando base ortogonal
94
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.300
40
Acoplamento= 0.50
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 23: Convergência para uma densidade de acoplamento inter-redes de 50%,
sendo 12 memórias de primeiro nível e 2 de segundo nível (pelo método proposto por
Gomes (2005)).
Padrões Globais
100
90
80
% de recuperação
70
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
60
50
Beta= 0.500
40
Acoplamento= 0.64
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 24: Convergência para uma densidade de acoplamento inter-redes de 64%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 12 memórias de
primeiro nível e 4 de segundo nível.
6o teste: 12 memórias de primeiro nível com 8 selecionadas para segundo nível.
5.2 Experimentos usando base ortogonal
95
Padrões Globais
100
90
80
% de recuperação
70
60
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
50
40
30
20
Beta= 0.300
Acoplamento= 0.64
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 25: Convergência para uma densidade de acoplamento inter-redes de 64%,
sendo 12 memórias de primeiro nível e 4 de segundo nível (pelo método proposto por
Gomes (2005)).
Padrões Globais
100
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
90
80
% de recuperação
70
60
50
40
30
Beta= 0.500
Acoplamento= 0.73
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 26: Convergência para uma densidade de acoplamento inter-redes de 73%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 12 memórias de
primeiro nível e 8 de segundo nível.
Como havia sido dito antes, o número de padrões de primeiro nível influi pouco
na capacidade de recuperação de memórias de segundo nível. Porém, continua evidente que a capacidade de recuperação do método SDM, Figura (26), é maior que no
segundo caso, Figura (27).
5.2 Experimentos usando base ortogonal
96
Padrões Globais
100
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
90
80
% de recuperação
70
60
50
Beta= 0.300
40
Acoplamento= 0.73
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 27: Convergência para uma densidade de acoplamento inter-redes de 73%,
sendo 12 memórias de primeiro nível e 8 de segundo nível (pelo método proposto por
Gomes (2005)).
7o teste: 12 memórias de primeiro nível com 12 selecionadas para segundo nível.
Padrões Globais
100
90
80
% de recuperação
70
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
60
50
Beta= 0.500
40
Acoplamento= 0.56
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 28: Convergência para uma densidade de acoplamento inter-redes de 64%
com 12 vetores ortogonais compondo a base das sub-redes, sendo 12 memórias de
primeiro nível e 12 de segundo nível.
Por estes resultados, Figuras (28 e 29), fica evidente que o desempenho das redes cai de forma significativa a medida que se aumenta cada vez mais o número de
padrões de segundo nível.
5.2 Experimentos usando base ortogonal
97
Padrões Globais
100
90
80
% de recuperação
70
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
60
50
40
Beta= 0.300
Acoplamento= 0.77
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 29: Convergência para uma densidade de acoplamento inter-redes de 64%,
sendo 12 memórias de primeiro nível e 12 de segundo nível (pelo método proposto
por Gomes (2005)).
Sintetizando o desempenho das redes, em recuperação de memórias de segundo
nível, apresentam-se as Tabelas (4), relativa ao SDM, e (5), para o método proposto
por Gomes (2005). Nelas, é possível comparar o desempenho máximo atingido para
diferentes números de padrões de primeiro e segundo níveis, verificar o percentual de
acoplamento e o valor de γ no qual as redes atingiram seu melhor desempenho.
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
5,2
100
4
2
58
3,0
96
4
4
50
7,3
99
8
2
64
3,3
95
8
4
69
3,0
63
8
8
50
3,7
99
12
2
64
3,9
94
12
4
73
6,1
67
12
8
56
6,1
29
12
12
Tabela 4: Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo SDM.
5.2 Experimentos usando base ortogonal
Densidade
de
γ
acoplamento (%)
98
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
1,4
100
4
2
71
1,0
57
4
4
50
2,2
100
8
2
64
1,3
84
8
4
76
1,5
33
8
8
50
1,6
96
12
2
64
7,9
90
12
4
73
7,0
38
12
8
77
3,3
10
12
12
Tabela 5: Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo método
proposto por Gomes (2005).
Os testes de desempenho do método dependem também de um aumento do
número de sub-redes. Assim, apresentamos os mesmos testes realizados anteriormente para 4 e 5 sub-redes acopladas. Em ambos os casos, obedecemos os mesmos
critérios dos testes anteriores e os resultados obtidos são apresentados nas Tabelas
(6), (7), (8) e (9).
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
1,5
93
4
2
58
2,8
77
4
4
50
2,7
93
8
2
64
6,8
79
8
4
71
3,9
53
8
8
50
2,6
96
12
2
64
3,2
78
12
4
73
5,4
56
12
8
55
1,8
32
12
12
Tabela 6: Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo SDM.
O aumento para 4 sub-redes acopladas reduz sensivelmente o percentual de recuperação do sistema. Cabe salientar que a capacidade de recuperação, quando as
redes são treinadas pelo SDM (Fig. 6), se mostra mais satisfatório quando o número
de padrões de segundo nível aumenta. Para um número menor de padrões, os resultados foram melhores no segundo método (7).
5.2 Experimentos usando base ortogonal
Densidade
de
γ
acoplamento (%)
99
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
0,9
98
4
2
67
1,1
67
4
4
50
0,8
99
8
2
64
0,8
93
8
4
75
0,6
19
8
8
50
7,7
95
12
2
60
1,2
68
12
4
74
6,9
29
12
8
79
3,1
5
12
12
Tabela 7: Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo método
proposto por Gomes (2005).
Pelas Tabelas (8) e (9) é possível perceber que o comportamento de 5 sub-redes
acopladas, treinadas pelos dois métodos, mantém as mesmas características dos casos anteriores, para 3 e 4 sub-redes conectadas, respectivamente. Os resultados
obtidos com o SDM foram melhores também para um aumento do número de padrões
de segundo nível.
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
3,5
91
4
2
58
5,9
64
4
4
50
6,8
92
8
2
63
4,0
68
8
4
69
2,5
43
8
8
50
3,5
89
12
2
63
5,0
66
12
4
72
8,0
43
12
8
56
4,7
25
12
12
Tabela 8: Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo SDM.
5.3 Experimentos usando base LI
Densidade
de
γ
acoplamento (%)
100
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
0,5
97
4
2
66
1,3
67
4
4
50
0,6
100
8
2
64
0,9
71
8
4
72
0,8
39
8
8
50
7,9
89
12
2
63
4,1
54
12
4
72
3,6
28
12
8
78
2,1
11
12
12
Tabela 9: Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo método
proposto por Gomes (2005).
5.3 Experimentos usando base LI
Apesar de todo espaço vetorial possuir uma base ortogonal, nem sempre é possível encontrar uma que possua todas as componentes dos vetores ortogonais unitárias.
Assim, é importante verificar os resultados do método proposto para vetores LI.
Passando então aos testes com vetores LI, pretendemos mostrar a necessidade
do processo de ortogonalização da base utilizada. Para isso, apresentaremos dois
testes, um sem ortogonalizar a base do espaço vetorial (Figura 30) e outro com a
base ortogonalizada (Figura 31). Em ambos os casos, o método utilizado é o SDM
realizado sob os mesmos critérios dos testes para vetores ortogonais. Cabe salientar
que não serão descritos novamente os processos, já que a única mudança nos testes
atuais é a base, que de ortogonal passou a ser LI.
Quando as sub-redes são inicializadas em uma base LI sem que seja realizado o
processo de ortogonalização, com 97% de acoplamento e γ = 4, 1, o percentual de
recuperação da rede chega a 79% (ver Fig. 30). Ortogonalizando, a densidade de
acoplamento aumenta para 100%, mas com γ = 6, 7, o percentual de recuperação
máximo da rede é de 94% (ver Fig. 31). Por este motivo, optamos pela ortogonalização da base. Estes dois resultados podem ser comparados com a mesma rede
treinada pelo método proposto por Gomes na Figura (32).
5.3 Experimentos usando base LI
101
Padrões Globais
80
70
% de recuperação
60
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
50
40
30
20
Beta= 0.072
Acoplamento= 0.97
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 30: Convergência para uma densidade de acoplamento inter-redes de 50%
com 12 vetores LI compondo a base das sub-redes, sendo 4 memórias de primeiro
nível e 2 de segundo nível, sem ortogonalizar a base.
Padrões Globais
100
90
80
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
% de recuperação
70
60
50
Beta= 0.049
40
Acoplamento= 1.00
30
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 31: Convergência para uma densidade de acoplamento inter-redes de 50%
com 12 vetores LI compondo a base das sub-redes, sendo 4 memórias de primeiro
nível e 2 de segundo nível, com base ortogonalizada.
5.3 Experimentos usando base LI
102
Padrões Globais
100
90
80
% de recuperação
70
Nenhum padrão de primeiro nível
1 padrão de primeiro nível
2 padrões de primeiro nível
3 padrões de primeiro nível
60
50
40
Beta= 0.300
30
Acoplamento= 0.50
20
10
0
0
1
2
3
4
gama
5
6
7
8
Figura 32: Convergência para uma densidade de acoplamento inter-redes de 50%,
sendo 4 memórias LI de primeiro nível e 2 de segundo nível no método proposto por
Gomes (2005).
As Tabelas (10) e (11) sintetizam os resultados obtidos pelas redes treinadas pelos
dois métodos. A partir delas é possível estabelecer uma comparação dos resultados
obtidos.
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
100
6,7
94
4
2
99
6,4
80
4
4
100
1,9
60
8
2
100
1,1
33
8
4
100
1,7
8
8
8
100
1,3
22
12
2
99
2,5
26
12
4
100
3,4
8
12
8
100
5,6
5
12
12
Tabela 10: Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo SDM
com vetores LI.
5.3 Experimentos usando base LI
Densidade
de
γ
acoplamento (%)
103
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
50
3,2
89
4
2
66
4,6
24
4
4
46
4,1
90
8
2
63
7,7
76
8
4
73
4,6
15
8
8
46
4,5
86
12
2
60
5,5
34
12
4
69
1,8
12
12
8
82
0,5
2
12
12
Tabela 11: Tabela de desempenho para 3 sub-redes acopladas, treinadas pelo método
proposto por Gomes (2005) para vetores LI.
Comparando as duas Tabelas, (4) e (10), pode-se perceber que, mesmo com a
técnica de ortogonalização da base, a capacidade de recuperação da rede treinada
pelo SDM é menor que quando se usa padrões ortogonais como base para o LDS. A
medida que aumenta-se o número de memórias de primeiro nível, o resultado piora
consideravelmente.
O método proposto por Gomes, apresentado na Tabela (11), se mantém estável
para padrões LI, quando comparado aos resultados obtidos para vetores ortogonais
(ver Tabela 5). No entanto, para verificar se este fato é uma tendência de ambos os
métodos, realizamos os testes com 4 e 5 sub-redes acopladas.
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
98
4,5
89
4
2
99
3,9
67
4
4
96
1,8
6
8
2
100
-
-
8
4
100
4,1
4
8
8
100
-
-
12
2
100
-
-
12
4
100
-
-
12
8
100
-
-
12
12
Tabela 12: Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo SDM
com vetores LI.
A Tabela (12) mostra que para padrões LI, o aumento do número de sub-redes
5.3 Experimentos usando base LI
104
é outro fator que reduz a capacidade de recuperação da rede. Percebe-se que o
aumento no número de sub-redes desestabiliza por completo o LDS quando treinado
pelo SDM.
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
51
1,6
90
4
2
59
3,9
49
4
4
50
3,1
86
8
2
64
5,9
39
8
4
75
1,2
3
8
8
55
3,7
89
12
2
61
6,4
61
12
4
73
5,4
7
12
8
80
-
-
12
12
Tabela 13: Tabela de desempenho para 4 sub-redes acopladas, treinadas pelo método
proposto por Gomes (2005) para vetores LI.
Já para 4 sub-redes acopladas, treinadas pelo método proposto por Gomes, os
resultados mantém as mesmas tendências dos vetores ortogonais, há uma redução
da capacidade de recuperação da rede para um aumento das memórias de segundo
nível, porém os resultados ainda são satisfatórios para um baixo número de padrões
de memória.
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
99
1,6
88
4
2
100
0,9
61
4
4
100
4,2
51
8
2
100
0,3
4
8
4
100
0,7
5
8
8
100
-
-
12
2
100
-
-
12
4
100
-
-
12
8
100
-
-
12
12
Tabela 14: Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo SDM
com vetores LI.
5.4 Considerações finais
105
Densidade
de
γ
acoplamento (%)
Recuperação
N o de
N o de
de memórias de
memórias de
memórias de
segundo nível (%)
1o nível
2o nível
58
3,1
87
4
2
64
2,1
47
4
4
53
4,7
85
8
2
61
3,6
58
8
4
74
1,1
3
8
8
50
2,2
84
12
2
63
2,9
53
12
4
73
5,7
9
12
8
80
-
-
12
12
Tabela 15: Tabela de desempenho para 5 sub-redes acopladas, treinadas pelo método
proposto por Gomes (2005) para vetores LI.
As Tabelas (14) e (15) enfatizam as conclusões de tendência dos dois métodos
descritas anteriormente.
5.4 Considerações finais
O modelo GBSB foi escolhido por apresentar, em sua dinâmica, uma maior proximidade com as recentes pesquisas em neurociência que têm revelado que o cérebro
apresenta as seguintes funcionalidades:
• As sinapses entre os neurônios ocorrem de forma assimétrica;
• Os neurônios possuem limiar de disparo diferentes (bias);
• As taxas de disparo, mínima e máxima, são diferentes para cada neurônio;
• Há redundância entre as conexões neurais;
• A dinâmica cerebral é não-linear;
• Os neurônios possuem autoconexões.
Os resultados obtidos pelo presente método mostrou-se bastante satisfatório para
vetores ortogonais, em relação àquele proposto em Gomes (2005). Porém, quando
se trata de vetores LI este método se mostra mais instável que aquele. A piora devido
ao uso de vetores LI se deve às projeções mútuas entre vetores. Através de uma
5.4 Considerações finais
106
análise cuidadosa do SDM, pode-se perceber que, pela matriz (3.24), os elementos
fora da diagonal principal têm como objetivo gerar projeções mútuas entre vetores de
sub-espaços (sub-redes) distintos. Portanto, a essência do método está associada
ao arranjo não ortogonal, mas apenas LI de alguns vetores escolhidos. Isso torna
o método especialmente pouco tolerante a presença de uma base apenas LI e não
ortogonal. Apesar dos resultados obtidos neste capítulo para estes padrões, o SDM
se mostra viável, já que, sob o contexto usado como objeto de estudo, o número de
padrões de primeiro e segundo níveis são muito menores que a dimensão da subrede.
Mesmo para vetores ortogonais, ainda se faz necessário um estudo mais profundo
para se descobrir uma relação ótima entre o fator de realimentação das sub-redes, β,
e a força das sinapses inter-redes, γ.
A redução da capacidade de recuperação de padrões, a medida que aumentamos
o número de memórias de segundo nível, era um fato esperado na presente proposta.
Quando foi feita a análise para inserção do elemento de reforço na seção 3.3.1, o
espaço vetorial foi dividido em sub-espaços bidimensionais. Desta forma, a medida
que se aumenta o número de memórias de segundo nível desejadas, a influência de
um sub-espaço em outro torna degenerativo o comportamento do LDS. Para corrigir
este problema, faremos em trabalhos futuros, a análise de sub-espaços de dimensão
maior a fim de se determinar critérios mais rigorosos para determinação do elemento
de acoplamento α.
O percentual de recuperação da rede sofre uma redução com o aumento das
memórias de primeiro nível, devido ao aumento de alternativas de convergência, formando padrões espúrios nas sub-redes. Ou seja, quanto mais se aumenta o número
de padrões de primeiro nível, maior será a chance de se ter memórias indesejáveis nas
sub-redes, aumentando a probabilidade de saturação em um padrão que não constitui
uma das memórias de segundo nível.
O aumento do número de neurônios da rede permite o aumento do número de
memórias de primeiro nível relativo ao número de padrões treinados e, conseqüentemente, do número de memórias de segundo nível, sem perda da capacidade de
recuperação.
Observou-se uma boa estabilidade do percentual de recuperação da rede para
um aumento no número de sub-redes acopladas. Tendo em vista que o número de
padrões de primeiro nível aumenta, compondo assim as memórias de segundo nível, é
5.4 Considerações finais
107
esperado que o percentual de recuperação da rede caia. No entanto, para 5 sub-redes
acopladas, com 5 padrões de primeiro nível compondo cada memória de segundo
nível, fornecendo um único padrão de primeiro nível, a rede teve uma redução sensível
no percentual de recuperação. Esse bom comportamento do sistema se deve à rigidez
matemática da proposta de síntese das redes.
O método de treinamento proposto por Lillo et al. (1994) não fornece um critério
suficientemente restritivo que a construção da sua matriz fortemente dominante diagonal venha apresentar garantia de recuperação (5.8). Percebemos uma capacidade de
recuperação muito instável para diferentes escolhas de tais componentes. No entanto,
após vários testes, selecionamos aqueles que apresentaram melhores resultados. Já
no SDM, variando os valores dos elementos de reforço, os resultados se mostraram
estáveis, o que caracteriza uma grande vantagem em aplicações práticas. Além disso,
cabe salientar que face à proposta de síntese de uma rede com características específicas, é legítimo escolher a melhor configuração das redes para a finalidade a que se
destina.
108
6
Conclusão
Este capítulo apresenta as conclusões do trabalho de dissertação. Na seção 6.1 é
feito um breve fechamento de todo trabalho desenvolvido no presente. Na seção 6.2,
apresentamos as principais contribuições do trabalho seguida por uma descrição das
principais dificuldades encontradas na seção 6.3. O capitulo é então encerrado com
as perspectivas de trabalhos futuros na seção 6.4.
6.1 Considerações iniciais
Inicialmente foi realizada uma revisão literária sobre ANN em Haykin (2001), Anderson (1995) e Braga, Carvalho e Ludemir (2000) e ANN acopladas em Gomes,
Braga e Borges (2005b), (GOMES; BRAGA; BORGES, 2005a) e (GOMES, 2005); sobre
os conceitos relativos aos Multiplicadores de Lagrange, principalmente, em Landau
(1980), Piskounov (1978), Stewart (2002) e Edwards e Penney (1999); já sobre os conceitos de álgebra linear, para estabelecer a proposta no presente trabalho, em Datta
(1995), Leon (1980), Anton H. e Horres (2001) e Edwards C. H. e Penney (1987); o
estudo sobre o comportamento de sistemas dinâmicos foi necessário para o entendimento dos modelos dinâmicos de ANN e foi feito em Scheinerman (1996) e Boyce
e DiPrima (1994). A partir daí, realizou-se, no Capítulo 2, um estudo dos principais
modelos de ANN orientadas dinamicamente, a fim de se determinar uma característica
comum que permitisse a elaboração de um método de síntese generalizado.
No capítulo 3, foi proposto o SDM para síntese de memórias associativas hierarquicamente acopladas, que serviu de título para o presente trabalho. Nele foram abordados os métodos de treinamento de redes, onde cada ANN dinâmica representaria
um NG (memória de primeiro nível) e a rede acoplada representaria um agrupamento
de NG produzindo um segundo nível de memória. Pode-se ainda acrescentar que as
vantagens a serem enumeradas com o presente método são:
6.1 Considerações iniciais
109
• simplicidade matemática para elaboração da matriz;
• como usa toda a base do espaço vetorial em questão, torna possível, em princípio, o controle e previsão do comportamento local e global do sistema;
• para uma rede com n neurônios, podemos ter n vetores candidatos a padrões de
memória controláveis. Dessa forma, Podemos, então, garantir para a rede uma
alta capacidade de armazenamento dos padrões memória;
• as sub-matrizes de correlação W ab e W ba são assimétricas e distintas, o que
permite maior fidelidade com o modelo biológico1 ;
• com uma translação adequada dos vetores da base, pode-se garantir a redução
de memórias indesejadas, padrões espúrios.
A proposta de síntese contida neste capítulo permitiu a determinação de um fator
de realimentação para as sub-redes, β, em condições suficientes para o bom comportamento do sistema.
No capítulo 4, foi feito um estudo sobre aprendizado e esquecimento para a presente proposta. Nele foi possível determinar os critérios para se inserir ou eliminar
padrões, ou neurônios, de uma rede, ou sub-redes, e como realizar novos acoplamentos a uma rede ou como desacoplar NG de um LM.
Por último, no Capítulo 5 foram desenvolvidos os experimentos para o modelo
de redes GBSB e GBSB acopladas, descrevendo os principais resultados com suas
respectivas análises, ora utilizando o método proposto pelo presente trabalho, ora
através do método proposto por Gomes (2005). Foram realizadas variações no fator de realimentação inter-redes, γ, para se determinar um valor ótimo para este
parâmetro e, com isso, verificar o melhor rendimento da rede.
Finalmente, neste capítulo de conclusão, na seção 6.2, encontra-se uma descrição
das principais contribuições deste trabalho envolvendo o método proposto de síntese
de ANN dinamicamente acopladas. Na seção 6.3, apresentam-se as principais dificuldades encontradas na execução deste projeto. Ao final, na seção 6.4, apresentam-se
as perspectivas de trabalhos futuros a serem exploradas.
1
A intensidade da "força"com que dois neurônios de grupos distintos realizam suas sinapses é diferente para cada um deles.
6.2 Principais Contribuições
110
6.2 Principais Contribuições
Este projeto contribuiu, de forma geral, para um método de síntese de ANN,
com os estudos analíticos necessários à compreensão do comportamento do sistema
dinâmico envolvido e de todos os graus de liberdade do problema, garantindo boa
previsibilidade sobre sua convergência.
De uma forma específica, este projeto teve como principais contribuições:
• um método alternativo para a síntese de memórias associativas hierarquicamente acopladas que garante, de forma experimental e analítica, o comportamento dos sistemas acoplados, demonstrando a viabilidade na construção de
novos sistemas;
• a generalidade do método que possibilita que seja aplicado a diferentes classes
de ANN, entretanto, no presente, nos restringimos ao estudo das redes dinâmicas em dois níveis hierárquicos;
• uma boa estabilidade do sistema mesmo para uma larga faixa de variação do
fator de acoplamento γ;
• a determinação de matrizes de correlação distintas e assimétricas, possibilitando
maior plausibilidade biológica;
• o uso de vetores LI ou ortogonais como possíveis memórias para rede;
• a definição de um vetor de bias field que, além de produzir a perturbação no
sistema para desestabilizar os pontos de equilíbrio que não são assintoticamente
estáveis, é capaz de atuar no reforço dos padrões desejados como memórias;
• a aplicação do método dos multiplicadores de Lagrange para obter um vetor
parâmetro para uma translação no domínio da função de energia, minimizando
o número de padrões espúrios.
6.3 Dificuldades encontradas
Dentre as principais dificuldades encontradas, pode-se destacar:
6.4 Perspectivas de trabalhos futuros
111
• encontrar uma matriz que proporcionasse a mudança da base dos autovetores
para a base canônica, no modelo acoplado, e que ainda fosse capaz de fornecer
as matrizes de correlação;
• a percepção fenomenológica dos valores relativos entre os parâmetros β e γ
que atuassem como constantes multiplicativas no modelo matemático, sendo
também plausíveis no modelo biológico;
• a definição de um vetor de bias field com as características indicadas na seção
6.2;
• o estabelecimento de uma matriz capaz de corrigir os problemas causados pelas
projeções de um vetor sobre os demais em bases LI;
• a elaboração de um programa que possibilitasse o teste do método proposto.
6.4 Perspectivas de trabalhos futuros
Uma nova proposta de síntese para redes neurais traz consigo grandes possibilidades de continuidade de pesquisa. Partindo deste princípio, sugere-se como propostas
para continuidade deste trabalho, investigar os seguintes problemas:
• fazer um estudo analítico e experimental dos parâmetros β e γ, pesos sinápticos
intra e inter-grupos respectivamente, a fim de determinar uma relação ótima entre eles, que promoveria uma melhor convergência a padrões globais do sistema;
• estabelecer valores de β, γ e do bias field diferentes para cada par de neurônios,
de forma a dar maior plausibilidade biológica;
• estudar o comportamento do sistema para vetores LI a fim de se obter uma capacidade de recuperação satisfatória para um número de padrões mais próximo
da dimensão da rede;
• estudar o comportamento das sub-redes, estabelecendo uma métrica para a
extensão das bacias de atração dos pontos de equilíbrio assintoticamente estáveis, verificando a sua estabilidade, capacidade de convergência e número de
padrões espúrios. Com isso, determinar, com precisão, o comportamento destes
sub-sistemas, para que se possa mensurar os autovalores com maior precisão,
aumentando, assim, a previsibilidade de evolução do LDS;
6.4 Perspectivas de trabalhos futuros
112
• criar uma metodologia de análise da matriz W treinada, a fim de estabelecer
uma relação entre a parte imaginária dos autovalores e a convergência para os
padrões da rede;
• analisar, sob critérios mais rígidos, o elemento de acoplamento α para que se
possa melhorar o desempenho da rede para um número maior de memórias de
segundo nível;
• determinar outro critério de ortogonalização capaz de diminuir os efeitos da projeção de um vetor sobre os demais, a fim de melhorar o desempenho da rede;
• otimizar o procedimento de translação;
• criar hierarquias de maior nível, isto é, estabelecer correlações entre LM, formando um Global Map, como proposto por Edelman (EDELMAN, 1987);
• ampliar o estudo aplicando o presente método de síntese para outras classes de
ANN, comparando-o com métodos tradicionais de treinamento;
• aplicar o método de síntese proposto para memórias multi-níveis utilizando-as
em problemas de classificação e agrupamento.
113
REFERÊNCIAS
ALEKSANDER, I. Emergence from brain architectures: a new cognitive science?
Cognitive Processing, v. 5, n. 1, p. 10–14, 2004.
ANDERSON, J. A. An introduction to neural network. Cambridge, Massachusetts: MIT
Press, 1995. ISBN 0-262-01144-1.
ANDERSON, J. A. et al. Distinctive features, categorical perception, probability
learning: some applications of a neural model. In:
. Neurocomputing,
Foundations of Research. Cambridge, Massachusetts: MIT Press, 1985. cap. 22, p.
283–325.
ANTON H. E HORRES, C. Álgebra Linear com Aplicações. 8. ed. Porto Alegre:
Bookman, 2001.
BATESON, G. Mind and Nature: A Necessary Unity. [S.l.]: Bantam, 1988.
BOYCE, W. E.; DIPRIMA, R. C. Equações diferenciais elementares e problemas de
contorno. Rio de Janeiro, RJ: Guanabara Koogan, 1994.
BRAGA, A. P.; CARVALHO, A. C. P. d. L. F. d.; LUDEMIR, T. B. Redes neurais
artificiais: teoria e aplicações. Rio de Janeiro: LTC, 2000.
BRAZ, R. S. Alto Nível em Redes Neurais. Dissertação (Mestrado em Ciência da
Computação)-IME/USP, São Paulo.: [s.n.], 1998. 87 p.
CLANCEY, W. J. Situated cognition : on human knowledge and computer
representations. Cambridge, U.K. ; New York, NY, USA: Cambridge University Press,
1997. xviii, 406 p. (Learning in doing.).
COHEN, M. A.; GROSSBERG, S. Absolute stability of global pattern formation
and parallel memory storage by competitive neural networks. IEEE Transactions on
Systems, Man, and Cybernetics, v. 13, n. 5, p. 815–826, 1983.
DATTA, B. N. Numerical Linear Algebra and Applications. Pacific Grove, CA:
Brooks/Cole, 1995.
EDELMAN, G. M. Neural darwinism: The theory of neuronal group selection. New
York: Basic Books, 1987.
EDELMAN, G. M. Bright air, Brilliant fire (on the matter of the mind). [S.l.]: Basic
books, 1992, 1992. 1–280 p.
EDWARDS, C. H.; PENNEY, D. E. Cálculo com geometria analítica. quarta. Rio de
Janeiro: LTC, 1999.
REFERÊNCIAS
114
EDWARDS C. H. E PENNEY, D. . Introdução à Álgebra Linear. Rio de Janeiro:
Prentice-Hall do Brasil, 1987.
ELIASMITH, C. Dynamical systems theory. 2003. Internet. Disponível em:
<http://www.artsci.wustl.edu/ philos/MindDict/dynamicsystems.html>.
FOERSTER, H. Principles of Self-Organization. New York: Pergamon, 1962.
GOLDEN, R. M. The brain-state-in-a-box neural model is a gradient descent algorithm.
Journal of Mathematical Psychology, v. 30, n. 1, 1986.
GOLDEN, R. M. A developmental neural model of visual word perception. Cognitive
Science, v. 10, p. 241–276, 1986.
GOMES, R. M. Abordagem dinâmica e cognição situada em redes neurais artificiais
acopladas. Exame de Qualificação (Doutorado em Engenharia Elétrica)-PPGE/UFMG,
Belo horizonte.: [s.n.], 2005. 128 p.
GOMES, R. M.; BRAGA, A. P.; BORGES, H. E. Energy analysis of hierarchically
coupled generalized-brain-state-in-a-boxGBSB neural network. In: SBC. [S.l.: s.n.],
2005. p. 771–780.
GOMES, R. M.; BRAGA, A. P.; BORGES, H. E. A model for hierarchical associative
memories via dynamically coupled GBSB neural networks. In: ICANN (1). [S.l.: s.n.],
2005. p. 173–178.
GREENBERG, H. J. Equilibria off the brain-state-in-a-box (bsb) neural model. Neural
Networks, v. 1, p. 323–324, 1988.
HASELAGER, W. A teoria dos sistemas dinâmicos. 2003. Disponível em:
<http://www.nici.kun.nl/ haselag/port/talks/01dst.html>. Acesso em: 28 dez. 2003.
HAYKIN, S. Redes Neurais: Princípios e práticas. 2. ed. Porto Alegre: Artmed Editora
Ltda., 2001.
HEBB, D. Organization of behavior. [S.l.]: Science Edition, 1961.
HOPFIELD, J. J. Neurons with graded response have collective computational
properties like those of two-state neurons. Proceedings of the National Academy of
Science U.S.A., v. 81, p. 3088–3092, maio 1984.
HUI, S.; ZAK, H. Dynamical analysis of the Brain-State-in-a-Box (BSB) neural models.
IEEE Transactions on Neural Networks, v. 3, n. 1, p. 86–94, jan. 1992.
LANDAU, E. Differential and Integral Calculus. 3. ed. New York: Chelsea, 1980. ISBN
0-8284-0078-4.
LEON, S. J. Linear Algebra with Applications. New York, NY, USA: Macmillan, 1980.
LI, J. H.; MICHEL, A. N.; POROD, W. Analysis and synthesis of a class of neural
networks: Linear systems operating on a closed hypercube. IEEE Transactions
Circuits Systems, v. 36, n. 11, p. 1405–1422, November 1989.
REFERÊNCIAS
115
LILLO, W. E. et al. Dynamical analysis of the brain-state-in-a-box (bsb) neural models.
IEEE Transactions on Neural Networks, v. 3, n. 5, p. 86–94, 1992.
LILLO, W. E. et al. Synthesis of brain-state-in-a-box (bsb) based associative memories.
IEEE Transactions on Neural Network, v. 5, n. 5, p. 730–737, set 1994.
MATURANA, H. R.; VARELA, F. J. Autopoiesis and Cognition. Dordrecht: Reidel,
1980.
MICHEL, A. N.; FARRELL, J. A. Associative memories via artificial neural networks.
IEEE Control Systems Magazines, /, n. /, p. 06–17, April 1990.
MONTEIRO, L. H. A. sistemas Dinâmicos,. São Paulo: Livraria da Física, 2002.
PERSONNAZ, I. G. L.; DREYFUS, G. Collective computation properties of neural
networks: New learning mechanisms. Physical Review A, v. 34, n. 5, p. 4217–4228,
1986.
PISKOUNOV, N. Cálculo Diferencial e Integral, volume 2. Porto: Lopes da Silva
Editora, 1978. (Translated from the Russian original).
ROSH, F. J. V. E. T. E. The Embodied Mind: Cognitive Science and Human
Experience. [S.l.]: Cambridge University Press, 1991. 308 p.
RUMELHART, D. E. The architecture of mind: A connectionist approach. In: POSNER,
M. I. (Ed.). Foundations of Cognitive Science. Cambridge, Massachusetts: The MIT
Press, 1989. cap. 4, p. 133–159.
SANTOS, B. A. Aspectos conceituais e arquiteturas para a criação de linhagens de
agentes de software cognitivos e situados. Dissertação (Mestrado) — CEFET-MG,
Belo Horizonte, Minas Gerais, 2003.
SCHEINERMAN, E. R. Invitation to Dynamical Systems. pub-PH:adr: pub-PH, 1996.
xvii + 373 p. ISBN 0-13-185000-8.
STEWART, J. Cálculo. Quarta. São Paulo: Pioneira Thonson Learning, 2002.
THELEN, E.; SMITH, L. B. A Dynamic Systems Approach to the Development of
Cognition and Action. Cambridge, Massachusetts: MIT Press, 1994.
van GELDER, T.; PORT, R. F. It’s about time: an overview of the dynamical approach
to cognition. In:
. Mind as motion: Explorations in the dynamics of cognition.
Cambridge, MA: Mit Press, 1995.
YEN, G.; MICHEL, A. N. A learning and forgetting algorithm in associative memories:
Results involving pseudo-inverses. IEEE Transactions on Circuits and Systems, v. 38,
n. 10, p. 1193–1205, October 1991.
ZAK, S. H.; LILLO, W. E.; HUI, S. Learning and forgetting in generalized brain-statein-a-box (BSB) neural associative memories. Neural Networks, v. 9, n. 5, p. 845–854,
1996.
Download

Método de Síntese Espacialmente Estruturada para Memórias