Diagrams
Gabriel Detoni
Levels of Responsability
Estratégia
Tática
Previsão de Estados
Aglomeração
Jogada
Operação
Histórico de Estados
Atividade
Ação
Interface
Leitura de Estados
Movimento
Levels of Responsability
Estratégia
Organização
Divisão de Grupos
Jogada
Coordenação
Atividade
Ação
Execução
Leitura de Dados
Movimento
Visão geral das interconexões
Estratégia
Divisão de
Grupos
Jogada
Atividade
Ação
Leitura de
Dados
Movimento
Message Passing
Entities
W
W
Entidade
W
Entities
Estratégia
Módulo de
Visão
Grupo
Leitura
de
Estado
Movimento
Módulo de
Atividade
Ação
Atividade
Jogada
Lista de receptores
Lista de
receptores.
Thread
R1
...
Rn
Esquemático de uma TC
Tarefa Conexionista (TC)
T2
netT2
netT3
T3
T1
netT1
a
=
F(a, netT1, netT2, netT3)
o = f(a)
Regra de propagação
A.
B.
m4
m1
T2
TC
T3
m2
T2
T1
m3
m5
TC
T3
T1
Pontos de extensão de uma TC
Thread Conexionista
Lista de TCs à qual esta TC se conecta
Tipos de estímulo aceitos
Padrão de
conectividade
Função de ativação
Regra de ativação
Variáveis de instância
Estado de ativação
Workflow de uma TC
Estímulo válido?
Estímulo
recebido
S
N
Função de Ativação
Função de saída
Atualização do
estado de
ativação
Produção de
novos
estímulos
Envio de
estímulos às
TCs conectadas
Padrão de conectividade
T2
TC
T3
T4
T1
TC
T5
T3
TC
T1
TC
T6
Regra de propagação
TS
TS
TC
netT2
netT1
TS
Stimulus Datagram
Estímulo
Rótulo
Dados
(x, ix)
In
Processamento paralelo
Tempo
Computador Serial
Tarefa 1
Tarefa 2
Computador Paralelo
Tarefa 1
Tarefa 2
Strategy: instability
Strategy Recommendation
Position
Defense
Time
Strategy Recommendation Thresholds
Attack
Strategy: stable
P3
P2
P4
Position
Defense
Time
Strategy Recommendation Thresholds
Attack
Strategy Recommendation
P1
Starting-up Entities
...
...
W
W
...
W
...
W
Entidade A
W
Entidade B
Application Entities
Ataque
Individual
Cruzamen
to
Mover
Suporte
Ataque
Driblar
Evitar
Obstáculo
o
er Estado
Cobrar
Falta
Posicionar
para
Penalty
Posicionar
para Inicio
Receber
Passe
Cruzar
Bola
Ir Para
Ficar
Entre
Conduzir
Bola
Chutar
Aglome
ção
Passar
Bola
Defes
Individu
Instanciação de TCs
Jogada
instancia
Atividades
Cruzamento
Receb...
Cruza...
Ir Para
Chutar
Cruzar
Bola
Receb...
Bola
Chutar
Atividade
Conduz...
Bola
Topologia de uma Jogada
Estraté
gia
Aglom
eração
...
Cruza
mento
Receb.
Cruz.
Ir Para
Ler
Estado
Chutar
Cruzar
Bola
Receb.
Bola
Chutar
Movim
ento
Cond.
Bola
Simulator
Simulador
Interface Gráfica
API de
movimento
API de visão
Sistema de
Controle
Arquiteturas de HW
SIMD
FI
Memória
FI
UP
FD
M
FI
UP
FD
M
UC
...
FI
UP
...
FD
M
MIMD
Memória
UC
FI
UP
FD
M
FI
UC
FI
UP
FD
M
FI
...
...
M
FI
...
UC
...
FI
UP
FD
Shared Memory
Processador
Processador
Memória
Distributed Memory
Memória
Memória
Memória
Processador
Processador
Processador
Tests
L1
L2
L3
h
i
k
j
h2
l
i2
k2
m
l2
m2
L4
n
j2
Tests Topology
E/S
a, b
d, e
c
L1
H
I
h
L2
L3
L4
i
f, g
a2,
b2
J
H2
c2
I2
l2
M2
M
m2
N
j2
L2
k2
l
m
J2
i2
K2
L
k
d2, e2
h2
j
K
f2, g2
Balanço de carga 6:6
CPU
1
m m m m m m m m
2
k
k
k
k
k
k
k
k
3
l
l
l
l
l
l
l
l
4
h
h
h
h
h
h
h
h
5
i
i
i
i
i
i
i
i
6
j
j
j
j
j
j
j
j
Tempo
Balanço de carga 6:3
CPU
1
h
h m h m h m
m
2
i
k
i
k
i
k
i
k
3
j
l
j
l
j
l
j
l
Tempo
TempoTotal = TempoMédio * NumTarefas / NumCpu
NumCpu = 3
NumTarefas = 6
TempoTotal = 2 (por tarefa)
Sem balanço de carga 6:6
CPU
1
m
m
m
m
2
k
k
k
k
3
l
l
l
l
4
h
h
h
h
5
i
i
i
i
6
j
j
j
j
Tempo
Sem balanço de carga 6:3
CPU
1
h
h
h
h
h
h
h
h
2
i
i
k
i
k
j
k
i
i
k
j
k
i
i
k
j
k
i
3
j
j
l
m
l
m
l
m
j
l
m
l
m
j
l
m
l
m
d = desbalanceamento
tg = tempo da maior tarefa = 2
tm = tempo médio = 1
tp = tempo perdido
tu = tempo útil
tt = tempo total
nt = numero de tarefas = 6
c = numero de cpus = 3
d = tg – tm = 1
tp = d / c * tm = 1/6
tu = 1 – tp = 5/6
tt = tu * tm * nt / c = 5/3
Tempo
k
j
l
m
Sem balanço de carga 6:3
CPU
1
h
h
2
i
k
i
3
j
l
m
h
j
k
i
l
m
d = desbalanceamento
tg = tempo da maior tarefa = 2
tm = tempo médio = 1
tp = tempo perdido
tu = tempo útil
tt = tempo total
nt = numero de tarefas = 6
c = numero de cpus = 3
d = tg – tm = 1
tp = d / c * tm = 1/6
tu = 1 – tp = 5/6
tt = tu * tm * nt / c = 5/3
h
j
k
i
l
m
k
j
l
m
Tempo
Observable/Observer
Observer
Observable
Observer
Atividade
Ir Para
Esquerda
Wumpus
Módulo de
Visão
Ação
Estratégia
Caçar
Recompe
nsa
Ir Para
Cima
Estratégia
Fugir de
Ameaça
ovimento
Ir Para
Baixo
Ir Para
Direita
Leitura
de
Estado
Como aprender novas atividades?
Atividades conhecidas
Ir Para
Esquerda
Ir Para
Cima
ovimento
Ir Para
Baixo
Ir Para
Direita
Ações Conhecidas
?
O que é uma ação?
Atividades conhecidas
Ir Para
Esquerda
Ações Conhecidas
?
Uma ação é um mapeam
atual, quais atividades m
um ob
Ir Para
Cima
ovimento
Ir Para
Baixo
Ir Para
Direita
O que é uma ação?
Ação ?
Estado
Feedback
+
Ir Para
Esquerda
=

+
Ir Para
Baixo
=

Exemplo: maximize a função y = 20 - x²
Estado
Decreme
ntar
Incremen
tar
y
x
x
Função
Agente reativo
Rcp
Recompensa
Repetição
iva
Ini
Rpt
Vazio
Ambiente
Brisa
Fosso
Apenas recebe um
estímulo e repete a
ação anterior se a
recompensa for
positiva, ou realiza
uma outra ação
aleatória caso seja
negativa.
Agente com memória
Ini
Associação
Rcp
Rpt
Ass
A entidade
associativa recebe
um movimento e o
combina com uma
sensação, gerando
uma nova entidade
que associa ambas.
Ciclo reativo
realiza os
movimentos
Agente com memória
Ini
Rcp
Rpt
Ass
1. Sensação 1 é
recebida
2. Comando é
enviado
3. Sensação 2 é
recebida
4. Associação criada
2
3
1
Ciclo reativo
realiza os
movimentos
Ini
Agente com memória
Rcp
Rpt
Ass
4
M1
1. Sensação 1 é
recebida
2. Comando é
enviado
3. Sensação 2 é
recebida
4. Associação criada
Agente com memória
Rcp
3
Ass
1
1. Comando C é
enviado
2. Sensação S1 é
recebida
3. Recompensa R é
recebida (-)
4. Associação criada
pela regra:
1. R ├ S1 = C
2. ¬R ├ S1 = ¬C
2
Agente com memória
Rcp
Conexão
inibitória
Ass
4
M1
1. Comando C é
enviado
2. Sensação S1 é
recebida
3. Recompensa R é
recebida
4. Associação criada
pela regra:
1. R ├ C Λ S1 =
C
2. ¬R ├ C Λ S1
= ¬C
Agente com memória (2)
Rcp
Ass
1
M1
1. Comando C é
enviado
2. Sensação S1 é
recebida
3. Memória M1 é
disparada
inibindo Ass
Agente com memória (2)
Rcp
Ass
M1
1
M2
1. Comando C é
enviado
2. Sensação S1 é
recebida
3. Recompensa R é
recebida (+)
4. M2 é gerada
Agente com memória (2)
Rcp
Ass
1
M1
M2
1. Comando C é
enviado
2. Sensação S1 é
recebida
3. Recompensa R é
recebida (+)
4. M2 é gerada
Modelo proposto
1
XOR
0
1
1
0
0
1
xor
1
1
1
1
A or B
1
-1
-1
0
not(A
and B)
2
0
1
1
xor
-1
1
A
0
0
1
1
B
0
1
0
1
Modelo proposto
1
XOR
0
1
1
0
0
1
xor
1
0
1
1
A or B
1
-1
-1
0
not(A
and B)
2
0
1
1
xor
-1
1
A
0
0
1
1
B
0
1
0
1
Agente com memória:
Posição/Sensação 1. Comando C é
enviado
2. Sensação S1 é
recebida
3. Recompensa R é
recebida (+)
4. M2 é gerada
1
M1
S1
S2
S3
S4
Agente com memória:
Sensações/Comando1. Comando C é
S1
S2
S3
S4
enviado
2. Sensação S1 é
recebida
3. Recompensa R é
recebida (+)
4. M2 é gerada
Memória associativa normal:
Sensações/Comando
?
?
Sensações da posição
atual, bem como das
imediatamente vizinhas,
são providas.
R
Sensações da posição
atual, bem como das
imediatamente vizinhas,
são providas.
Recompensa ajusta pesos
de neurônios ativados
simultaneamente.
Memória associativa TC:
Sensações/Comando
As sensações
para cada
posição são
enviadas
S
S3
S2
A recompensa é
enviada.
R
S1
M
O comando
executado é
enviado
C
Memória associativa TC:
Sensações/Comando
C
S1
R
C
R
S(p)
S(p)
?
S(p)
S(p)
S
S(p): sensação para posição p
C: comando
R: recompensa
1
.1
.3
.2
.3
.4
.2
.1
.1
.2
.4
.2
Sistema de controle
Visão
Sistema
de Controle
Rádio
Grupos
Campos potenciais 1
Campos potenciais 2
Campos potenciais 3
Receber passe
Aprendizado
A
Ch
1
H
Ch
2
K
Ch
3
A
H
K
Wr
A
Ou
t
A
H
K
AHK
Wr
B
Ao receber um estímulo ‘A’ WrA
propaga sua saida.
Ao receber um estímulo ‘A’ WrB não
propaga sua saida.
O inverso acontece ao receber ‘B’.
BFG
Para treinar WrA e WrB, Out deve
associar um fitness a um estimulo
de entrada que é devolvido ao
estimulador, que o usa para ajustar
o seus estimulos de entrada.
Aprendizado
A
Ch
1
A
Wr
A
H
AHK
Ch
2
Ou
t
Wr
B
K
Ch
3
Ao receber um estímulo ‘A’ WrA
propaga sua saida.
Ao receber um estímulo ‘A’ WrB não
propaga sua saida.
O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve
associar um fitness a um estimulo
de entrada que é devolvido ao
estimulador, que o usa para ajustar
o seus estimulos de entrada.
Aprendizado
A
Ch
1
A
Wr
A
H
AHK
Ch
2
Ou
t
Wr
B
K
Ch
3
Ao receber um estímulo ‘A’ WrA
propaga sua saida.
Ao receber um estímulo ‘A’ WrB não
propaga sua saida.
O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve
associar um fitness a um estimulo
de entrada que é devolvido ao
estimulador, que o usa para ajustar
o seus estimulos de entrada.
Aprendizado
A
Ch
1
A
Wr
A
H
AHK
Ch
2
Ou
t
Wr
B
K
Ch
3
Ao receber um estímulo ‘A’ WrA
propaga sua saida.
Ao receber um estímulo ‘A’ WrB não
propaga sua saida.
O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve
associar um fitness a um estimulo
de entrada que é devolvido ao
estimulador, que o usa para ajustar
o seus estimulos de entrada.
Aprendizado
A
Ch
1
A
Wr
A
H
AHK
Ch
2
Ou
t
Wr
B
K
Ch
3
Ao receber um estímulo ‘A’ WrA
propaga sua saida.
Ao receber um estímulo ‘A’ WrB não
propaga sua saida.
O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve
associar um fitness a um estimulo
de entrada que é devolvido ao
estimulador, que o usa para ajustar
o seus estimulos de entrada.
Aprendizado
A
Ch
1
A
Wr
A
H
AHK
Ch
2
Ou
t
Wr
B
K
Ch
3
Ao receber um estímulo ‘A’ WrA
propaga sua saida.
Ao receber um estímulo ‘A’ WrB não
propaga sua saida.
O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve
associar um fitness a um estimulo
de entrada que é devolvido ao
estimulador, que o usa para ajustar
o seus estimulos de entrada.