Diagrams Gabriel Detoni Levels of Responsability Estratégia Tática Previsão de Estados Aglomeração Jogada Operação Histórico de Estados Atividade Ação Interface Leitura de Estados Movimento Levels of Responsability Estratégia Organização Divisão de Grupos Jogada Coordenação Atividade Ação Execução Leitura de Dados Movimento Visão geral das interconexões Estratégia Divisão de Grupos Jogada Atividade Ação Leitura de Dados Movimento Message Passing Entities W W Entidade W Entities Estratégia Módulo de Visão Grupo Leitura de Estado Movimento Módulo de Atividade Ação Atividade Jogada Lista de receptores Lista de receptores. Thread R1 ... Rn Esquemático de uma TC Tarefa Conexionista (TC) T2 netT2 netT3 T3 T1 netT1 a = F(a, netT1, netT2, netT3) o = f(a) Regra de propagação A. B. m4 m1 T2 TC T3 m2 T2 T1 m3 m5 TC T3 T1 Pontos de extensão de uma TC Thread Conexionista Lista de TCs à qual esta TC se conecta Tipos de estímulo aceitos Padrão de conectividade Função de ativação Regra de ativação Variáveis de instância Estado de ativação Workflow de uma TC Estímulo válido? Estímulo recebido S N Função de Ativação Função de saída Atualização do estado de ativação Produção de novos estímulos Envio de estímulos às TCs conectadas Padrão de conectividade T2 TC T3 T4 T1 TC T5 T3 TC T1 TC T6 Regra de propagação TS TS TC netT2 netT1 TS Stimulus Datagram Estímulo Rótulo Dados (x, ix) In Processamento paralelo Tempo Computador Serial Tarefa 1 Tarefa 2 Computador Paralelo Tarefa 1 Tarefa 2 Strategy: instability Strategy Recommendation Position Defense Time Strategy Recommendation Thresholds Attack Strategy: stable P3 P2 P4 Position Defense Time Strategy Recommendation Thresholds Attack Strategy Recommendation P1 Starting-up Entities ... ... W W ... W ... W Entidade A W Entidade B Application Entities Ataque Individual Cruzamen to Mover Suporte Ataque Driblar Evitar Obstáculo o er Estado Cobrar Falta Posicionar para Penalty Posicionar para Inicio Receber Passe Cruzar Bola Ir Para Ficar Entre Conduzir Bola Chutar Aglome ção Passar Bola Defes Individu Instanciação de TCs Jogada instancia Atividades Cruzamento Receb... Cruza... Ir Para Chutar Cruzar Bola Receb... Bola Chutar Atividade Conduz... Bola Topologia de uma Jogada Estraté gia Aglom eração ... Cruza mento Receb. Cruz. Ir Para Ler Estado Chutar Cruzar Bola Receb. Bola Chutar Movim ento Cond. Bola Simulator Simulador Interface Gráfica API de movimento API de visão Sistema de Controle Arquiteturas de HW SIMD FI Memória FI UP FD M FI UP FD M UC ... FI UP ... FD M MIMD Memória UC FI UP FD M FI UC FI UP FD M FI ... ... M FI ... UC ... FI UP FD Shared Memory Processador Processador Memória Distributed Memory Memória Memória Memória Processador Processador Processador Tests L1 L2 L3 h i k j h2 l i2 k2 m l2 m2 L4 n j2 Tests Topology E/S a, b d, e c L1 H I h L2 L3 L4 i f, g a2, b2 J H2 c2 I2 l2 M2 M m2 N j2 L2 k2 l m J2 i2 K2 L k d2, e2 h2 j K f2, g2 Balanço de carga 6:6 CPU 1 m m m m m m m m 2 k k k k k k k k 3 l l l l l l l l 4 h h h h h h h h 5 i i i i i i i i 6 j j j j j j j j Tempo Balanço de carga 6:3 CPU 1 h h m h m h m m 2 i k i k i k i k 3 j l j l j l j l Tempo TempoTotal = TempoMédio * NumTarefas / NumCpu NumCpu = 3 NumTarefas = 6 TempoTotal = 2 (por tarefa) Sem balanço de carga 6:6 CPU 1 m m m m 2 k k k k 3 l l l l 4 h h h h 5 i i i i 6 j j j j Tempo Sem balanço de carga 6:3 CPU 1 h h h h h h h h 2 i i k i k j k i i k j k i i k j k i 3 j j l m l m l m j l m l m j l m l m d = desbalanceamento tg = tempo da maior tarefa = 2 tm = tempo médio = 1 tp = tempo perdido tu = tempo útil tt = tempo total nt = numero de tarefas = 6 c = numero de cpus = 3 d = tg – tm = 1 tp = d / c * tm = 1/6 tu = 1 – tp = 5/6 tt = tu * tm * nt / c = 5/3 Tempo k j l m Sem balanço de carga 6:3 CPU 1 h h 2 i k i 3 j l m h j k i l m d = desbalanceamento tg = tempo da maior tarefa = 2 tm = tempo médio = 1 tp = tempo perdido tu = tempo útil tt = tempo total nt = numero de tarefas = 6 c = numero de cpus = 3 d = tg – tm = 1 tp = d / c * tm = 1/6 tu = 1 – tp = 5/6 tt = tu * tm * nt / c = 5/3 h j k i l m k j l m Tempo Observable/Observer Observer Observable Observer Atividade Ir Para Esquerda Wumpus Módulo de Visão Ação Estratégia Caçar Recompe nsa Ir Para Cima Estratégia Fugir de Ameaça ovimento Ir Para Baixo Ir Para Direita Leitura de Estado Como aprender novas atividades? Atividades conhecidas Ir Para Esquerda Ir Para Cima ovimento Ir Para Baixo Ir Para Direita Ações Conhecidas ? O que é uma ação? Atividades conhecidas Ir Para Esquerda Ações Conhecidas ? Uma ação é um mapeam atual, quais atividades m um ob Ir Para Cima ovimento Ir Para Baixo Ir Para Direita O que é uma ação? Ação ? Estado Feedback + Ir Para Esquerda = + Ir Para Baixo = Exemplo: maximize a função y = 20 - x² Estado Decreme ntar Incremen tar y x x Função Agente reativo Rcp Recompensa Repetição iva Ini Rpt Vazio Ambiente Brisa Fosso Apenas recebe um estímulo e repete a ação anterior se a recompensa for positiva, ou realiza uma outra ação aleatória caso seja negativa. Agente com memória Ini Associação Rcp Rpt Ass A entidade associativa recebe um movimento e o combina com uma sensação, gerando uma nova entidade que associa ambas. Ciclo reativo realiza os movimentos Agente com memória Ini Rcp Rpt Ass 1. Sensação 1 é recebida 2. Comando é enviado 3. Sensação 2 é recebida 4. Associação criada 2 3 1 Ciclo reativo realiza os movimentos Ini Agente com memória Rcp Rpt Ass 4 M1 1. Sensação 1 é recebida 2. Comando é enviado 3. Sensação 2 é recebida 4. Associação criada Agente com memória Rcp 3 Ass 1 1. Comando C é enviado 2. Sensação S1 é recebida 3. Recompensa R é recebida (-) 4. Associação criada pela regra: 1. R ├ S1 = C 2. ¬R ├ S1 = ¬C 2 Agente com memória Rcp Conexão inibitória Ass 4 M1 1. Comando C é enviado 2. Sensação S1 é recebida 3. Recompensa R é recebida 4. Associação criada pela regra: 1. R ├ C Λ S1 = C 2. ¬R ├ C Λ S1 = ¬C Agente com memória (2) Rcp Ass 1 M1 1. Comando C é enviado 2. Sensação S1 é recebida 3. Memória M1 é disparada inibindo Ass Agente com memória (2) Rcp Ass M1 1 M2 1. Comando C é enviado 2. Sensação S1 é recebida 3. Recompensa R é recebida (+) 4. M2 é gerada Agente com memória (2) Rcp Ass 1 M1 M2 1. Comando C é enviado 2. Sensação S1 é recebida 3. Recompensa R é recebida (+) 4. M2 é gerada Modelo proposto 1 XOR 0 1 1 0 0 1 xor 1 1 1 1 A or B 1 -1 -1 0 not(A and B) 2 0 1 1 xor -1 1 A 0 0 1 1 B 0 1 0 1 Modelo proposto 1 XOR 0 1 1 0 0 1 xor 1 0 1 1 A or B 1 -1 -1 0 not(A and B) 2 0 1 1 xor -1 1 A 0 0 1 1 B 0 1 0 1 Agente com memória: Posição/Sensação 1. Comando C é enviado 2. Sensação S1 é recebida 3. Recompensa R é recebida (+) 4. M2 é gerada 1 M1 S1 S2 S3 S4 Agente com memória: Sensações/Comando1. Comando C é S1 S2 S3 S4 enviado 2. Sensação S1 é recebida 3. Recompensa R é recebida (+) 4. M2 é gerada Memória associativa normal: Sensações/Comando ? ? Sensações da posição atual, bem como das imediatamente vizinhas, são providas. R Sensações da posição atual, bem como das imediatamente vizinhas, são providas. Recompensa ajusta pesos de neurônios ativados simultaneamente. Memória associativa TC: Sensações/Comando As sensações para cada posição são enviadas S S3 S2 A recompensa é enviada. R S1 M O comando executado é enviado C Memória associativa TC: Sensações/Comando C S1 R C R S(p) S(p) ? S(p) S(p) S S(p): sensação para posição p C: comando R: recompensa 1 .1 .3 .2 .3 .4 .2 .1 .1 .2 .4 .2 Sistema de controle Visão Sistema de Controle Rádio Grupos Campos potenciais 1 Campos potenciais 2 Campos potenciais 3 Receber passe Aprendizado A Ch 1 H Ch 2 K Ch 3 A H K Wr A Ou t A H K AHK Wr B Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. BFG Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. Aprendizado A Ch 1 A Wr A H AHK Ch 2 Ou t Wr B K Ch 3 Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. Aprendizado A Ch 1 A Wr A H AHK Ch 2 Ou t Wr B K Ch 3 Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. Aprendizado A Ch 1 A Wr A H AHK Ch 2 Ou t Wr B K Ch 3 Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. Aprendizado A Ch 1 A Wr A H AHK Ch 2 Ou t Wr B K Ch 3 Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. Aprendizado A Ch 1 A Wr A H AHK Ch 2 Ou t Wr B K Ch 3 Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.