Fernando Henrique Sanches Problema 1: A leoa pode assumir um total de 60 estados S, cada um correspondendo uma quantia de comida armazenada por ela, variando de de 1 a 30, avaçando em uma progressão geométrica de razão 0,5 (s0 = 0, s1 = 0,5, s2 = 1, etc.). Caso a quantia de comida armazenada por ela seja zero, ela estará morta ou na iminência de morrer. Esse estado não será considerado pois qualquer agente que atingisse esse estado deixaria de existir – não faz sentido representar um estado para agentes que não existem. A leoa possui um conjunto A de 7 ações possíveis em qualquer estado s ϵ S: Caçar sozinha, em grupos de 2, 3, 4, 5, 6 ou mais e não caçar (enumerados em ordem a1 até a7). Cada uma dessas ações possui um custo e uma possível recompensa. As ações de caça (a1..a6) possuem recompensas probabilísticas. Se uma agente recebe recompensa com sucesso, ela muda de estado. A probabilidade disso ocorrer pode ser tomada como a função T. Como o estado atual da leoa não altera as probabilidades de sucesso da caça (tampouco a recompensa recebida, embora isso não signifique que esse MDP é resolvível por uma política estacionária, pelo contrário), essa função T é válida para qualquer estado s ϵ S. T (s ϵ S x ax ϵ A x s' ϵ S) a a1 0,15 a2 0,33 a3 0,37 a4 0,4 a5 0,42 a6 0,43 a7 Tabela 1 – Função T para cada a ϵ A 1 Caso a caça tenha sucesso, a leoa receberá uma recompensa que será dividida com outra leoas que participaram da caça, ou seja, a recompensa será dividida igualmente entre os agentes. Isso implica que caças em número menor recebem recompensas maiores (embora tenham menor chance de sucesso) e vice-versa. Cada ação de caça (a1..a6) possui um custo de de 0,5+6 (o consumo de energia em uma caçada somado da energia gasta em um dia inteiro). O custo da ação de não caçar (a7) é de apenas 6. A recompensa R recebida em cada ação realizada com sucesso (com arredondamentos para não exigir um número de estados infinito, embora isso seja uma representação possível – os arredondamentos serão sempre para baixo para manter uma coerência – uma leoa pode deixar comida sobrando, mas é incapaz de se alimentar de comida que está faltando), já subtraída do custo de cada ação, está representada na Tabela 2. a R: s x a a1 30 a2 30 a3 30 a4 30 a5 27 a6 21,5 a7 Tabela 2 – função R para cada a ϵ A -5 Nota-se aqui que, em a6, está se considerando a recompensa para caçadas com 6 leoas, desnconsiderando-se as caçadas com mais agentes. Isso está sendo feito porque caçadas com mais de 6 leoas não trazem vantagem alguma para a agente – a recompensa é reduzida e as chances de conseguir ela permanecem as mesmas. Outra observação importante é que, como cada leoa só pode armazenar 30kg de comida de uma vez, a recompensa máxima que ela pode receber em qualquer caso é 30 (isso ocorre no caso em que a comida atual armazenada por ela é de 5,5 e ela realiza uma ação a1..a4 com sucesso ao mesmo tempo que paga o custo relativo à ação tomada). Porém, com exceção de a7 (onde a recompensa é nula), em nenhum dos casos a recompensa é certa. Pode-se calcular uma recompensa ponderada multiplicando-se a recompensa de cada ação pela probabilidade de seu sucesso e subtraindo seu custo, como mostrado na Tabela 3 (novamente os valores de recompensa foram arredondados com os mesmos critérios da Tabela 2). a Recompensa ponderada a1 23,5 a2 25 a3 18 a4 14 a5 11 a6 9 a7 -5 Tabela 3 – Recompensa ponderada para cada a ϵ A Nota importante: A recompensa ponderada, assim como a função R original, não pode ser usada diretamente como política de decisão (ou seja, não pode-se assumir que a2 é a ação ótima para todos os casos). Para uma leoa num estado s = s1 com 1kg de comida armazenada, a escolha mais sensada é caçar em grupos de 6: mesmo que a recompensa compensada dessa ação seja menor, as chances de que ela deixe de existir são maiores em qualquer outra alternativa. Para aumentar sua sobrevivência, a leoa precisa adotar uma política que realize as seguintes ações, em ordem de prioridade: – Evite que sua quantia de alimento armazenado atinja a zero (e ela deixe de existir); – Maximize a quantia de alimento armazenado (evitando que a primeira prioridade precise ser adotada). A política deve tomar uma ação sempre que possível enquanto a agente estiver viva, ou seja, esse MPD possui horizonte (z) infinito. Para respeitar os dois critérios de prioridade acima, a política deve ser: – Parcial (a decisão tomada por uma leoa morrendo de fome é diferente da decisão tomada por uma leoa que acabou de se alimentar); – Estacionária (a época de decisão é irrelevante, apenas o estado importa); – Determinística (dado um único estado s1, haverá uma única ação a1 otimal); – Markoviana (as caças feitas anteriormente não influenciam as futuras caças).