Fernando Henrique Sanches
Problema 1:
A leoa pode assumir um total de 60 estados S, cada um correspondendo uma
quantia de comida armazenada por ela, variando de de 1 a 30, avaçando em uma
progressão geométrica de razão 0,5 (s0 = 0, s1 = 0,5, s2 = 1, etc.).
Caso a quantia de comida armazenada por ela seja zero, ela estará morta ou na
iminência de morrer. Esse estado não será considerado pois qualquer agente que
atingisse esse estado deixaria de existir – não faz sentido representar um estado para
agentes que não existem.
A leoa possui um conjunto A de 7 ações possíveis em qualquer estado s ϵ S:
Caçar sozinha, em grupos de 2, 3, 4, 5, 6 ou mais e não caçar (enumerados em ordem a1
até a7). Cada uma dessas ações possui um custo e uma possível recompensa.
As ações de caça (a1..a6) possuem recompensas probabilísticas. Se uma agente
recebe recompensa com sucesso, ela muda de estado. A probabilidade disso ocorrer
pode ser tomada como a função T. Como o estado atual da leoa não altera as
probabilidades de sucesso da caça (tampouco a recompensa recebida, embora isso não
signifique que esse MDP é resolvível por uma política estacionária, pelo contrário), essa
função T é válida para qualquer estado s ϵ S.
T (s ϵ S x ax ϵ A x s' ϵ S)
a
a1
0,15
a2
0,33
a3
0,37
a4
0,4
a5
0,42
a6
0,43
a7
Tabela 1 – Função T para cada a ϵ A
1
Caso a caça tenha sucesso, a leoa receberá uma recompensa que será dividida
com outra leoas que participaram da caça, ou seja, a recompensa será dividida
igualmente entre os agentes. Isso implica que caças em número menor recebem
recompensas maiores (embora tenham menor chance de sucesso) e vice-versa.
Cada ação de caça (a1..a6) possui um custo de de 0,5+6 (o consumo de energia
em uma caçada somado da energia gasta em um dia inteiro). O custo da ação de não
caçar (a7) é de apenas 6.
A recompensa R recebida em cada ação realizada com sucesso (com
arredondamentos para não exigir um número de estados infinito, embora isso seja uma
representação possível – os arredondamentos serão sempre para baixo para manter uma
coerência – uma leoa pode deixar comida sobrando, mas é incapaz de se alimentar de
comida que está faltando), já subtraída do custo de cada ação, está representada na
Tabela 2.
a
R: s x a
a1
30
a2
30
a3
30
a4
30
a5
27
a6
21,5
a7
Tabela 2 – função R para cada a ϵ A
-5
Nota-se aqui que, em a6, está se considerando a recompensa para caçadas com
6 leoas, desnconsiderando-se as caçadas com mais agentes. Isso está sendo feito
porque caçadas com mais de 6 leoas não trazem vantagem alguma para a agente – a
recompensa é reduzida e as chances de conseguir ela permanecem as mesmas.
Outra observação importante é que, como cada leoa só pode armazenar 30kg de
comida de uma vez, a recompensa máxima que ela pode receber em qualquer caso é 30
(isso ocorre no caso em que a comida atual armazenada por ela é de 5,5 e ela realiza
uma ação a1..a4 com sucesso ao mesmo tempo que paga o custo relativo à ação
tomada).
Porém, com exceção de a7 (onde a recompensa é nula), em nenhum dos casos a
recompensa é certa. Pode-se calcular uma recompensa ponderada multiplicando-se a
recompensa de cada ação pela probabilidade de seu sucesso e subtraindo seu custo,
como mostrado na Tabela 3 (novamente os valores de recompensa foram arredondados
com os mesmos critérios da Tabela 2).
a
Recompensa ponderada
a1
23,5
a2
25
a3
18
a4
14
a5
11
a6
9
a7
-5
Tabela 3 – Recompensa ponderada para cada a ϵ A
Nota importante: A recompensa ponderada, assim como a função R original, não
pode ser usada diretamente como política de decisão (ou seja, não pode-se assumir que
a2 é a ação ótima para todos os casos). Para uma leoa num estado s = s1 com 1kg de
comida armazenada, a escolha mais sensada é caçar em grupos de 6: mesmo que a
recompensa compensada dessa ação seja menor, as chances de que ela deixe de existir
são maiores em qualquer outra alternativa.
Para aumentar sua sobrevivência, a leoa precisa adotar uma política que realize
as seguintes ações, em ordem de prioridade:
–
Evite que sua quantia de alimento armazenado atinja a zero (e ela deixe de
existir);
–
Maximize a quantia de alimento armazenado (evitando que a primeira
prioridade precise ser adotada).
A política deve tomar uma ação sempre que possível enquanto a agente estiver
viva, ou seja, esse MPD possui horizonte (z) infinito.
Para respeitar os dois critérios de prioridade acima, a política deve ser:
–
Parcial (a decisão tomada por uma leoa morrendo de fome é diferente da
decisão tomada por uma leoa que acabou de se alimentar);
–
Estacionária (a época de decisão é irrelevante, apenas o estado importa);
–
Determinística (dado um único estado s1, haverá uma única ação a1 otimal);
–
Markoviana (as caças feitas anteriormente não influenciam as futuras
caças).