UFABC – Universidade Federal do ABC
Inteligência Artificial
Luís Fernando de Oliveira Jacintho
Exercício 8 – Modelagem com MDP
Estados (S): Reservas energéticas da leoa.
Ações (A): Caçar ou não/Quantas leoas.
T: SxAxS -> [0, 1]
Recompensa (R):
•
•
•
-6 para não caçar, exceto se sua reserva energética for 30.
-0.5 + P(n)*C(n) para caçar, onde C(n) representa a quantidade de comida
gerada por uma zebra para n leoas. 0 ≤ C(n) ≤ 30
-100 para morte
S = {Morte, 0, 6, 12, 18, 24, 30}
A = {(F, 1); (V, 1); (V, 2); (V, 3); (V, 4); (V, 5); (V, 6)}
T = {Morte, * -> 1; 0, (F, 1) -> 1; 0, (V, 1) -> 0.15; 0, (V, 2) -> 0.33; 0, (V, 3) ->
0.37; ...; 6, (F, 1) -> 1; 6, (V, 1) -> 0.15; ...; 30, (F, 1) -> 1; 30, * -> 0}
R = {Morte, * -> -100; 0, (F, 1) -> -100; 0, (V, 1) -> 4; 0, (V, 2) -> 9.4; 0, (V, 3) ->
10.6; ...; 6, (F, 1) -> -6; 6, (V, 1) -> 4; ...; 30, (F, 1) -> 100; 30, * -> 0}
Modelagem com POMDP
Estados (S): Caminhos pelos quais as leoas podem estar.
S = {C1, C2}
Ações (A): Observar ou ir por um caminho
A = {Observar, IrC1, IrC2}
T: Considerando que em C1 as leoas atacam 70% do tempo em grupos pequenos (até
4 leoas) e em C2 elas atacam 40% do tempo em grupos entre 3 e 6 leoas temos:
T = {Observar -> 0, IrC1 -> 0.875, IrC2 -> 0.648}
Recompensa (R):
•
•
+1 ir pelo caminho que não há leoas
-1 ir pelo caminho que há leoas
Observações (Ω): Zebras voltando por um caminho, pegadas de leoa, leoas no mesmo
caminho
O: A ação Observar dá as seguintes probabilidades:
•
•
•
As zebras voltando por um caminho -> 0.8 de não haver leoas
Pegadas -> 0.7 (numero exato de leoas), 0.2 (erra por um), 0.1 (erra
por dois)
Se haviam leoas em um caminho -> 0.2 de não haver leoas
Download

UFABC – Universidade Federal do ABC Inteligência Artificial Luís