UFABC – Universidade Federal do ABC Inteligência Artificial Luís Fernando de Oliveira Jacintho Exercício 8 – Modelagem com MDP Estados (S): Reservas energéticas da leoa. Ações (A): Caçar ou não/Quantas leoas. T: SxAxS -> [0, 1] Recompensa (R): • • • -6 para não caçar, exceto se sua reserva energética for 30. -0.5 + P(n)*C(n) para caçar, onde C(n) representa a quantidade de comida gerada por uma zebra para n leoas. 0 ≤ C(n) ≤ 30 -100 para morte S = {Morte, 0, 6, 12, 18, 24, 30} A = {(F, 1); (V, 1); (V, 2); (V, 3); (V, 4); (V, 5); (V, 6)} T = {Morte, * -> 1; 0, (F, 1) -> 1; 0, (V, 1) -> 0.15; 0, (V, 2) -> 0.33; 0, (V, 3) -> 0.37; ...; 6, (F, 1) -> 1; 6, (V, 1) -> 0.15; ...; 30, (F, 1) -> 1; 30, * -> 0} R = {Morte, * -> -100; 0, (F, 1) -> -100; 0, (V, 1) -> 4; 0, (V, 2) -> 9.4; 0, (V, 3) -> 10.6; ...; 6, (F, 1) -> -6; 6, (V, 1) -> 4; ...; 30, (F, 1) -> 100; 30, * -> 0} Modelagem com POMDP Estados (S): Caminhos pelos quais as leoas podem estar. S = {C1, C2} Ações (A): Observar ou ir por um caminho A = {Observar, IrC1, IrC2} T: Considerando que em C1 as leoas atacam 70% do tempo em grupos pequenos (até 4 leoas) e em C2 elas atacam 40% do tempo em grupos entre 3 e 6 leoas temos: T = {Observar -> 0, IrC1 -> 0.875, IrC2 -> 0.648} Recompensa (R): • • +1 ir pelo caminho que não há leoas -1 ir pelo caminho que há leoas Observações (Ω): Zebras voltando por um caminho, pegadas de leoa, leoas no mesmo caminho O: A ação Observar dá as seguintes probabilidades: • • • As zebras voltando por um caminho -> 0.8 de não haver leoas Pegadas -> 0.7 (numero exato de leoas), 0.2 (erra por um), 0.1 (erra por dois) Se haviam leoas em um caminho -> 0.2 de não haver leoas