Agentes Baseados em
Utilidade
Gustavo Danzi de Andrade
Geber Ramalho
{gda,glr}@cin.ufpe.br
Relembrando
Um agente
Está
em um mundo descrito por um conjunto de
estados
S ={s1, s2,...,sn}
Pode realizar, neste mundo, um conjunto de ações
A ={a1, a2,...,at}
As conseqüências de suas ações são descritas por
uma função de transição
Mundo determinístico T(si,aj) sk
Mundo não-determinístico (função estocástica)
(si,aj) {(pt,st), (pk,sk), ... (ps,ss)}
onde pk é a probabilidade do estado ser ak
O que veremos
Agentes capazes de ...
Diferentemente de um agente lógico
Tomar decisões racionais baseado no que acredita e deseja
Pode tomar decisões em ambientes com incertezas e
objetivos conflitantes
Possui uma escala contínua de medida de qualidade sobre os
estados
Funções de Utilidade associam um valor a um estado
Indica a “felicidade” por estar nesse estado
U(S) = utilidade estado S de acordo com o agente
Ex.: s1 = {rico, famoso}, s2 = {pobre, famoso}
U(s1) = 10
U(s2) = 5
Roteiro
Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos
Escolha de ações
Princípio da Maximização da Utilidade: agente
racional deve escolher ações que maximizam sua
utilidade !
Mundo determinístico
Isto é feito escolhendo diretamente a ação de maior utilidade
Mundo determinístico
É preciso considerar todos os possíveis estados de saída de cada
ação não-determinista e escolher a que maximiza a utilidade
esperada
Ambiente determinístico: exemplo
Exemplo:
S = {(rico,famoso), (rico,desconhecido),
(pobre,famoso),(pobre,desconhecido)}
A = {trabalhar, participar do BigBrother}
Transições de estados (dinâmica do ambiente):
T[(pobre,desconhecido), trabalhar] = (rico, desconhecido)
T[(pobre,desconhecido), part. BB] = (rico, famoso)
Função de Utilidade:
U(rico,famoso) = 10
U(rico,desconhecido) = 8
U(pobre,famoso) = 5
U(pobre,desconhecido) = 0
Supondo que o agente é pobre e desconhecido (estado inicial), qual a
melhor ação a executar?
Participar do BigBrother...
Em ambientes não-determinísticos
Para cada saída possível é associada uma
probabilidade:
P (Result(A) | Do(A), E)
Onde, E resume a evidência que o agente possui do mundo
Do(A) indica que a ação A foi executada no estado atual
Utilidade esperada de uma ação A dado a evidência do
mundo E:
UE(A|E) = i P(Resulti(A)|Do(A),E) x U(Resulti(A))
Nesta aula: Tomadas de Decisões Simples
O agente decide apenas uma vez
Exemplo 1
Um Robô deve transportar uma caixa
E = a caixa é de metal
a1 = Chutar: s1, caixa no destino 20%
U(s1) = 10
s2, caixa no meio do caminho 30%
U(s2) = 5
s3, caixa longe destino 50%
U(s3) = 0
a2 = Carregar: s1, caixa no destino 80%
s4, caixa na origem 20%
UE(a1) = 0,20 x 10 + 0,30 x 5 + 0,50 x 0 = 3,5
UE(a2 ) = 0,80 x 10 + 0,20 x 0 = 8
A melhor ação é Carregar (a2)
U(s1) = 10
U(s4) = 0
Roteiro
Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos
Funções de Utilidade
Funções de Utilidade são, essencialmente,
heurísticas!
Preferências racionais permitem descrever o
melhor comportamento como aquele que maximiza
UE
Propriedades do “desejo” do agente
Caso satisfaçam as restrições racionais, pode-se garantir
a existência de uma Função de Utilidade U(S) R
Notação:
A B: A é preferível a B
A ~ B: agente indiferente entre A e B
A B: agente prefere A à B ou é indiferente
Para ações não-deterministas:
A e B são loterias: distribuições probabilísticas sobre um
conjunto de estados de saída
Restrições Racionais
Axiomas da Teoria da Utilidade:
Ordenabilidade: (A > B) ( B > A) (A ~ B)
Transitividade: (A > B) (B > C) (A > C)
Continuidade: A > B > C p [p.A; 1 - p.C] ~ B
Substitutibilidade: A ~ B [p.A; 1 – p.C] ~ [p.B; 1 – p.C]
Monotonicidade:
A > B ( p q [p.A; 1 – p.B] [q.A; 1 – q.B] )
Decomponibilidade:
[p.A; 1 – p. [q.B; 1 – q.C] ] ~ [p.A; (1 – p)q.B; (1 – p)(1 – q). C]
Exemplo 2: A Utilidade do Dinheiro
Como seria a função de utilidade do dinheiro?
Situação:
Um jogador está ganhando um prêmio de R$ 1.000.000
É oferecida uma aposta: Cara ou Coroa
Se aparecer cara jogador perde tudo
Se aparecer coroa jogador ganha R$ 3.000.000
Hipótese 1: Linear?
U(x) = x
Calculando o Valor Monetário Esperado de Aceitar a Aposta:
Calculando o Valor Monetário Esperado de Recusar a Aposta:
0.5 U(R$ 0) + 0.5 U(R$ 3.000.000) = $ 1.500.000
1 U(R$ 1.000.000) = R$ 1.000.000 (menor)
Isso indica que seria melhor aceitar a aposta...
Exemplo 2: A Utilidade do Dinheiro
Hipótese 2: Não-linear?
U(0) = 0
U(1.000.000) = 100
U(3.000.000) = 150
Calculando o Valor Monetário Esperado:
A melhor opção é rejeitar a aposta...
EU (Aceitar) = 0.5 U(0) + 0.5 U(3.000.000 ) = 75
EU (Rejeitar) = U(1.000.000) = 100
Onde, Sk = riqueza atual do jogador
Na prática, o valor do dinheiro depende da situação atual:
U(k,n) = onde k é a riqueza atual e n o novo ganho
À medida que k cresce, a utilidade de n diminui....
Conclusão:
Utilidade não é diretamente proporcional ao valor monetário
Dependa da mudança no estilo de vida...
Roteiro
Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos
Funções Multi-atributo
Como tratar funções de utilidades com várias variáveis
X1, ..., Xn ?
Ex.: Construir aeroporto,
Variáveis: Segurança, Custo, Poluição sonora
U (Segurança, Custo, Poluição sonora) = ?
Existem duas situações:
Dominância:
decisões podem ser tomadas sem combinar os valores dos
atributos em um único valor da utilidade
Estrutura de Preferência e Utilidade Multi-atributo:
utilidade resultante da combinação dos valores dos atributos
pode ser especificada concisamente
Dominância Total
Se um estado S1 possui valores melhores em todos
seus atributos do que S2, então existe uma
dominância total de S1 sobre S2
i Xi(B) Xi(A) (e portanto U(B) U(A))
Dominância Estocástica
Exemplo, custo de construir um aeroporto:
Em S1 valor uniformemente distribuído entre $2,8
e $4,8 bilhões
P
S1
Em S2 valor uniformemente distribuído entre $3 e
$5,2 bilhões
S2
$
Dada a informação que a utilidade decresce
com custo:
-5.2
- 2,8
S1 domina estocasticamente S2
UE de S1 é pelo menos tão alta quanto UE de S2
Na prática, dominância estocástica pode ser definida
usando apenas um raciocínio qualitativo
Ex.: custo de construção aumenta com a distância para a cidade:
S1 é mais próximo da cidade do que S2 S1 domina S2
estocasticamente sobre o custo
Estrutura de Preferência e Utilidade Multi-atributo
Supondo que existem n atributos com d possíveis
valores:
A Teoria da Utilidade Multi-atributo assume que
preferências de agentes possuem certa regularidade
(estrutura)
No pior caso, serão necessários dn valores (preferência sem
regularidade)
Abordagem básica é tentar identificar essas regularidades!
Agentes com uma certa estrutura em suas preferências
terão uma função:
U(x1,...,Xn) = f[ f1(x1),...,f2(x2) ]
Onde espera-se que f seja uma função simples!
Se os atributos forem mutuamente independentes...
Estrutura de Preferência e Utilidade Multi-atributo
Atributos mutuamente independentes:
Independência preferencial mútua (MPI): todos os
pares de atributos são preferencialmente
independente com relação aos demais
X1 e X2 são preferencialmente independente de X3 se, e
somente se: Preferência entre {x1, x2, x3} e {x1’, x2’, x3} não
depende em x3
Ex.: Segurança, Custo, Poluição sonora
Com MPI, o comportamento preferencial do agente
pode ser descrito como uma maximização da função:
Caso determinista: V (x1 ... xn) = i Vi(xi) (somatório)
Caso não-determinista: basta estender para lidar com
loterias
Exemplo 3
Construir aeroporto:
Variáveis:
Segurança, Custo, Poluição sonora
U (Segurança, Custo, Poluição sonora) =
V(Segurança) – V(Custo) – V(Poluição sonora)
V(Segurança) = Número de itens de segurança construídos
V(Custo) = Custo total da construção em milhões de R$
V(Poluição sonora) = População afetada (taxa por 100 mil
hab.)
Roteiro
Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos
Teoria do Valor da Informação
Problemas anteriores assumiam que todas as
informações estavam disponíveis
O que acontece quando:
Cabe ao agente buscar as informações necessárias
Obtenção de informações tem um custo associado
Ex.: solicitação de um exame por parte de um médico
A Teoria do Valor da Informação permite que o
agente escolha quais informações adquirir
Exemplo 4
Exemplo: comprar os direitos de exploração de reservas
de petróleo:
Dois blocos A e B, apenas um possui óleo com valor C;
Probabilidade de comprar o bloco certo = 0,5
O preço de cada bloco é C/2
Consultor oferece uma pesquisa para detectar qual bloco possui
petróleo.
Qual o valor dessa informação?
Exemplo 4
Solução:
Calcular
o valor esperado da informação = valor
esperado da melhor ação dada a informação – valor
esperado da melhor ação sem a informação;
Pesquisador irá informar: “há óleo em A” ou “há óleo
em B”. Então:
Melhor ação com a informação: C
Melhor ação sem a informação: (0,5 x C) + (0,5 x 0) = C/2
Valor esperado da informação: C – C/2 = C/2
Exemplo 4
Uma informação só terá valor caso gere uma
mudança de plano, e se esse novo plano for
significativamente melhor do que o antigo.
S1 e S2: dois estados distintos
U1 (S1) > U2 (S2)
Nova evidência NE produzirá novas utilidades esperadas
U1’ e U2’
Vale a pena adquirir NE?
Para uma situação clara, a informação não é necessária...
Para uma escolha obscura, a informação é valiosa...
Roteiro
Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos
Teoria dos Jogos
Agentes baseados em utilidade podem atuar em
ambientes incertos...
Mas o que acontece quando a incerteza é proveniente de
outros agentes e de suas decisões? E se as essas
decisões são influenciadas pelas nossas?
A Teoria dos Jogos trata essas questões
É usada para tomar decisões sérias (decisões de preço,
desenvolvimento de defesa nacional, etc)
Teoria dos Jogos
Na Teoria dos Jogos, jogos são compostos de:
Jogadores
Ações
Matriz de Resultado
Cada jogador adota uma Estratégia (diretriz)
Estratégia Pura:
Diretriz determinística: uma ação para cada situação
Estratégia Mista:
Ações selecionadas sobre uma distribuição probabilística
Exemplo 5
Dois ladrões (Alice e Bob) são presos perto da cena do crime e
interrogados separadamente
Ações: testemunhar, recusar
Matriz de resultados:
Alice
Testemunhar
Recusar
Bob Testemunhar
A = -5; B = -5
A = -10; B = 0
Recusar
A = 0; B = -10
A = -1; B = -1
Dilema do Prisioneiro:
Eles devem testemunhar ou se recusarem a testemunhar?
Ou seja, qual estratégia adotar?
Estratégia Dominante:
Estratégia que domina todas as outras
É irracional não usar uma estratégia dominante, caso exista
Exemplo 5
Qual será a decisão de Alice se ela for racional? E de Bob?
Equilíbrio de Estratégia Dominante:
Testemunhar (estratégia dominante)
Situação onde cada jogador possui uma estratégia dominante
Então, eis que surge o dilema:
Resultado para o ponto de equilíbrio é Pareto Dominated pelo
resultado {recusar, recusar} !
Um resultado é dito “Pareto Dominated” por outro se todos
jogadores preferirem esse outro resultado
Há alguma maneira de Alice e Bob chegarem ao resultado (-1, -1)?
Opção permitida mais pouco provável
Poder atrativo do ponto de equilíbrio !
Equilíbrio de Nash
Equilíbrio de Nash:
Agentes não possuem intenção de mudar de estratégia
Condição necessária para uma solução
John Nash provou que todo jogo possui um equilíbrio assim
definido
Equilíbrio de Estratégia Dominante é um Equilíbrio de
Nash
Mas esse conceito afirma mais:
Existem estratégias que se equilibram mesmo que não existam
estratégias dominantes
Exemplo 6
Exemplo:
Uma companhia de fabricante de hardware (Best) e outra de
discos (ACME)
Dois equilibrios de Nash:
{dvd, dvd} e {cd, cd}
Um equilíbrio Pareto Dominated
ACME
Best
DVD
CD
DVD
A = 9; B = 9
A = -1; B = -5
CD
A = -5; B = -1
A = 5; B = 5
Roteiro
Ambientes Determinísticos e Não-Determinísticos
Funções de Utilidade
Funções de Utilidade Multi-atributo
Teoria do Valor da Informação
Teoria dos Jogos
Em resumo...
Funções de Utilidade:
Associam a cada estado um valor real
Indica a “felicidade” do agente em estar em cada estado
Princípio de Maximização da Utilidade:
“Um agente racional deve escolher a ação que maximiza
sua utilidade esperada”
Utilidade Esperada
Indica a utilidade de uma ação a que pode resultar em diversos
estados s i
UE(s,a) = ∑ i T(s,a,s i) . U(s i)
Teoria dos Jogos:
Estratégias dominantes e equilíbrios