TOMADA DE DECISÕES SIMPLES
cap 16 - Russel
Centro Universitario da FEI
1
AGENTES BASEADOS EM OBJETIVOS
E BASEADOS EM UTILIDADE
fonte IA Russell
Agentes baseados em objetivos
Distinção binária entre estados bons
(objetivos) e estados ruins ( nãoobjetivos) estados felizes e infelizes.
Agentes baseados em utilidade
Tem uma medida continua da qualidade
dos estados
uma
medida de
desempenho mais geral deve permitir
uma comparação entre os diferentes
estados do mundo de acordo com o
grau exato de felicidade que
proporcionariam ao agente se fossem
adotadas.
2
ESCOPO
3
diferentemente de um agente lógico ele pode...
– Pode tomar decisões em ambientes com incertezas e
objetivos conflitantes (especifica o compromisso
adequado)
– Possui uma escala contínua de medida de qualidade
sobre os estados
– Valores associados a cada estado (utilidade ou
desirability) indicando a “felicidade” do agente.
– No caso de vários objetivos desejados não puderem
ser atingidos com certeza, a utilidade fornece um
meio pelo qual a probabilidade de sucesso pode ser
ponderada em relação a importância dos objetivos.
4
No texto Port-Royal Logic, escrito em 1662, o
filósofo francês Arnauld declarou:
Para julgar o que se deve fazer para obter um
bem ou evitar um mal, é necessário considerar
não apenas o bem e o mal em si, mas também a
probabilidade de ele acontecer ou não
acontecer, e ainda visualizar geometricamente
a proporção que todos esses itens têm em
conjunto.
5
Funções de utilidade
• associam um valor a um estado
Tal valor Indica o “desejo” por estar nesse
estado
• U(S) – utilidade do estado S de
acordo com o agente
Ex.: s1 = {rico, famoso}, s2 = {pobre, famoso}
U(s1) = 10
U(s2) = 5
6
Uma ação não determinística A terá estados
resultantes possíveis Resultadoi(A) onde i varia
sobre os diferentes resultados.
Para cada saída possível está associada uma
probabilidade
7
Antes da execução de A o agente atribui a probabilidade
P(Resultadoi(A) | Fazer (A), E)
a cada resultado onde,
E resume a evidência disponível ao agente sobre o mundo
Fazer (A) é a proposição de que a ação A seja executada no estado atual
Pode-se calcular a utilidade esperada da ação EU(A|E) dada a
evidencia E usando-se:
EU(A |E) = i P(Resultadoi(A) | Fazer(A),E) * U(Resultadoi(A))
probabilidade
utilidade
8
Princípio da
Utilidade Máxima Esperada (UME)
Afirma que um agente racional deve escolher uma ação que
maximize a utilidade esperada do agente;
Relaciona-se com a idéia de medida de desempenho;
É um modo razoável de tomar decisões.
ou seja:
O agente usa um modelo do mundo em conjunto
com a função utilidade (que mede suas
preferências entre os estados do mundo), em
seguida escolhe a ação que leva à melhor
utilidade esperada.
9
Princípio da
Utilidade Máxima Esperada (UME)
action = argmaxa EU(a|e)
– Basicamente: o agente deve fazer “o que é certo”
– Computar P(Result(a)|a,e) requer um modelo
causal completo do mundo e inferências sobre
Redes Bayesianas muito grandes
– Calcular U(s) requer planejamento e/ou busca,
para descobrir o quão “bom” é um estado (i.e. para
onde se pode ir a partir dele)
10
O principio é simples mas o que está por trás não :
• Computações podem ser proibitivas e até ser difícil de
formular o problema completo
• Deve-se conhecer o estado inicial do ambiente
percepção, aprendizado, representação do conhecimento e inferência são
necessários.
• Definição de um modelo causal completo do ambiente e
atualização das redes de crença para calcular
P(Resultadoi(A) | Fazer(A))
pesquisa e planejamento são necessários
• Buscar valor da utilidade associada a cada estado para
determinar U(Resultadoi(A))
11
UME versus Medidas de desempenho
lembrando que:
• AGENTE é tudo que pode ser considerado capaz de perceber
seu ambiente por meio de sensores e de agir sobre esse
ambiente por intermedio de atuadores.
• AGENTES RACIONAIS
“ Para cada sequência de percepções possível, um agente
racional deve selecionar uma ação que venha a maximizar sua
medida de desempenho, dada a evidência fornecida pela
sequência de percepções e por qualquer conhecimento interno
do agente.”
12
UME versus Medidas de desempenho
Considerando:
os ambientes que poderiam levar um agente a ter um dado
histórico de percepções e os diferentes agentes que podem
ser projetados.
“Se um agente maximizar uma função de utilidade que reflita
corretamente a medida de desempenho pela qual seu
comportamento está sendo julgado, ele alcançará a mais alta
pontuação de desempenho possível, se tomarmos a média
sobre os ambientes em que o agente poderia ser colocado.”
Porém, em tomada de decisões simples, preocupa-se apenas
com decisões isoladas ou instantâneas e não medidas de
desempenho sobre históricos de ambientes.
13
Base da teoria da utilidade
• Por que maximizar a utilidade média é tão especial?
• Por que não tentar maximizar a soma dos cubos das
utilidades possíveis ou,
• Tentar minimizar a pior perda possível?
• Um agente não poderia agir racionalmente apenas
expressando preferências entre estados, sem lhes
atribuir valores numéricos
• Talvez um agente racional possa ter uma estrutura de
preferências complexa demais para ser captada por um
único numero real, dado pela função de utilidade.
14
Restrições requeridas sobre as preferências de
um agente racional
• Assumimos o conjunto de saídas de cada ação como
uma loteria
• Loteria é em essência, uma distribuição de probabilidades sobre um
conjunto de resultados reais (os prêmios da loteria).
Uma loteria L com resultados possiveis C1,.......,Cn que pode ocorrer com
as probabilidades p1,......,pn é escrita como: L = [p1, C1;....pn, Cn]
• Cada resultado de uma loteria pode ser um estado ou outra loteria.
15
Preferências
• As preferências entre os prêmios pagos são utilizadas
para determinar preferências entre loterias ou
estados, ou seja:
– A B : A é preferível a B
– A B : o agente está indiferente entre A e B
– A B : O agente prefere A a B ou está indiferente
onde A e B são estados.
16
Exemplo: escolhendo entre loterias
17
Para a compreensão de como as preferências
entre loterias complexas estão relacionadas a
preferências entre os estados subjacentes
nessas loterias impõe-se restrições razoáveis
sobre a relação de preferência a fim de obter os
axiomas da teoria da utilidade.
18
Axiomas da teoria da utilidade
• ordenabilidade
Dados dois estados quaisquer, um agente racional deve
preferir um ao outro ou então classificar os dois como
igualmente preferíveis. Ou seja, o agente não pode evitar a
decisão. Recusar-se a apostar é como recusar-se a permitir a
passagem do tempo.
• transitividade
Dados três estados quaisquer, se um agente preferir A a B e
preferir B a C, então o agente deverá preferir A a C.
19
• continuidade
se algum estado B estiver entre A e C em preferência, então
haverá alguma probabilidade p de que o agente racional fique
indiferente entre escolher B por garantia ou escolher a loteria
que produza A com probabilidade p e C com probabilidade 1-p.
A
B
C   p [ p, A; 1 – p, C] ~ B
• substitutibilidade
se um agente está indiferente entre duas loterias A e B, então
o agente está indiferente entre duas outras loterias complexas
que são a mesma loteria, exceto pelo fato de A ser substituido
por B em uma delas. Isso é válido independentemente das
probabilidades e do(s) outro(s) resultado(s) das loterias.
A
B   p [ p, A; 1 – p, C] ~ [ p, B; 1 – p, C]
20
• monotonicidade
suponha que existam duas loterias que tenham os mesmos
dois resultados, A e B. Se um agente prefere A a B, então o
agente deve preferir a loteria que tem uma probabilidade
mais alta para A (e vice-versa)
A
B  (p > q ↔ [p, A; 1 – p, B] [q, A; 1 – q, B] )
• decomponibilidade
As loterias compostas podem ser reduzidas a loterias mais
simples com o uso das leis da probabilidade. Isto se chama
regra de “nada de diversão no jogo” (no fun in gambling),
porque afirma que duas loterias consecutivas podem ser
compactadas em uma única loteria equivalente.
[p, A; 1 – p, [q, B; 1 – q, C] ] ~ [p, A; (1 – p)q, B; (1 – p), (1 – q), C]
(imagine um cassino que calcula a probabilidade de vc ganhar ou perder
durante a noite e a coloque em um dado)
21
• Estes são os axiomas da teoria da utilidade
• A violação de quaisquer desses axiomas
acarreta em uma tomada de ações irracional!
Violar restrições leva a irracionalidade
Exemplo: se um agente viola a
restrição de transitividade,
seria possível induzí-lo a gastar
todo o seu dinheiro. Suponha
A B C A
• Se o agente possui A, entao
podemos oferecer a ele C, por A
+1c. O agente prefere C então
ele faria a transação. Podemos
então oferecer B por C+1c, e
depois A por B+1c, recaindo no
estado inicial.
• Isso pode ser feito até que o
agente gaste todo o seu dinheiro.
23
• Os axiomas da teoria da utilizade versam
sobre preferências....
• ... porem são consequências desses axiomas
os seguintes teoremas:
– existência da função de utilidade;
– utilidade esperada de uma loteria.
• Existência da função utilidade:
– Se as preferências de um agente obedecem aos axiomas
de utilidade então existe uma função de valores reais U que
opera sobre estados tais que U(A) > U(B) se e somente se A
é preferivel em relação a B, e U(A) = U(B) se e somente se
o agente está indiferente entre A e B.
• Utilidade esperada de uma loteria: é a soma das
probabilidades de cada possibilidade vezes a sua
utilizade
25
Utilidade é uma função que mapeia loterias à
números reais
Um agente pode ter quaisquer preferências
que desejar:
• preferir um corcel surrado 73 ao invés de um Mercedes
novo
• preferir saldos de conta bancaria apenas em números
primos, abrindo mão do excedente
Porém, em geral as preferências de agentes reais são mais
sistemáticas
26
escalas de utilidade e avaliação de
utilizade
• objetivo: criar sistemas de decisão que
ajudem um agente a tomar decisões racionais.
• Para tal precisamos definir a função de
utilidade do agente
• “dedução da preferência” (preference
elicidation): apresentar escolhas para o
agente e, usando as escolhas observadas,
definir a sua função de utilidade.
Escalas de utilidade
• Uma escala pode ser definida a partir de dois
pontos. Para a função de utilidade:
– “melhos prêmio possível” : U(S) = uT
– “pior catastrofe possível”: U(S) = u
• Utilidade normalizada: u = 0 e uT = 1.
Escalas de utilidade
• Dada uma escala de utilidade entre u e uT, as
utilidades dos estados intermediários são
avaliadas pedindo-se que o agente indique uma
preferência entre S e uma loteria padrão [p, uT; (1-p)
u].
• A probabilidade p é ajustada até o agente ficar
indiferente entre S e a loteria padrão.
• Uma vez que isso seja feito para cada prêmio, temos
a utilidade de todas as loterias envolvendo estes
prêmios (para um agente específico).
Escalas de utilidade
• Ex.:em problemas de decisão na área médica, de
transporte e ambiental a utilidade é avaliada com
relação à probabilidade associada ao valor de
utilidade de morte imediata (u)
– aviões recebem uma revisão completa a partir de
intervalos entre viagens e tempo de vôo (o valor
desse intervalo esta relacionado a u);
– carros são produzidos assumindo um
compromisso do custo sobre taxa de sobrevida em
acidentes.
Escalas de utilidade
• Escalas possíveis:
– 1 micromorte: uma chance de morte em um
milhão
– Qualy: quality-ajusted life year
– Grana, bufunfa, dinheiro
Utilidade do dinheiro
• agentes preferem mais dinheiro do que menos
(mantidas todas as condições iguais)
– agentes racionais possuem uma preferência
monotônica para mais dinheiro
– porém não é uma função de utilidade pois não diz
nada sobre preferências a respeito de loterias
envolvendo dinheiro.
Utilidade do dinheiro - exemplo
• Um jogador ganhou um prêmio de R$ 1.000.000 em um programa de TV
• Apresentador oferece uma proposta:
– Se ele jogar a moeda e aparecer cara  jogador perde tudo;
– Se aparecer coroa  jogador ganha R$ 3.000.000;
• Supondo que a moeda é justa o Valor Monetário Esperado (VME) de
aceitar proposta é:
VME = 0.5 (R$ 0) + 0.5 (R$ 3.000.000) = R$ 1.500.000
• O Valor Monetário Esperado de recusar a proposta é de R$ 1.000.000
(menor)
Isso indica que seria melhor aceitar a aposta ?
33
Utilidade do dinheiro – exemplo (cont.)
•
A Utilidade Esperada (EU) para cada uma das duas ações, Sk = riqueza atual
do jogador é:
– EU (Aceitar) = 0.5 U(Sk) + 0.5 U(Sk+3.000.000)
– EU (Rejeitar) = U(Sk+1.000.000)
•
Deve-se atribuir valores de utilidade para cada estado de saída:
– Sk = 5
– Sk+3.000.000 = 9
– Sk+1.000.000 = 8
–
Utilidade esperada: EU(aceitar) = 0.5x5 + 0.5x8 = 7.5 < 8
Ação racional: rejeitar !
•
Calculando a Utilidade Esperada (EU) para cada uma das duas ações temos
que a decisão depende do estado de riqueza atual do jogador, uma vez que a
utilidade (mudança no estilo de vida) para o primeiro R$ 1.000.000 é muito
alta.
Portanto a utilidade não é diretamente proporcional ao valor monetário (pois a
utilidade do seu primeiro milhão é maior do que a do seu segundo milhão).
34
Utilidade do Dinheiro
• Não é uma função linear:
conforme aumenta a quantidade de
dinheiro, a taxa de crescimento da
utilidade diminui.
– ou seja, as pessoas ficam mais
avessas a risco conforme
aumentam os valores
• Do lado da dívida a tendência é ser
favorável ao risco.
35
Utilidade do dinheiro
• Grayson (1960) deduziu que a utilidade do
dinheiro é proporcional ao logaritmo da
quantia
A utilidade do dinheiro é proporcional ao logaritmo da
quantia entre -$150.000 e 800.000 (Mr. Beard)
U(L) < U(Seml(L))
Risk-averse
U(L) > U(Seml(L))
Risk-seeking
Alguém que já deve 10.000 pode muito bem aceitar um lançamento de moeda
justo para um ganho de $10.000 (caras) e uma perda de $20000 para
coroas.
Tal comportamento poderia ser chamado de desesperado, mas é racional se
alguém já está em uma situação desesperada.
37
Utilidade esperada e
desapontamento pós decisão
• a forma racional de escolher uma ação a*é:
a* = argmaxa EU(a|e)
• se EU for calculado corretamente, de acordo
com o modelo probabilístico, se as
probabilidades realmente corresponderem os
processos estocasticos subjacentes aos
eventos, então em média obteremos o
resultado esperado....
Optimizer’s curse
• Porem o que realmente temos é uma
estimativa (~EU(a|e)) da utilidade esperada.
• Em geral o valor esperado real é pior do que o
estimado
– Eg. considere um problema de decisão com k
escolhas, cada uma das quais tem utilidade
estimada = 0
– Suponhamos que o erro de cada estimativa tenha
média 0 e desvio padrao de 1
• Como selecionamos a ação com a maior
estimativa de utilidade, estamos favorecendo
estimativas ultra-otimistas, causando um
comportamento tendencioso
• A curva para k = 3
possui média em
torno de 0.85,
portanto o
desapontamento
médio será de 85% do
desvio padrão na
estimativa de utilidade
• (exercício 16.11)
Funções de utilidade multi-atributo
• Existem problemas em que resultados são caracterizados por
dois ou mais atributos.
• Como tratar funções de utilidades com várias variáveis X1, ...,
Xn ?
Ex.: Construir aeroporto - U(Morte, ruído, Custo)
• Existem basicamente dois casos:
– Decisões podem ser tomadas sem combinar os valores dos
atributos em um único valor da utilidade (Dominância);
– A utilidade resultante da combinação dos valores dos
atributos pode ser especificada concisamente (Estrutura
de Preferência e Utilidade multi-atributo);
42
Dominância
• Se um estado S1 possui valores melhores em todos seus
atributos do que S2, então existe uma dominância total
de S1 sobre S2;
• Exemplo:
Local S1 para Aeroporto custa menos, gera menos poluição
sonora e é mais seguro que S2 (S1 domina totalmente S2 );
• Dominância total raramente acontece na prática;
43
P
S1
S2
$
-5.2
- 2,8
• Exemplo:
Custo de construir aeroporto , vamos supor :
– Em S1 valor uniformemente distribuído entre $2,8 e $4,8 bilhões;
– Em S2 valor uniformemente distribuído entre $3 e $5,2 bilhões;
• Dada a informação que utilidade decresce com custo:
– S1 domina estocasticamente S2  Isso não decorre da comparação
entre custos esperados (e.g. se soubermos que S1 custa exatamente
$3.8 bilhões, não saberiamos resolver sem info adicionais!)
44
• Na prática, dominância estocástica pode geralmente ser
definida usando apenas raciocínio qualitativo;
• Existem algoritmos envolvendo “redes probabilísticas
qualitativas” permitindo sistemas de tomada de decisão
baseado em dominância estocástica sem usar valor;
• Ex.: custo de construção aumenta com a distância para a
cidade:
– S1 é mais próximo da cidade do que S2  S1 domina S2
estocasticamente sobre o custo
45
Estrutura de preferências e
utilidade multi-atributo
• Vamos supor que temos n atributos, cada um
dos quais com d valores possíveis.
– para especificar uma função de utilidade
completa U(x1, ..., xn) precisamos de dn valores
• Preferências de agentes típicos possuem
estruturas/regularidades que reduzem a
complexidade desta definição:
– U(x1, ..., xn) = f[ f1(x1), ..., fn
(xn)]
Preferências sem incerteza
• A regularidade básica que surge em estruturas de preferências
determinísticas é chamada Independência de Preferências;
• X1 e X2 são preferencialmente independentes de X3 :
– Se a preferência entre resultados {x1, x2, x3} e {x1’, x2’, x3}
não depende do valor específico x3 para o atributo X3
– Ex.: {ruído, custo, morte}
a) 20.000 sofrem; $4,0 bilhões; 0,06 mortes/milhão de milhas
versus
b) 70.000 sofrem, $3,7 bilhões; 0,06 mortes/milhão de milhas
prefiro a) a b) independente do fator risco de morte
47
• Independência preferencial mútua (MPI): todos os pares de
atributos são preferencialmente independentes com relação
aos demais;
– Ex.: {custo e morte} são preferencialmente independentes de ruído
{ruído e morte} são preferencialmente independentes de custo
• (Debreu, 1960) Com MPI, o comportamento preferencial do
agente pode ser descrito como uma maximização da função:
V (x1 ... xn) = i Vi(xi)
Em que Vi é uma função definida somente sobre o atributo xi
– Ex.: V(barulho,custo,morte ) = - barulho x 10⁴ - custo - morte x 10¹²
(função valor aditiva)
48
• Para entender MPI, melhor olhar para casos em que ela
falha:
– Suponha que vc seja um caçador medieval e precisa comprar no mercado cães de caça,
galinhas vivas e gaiolas para as galinhas. Os cães são muito valiosos, mas se voce não
tiver gaiolas suficientes para as galinhas, os cães as comerão; assim o número de cães
vs galinhas vai depender do número de gaiolas
– Neste caso a MPI é violada
– A existência deste tipo de interação entre os atributos torna difícil a criação de uma
função de utilidade multi-atributo.
49
Preferências com incerteza
•
Deve-se levar em consideração estruturas a respeito de preferências
sobre loterias;
A noção básica de independência de utilidade estende a noção
de independência de preferências sobre loterias:
•
–
•
Conjunto de atributo X é independente de utilidade com relação ao conjunto
de atributo Y : Se a preferência sobre loterias em X não depende dos
valores dos atributos em Y
Independência de utilidade mútua (MUI)
Um conjuto de atributos é mutuamente independente da utilidade se cada um
dos seus subconjuntos de atributos é independente de utilidade dos atributos
restantes;
•
(Keeney, 1974 ) Existe MUI então, comportamento do agente pode ser
descrito usando a função de utilidade multiplicativa:
U = k1U1 + k2U2 + k3U3 + k1 k2U1U2 + k2 k3U2U3 + k3 k1U3U1 + k1k2k3U1U2U3
50
Preferências com incerteza
(cont.)
• Em geral, um problema de “n” atributos que exibe MUI pode
ser modelado com a utilização de “n” utilidades de um único
atributo e “n” constantes
• Cada uma das funções utilidades de único atributo pode ser
desenvolvida independente e a combinação oferecerá a
garantia de gerar preferências globais corretas.
51
Redes de decisão
Formalismo para expressar e resolver problemas de decisão: estende Redes
Bayesianas adicionando ações e utilidades
• Mecanismo geral para tomada de
decisões racionais
• Representam : Estado atual do
agente, suas ações possíveis,
estado resultante, e a utilidade
desse estado;
• Estende Redes Bayesianas com
ações e utilidades;
• As ações são selecionadas pela
avaliação da rede
– Nós de acaso (ovais):
representam variáveis aleatórias;
– Nós de Decisão (retângulo):
pontos onde agente deve
escolher uma ação;
– Nós de Utilidade (diamantes):
representam as funções de
utilidade do agente;
52
LOCAL DO AEROPORTO? pag 579
1. Atribuir os valores das variáveis
para o estado corrente;
Área B
Área A
Morte
(3)
Morte
(3)
2. Para cada valor possível do nó de
decisão:
– Ajuste o valor do nó de decisão para este
valor;
– Calcule o valor da probabilidade
condicional para os nós pais do nó de
utilidade, usando algum algoritmo de
inferência probabilística;
– Calcular o valor final de utilidade para a
ação em questão;
Barulho
(2)
Custo da
Construção
(200)
U
Barulho
(4000)
F(u)=X Custo da
U
F(u)=Y
Construção
(150)
3. Retornar a ação com maior
Utilidade Máxima Esperada
53
O valor da informação
• Até agora, as informações relevantes foram fornecidas ao
agente antes da tomada de decisão o que dificilmente
acontece na prática;
– E.g. Um médico não pode supor possuir todos os diagnósticos, testes e
respostas no instante em que o paciente entra no consultorio pela 1ª
vez
• A Teoria do Valor da Informação permite que o agente escolha
quais informações adquirir;
54
O valor da informação
• Assumimos então que, antes de selecionar uma ação real
representada por um nó de decisão, o agente possa adquirir o
valor de quaisquer variáveis aleatórias do modelo
– portanto, a teoria do valor da informação envolve uma
versão simplificada de tomada de decisão
– i.e., as ações afetam somente os estados de crença do
agente, não os estados do domínio
• Valor de qualquer observação deve ser derivada do potencial
desta observação afetar alguma ação física do agente
• Este potencial pode ser estimado diretamente do modelo de
decisão.
55
O valor da informação
• Exemplo: comprar os direitos de exploração de reservas de
petróleo (blocos):
– n blocos para perfuração, apenas um possui óleo com
valor $C, enquanto os outros não valem nada;
– Probabilidade de comprar o bloco certo = 1/n (sem
informação)
– O preço de cada bloco é $C/n;
– Consultor oferece uma pesquisa para detectar se o bloco 3
possui petróleo ou não. Qual o valor dessa informação?
56
O valor da informação
Solução:
– Calcular o valor esperado da informação = valor esperado
da melhor ação dada a informação – valor esperado da
melhor ação sem a informação;
– Com probabilidade 1/n o consultor dirá que tem óleo em
3. Nesse caso a empresa comprará o bloco 3 por C/n
e terá um ganho de C - C/n = (n-1)C/n = G1
– com probabilidade (n-1)/n o consultor dirá que o bloco
não contém óleo, nesse caso a empresa comprará um
outro bloco. Ela encontrará óleo nesse bloco com
probabilidade 1/(n-1). Portanto o ganho esperado é de:
C/(n-1) - C/n = C/n(n-1) = G2
– Ganho esperado será então: G1+G2 = C/n
A informação custa tanto quanto o bloco!
57
• Em geral, o valor de uma dada peça de
informação é definido como a diferença entre
o valor esperado da melhor ação antes de
depois desta informação ter sido obtida.
58
fórmula para informação perfeita
• Assumimos que o valor exato da evidência
pode ser obtido para alguma variávei
aleatória (Ej). Queremos obter o valor da
informação perfeita (VPI).
• Evidência inicial e. Então o valor da melhor
ação a no momento é:
EU(a|e) = maxa s’ P(Result(a) = s’|a,e)U(s’)
fórmula para informação perfeita
• e o valor da melhor ação (após a obtenção da
evidência Ej = ej):
EU(aej|e, ej) = maxa s’ P(Result(a) = s’|a,e,ej)U(s’)
fórmula para informação perfeita
• Porém o valor de Ej ainda não é sabido,
portanto para determinar o valor de Ej, dada a
informação atual e, deve-se levar em
consideração todos os valores ejk sobre Ej:
VPI(Ej) = (k P(Ej= ejk|e)EU(ajk|e, Ej = ejk)) - EU(a|e)
Valor da informação – exemplo 2
• A1 e A2 duas rotas distintas através de uma montanha;
– A1 e A2 são as únicas ações possíveis, com EU = U1 e U2;
– A1 = caminho mais baixo, sem muito vento;
– A2 = caminho mais alto, com muito vento;
– U (A1) > U (A2) !!!
• Nova evidência NE produzirá novas utilidades esperadas U1’ e U2’;
– Vale a pena adquirir NE?
• E se mudássemos o cenário?
– II) A1 e A2 são duas estradas onde venta muito, de mesmo tamanho e
levamos um ferido grave;
– III) Mesmas estradas A1 e A2 mas agora no verão;
62
“A informação tem valor até o ponto em que apresenta alguma probabilidade
de causar uma mudança de planos e até o ponto em que o novo plano é
significativamente melhor que o velho.” IA Russel pag 583
63
Sistemas especialistas de teoria da decisão
• No campo da Análise de Decisões temos a aplicação da Teoria
da Decisão a problemas reais (principalmente envolvendo altos
riscos);
• No início os Sistemas Especialistas concentravam-se em
responder perguntas e não em tomadas de decisão;
• Hoje temos que os Sistemas Especialistas envolvem um
Processo de Engenharia do Conhecimento com etapas
definidas e que fornecem as seguintes capacidades:
– tomar decisões;
– usar valor da informação para decidir se deve adquirir
algo;
– calcular a sensibilidade de suas decisões.
64
Descrição do processo de engenharia do conhecimento
para sistemas especialistas de teoria da decisão
Cerca de 0,8% das crianças nascem com uma anomalia no coração chamada
estreitamento da aorta. Pode ser tratata por cirurgia, angioplastia ou medicação. O
problema é decidir qual tratamento e quando fazê-lo.
Etapas do processo de Engenharia do Conhecim ento
Crie um Modelo Causal
1) Determinar ( sintomas, doenças, tratamentos e
resultados ); 2) Desenhar arcos ( que doenças
causam cada sintoma ); 3) Desenhar arcos ( que
tratamentos aliviam os sintomas de cada doença)
Simplifique até chegar a um modelo
de decisão qualitativa
Remover variáveis não estão envolvidas em
decisões de tratamento
Atribua Probabilidades
1) Pode vir de Banco de Dados de Pacientes; 2)
Estudos de Literatura; 3) Avaliação de Especialistas
Atribua Utilidade
Criar escala do melhor ao pior resultado:
Recuperação Completa = 0 e Morte = -1000
Verifique e Refine o modelo
Necessita conjunto de pares (entrada , saída) --> (
sintomas, solicitar tratamento )
Execute a análise de sensibilidade
Verificar se a melhor decisão é sensível a
pequenas mudanças nas probabilidades e
utilidades atribuídas
65
Caso do estreitamento da aorta
IA Russel pg 586
66
Download

Decisoes Simples - Centro Universitário FEI