Sistemas Inteligentes
Tipos de Regras - Discussão geral
Flávia Barros
1
Plano de Aula
Contexto

O mundo do Wumpus
Tipos de regras





de reação
atualização do modelo do mundo
atualização do modelo do mundo & ação
de objetivo
síncronas e diacrônicas
Sistema de Ação-Valor
2
O Mundo do Wumpus
3
Bem-vindos ao “Mundo do Wumpus”
Wumpus
Agente caçador
de tesouros
4
O Mundo do Wumpus:
Formulação do problema
Ambiente:

paredes, Wumpus, cavernas, buracos, ouro
Estado inicial:


agente na caverna (1,1) com apenas uma flecha
Wumpus e buracos em cavernas quaisquer
Objetivos:


pegar a barra de ouro &
voltar à caverna (1,1) com vida
5
O Mundo do Wumpus:
Formulação do problema
Percepções:

fedor ao redor do Wumpus

vento ao redor dos buracos

brilho do ouro - apenas na caverna onde ele está

choque contra a parede da caverna

grito do Wumpus quando ele morre
6
O Mundo do Wumpus:
Formulação do problema
Ações do agente:

avançar para próxima caverna

girar 90 graus à direita ou à esquerda


pegar o ouro na mesma caverna onde o agente
está
atirar na direção para onde está olhando
 a flecha pára quando encontra uma parede ou
mata o Wumpus

sair da caverna
7
Raciocinando e Agindo no
Mundo do Wumpus
Conhecimento do agente:
(a) no início do jogo, depois de receber sua primeira
percepção , e
(b) depois do 1o movimento, com a seqüência de
percepções [nada,vento,nada,nada,nada]
4
4
3
3
2
ok
1
A
ok
1
2
1
ok
2
3
4
CV - caverna
visitada
ok
B?
CV v A
ok
ok
1
2
B?
3
4
9
Raciocinando e Agindo no
Mundo do Wumpus
Estando em (2,2), o agente move-se para (2,3) e
encontra o ouro!!!
4
4
3
W!
3
2
f A
ok
2
1
CV
ok
1
ok
v CV
ok
2
B!
3
1
4
B?
W!
A
CV - caverna
visitada
B?
fvb
f CV CV
ok
ok
CV
ok
1
CV
v ok
2
B!
3
4
10
Mundo de Wumpus
Tipo do ambiente
Observável ou não?
Determinista ou Estocástico?
Episódico ou Não-Episódico?
Estático ou Dinâmico ?
Discreto ou Contínuo ?
11
Mundo de Wumpus
Tipo do ambiente
Observável ou não-observável
Determinista ou estocástico
Episódico ou Não-Episódico
Estático ou Dinâmico
Discreto ou Contínuo
12
Mundo de Wumpus
Arquiteturas do agente
Agente puramente reativo
Agente reativo com estado interno
(autômato)
Agente cognitivo (baseado em objetivos)
Agente otimizador
Agente adaptativo
13
Mundo de Wumpus
Agente puramente reativo
Possui apenas regras de reação

percepção  ação
 IF percepçãoVisual = brilho THEN ação = pegar
Limitações do agente reativo puro

um agente ótimo deveria:
 recuperar o ouro ou determinar que é muito perigoso pegar o
ouro e
 em qualquer dos casos, voltar para (1,1) e sair da caverna.

Um agente reativo nunca sabe quando parar
 estar com o ouro e estar na caverna (1,1) não fazem parte da
sua percepção (se pegou, esqueceu).
 esses agentes podem entrar em laços infinitos.
14
Mundo de Wumpus
Agente reativo com estado interno
Regras associando indiretamente percepção com
ação pela manutenção de um modelo do ambiente


Que fica guardado na memória de trabalho
Raciocínio:
 Ação a realizar agora depende da percepção atual +
percepções anteriores + ações anteriores...
Motivação para guardar estado do ambiente

O ambiente inteiro não é acessível no mesmo momento
 O agente só vê o interior da caverna quando esta dentro dela

Percepções instantâneas iguais podem corresponder a
estados diferentes
 ex. o agente sem estado interno não sabe quais são as
cavernas já visitadas...
15
Agente reativo com estado interno
Tipos de regras
Precisamos de novas regras para atualização do
modelo do ambiente (memória)

Associação entre percepção e ação mediada pelo modelo do
ambiente
(1) percepção  modelo  modelo’
(2) modelo’  modelo’’
 Aqui a memória se atualiza sozinha via inferência

raciocínio progressivo...
(3) modelo’’  ação
 a memória escolhe a ação via inferência
(4) ação  modelo’’  modelo’’’
16
Mundo de Wumpus
Agente reativo com estado interno
Regras percepção  modelo  modelo’

IF percepçãoVisual no tempo T = brilho
AND localização do agente no tempo T = (X,Y)
THEN localização do ouro no tempo T = (X,Y)
Regras modelo  modelo’

IF agente está com o ouro no tempo T
AND localização do agente no tempo T = (X,Y)
THEN localização do ouro no tempo T = (X,Y)
17
Mundo de Wumpus
Agente reativo com estado interno
Regras modelo  ação

IF localização do agente no tempo T = (X,Y)
AND localização do ouro no tempo T = (X,Y)
THEN ação escolhida no tempo T = pegar
Regras modelo  ação  modelo

IF localização do agente no tempo T = (X,Y)
AND localização do ouro no tempo T = (X,Y)
AND ação escolhida no tempo T = pegar
THEN agente está com o ouro no tempo T+1
18
Mundo de Wumpus
Agente reativo com estado interno
Desvantagens desta arquitetura



Oferece autonomia, mas não muita
Não tem objetivo explicito
Não pensa no futuro (além da ação imediata)
 Ex. pode entrar em loop se as regras não forem
bem projetadas
19
Agente baseado em objetivo =
Agente Cognitivo
Sensores
Ambiente
Atuadores
Interpretador
de percepção
Atualizador
do modelo
do ambiente
Atualizador
do objetivos
Modelo dos ambientes
passados e atual
Objetivos
Preditor
de ambientes
futuros
Escolhedor
de ação
Modelo de ambientes
futuros hipotéticos
20
Agente baseado em objetivo
Funcionamento geral
Associação entre percepção e ação mediada
por


modelo do ambiente e
objetivo do agente
Pode envolver encadear regras para construir
plano multi-passo necessário para atingir
objetivo a partir do modelo

Ex. matar o Wumpus para poder atravessar a
caverna onde ele esta e então pegar o ouro
(objetivo)
21
Agente baseado em objetivo
Funcionamento geral
Capaz de lidar com os 4 tipos de regras do agente
reativo com estado interno, além de tratar 2 novos tipos
de regras:
(5) objetivo  modelo  ação
 Substitui regra (3)...
(6) objetivo  modelo  objetivo’
 Regra para trocar de objetivo!
22
Agente baseado em objetivo
Funcionamento geral
Este agente


Trata o objetivo explicitamente e pode planejar o
futuro!
Porém... não trata objetivos conflitantes
 ex. pegar o ouro pelo caminho mais curto, mais seguro,
rápido

Agente baseado em utilidade (próximos capítulos...)
23
Mundo de Wumpus - Agente Cognitivo
Regras objetivo  modelo  ação (ex. 1)
O agente escolhe a ação conforme o objetivo

Podendo variar a sua escolha
 como não matar o Wumpus para pegar logo o ouro

IF objetivo do agente é pegar o ouro
AND agente está em (X-1, Y) no tempo T
AND sabe que o ouro está na localidade (X,Y)
AND sabe que localidade (X,Y) é segura no tempo T
AND sabe que o Wumpus está na localidade (X-1,Y+1) no tempo T
AND agente tem uma flecha no tempo T
THEN escolha ação Vá-para (X,Y)
24
Mundo de Wumpus - Agente Cognitivo
Regras objetivo  modelo  ação (ex. 2)
Aqui, o agente escolhe um caminho para chegar ao
objetivo


Estratégia!!
IF objetivo do agente no tempo T é estar na localidade (X,Y)
AND agente está em (X-1, Y-1) no tempo T-N
AND sabe que localidade (X,Y-1) é segura no tempo T-N
AND sabe que localidade (X,Y) é segura no tempo T-N
THEN escolha ação Vá-para (X,Y) via (X,Y-1)
25
Mundo de Wumpus - Agente Cognitivo
Regras objetivo  modelo  objetivo’
Se o agente queria estar com o ouro e conseguiu,
atualizar objetivo para “ir para (1,1)”
IF objetivo do agente no tempo T é estar com o ouro no tempo T+N
AND agente está com o ouro no tempo T+1
THEN atualize o objetivo do agente no tempo T+1
para objetivo = estar na localidade(1,1) no tempo T+M
26
Outra classificação – ortogonal...
Regras podem ser

Síncronas
 relacionam propriedades na mesma situação
(tempo)

Diacrônicas
 descrevem como o mundo evolui com o tempo
 do grego “através do tempo”
27
Mundo de Wumpus - Agente Cognitivo
Regras Diacrônicas
Descrevem como o mundo evolui com o tempo

do grego “através do tempo”
IF localização do agente no tempo T = (X,Y)
AND localização do ouro no tempo T = (X,Y)
AND ação escolhida no tempo T = pegar
THEN agente está com o ouro no tempo T+1

Já vimos... Regra modelo  ação  modelo
28
Mundo de Wumpus - Agente Cognitivo
Regras Síncronas
Relacionam propriedades na mesma situação
(tempo)


IF percepção no tempo T = brilho
AND localização do agente no tempo T = (X,Y)
THEN localização do ouro no tempo T = (X,Y)
Já vimos... Regra percepção  modelo  modelo’
29
Mais uma classificação....
Regras também podem ser


Causais
de Diagnóstico
 Pag 317 da 3ª edição do livro texto AIMA
30
Regras causais
Regras Causais assumem causalidade

Se chover, a grama fica molhada
 Causa -> efeito
Sistemas que usam regras causais são
conhecidos como Sistemas Baseados em
Modelos

Trabalham com dedução
 Inferência que preserva a verdade
31
Regras causais
Exemplos
Algumas propriedades do mundo causam certas
percepções

Exemplo1: as cavernas adjacentes ao Wumpus são
fedorentas
" cav1,cav2 Em (Wumpus,cav1)  Adjacente(cav1,cav2)
 Fedorento (cav2)

Exemplo2: a caverna do Wumpus é segura depois que ele
morre
" cav1,cav2,t Em (Wumpus,cav1)  Em(Agente,cav2,t) 
Adjacente(cav1,cav2) Ação (Atirar,t)
 Segura (cav1,t+1)
32
Regras de diagnóstico
Regras de Diagnóstico

se a grama está molhada, então o aguador ficou
ligado
 Efeito -> causa
Sistemas que usam regras de diagnóstico são
conhecidos como Sistemas de Diagnóstico

Raciocínio abdutivo
 Preserva a falsidade...
33
Regras de diagnóstico
Raciocínio abdutivo


supõe a presença de propriedades escondidas a
partir das percepções do agente
Ex., a ausência de fedor e vento em uma caverna
implica que essa caverna e as adjacentes estão
seguras (OK)
" cav1,cav2,brilho,grito,choque,t
Percepção([nada, nada, b,g,c], t) 
Em(Agente,cav1, t)  Adjacente(cav1,cav2) 
OK(cav2)
34
Tipos de regras
Atenção:


Não se pode misturar numa mesma BC regras
causais e de diagnóstico!!!
se choveu é porque o aguador estava ligado...
35
Sistema de Ação-Valor
Modularidade das Regras
Adequação das regras
36
Modularidade das Regras
Para tornar as regras mais modulares, podemos
separar fatos e regras sobre ações de fatos e
regras sobre objetivos


assim, o agente pode ser “reprogramado”
basta mudando o seu objetivo quando necessário
37
Modularidade das Regras
Ações descrevem como alcançar resultados
Objetivos descrevem a adequação
(desirability) de estados resultado

não importando como foram alcançados
Assim, descrevemos a adequação das regras
e deixamos que a máquina de inferência
escolha a ação mais adequada
38
Sistema de Ação-Valor
Sistema baseado em regras de adequação

Não se refere ao que a ação faz, mas a quão
desejável ela é
Ações podem ser

ótimas, boas, médias, arriscadas ou mortais.
 Escala em ordem decrescente de adequação
Essas regras são gerais, e podem ser usadas em
situações diferentes
 uma ação arriscada no tempo T1
 Atravessar a caverna quando o Wumpus está vivo

pode ser ótima no tempo T2
 quando o Wumpus já está morto
39
Sistema de Ação-Valor
Assim, podemos escolher a ação mais adequada
para a situação atual
Meta regras que determinam a prioridade de execução
das regras – desempate

" a,s Ótima(a,s)  Ação(a,s)

" a,s Boa(a,s)  ( b Ótima(b,s))  Ação(a,s)

" a,s Média(a,s)  ( b (Ótima(b,s) Boa(b,s) ))  Ação(a,s)

" a,s Arriscada(a,s)  ( b (Ótima(b,s) Boa(b,s) Média(a,s)))
 Ação(a,s)
40
Sistema de Ação-Valor
Instanciando as regras...
Prioridades do agente até encontrar o ouro:





ações ótimas: pegar o ouro quando ele é encontrado, e
sair das cavernas.
ações boas: mover-se para uma caverna que está OK e
ainda não foi visitada.
ações médias: mover-se para uma caverna que está OK e
já foi visitada.
ações arriscadas:mover-se para uma caverna que não se
sabe com certeza que não é mortal, mas também não é OK
ações mortais: mover-se para cavernas que sabidamente
contêm buracos ou o Wumpus vivo.
41
Agentes Baseados em Objetivos
O conjunto de regras de adequação (ações-valores) é
suficiente para prescrever uma boa estratégia de
exploração inteligente das cavernas

quando houver uma seqüência segura de ações , ele acha o
ouro
Depois de encontrar o ouro, a estratégia deve
mudar...

novo objetivo: estar na caverna (1,1) e sair.
" s Segurando(ouro,s)  LocalObjetivo ([1,1],s)
A presença de um objetivo explícito permite que o
agente encontre uma seqüência de ações que
alcançam esse objetivo
42
Como encontrar seqüências de ações
(1) Inferência:


Idéia: escrever axiomas que perguntam à BC/MT
uma seqüência de ações que com certeza alcança o
objetivo.
Porém, para um mundo mais complexo, isto se
torna muito caro
 como distinguir entre boas soluções e soluções mais
dispendiosas (onde o agente anda “à toa” pelas cavernas)?
43
Como encontrar seqüências de ações
(2) Planejamento

utiliza um sistema de raciocínio dedicado, projetado para
raciocinar sobre ações e conseqüências para objetivos
diferentes.
ficar rico e feliz
pegar o ouro
açõesee conseqüências
conseqüências
ações
sair das cavernas
açõesee conseqüências
conseqüências
ações
44
Próxima aula
Aula sobre sistemas baseados em LPO
Dúvidas da lista
45