Incerteza Capítulo 13 IA - Mestrado FEI Outline • • • • • incerteza Probabilidade Sintaxe e Semântica Inferência Independência e Regra de Bayes incerteza Seja a ação At = sair para o aeroporto t minutos antes do vôo. At me levará ao aeroporto a tempo? Problemas: 1. 2. 3. 4. Estados parcialmente observáveis (estado das estradas, tráfego, outros planos, etc.) Sensores ruidosos (relatórios de trafego) incerteza quanto aos efeitos das ações (pneu furado, etc.) Grande complexidade em modelar e prever trafego Assim, um procedimento puramente lógico 1. 2. Riscaria deduzir algo potencialmente falso: “A25 me levará a tempo””, ou Levaria a conclusões muito fracas para tomada de decisões: “A25 me levará a tempo, se nenhum acidente ocorrer na ponte, e se não chover, e se nenhum pneu furar, e ...” (A1440 poderia ser um solução lógica razoável, porém eu teria que passar a noite no aeroporto) Métodos para lidar com incerteza • Default ou lógica não monotônica: – Assuma que o carro não possua um pneu furado; – Assuma que A25 funcionaria a menos que haja evidência do contrário; • ! Quais (e quantas) hipóteses são razoáveis? Como manipular conclusões falhas? • Regras com fatores de incerteza: – A25 |-> 0.3 chegar ao aeroporto a tempo – mangueira |-> 0.99 grama molhada – Grama molhada |-> 0.7 chuva • ! Problemas com a combinação de regras contraditórias: A mangueira causa chuva?? Métodos para lidar com incerteza • Probabilidade – Modela o grau de crença de um agente – Dado evidências disponíveis – A25 chegará ao aeroporto a tempo com probabilidade 0.04 • (Fuzzy manipula o grau de veracidade NÃO incerteza. E.g. “Grama está molhada” é verdade com um grau de 0.2) Probabilidade A probabilidade proporciona um meio para resumir a incerteza que vem de nossa: – preguiça: falha em numerar todas as exceções, antecedentes ou consequêntes para assegurar uma regra sem exceções – ignorância: falta de conhecimento sobre fatos relevantes, condições iniciais, etc. Probabilidade subjetiva ou Bayesiana: • Probabilidade se relaciona a proposições sobre o estado de crença do agente e.g., P(A25 | no reported accidents) = 0.06 Probabilidade • Proposições probabilísticas não são proposições sobre o mundo! • Portanto o compromisso ontológico da teoria da probabilidade é o mesmo da lógica clássica: – As sentenças são verdadeiras ou falsas: • Atribuir prob. 0 (1) a S significa na crença inequívoca de que S é falsa (verdadeira) – (fuzzy assume um outro compromisso...) Probabilidade • A probabilidade de uma sentença depende das percepções que o agente recebeu até o momento (evidências) • Portanto, probabilidades mudam a partir de novas evidências: – e.g., P(A25 | nenhum acidente, 5 a.m.) = 0.15 [ Isso é análogo à relação de conseqüência lógica: BC |= a ] Todas as declarações de probabilidade devem indicar a evidência de acordo com a qual a prob. está sendo avaliada. Decisões sob incertezas Suponha o seguinte conjunto de crenças: P(A25 chega a tempo | …) = 0.04 P(A90 chega a tempo| …) = 0.70 P(A120 chega a tempo| …) = 0.95 P(A1440 chega a tempo| …) = 0.9999 • Que ação tomar? Depende de minhas preferências sobre perder o vôo vs. tempo esperando, etc. – Teoria da utilidade representa preferências (todo estado tem um grau de utilidade) – Teoria da Decisão = teoria da probabilidade + teoria da utilidade Introdução à probabilidade: • Proposições: graus de crença são aplicados a proposições (afirmação sobre uma situação) • Elemento básico: variável aleatória – algo que se refere a uma parte do mundo cujo “status” é inicialmente desconhecido; • Domínio • V. aleatórias booleanas: e.g., Carie = <verdadeiro, falso> • V. aleatórias discretas: e.g., Clima possui valores em <ensolarado, chuvoso, nublado, neve> • V. aleatórias contínuas: e.g., temperatura – Valores do domínio devem ser exaustivos e mutuamente exclusivos Introdução à probabilidade: • Evento Atômico: Especificação completa do estado do mundo sobre o qual o agente está inseguro. – Uma atribuição de valores específicos a TODAS as variáveis as quais o mundo é formado – mutuamente exclusivos (no máximo um deles pode ocorrer em cada instante) – exaustivos: pelo menos um deles tem que ocorrer Evento atômico: exemplo Se o mundo consistir somente de 2 var. booleanas Carie e DordeDente, então há quatro eventos atômicos distintos: Cárie = false DordeDente = false Carie = false DordeDente = true Cárie = true DordeDente = false Cárie = true DordeDente = true Axiomas de probabilidade • Para quaisquer proposições A, B – 0 P(A) 1 – P(verdade) = 1 e P(falso) = 0 • (proposições neces. verdadeiras -- válidas -prob=1 e proposições neces. falsas – não satisfatíveis -- prob.=0) – P(A B) = P(A) + P(B) - P(A B) probabilidade • A probabilidade de uma proposição é igual à soma das probabilidades dos eventos atômicos em que ela é válida: P(a) = ei e(a)P(ei) • Essa equação fornece um método simples de calcular a probabilidade de qqr proposição dada uma distr. conjunta total que especifique todos os eventos atômicos. Probabilidade incondicional ou a priori • É o grau de crença acordado para uma proposição na ausência de quaisquer outras informações e.g., P(Carie = verdadeiro) = 0.1 and P(Clima = ensolarado) = 0.72 • Distribuição de Probabilidades: todos os valores de uma variável aleatória: P(Clima) = <0.72,0.1,0.08,0.1> (normalizado, i.e., soma da 1) • Distribuição de probabilidade conjunta: probabilidades de todas as combinações de valores de um conjunto de variáveis aleatórias P(Clima,Carie) = tabela 4 × 2 de valores: Weather = sunny rainy cloudy snow Cavity = true 0.144 0.02 0.016 Cavity = false 0.576 0.08 0.064 0.08 0.02 Probabidade incondicional ou a priori • Uma distribuição conjunta total especifica a probabilidade de todo evento atômico e é, portanto, uma especificação completa da incerteza sobre o mundo. • Qualquer questão sobre um domínio pode ser respondida a partir de sua distribuição conjunta total. Probabilidade Condicional ou posterior • Uma vez que alguma evidência relativa às variáveis aleatórias é conhecida, as prob. a priori não são mais aplicáveis. Em vez disso, devemos usar as probabilidades Condicionais ou posteriores e.g., P(carie | dordeDente) = 0.8 i.e., dado que dordeDente é tudo o que se sabe a respeito de carie • Distribuições condicionais: P(X | Y) = fornece o conjunto de valores de P(X = xi| Y = yj) para cada i, j possível • E se sabemos também que cárie é verdade: P(carie | dordeDente,cárie) = 1 • Novas evidências podem ser irrelevantes, – portanto,e.g., • P(carie|dordeDente, ensolarado) =P(carie | dordeDente) = 0.8 Probabilidade Condicional • Podem ser definidas em termos de prob. a priori: P(a | b) = P(a b) / P(b) if P(b) > 0 • Regra do produto provê uma definição alternativa: P(a b) = P(a | b) P(b) = P(b | a) P(a) • Isso pode ser generalizado para distribuições totais: e.g. P(Clima,Carie) = P(Clima | Carie) P(Carie) • (que é um conjunto de 4 × 2 equações, não uma multiplicação matricial.) • Regra da cadeia é obtida a partir de aplicações sucessivas da regra do produto: P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1) = P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1) =… = i= 1^n P(Xi | X1, … ,Xi-1) Inferência Probabilística • Inferência probabilística: a computação da evidência observada de probabilidades posteriores para proposições de consulta; • Inferência com o uso de distribuições conjuntas totais: base de conhecimento a partir da qual são derivadas respostas para todas as perguntas. Inferência Probabilística • Iniciamos com um exemplo em que Cavity = Carie, Toothache = DordeDente, Catch = Boticão. E a seguinte distribuição conjunta total deste domínio: • Para qqr proposição a, P(a) é a soma dos eventos atômicos w onde a ocorre: P(a) = w:w|=aP(w) Inferência Probabilística • Iniciamos com um exemplo em que Cavity = Carie, Toothache = DordeDente, Catch = Boticão. E a seguinte distribuição conjunta total deste domínio: • Para qqr proposição a, P(a) é a soma dos eventos atômicos w onde a ocorre: P(a) = w:w|=aP(w) • P(toothache)= 0.108+0.012+0.016+0.064= 0.2 Inferência Probabilística • Iniciamos com um exemplo em que Cavity = Carie, Toothache = DordeDente, Catch = Boticão. E a seguinte distribuição conjunta total deste domínio: • Para qqr proposição a, P(a) é a soma dos eventos atômicos w onde a ocorre: P(a) = w:w|=aP(w) • P(toothache v carie)= 0.108+0.012+0.016+0.064+0.072+0.008= 0.28 Inferência Probabilística • Podemos calcular probabilidades condicionais: P(cavity|toothache) = P(cavity toothache) P(toothache) = 0.016+0.064 0.108+0.012+0.016+0.064 = 0.4 • O denominador pode ser visto como uma constante de normalização P(Cavity | toothache) = P(Cavity,toothache) = [P(Cavity,toothache,catch) + P(Cavity,toothache, catch)] = [<0.108,0.016> + <0.012,0.064>] = <0.12,0.08> = <0.6,0.4> Idéia geral: computar a distribuição sobre a variável de consulta fixando as variáveis de evidências e somando sobre as variáveis ocultas. Inferência probabilística inferência por enumeração Objetivo: calcular a distribuição de probabilidades das variáveis de consulta X (ex. Cavity), dados valores específicos e (ex. Toothache) para as variáveis de evidência E. Seja Y as variáveis restantes não observadas (ex. Catch). A consulta P(X|e) pode ser avaliada como: P(X|e) = y P(X, e, y) • Note que, juntas, as var. X, E e Y constituem o conjunto completo de var. para o domínio; • assim, P(X, e, y) é simplesmente um subconjunto de probabilidades a partir da distribuição conjunta total. Problemas com inf. por enumeração • Complexidade de tempo (pior caso): O(dn) – Onde d é a cardinalidade do maior domínio e n é o número de variáveis. • Complexidade de espaço O(dn) para armazenar a distribuição conjunta • Como encontrar as probabilidades para O(dn) elementos?? Independência • A e B são independentes sse P(A|B) = P(A) ou P(B|A) = P(B) ou P(A, B) = P(A) P(B) P(Toothache, Catch, Cavity, Weather) = P(Toothache, Catch, Cavity) P(Weather) • 32 entradas reduzidas a 12; – n lançamentos independentes de moedas O(2n) →O(n) • Independência absoluta é rara. • Odontologia é uma área com centenas de variáveis, nenhuma das quais absolutamente independente. O que fazer? Independência Condicional • Se eu tenho cárie, a probabilidade do boticão acertar esse dente não depende de minha dor de dente: (1) P(catch | toothache, cavity) = P(catch | cavity) • A mesma independência ocorre se eu não tiver uma cárie: (2) P(catch | toothache, cavity) = P(catch | cavity) • I.e. Catch (Boticão) é condicionalmente independente da dordeDente dado Cárie: P(Catch | Toothache,Cavity) = P(Catch | Cavity) • Sentenças Equivalentes : P(Toothache | Catch, Cavity) = P(Toothache | Cavity) P(Toothache, Catch | Cavity) = P(Toothache | Cavity) P(Catch | Cavity) Independência Condicional • Escrevendo toda a distribuição total utilizando a regra da cadeia: P(Toothache, Catch, Cavity) = P(Toothache | Catch, Cavity) P(Catch, Cavity) = P(Toothache | Catch, Cavity) P(Catch | Cavity) P(Cavity) = P(Toothache | Cavity) P(Catch | Cavity) P(Cavity) • Na maioria dos caso, o uso da independência condicional reduz o tamanho da representação em distribuição conjunta de exponencial em n para linear em n. Bayes' Rule • Da regra do produto P(a b) = P(a | b) P(b) = P(b | a) P(a) Regra de Bayes: P(a | b) = P(b | a) P(a) / P(b) • Ou na forma da distribuição conjunta: P(Y|X) = P(X|Y) P(Y) / P(X) = P(X|Y) P(Y) • Útil para acessar regras probabilísticas de diagnóstico através de probabilidades causais: – P(Cause|Effect) = P(Effect|Cause) P(Cause) / P(Effect) – E.g., let M be meningitis, S be stiff neck: P(m|s) = P(s|m) P(m) / P(s) = 0.8 × 0.0001 / 0.1 = 0.0008 – Note: posterior probability of meningitis still very small Regra de Bayes e Independência Condicional P(Cavity | toothache catch) = P(toothache catch | Cavity) P(Cavity) = P(toothache | Cavity) P(catch | Cavity) P(Cavity) • Este é um exemplo de um modelo de Bayes Ingênuo: P(Cause,Effect1, … ,Effectn) = P(Cause)xiP(Effecti|Cause) • O número total de parâmetros é linear n • Ex1 - Assuma varias bolas coloridas contidas em três caixas B1, B2 e B3 distintas e indistinguíveis. As bolas estão distribuídas da seguinte forma dentro das caixas: vermelha branca Azul B1 2 3 6 B2 4 2 3 B3 3 4 3 – Uma caixa é selecionada aleatoriamente, dentro da qual uma bola é selecionada aleatoriamente. A bola retirada é vermelha. Qual é a probabilidade posterior da caixa selecionada ser B1? Explique. • 4) [Uncertainty] (2.0) Sejam as seguintes variáveis: • F = teve gripe • S = tomou a vacina contra gripe – Assuma os seguintes resultados médicos: • P(F) = 0.75 • P(S) = 0.5 • P(F|S) = 0.1 – Dado que você sabe que alguem está com gripe, qual é a probabilidade desta pessoa ter tomado a vacina contra gripe? Explique os seus cálculos. • (13.11) Suponha que você receba uma bolsa com n moedas imparciais. Você é informado de que n-1 dessas moedas são normais, com cara de um lado e coroa no outro, enquanto uma moeda é falsa, com cara em ambos os lados. – a)Suponha que você enfie a mão na bolsa, escolha uma moeda uniformemente ao acaso, lance a moeda e obtenha como resultado cara. Qual é a probabilidade (condicional) de que a moeda escolhida seja a moeda falsa? – b) Suponha que você continue lançando a moeda até um total de k vezes depois de escolhe-la e veja k caras. Qual é a probabilidade condicional desta ser a moeda falsa?