Métodos estatísticos em aprendizagem Mestrado FEI Paulo Santos Aprendizagem: raciocínio com incerteza a partir de observações • aprender teorias probabilísticas sobre o mundo a partir da experiência; • soluções gerais para os problemas de ruído, memorização e previsão ótima Aprendizagem estatística • Conceitos fundamentais: – Dados: evidências, i.e. instanciações de algumas ou de todas as variáveis aleatórias que descrevem o domínio; – Hipóteses: teorias probabilísticas de como o domínio funciona • incluindo teorias lógicas como casos particulares. Exemplo: doce surpresa • Doces de cereja e lima em embalagens idênticas. Cinco tipos de sacos de doces: • • • • • h1: 100% cereja h2: 75% cereja + 25% lima h3: 50% cereja + 50% lima h4: 25% cereja + 75% lima h5: 100% lima Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ? Exemplo: doce surpresa • Dado um novo saco de doce, a variável aleatória H (hipótese) denota o tipo do saco (h1, ..., h5) • H não é diretamente observável; • A medida que os doces são abertos e inspecionados, são revelados os dados - D1, D2, ... Dn, onde cada Di é uma variável aleatória com valores possíveis cereja e lima. Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ? Aprendizagem Bayesiana • Calcula a probabilidade de cada hipótese, considerando-se os dados, e faz previsões de acordo com ela; – as previsões são feitas com o uso de todas as hipóteses, ponderadas com suas probabilidades – A aprendizagem é reduzida à inferência probabilística Aprendizagem Bayesiana • Seja D a repres. de todos os dados, com valor observado d; então a probabilidade de cada hipótese é obtida pela regra de Bayes: P(hi|d) = cP(d| hi)P(hi) • A previsão de uma quantidade desconhecida X: Onde cada hipótese determina uma distribuição sobre X Aprendizagem Bayesiana • A previsão de uma quantidade desconhecida X: • Onde cada hipótese determina uma distribuição sobre X • I.e., as previsões são médias ponderadas sobre as previsões das hipóteses individuais – as hipóteses são intermediários entre os dados brutos e as previsões. de volta aos doces • Suponha que a distribuição a priori sobre h1,..., h5 seja dada por <0.1, 0.2, 0.4, 0.2, 0.1> • A probabilidade dos dados é calculada sob a suposição de que as observações são independentementes e identicamente distribuídas: P(d|hi) = j P(dj|hi) – i.e, uma observação não depende das anteriores, dado as hipóteses de volta aos doces • Suponha que a sacola seja realmente uma sacola só com doces de lima (h5) e que os primeiros 10 doces sejam todos de lima; então – P(d|h3) = j P(dj|h3) = 0.510 • (metade dos doces em h3 é de lima) • Como as probabilidades mudam com novas observações ? Probabilidade Posterior de Hipóteses Prob a priori Probabilidades prevista de que o próximo doce seja de lima Probabilidades prevista de que o próximo doce seja de lima Aprendizagem Bayesiana • Dada a distribuição a priori de todas as hipóteses • A hipótese verdadeira eventualmente domina a previsão Bayesiana • A previsão é ótima quer o conjunto de dados seja pequeno ou grande • para problemas reais de aprendizagem o espaço de hipóteses é em geral muito grande ou infinito Aprendizagem Bayesiana aproximada : MAP • Fazer previsões com uma única hipótese: a mais provável: – hi que maximize P(hi|d) – hipótese de máximo a posteriori: MAP – previsões aproximadamente Bayesianas: P(X|d) P(X|hMAP) • após 3 doces de lima seguidos hMAP= h5 • o 4o doce será previsto de lima com 100% de certeza MAP • maximizar P(hi|d) P(hi|d) = cP(d| hi)P(hi) • logo hMAP para maximizar P(d| hi)P(hi) é equivalente a minimizar: - log2 P(d|hi) - log2 P(hi) MAP • Outra possibilidade é tomar o logaritmo de: P(hi|d) = cP(d| hi)P(hi) • logo hMAP para maximizar P(d| hi)P(hi) e equivalente a minimizar: - log2 P(d|hi) - log2 P(hi) número adicional de bits para número de bits necessários especificar os dados para especificar hi MAP - log2 P(d|hi) - log2 P(hi) número adicional de bits para especificar os dados número de bits em hi para especificar (explicar) os dados (considere que nenhum bit é necessário se a hipótese prevê os dados exatamente: log 1 = 0 MAP - log2 P(d|hi) - log2 P(hi) • Minimizar isso significa, portanto, encontrar a hipótese que encontre a compactação máxima dos dados MAP • encontrar a hipótese que encontre a compactação máxima dos dados Principal idéia por traz dá aprendizagem por comprimento mínimo de descrição (CMD) [minimum description length (MDL) learning]: minimizar o tamanho da hipótese e das codificações dos dados Aprendizagem de parâmetros com dados completos • Aprendizagem de parâmetros com dados completos: – descoberta dos parâmetros numéricos para um modelo de probabilidade cuja estrutura é fixa – Dados são completos quando cada ponto de dados contém valores para toda variável no modelo de probabilidade que está sendo aprendido. • simplificam o processo de aprendizagem Exemplo • saco de doces de um novo fabricante cujas proporções de cereja e lima são completamente desconhecidas (entre 0 e 1) – quantidade contínua de hipóteses • O parâmetro ( ) é a proporção de doces de cereja (1 - é a prop de lima) • A hipótese é h Exemplo • supondo que todas as proporções são igualmente prováveis a priori: – máxima probabilidade é razoável • Modelando como uma rede Bayesiana: Aprendizagem de parâmetros em redes Bayesianas – Desembrulhando N doces (“c” de cereja e “N - c” lima) – A hipótese de máxima probabilidade é dada pelo valor de que maximiza essa expressão, também obtido maximizando-se: Aprendizagem de parâmetros em redes Bayesianas – O valor de máxima probabilidade de é obtido por: Aprendizagem de parâmetros de máxima probabilidade • Escrever uma expressão para a probabilidade dos dados como uma função dos parâmetros • Escrever a derivada da probabilidade logarítmica com relação a cada parâmetro • Encontrar os valores de parâmetros tais que as derivadas sejam iguais a zero Aprendizagem de parâmetros de máxima probabilidade • Principal problema (small sample size problem): – para conjuntos de dados pequenos, alguns eventos recebem probabilidade zero – divisão não definida Outro exemplo: • Embalagens de doces coloridas de vermelho e verde – a embalagem de cada doce é selecionada probabilisticamente, segundo alguma distribuição condicional desconhecida, dependendo do sabor Múltiplos parâmetros • três parâmetros , 1, 2. – A probabilidade de ver um doce de cereja em uma embalagem verde (segundo a semântica de redes Bayesianas) é: Multiplos parâmetros • Desembrulhamos N doces: c (cer.) e l (lima) – rc de cereja tem embalagens vermelhas – gc de cereja tem embalagens verdes – rl e gl analogamente Múltiplos parâmetros • A probabilidade dos dados é, portanto: Múltiplos parâmetros Múltiplos parâmetros • esses resultados podem ser estendidos a qqr rede Bayesiana cujas probabilidades condicionais são dadas como tabelas • com dados completos, o problema de aprendizagem de parâmetros por máxima probabilidade se decompõe em problemas de aprendizagem separados: um para cada parâmetro. • os valores de parâmetros para uma variável, dados seus pais, são as frequências observadas dos valores de variáveis para cada configuração dos valores dos pais Aprendizagem de parâmetros de máxima probabilidade: modelo Gaussiano Linear • modelos de probabilidade contínuos – os princípios são idênticos aos do caso discreto – Ex. aprendizagem de parâmetros de uma função de densidade gaussiana sob uma única variável: – parâmetros desse modelo: • : média e : desvio padrão – Sejam os valores observados x1, ..., xN. Então a probabilidade logarítmica é: • Definindo as derivadas como zero: i.e. o valor de máxima probabilidade da média é a média das amostras e o valor de máxima probabilidade do desvio-padrão é a raiz quadrada da variância das amostras • Considere um modelo gaussiano linear com um pai contínuo X e um filho contínuo Y. • Para aprender a distribuição condicional P(Y|X) podemos maximizar a probabilidade condicional: – para os parâmetros: 1, 2 e • (yj - ( 1xj + 2 ))2 é o erro para (xj,yj) • ‘E’ é a soma de erros quadráticos – quantidade minimizada por regressão linear • a minimização da soma dos erros quadráticos fornece o modelo de linha reta de máxima probabilidade, desde que os dados sejam gerados com ruído gaussiano de variância fixa. Aprendizagem de estruturas de redes Bayesianas • Até agora supomos que a estrutura da rede bayesiana é dada: – somente aprende-se os parâmetros • Em alguns casos o modelo causal está indisponível ou em disputa Aprendizagem de estruturas • Abordagem óbvia: – buscar um modelo: • iniciar com um modelo que não contenha nenhum vínculo e começar a adicionar pais correspondentes a cada nó, ajustando os parâmetros e medindo a exatidão do modelo resultante. • começar com um palpite inicial sobre a estrutura e utilizar busca por subida de encosta para fazer modificações, retornando os parâmetros após cada mudança de estrutura. – modificações: inversão, adição ou eliminação de arcos. – busca sobre ordenações possíveis Aprendizagem de estruturas • Uma boa estrutura foi encontrada? – testar se as asserções de independência condicional implícitas na estrutura são realmente satisfeitas nos dados. P(Sex/Sab, Bar|VaiEsperar) = P(Sex/Sab|VaiEsperar)P(Bar|VaiEsperar) • Verificar nos dados se esta equação é válida. – ainda que a estrutura descreva a verdadeira natureza causal do domínio, flutuações estatísticas no conjunto de dados significam que a equação nunca será satisfeita exatamente, e então precisamos utilizar um teste estatístico apropriado para verificar se existe evidência estatística suficiente de que a hipótese de independência foi violada • quanto mais rígido for este teste, mais vínculos serão adicionados e maior o risco de superadaptação. Aprendizagem de variáveis ocultas • Variáveis ocultas (ou latentes) – ex. registros médicos contêm sintomas observáveis e o tratamento, mas raramente uma observação da doença! • Por que não construir um modelo sem esta variável? Aprendizagem de variáveis ocultas Aprendizagem de variáveis ocultas • Variáveis latentes podem reduzir drasticamente o número de parâmetros exigidos para especificar uma rede Bayesiana. Aprendizagem de variáveis ocultas: o algoritmo EM • EM: Expectation Maximization (Esperança Maximização) – Formação de agrupamentos não supervisionados • Distinguir várias categorias em uma coleção de objetos • não supervisionado: os rótulos não são dados Aprendizagem de variáveis ocultas: o algoritmo EM – Formação de agrupamentos não supervisionados • Começamos dos dados • ajustar alguma distribuição de probabilidades que pudesse ter gerado os dados • Pressupõe que os dados são gerados a partir de uma distribuição de mistura P – uma distribuição tem k componentes, cada um dos quais é uma distribuição: P(x) = ki=1 P(C = i) P(x|C = i) Aprendizagem de variáveis ocultas: o algoritmo EM – Formação de agrupamentos não supervisionados • No caso de dados contínuos: – gaussiana multivariada: fornece uma família de distribuições chamada mistura de distribuições gaussianas – wi = P(C=i) --- peso de cada componente – μi ---- media de cada componente – Σi --- co-variância de cada componente Aprendizagem de variáveis ocultas: o algoritmo EM o algoritmo EM – O problema de formação de agrupamentos nãosupervisionados consiste em recuperar um modelo de mistura como o da Fig. 20.8(b) a partir de dados brutos como os da Fig. 20.8 (a). – Idéia básica: • fingir que conhecemos os parâmetros do modelo e depois deduzir a probabilidade de cada ponto de dados pertencer a cada componente • depois disso, readaptamos os componentes aos dados, onde cada componente é ajustado ao conjunto de dados inteiro, cada ponto ponderado com a possibilidade de pertencer a esse componente o algoritmo EM – Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos: • Etapa E: calcular as probabilidades pij=P(C=i|xj) – a probabilidade de que o dado xj tenha sido gerado pelo componente i. – pela regra de Bayes: pij= aP(xj|C = i)P(C=i) » P(xj|C = i): probabilidade em xj do i-esimo gaussiano » P(C = i): peso para o iesimo gaussiano – definir: pi = j pij • Etapa M: o algoritmo EM – Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos: • Etapa E: calcular as probabilidades pij=P(C=i|xj) – a probabilidade de que o dado xj tenha sido gerado pelo componente i. – pela regra de Bayes: pij= aP(xj|C = i)P(C=i) » P(xj|C = i): probabilidade em xj do i-esimo gaussiano » P(C = i): peso para o iesimo gaussiano – definir: pi = j pij (somar sobre todas probabilidades de todos os pontos j terem sido gerados pela gaussiana i) • Etapa M: o algoritmo EM • Etapa M: calcular a nova média, co-variância e os pesos dos componentes: i j pijxj/pi i j pijxjxjT/pi wi pi o algoritmo EM • Etapa E (esperança): – cálculo dos valores esperados pij das variáveis indicadoras Zij ocultas • Etapa M (maximização): – encontra os novos valores dos parâmetros que maximizam a probabilidade logaritmica dos dados, dados os valores esperados das variáveis indicadoras ocultas. Aprendizagem de redes Bayesianas com variáveis ocultas • Execício: – leia e entenda esta seção. Uma questão sobre este assunto cairá na prova. • (dica: para entender esta seção você terá antes que entender -- quase -- todo o capítulo!)