7/19/2013 Aprendizagem Indutiva Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 – chapter 1-1.2.5; 3-3.2 Aprendizagem indutiva pura Seja f uma função (alvo) desconhecida Problema: encontrar uma hipótese h tal que h ≈ f dado um conjunto de treino de exemplos Um exemplo é um par (x, f(x)) 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 2 1 7/19/2013 Aprendizagem indutiva pura O problema anterior é um problema mal-definido; em geral, os dados não são suficientes para encontrar uma hipótese única 3 Aprendizagem indutiva pura Função binária de 2 variáveis binárias (x1, x2) x2 x1 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 4 2 7/19/2013 Aprendizagem indutiva Como escolher entre várias hipóteses (modelos)? Dado que o problem é mal-definido, é necessário um enviesamento indutivo (inductive bias), i.e., conjunto de assunções à priori. Ockham’s razor (Filosofia): “entia non sunt multiplicanda praeter necessitatem" 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 5 Ockham’s razor – Porquê? Vantagens Existem menos hipóteses simples do que complexas Uma hipótese simples que aproxime os dados é menos provável de ser uma coincidência estatística Desvantagens 19-Jul-13 O que é que as hipóteses simples têm de tão especial? http://w3.ualg.pt/~jvo/ml 12 – 6 3 7/19/2013 Aprendizagem indutiva Hipótese de aprendizagem indutiva: qualquer hipótese que aproxime a função alvo num conjunto de treino suficientemente grande aproximará também a função alvo para exemplo não observados. 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 7 Aprendizagem indutiva Generalização: Como se comporta um modelo em novos dados? Superespecialização (Overfitting): H mais complexo do que f Subespecialização (underfitting): H é menos complexo do que f 8 4 7/19/2013 Regressão linear simples Exemplo de trabalho: preço de um carro em função da sua cilindrada Preço ($$) 500 400 300 200 100 0 0 1000 2000 3000 Cilindrada (cc) 19-Jul-13 12 – 10 5 7/19/2013 Alguma notação Cilindrada em Preço em $$ (y) cc (x) 2104 852 … 460 178 … {(x(i), y(i) | i=1,…, m} – Conjunto de treino m - Número de exemplos (elementos) no conjunto de treino x(i) - variável (característica) de entrada do i-nésimo exemplo do conjunto de treino (i) y – variável de saída (desejada) do i-nésimo elemento 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 11 Hipótese Onde 19-Jul-13 são parâmetros ou pesos (escalares) http://w3.ualg.pt/~jvo/ml 12 – 12 6 7/19/2013 Exemplo de trabalho: preço de um carro em função da sua cilindrada Preço ($$) 500 400 300 200 100 0 0 1000 2000 3000 Cilindrada (cc) 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 13 Função de custo (ou de desempenho) resíduo Objetivo: 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 14 7 7/19/2013 Interseção e declive Hipótese: Interseção Declive da amostra 19-Jul-13 θ 0 = y − θ1 x θ1 = SS xy SS xx http://w3.ualg.pt/~jvo/ml = ∑ (x − x )( y − y ) ∑ (x − x ) i i 2 i 12 – 15 J como função de θ1 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 16 8 7/19/2013 J como função de θ1 e θ2 19-Jul-13 12 – 17 Contorno de J(θ1 e θ2) 19-Jul-13 12 – 18 9 7/19/2013 Limitações Regressão linear de uma quadrática 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 20 10 7/19/2013 Quarteto de F. J. Anscombe (1973) 19-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 21 Resíduos Um resíduo é a diferença entre uma saída prevista e uma saída desejada. No modelo de regressão normal, assumimos que a saída (desejada) é afetada por ruído normalmente distribuído de média nula e variância constante. Se o modelo é apropriado para os dados isso deve reflectir-se nos resíduos. Em particular, O gráfico dos resíduos vs. entradas deverá ser centrado em zero e não exibir nenhuma tendência 11 7/19/2013 Resíduos, padrão que nos interessa observar Good Looking Plots Predictor Resíduos revelando anomalias 12 7/19/2013 Sumário Aprendizagem indutiva Aprendizagem indutiva pura vs. enviesada Ockham’s razor Hipótese de aprendizagem indutiva Regressão linear simples 19-Jul-13 Notação Função de custo Interceção, declive e resíduos Limitações http://w3.ualg.pt/~jvo/ml 12 – 25 13