PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO 1 Pós-graduação em Ciência da Computação - UFU PREDIÇÃO  O que é  Exemplos  Predizer o salário dos mestres formados no PPG-CC após 10 anos de experiência.  Predizer o potencial de venda de um produto dado o seu preço. Pós-graduação em Ciência da Computação - UFU  Classificação: prevê o valor de um atributo classe Predição: prevê o valor de um atributo qualquer, contínuo 2 TAREFA DE PREDIÇÃO  dois tipos de variáveis  x1, x2, ..., xn = variáveis explicativas  Y = resposta (variável cujo valor se quer predizer)  Objetivo: “descobrir” uma função “preditora”  Pós-graduação em Ciência da Computação - UFU Dados: Conjunto de vetores de n+1 variáveis (x1,x2,…,xn,y) f: Rn  R 3 MÉTODOS  Regressão Metodologia estatística desenvolvida pelo matemático Sir Frances Galton (1822-1911)  Tipos de Regressão Regressão linear  Regressão não linear (polinomial, exponencial)   Outros métodos: Classificador KNN pode ser utilizado como preditor  Redes Neurais podem ser adaptadas para atuarem como preditores  Pós-graduação em Ciência da Computação - UFU  4 MÉTODO DA REGRESSÃO LINEAR SIMPLES  Problema Input:   banco de dados de m amostras completas (X,Y) com valores contínuos. Output:  Pós-graduação em Ciência da Computação - UFU  (no caso de duas variáveis) Reta F(x) = w1 x + w0 que minimiza o erro quadrático SSE m Σ (yi – f(xi))2 SSE = i=1 5 REGRESSÃO LINEAR Y = w0 + w1 X Y’ w1 = ? X’ Pós-graduação em Ciência da Computação - UFU w0 = ? 6 REGRESSÃO LINEAR FUNÇÃO PREDITORA = RETA m w1 = Σ (xi – x)(yi – y) i=1 m Σ (x i – x) i=1 w0 = y – w1 x x = média dos valores de x1, ... ,xm y = média dos valores de y1, ... ,ym Equação da reta “preditora” y = w0 + w1x 2 Pós-graduação em Ciência da Computação - UFU F(x) = w1 X + w0 7 EXEMPLO 3 8 9 13 3 6 11 21 1 16 y = salário (em R$ 100) 30 57 64 72 36 43 59 90 20 83 Pós-graduação em Ciência da Computação UFU X = anos de experiência Predizer o salário de um mestre formado no PPG-CC 8 após 10 anos de experiência EXEMPLO W1 = (3-9.1)(30-55.4) + (8 – 9.1)(57-55.4) +... + (16-9.1)(83-55.4) = 3.5 W0 = 55.4 – (3.5)(9.1) = 23.6 Equação da reta Y = 23.6 + 3.5 X Usando esta equação, concluimos que depois de 10 anos de experiência, a previsão de salário é de Y = 23.6 + 3.5*10 = 58.6 ou R$ 5860,00 Pós-graduação em Ciência da Computação - UFU (3 – 9.1)2 + (8 -9.1)2 + (16 – 9.1)2 9 GENERALIZAÇÃO  Regressão polinomial 2 3 Y = w0 + w1x + w2x + w3x 2  x = x1, x = x2, x = x3  Reduz-se a regressão linear a várias variáveis  Pós-graduação em Ciência da Computação - UFU  Regressão com múltiplas variáveis  Y = w0 + w1x1 + w2x2 10 ACURÁCIA DE PREDITORES Seja D um banco de dados de testes da forma (X1,y1), ..., (Xn, yn).  y’1, y’2, ..., y’n : valores preditos  Média do erro absoluto = Σ |yi – y’i| n  Média do erro quadrático= Σ |yi – y’i|2 n  Pós-graduação em Ciência da Computação - UFU Erro absoluto = Σ |yi – y’i|  Erro quadrático = Σ |yi – y’i|2  11