PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO 1 Pós-graduação em Ciência da Computação - UFU PREDIÇÃO O que é Exemplos Predizer o salário dos mestres formados no PPG-CC após 10 anos de experiência. Predizer o potencial de venda de um produto dado o seu preço. Pós-graduação em Ciência da Computação - UFU Classificação: prevê o valor de um atributo classe Predição: prevê o valor de um atributo qualquer, contínuo 2 TAREFA DE PREDIÇÃO dois tipos de variáveis x1, x2, ..., xn = variáveis explicativas Y = resposta (variável cujo valor se quer predizer) Objetivo: “descobrir” uma função “preditora” Pós-graduação em Ciência da Computação - UFU Dados: Conjunto de vetores de n+1 variáveis (x1,x2,…,xn,y) f: Rn R 3 MÉTODOS Regressão Metodologia estatística desenvolvida pelo matemático Sir Frances Galton (1822-1911) Tipos de Regressão Regressão linear Regressão não linear (polinomial, exponencial) Outros métodos: Classificador KNN pode ser utilizado como preditor Redes Neurais podem ser adaptadas para atuarem como preditores Pós-graduação em Ciência da Computação - UFU 4 MÉTODO DA REGRESSÃO LINEAR SIMPLES Problema Input: banco de dados de m amostras completas (X,Y) com valores contínuos. Output: Pós-graduação em Ciência da Computação - UFU (no caso de duas variáveis) Reta F(x) = w1 x + w0 que minimiza o erro quadrático SSE m Σ (yi – f(xi))2 SSE = i=1 5 REGRESSÃO LINEAR Y = w0 + w1 X Y’ w1 = ? X’ Pós-graduação em Ciência da Computação - UFU w0 = ? 6 REGRESSÃO LINEAR FUNÇÃO PREDITORA = RETA m w1 = Σ (xi – x)(yi – y) i=1 m Σ (x i – x) i=1 w0 = y – w1 x x = média dos valores de x1, ... ,xm y = média dos valores de y1, ... ,ym Equação da reta “preditora” y = w0 + w1x 2 Pós-graduação em Ciência da Computação - UFU F(x) = w1 X + w0 7 EXEMPLO 3 8 9 13 3 6 11 21 1 16 y = salário (em R$ 100) 30 57 64 72 36 43 59 90 20 83 Pós-graduação em Ciência da Computação UFU X = anos de experiência Predizer o salário de um mestre formado no PPG-CC 8 após 10 anos de experiência EXEMPLO W1 = (3-9.1)(30-55.4) + (8 – 9.1)(57-55.4) +... + (16-9.1)(83-55.4) = 3.5 W0 = 55.4 – (3.5)(9.1) = 23.6 Equação da reta Y = 23.6 + 3.5 X Usando esta equação, concluimos que depois de 10 anos de experiência, a previsão de salário é de Y = 23.6 + 3.5*10 = 58.6 ou R$ 5860,00 Pós-graduação em Ciência da Computação - UFU (3 – 9.1)2 + (8 -9.1)2 + (16 – 9.1)2 9 GENERALIZAÇÃO Regressão polinomial 2 3 Y = w0 + w1x + w2x + w3x 2 x = x1, x = x2, x = x3 Reduz-se a regressão linear a várias variáveis Pós-graduação em Ciência da Computação - UFU Regressão com múltiplas variáveis Y = w0 + w1x1 + w2x2 10 ACURÁCIA DE PREDITORES Seja D um banco de dados de testes da forma (X1,y1), ..., (Xn, yn). y’1, y’2, ..., y’n : valores preditos Média do erro absoluto = Σ |yi – y’i| n Média do erro quadrático= Σ |yi – y’i|2 n Pós-graduação em Ciência da Computação - UFU Erro absoluto = Σ |yi – y’i| Erro quadrático = Σ |yi – y’i|2 11