Geometria dos mínimos quadrados
Renato Assunção
DCC-UFMG
Produção numa unidade da Itambé
Y = óleo consumido no mes
 X1 = qte de acido graxo consumido
 X2 = glicerina fabricada
 X3 = numero de dias do mês
 X4 = numero de dias operacionais
 X5 = Dias abaixo de 32 graus
 X6 = temperatura media do mes

Usando apenas Y=oleo e x=temp
Gráfico de óleo x temperatura

Y = Óleo
consumido

X = temperatura

Clara relação
linear
Dados americanos aqui
Modelo de regressão

Cada valor Yi de oleo consumido e’
igual `a soma de dois componentes:
– Um componente que e’ uma reta
desconhecida
– Um erro (desconhecido) em relacao a esta
reta
Yi = β0 + β1 xi + εi
 Onde xi e’ a temperatura no dia i
 εi e’ o erro no dia i

Dos pontos para um sistema linear
Definições


Y e’ vetor em R25
X e’ matriz 25 x 2
Queremos Y ≈ Xβ
Ou então
Y = Xβ + ε onde ε e’ pequeno
Mas o que significa ter ε pequeno: e’ um vetor...
Operações matriciais
Operações matriciais
Em geral, temos:
OBS: SEMPRE INVERSIVEL SE OS x’s não forem todos iguais
Mais uma operação
Retas demais, infinitas retas
Queremos uma reta que fique bem
proxima de todos os pontos.
 Uma reta que fica proxima de UM
ÚNICO PONTO (digamos o i-esimo
ponto) e’ uma reta em que
 εi = Yi – ( β0 + β1 xi ) ≈ 0
 Mas queremos que isto seja verdade
para TODOS OS PONTOS.

Caminhando...
Isto e’, queremos que
 εi = Yi – ( β0 + β1 xi ) ≈ 0 para todo i
 Podemos então pedir que a soma de todos
os | εi | ≈ 0.



Isto e’, pedir que Σi | εi | ≈ 0 (e’ sempre > 0).
Uma solução: achar a reta que minimiza
Mínimos quadrados
Na verdade preferimos trabalhar com
a soma dos QUADRADOS e não com a
soma dos VALORES ABSLOUTOS
 Encontre β0 e β1 que minimizem


A razão e’ que a função quadrática e’
derivável no seu ponto de mínimo
Quadrado ou valor absoluto?

Media amostral de vetor
o valor
e’

A media amostral de x e’ o numero μ
que minimiza
Quadrado ou valor absoluto?

Mediana amostral de vetor
– Ordene os numeros.
– Se n for impar, pegue o valor do meio.
– Se n for par, pegue a media dos dois
centrais

A mediana amostral de x e’ o numero
μ que minimiza
De equações para matriz

Pode-se mostrar que a solução de
mínimos quadrados
Pode ser escrita de forma matricial como
o vetor β = (XtX)-1 XtY
 Esta forma pode ser generalizada e gera
interpretação geométrica

Sejam
 Observe que

e
E’ uma combinação linear das duas
colunas x e 1 da matriz X
 Matriz = maiúsculo e coluna =minúsculo

Procurando por ...
Nosso problema então e’ encontrar a
combinação linear das duas colunas
da matriz X que minimiza a distancia
entre os vetores Y e Xβ
 E isto vale sempre, mesmo que
tenhamos varios fatores preditivos!!
 Vamos ver nosso exemplo com mais
variáveis

Regressão múltipla
Xb e’ uma combinação linear das colunas de X
Queremos minimizar
Espaço vetorial
das colunas de X
O que queremos?
Queremos o vetor do espaco C(X)
das colunas de X que seja o mais
proximo de Y
 Distancia = distancia euclidiana
 |Y – Xb|2 deve ser minimo
 Este vetor Xb que minimiza e’ a
projecao ortogonal de Y em C(X)
 E’ o único vetor Xb tal que Y-Xb e’
ortogonal a Xb

Espaço C(X) das colunas de X
Ddddddddddddddddddddd
kkkkkkkkkkk
Equações normais

Assim, temos
portanto
β = (XtX)-1 XtY

E’ a solução.
=0e
Download

Mínimos Quadrados