Análise Espacial de Áreas:
Regressão
Análise Espacial de Dados Geográficos
SER-303
Novembro/2009
Análise de Regressão
Análise de regressão é uma ferramenta estatística
que utiliza a relação entre duas ou mais variáveis
tal que uma variável possa ser explicada
(variável dependente) pela outra ou outras
(variáveis explicativas,independentes).
Y = aX + b
Exemplos:
Explicar vendas pelos gastos em propaganda.
Incidência de câncer com consumo de cigarro
Consumo x renda
Objetivos da Análise de Regressão

Determinar como duas ou mais variáveis se
relacionam.

Estimar a função que determina a relação entre
duas variáveis.

Usar a equação para prever valores futuros da
variável dependente.
Suposições
1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é
uma variável aleatória com distribuição Normal (com média e
variâncias finitas);
Yi ~ N(E(y/x); σ2)
2) Linearidade
Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre
uma reta, para um particular valor de X.
E(y/x)=μy/x = 0 + 1x
3) Independência
Os valores de Y são estatisticamente independentes.
4) Homocedasticidade
A variância de Y é igual, qq que seja X.
Modelos de Regressão
Modelos de Regressão
Um modelo de regressão contendo somente uma
variável independente é denominado modelo de
regressão simples.
Um modelo com mais de uma variável independente é
denominado modelo de regressão múltiplo.
Regressão Linear Simples
Yi  0  1 X i  i
onde:
Yi é o valor da variável dependente na i-ésima observação;
0 e 1 são parâmetros;
Xi é uma constante conhecida; é o valor da variável
independente na i-ésima observação;
i é um termo de erro aleatório com média zero e variância
constante 2 (E(i)=0 e 2 (i)= 2 )
i e j são não correlacionados (independentes) para i  j
(2 (i,j)= 0 )
Modelo de Regressão Linear
Inclinação
Intercepto
Populacional Populacional
Variável
Independente
Yi=0+1Xi +i
Variável
Dependente
Yi
i
Y
1
Erro
Aleatório
Y = E(Y) = 0 + 1 X
Coeficiente
angular
Ŷi=b0+b1Xi Modelo estimado
i =Yi-Ŷi Resíduo
0
X
Significado de 0 e 1
Os parâmetros 0 e 1 são denominados coeficientes de
regressão.
 1 é a inclinação da reta de regressão. Ela indica a
mudança na média de Y quando X é acrescido de uma
unidade.
 0 é o intercepto em Y da equação de regressão (é o
valor de Y quando X = 0.
0 só tem significado se o modelo incluir X = 0.
E[Yi ]  
Y
1
0
0
X
0
  Xi
1
Regressão Linear Múltipla
Yi=0+1Xi1 + 2Xi2 +…+ pXip + i
Yi é o valor da variável dependente na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis independentes na iésima observação
i é um termo de erro aleatório com distribuição normal,
média zero e variância constante 2 (E(i )=0 e 2 (i )=
2 )
i e j são não correlacionados (independentes) para i  j
Estimação dos parâmetros
Em geral não se conhece os valores de 0 e 1 .
Eles podem ser estimados através de dados obtidos por
amostras.
O método utilizado na estimação dos parâmetros é o método
dos mínimos quadrados, o qual considera os desvios dos Yi
de seu valor esperado:
i = Yi – (0 + 1 Xi)
Em particular, o método dos mínimos quadrados requer que c
a soma dos n desvios quadrados, denotado por Q:
n
Q  [Yi   0  1 X i ]2
i 1
Estimação
A soma dos quadrados dos desvios (єi) é dada por:
n
 (ε
i
i 1
n
2
ˆ i  βˆ 0  βˆ 1Xi)
)   (Y
i 1
A equação deve ser derivada em relação a 0 e 1, igualando-as a zero
para se obter os valores estimados de 0 e 1.
n
 ( X  X )(Y  Y )
i
ˆ 0  Y  ˆ 1 X
ˆ 1 
i
i 1
n
2
(
X
i

X
)

i 1
Inferência
Testando se a inclinação ˆ1 é zero

construir intervalos de confiança para ˆ1 :
0,14
tn-2
0,12

Teste de hipótese para
:
0,1
H 0 : ˆ 1  0
Ha : ˆ 1  0
0,08
b1
t 
s(b1 )
0,06
*
1a
0,04
0,02
a/2
0
0
-
5
-t1-a/2;n-2 10
0
a/2
t1-a/2;n-2
Se ˆ1 = 0 , Y e X são não correlacionados
Rejeitar H 0 que o modelo que inclui X é melhor do
que o modelo que não inclui X mesmo que a linha reta
não não seja a relação mais apropriada.
15
+
Inferência
De forma semelhante testa-se ˆ0 é zero
H0 : 0  0
H1 :  0  0
Se a hipótese nula H 0 = 0 não for rejeitada, pode-se excluir
a constante do modelo, já que a reta inclui a origem.
Esse teste é muitas vezes de pouca utilidade. Ex, idade (X) e
Pressão sanguinea.
Inferência
Inferência
Yi  Y  (Yˆi  Y )  (Yi  Yˆ )
Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma
para todas as observações de uma determinada amostra tem-se que:
n
n
n
2
ˆ
ˆ
(
Y
i

Y
)

(
Y
i

Y
)

(
Y
i

Y
)



2
i 1
2
i 1
i 1
Soma de quadrados total Soma de quadrados
Soma de quadrados devido
(SQT)
devido ao modelo (SQM) Aos resíduos (SQR)
Particionando a soma dos quadrados
n
n
n
i 1
i 1
i 1
2
2
ˆ
ˆ
(
Y
i

Y
)

(
Y
i

Y
)

(
Y
i

Y
)



•Se SQT=0, então todas
as observações são
Y
iguais.
•Quanto maior for SQT,
maior será a variação
entre os Y´s.
•SQT é uma medida da
variação dos Y´s quando
não se leva em
consideração a variável
independente X.
Se a linha de regressão
for horizontal, de modo
^

que Y i  Y
SQM = 0.
0
então
Se SQR = 0, então
as observações
caem na linha de
regressão.
Quanto maior SQR,
maior será a variação
das observações Y
ao redor da linha de
regressão.
Particionando a Soma de Quadrados
SQT = SQM + SQR.
Um modo de se saber quão útil será a linha de regressão
para a predição é verificar quanto da SQT está na SQM e
quanto está na SQR.
Idealmente, gostaríamos que SQM fosse muito maior que
SQR.
SQM
Gostaríamos, portanto, que
SQT
fosse próximo de 1.
Coeficiente de determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é:
R2 
SQM SQT - SQR
SQR

 1
SQT
SQT
SQT
Note que: 0  R2  1
R2 é denominada coeficiente de determinação. Em um modelo de
regressão simples, o coeficiente de determinação é o quadrado do
coeficiente de correlação (r) entre Y e X. Note que em um modelo
de regressão simples
r   R2  1  r  1
Temos dois casos extremos:
 R2 = 1
todas as observações caem na linha de regressão
ajustada. A variável independente X explica toda a variação nas
observações.
 R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e
X. A variável X não ajuda a explicar a variação dos Yi .
Inferência
 Testes de significância do modelo geral
H 0 : ˆ 1  ˆ2  ...ˆk  0
Ha : existe pelo menos um dos j  0
Fo = MQM/MQR
onde Fc ~ F k, n-k-1
 Teste do F parcial
H 0 : ˆ *  0
Ha : ˆ *  0
Modelo Y=0+1X1+...pXp+*X*
Ha: X* melhora significativamente a predição de Y, dado
que X1, X2,...Xp já estão no modelo
Fpc(x*/x1,x2,...xp) ~ F 1,n-(p+1)-1
Tabela ANOVA - F
Graus de
Liberdade
(df)
Regressão(X)
1
Soma dos
quadrados
(SQ)
Quadrado
médio
SQM=SQ/df
Razão da
variância
SQT-SQR=
6394.02
6394.02
21.33(p<0.001)
299.77
Residuo
28
SQR=
8393.44
Total
29
SQT =
14787.46
( SST  SSR) / k
R /k
SST  SSR
6394 .02
2
2
F

F

R 
R 
 0.43
(1  R 2 /(n  k  1)
SSR/(n  k  1)
SST
14787 .46
2
Análise da Aptidão do Modelo
Análise dos Resíduos – Verificar:

Se função de regressão é linear
Resíduo

0
X
Não Linearidade
Análise da Aptidão do Modelo
Análise dos Resíduos – Verificar:

Se os erros possuem variância constante
(homocedasticidade)
Variância Não Constante
Resíduo

0
X
Análise da Aptidão do Modelo
Análise dos Resíduos – Verificar:

Se os erros são independentes
Resíduo

0
X
Erros Correlacionados
Análise da Aptidão do Modelo
Análise dos Resíduos – Verificar:

A presença de outliers
Gráfico dos Resíduos
1
0,8
Resíduos Padronizados

0,6
0,4
0,2
0
150
155
160
165
170
-0,2
-0,4
X
175
180
185
Análise da Aptidão do Modelo

Análise dos Resíduos – Verificar:

Se erros são normalmente distribuídos
Análise da Aptidão do Modelo
Análise dos Resíduos – Modelo Adequado:
Resíduo

0
X
Análise da Aptidão do Modelo

Análise dos Resíduos : DADOS ESPACIAIS

Hipótese de independência das observações em geral é
Falsa  Dependência Espacial

Efeitos Espaciais
 Se existir forte tendência ou correlação espacial, os
resultados serão influenciados, apresentando associação
estatística onde não existe (e vice-versa).

Como verificar?
 Medir a autocorrelação espacial dos resíduos da
regressão (Índice de Moran dos resíduos)
Exemplo
São José dos Campos
Crescimento Populacional 91-00 X Densidade Populacional 91



Mapear os resíduos
da regressão –
índícios de correlação
Índice de Moran
sobre mapa de
resíduos I=0,45
Testes de pseudosignificância indicam
autocorrelação
espacial
Regressão Espacial

Autocorrelação espacial constatada!
E agora?

Modelos de regressão que incorporam efeitos espaciais:
 Globais: utilizam um único parâmetro para capturar a
estrutura de correlação espacial
 Locais: parâmetros variam continuamente no espaço
Modelos com Efeitos Espaciais Globais

Suposição:
 É possível capturar a estrutura de correlação espacial
num único parâmetro (adicionado ao modelo de
regressão).

Alternativas:

Spatial
Lag
Models
(SAR):
atribuem
autocorrelação espacial à variável dependente Y.
a

Spatial Error Models
autocorrelação ao erro.
a
(CAR):
atribuem
Spatial Lag Model (LAG)

Suposição
a
variável Yi depende dos valores da variável
dependente nas áreas vizinhas a i:
Y = WY + X + 
  = coeficiente espacial autoregressivo - medida de
correlação espacial
  = 0, se autocorrelação é nula (hipótese nula)
 W = matriz de proximidade espacial
 WY expressa a dependência espacial em Y
Spatial Error Model (CAR)

Efeitos espaciais são um ruído
Y = X + 
 = W  + ξ
 W
= erro com efeitos espaciais
  = medida de correlação espacial
 ξ = componente do erro com variância constante e
não correlacionada.
Spatial Lag Model X Spatial Error Model

Motivações diferentes, porém próximos em termos
formais.

Premissa: processo espacial analisado é
estacionário e pode ser capturado em um único
parâmetro.

Porém isto nem sempre é verdade!
 Verificar se padões diversos de associação
espacial estão presentes.
 Indicadores Locais de Autocorrelação Espacial
Indicadores Locais de Variabilidade Espacial

distribuição dos valores
de correlação local para
o índice de exclusão
% Exclusão
Não significantes
p = 0.05
[95% (1,96)]
p = 0.01
[99% (2,54)]
p = 0.001 [99,9% (3,2)]
Modelos com Efeitos Espaciais Locais

Modelos de Regressão com Efeitos Espaciais Discretos
 variações espaciais modeladas de maneira discreta.
 Regimes espaciais

Modelos de Regressão com Efeitos Espaciais
Contínuos
 variações espaciais modeladas de forma contínua,
com parâmetros variando no espaço.
 “Geographically Weighted Regression” – GWR.
Regimes espaciais



A idéia é regionalizar a área de estudo obtendo subregiões com seu padrão próprio.
Realizar regressões separadas para cada subregião.
Utilizam-se variáveis indicadoras para classificar os
subconjuntos
Y1  X11  1
para Ind =1
Y2  X 2 2  2
para Ind=2
Y3  X 3 3  3
para Ind=3
Esses valores são estimados conjuntamente em um
modelo de regressão usando as variáveis indicadoras
Regimes Espaciais

Regionalizações da
área de estudo

Diferentes tipos de
variabilidade espacial

Métricas: Diagrama de
espalhamento e índices
locais e globais –
regionalização tipo kmedias espacial

Ex: Regimes espaciais
para índice de exclusão
Regimes Espaciais x Regiões
Administrativas
Impacto de Regimes Espaciais

Análise de Regressão
 Idosos = f ( Domicílios Sem Esgoto)

Regressão Linear
 R2 = 0,35

Regressão Espacial
 Regiões Adm (R2 = 0,72)
 Regimes Espaciais (R2 = 0,83)

Para dados socioeconômicos:
 modelo de regimes espaciais tende a apresentar resultados
melhores que os de regressão simples ou de regressão
espacial com efeitos globais.
Diagnóstico de modelos de efeitos espaciais





Análise gráfica dos resíduos
Mapear os resíduos – concentração de resíduos
negativos ou positivos em parte do mapa indica
presença de autocorrelação espacial
Índice de Moran dos resíduos
Indicadores de qualidade de ajuste dos modelos
baseados no coeficiente de determinação (R2) serão
incorretos.
Utilização do AIC – critério de informação de Akaike, a
avaliação do ajuste é penalizada por função do # de
parâmentros
Comparação das regressões para SP

Longevidade X renda
Regressão
simples
Spatial Lag
Regimes
espaciais (3)
0.280
0.586
0.80
Log verossimilhança
(LIK)
-187.92
-150.02
-124.04
AIC
379.84
306.51
260.09
Indice Moran dos
resíduos
0.620
R2 ajustado
0.020
GWR – geographically weighted regression

Ajusta um modelo de regressão a cada ponto
observado, ponderando todas as demais
observações como função da distância a este ponto.
Y(s) = (s)X + 
Y(s): variável que representa o processo no ponto s.
(s): parâmetros estimados no ponto s.
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
GWR – geographically weighted regression

y = b0 + b1x1 + e # regressão simples com um preditor
b0 , b1 é o mesmo para toda área
Se existe alguma variação geográfica na relação essa variação fica
incluída como erro.

y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v) # GWR
b0(u,v), b1(u,v) # para cada ponto do espaço há um b0 e b1 diferentes –

Existe uma função (kernel) sobre cada ponto do espaço que determina
todos os pontos da regressão local que é poderada pela distância. Pontos
mais próximos do ponto central tem maior peso.

Assim como o kernel – a escolha da largura da banda é importante

Há também o kernel adaptativo
GWR – geographically weighted regression


Os parâmetros podem ser apresentados visualmente para identificar
como se comportam espacialmente os relacionamentos entre as
variáveis.
Ex: Crescimento Pop. (dependente) X Densidade Pop. (independente)
GWR – geographically weighted regression

Ex: Crescimento Pop. (dependente) X Densidade Pop. (independente)

Mapa de resíduos (I = 0,04) :
Softwares

GeoDa


SPRING e Terraview


Regressão Clássica e Espacial (Spatial Lag & Spatial Error)
R, aRT + TerraView


Índice de Moran, LISA maps
SpaceStat


Índice de Moran, LISA maps, Regressão Clássica e Espacial
(Spatial Lag & Spatial Error)
Regressão Clássica, Espacial (Spatial Lag & Spatial Error) e GWR
GWR 3.0

Regressão Clássica e Espacial (GWR)
Generalidades

Modelos estatísticos constituem ferramentas
extremamente úteis para resumir e interpretar dados.
Em particular, eles podem facilitar a avaliação da forma
e da intensidade de associações de interesse em
diversos tipos de estudos
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades



Por exemplo, consideremos estudo epidemiológico em
que o objetivo é avaliar os efeitos da poluição
atmosférica sobre a saúde dos habitantes de grandes
centros urbanos.
A variável resposta, nesses estudos, geralmente é
alguma contagem de eventos que representam danos à
saúde, como o número de óbitos ou o número de
internações por determinada causa respiratória
A concentração de alguns gases como NOX, SO2 ou CO
ou material particulado são candidatas a variáveis
explicativas nesse tipo de estudo.
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades

Existem evidências teóricas quanto empíricas de que as possíveis
variáveis respostas citadas acima são fortemente influenciadas por
fatores sazonais e pelas condições climáticas, como a temperatura
e a umidade do ar. que apresentam correlação temporal e espacial.

Entretanto, a maneira como esses fatores exercem sua influência
sob o desfecho não é tão óbvia. As relações entre as diversas
variáveis intervenientes podem não apresentar o mesmo
comportamento ao longo de todos os valores do seu domínio e,
mesmo se o apresentarem, a intensidade da associação pode não
ser constante; por exemplo, o número de óbitos pode variar
linearmente numa determinada faixa de valores de temperatura,e
quadrática ou exponencialmente em outras.
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades

Dada a complexidade das relações de interesse, a escolha de
modelos apropriados para a análise se reveste de bastante
importância.

Por exemplo, modelos de regressão linear servem para investigar
se uma variável reposta Y está associada com variáveis explicativas
X1, X2,..., XN, mas este tipo de modelo avalia esta associação
apenas sob a ótica linear.

Nem sempre é aquela que rege os fenômenos considerados.

E importante ter em mente que as suposições usualmente
empregadas na análise dificilmente corresponderão à realidade de
modo exato, por mais sofisticado que seja o modelo em questão.
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades

Aspectos a serem considerados nos estudos que
avaliam os efeitos da poluição utilizando séries de
contagens:
▪ distribuição da variável resposta
▪ presença de tendência e sazonalidade,
▪ variáveis de confundimento (geralmente temperatura e
umidade),
▪ existência de defasagem entre o aumento da poluição
e a ocorrência do evento
▪ possível existência de autocorrelação entre as
observações medidas ao longo do tempo, do
espaço, entre outros.
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades



No exemplo visto anteriormente, a variável resposta ou
a variável de interesse é uma contagem (por exemplo, o
número diário de óbitos ou de internações hospitalares).
Essa resposta é supostamente influenciada pela
concentração de poluentes na atmosfera,temperatura e
umidade entre outros, que são as variáveis explicativas
Um modelo bastante simples, amplamente utilizado na
análise de dados, é o modelo de regressão linear
gaussiana. Este modelo é interessante por sua
simplicidade,interpretabilidade e boas propriedades dos
estimadores de seus parâmetros
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades –


Como o número de óbitos é uma contagem, nem
sempre as suposições de normalidade e
homocedasticidade dos erros inerentes a esses modelos
gaussianos são satisfeitas.
É possível utilizar métodos análogos àqueles
desenvolvidos para o modelo de regressão linear
gaussiana, em situações em que a variável resposta
obedece a outras distribuições que não a Normal, ou em
que a relação entre a variável resposta e as variáveis
explicativas não é linear
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Generalidades

muitas das boas propriedades da distribuição Normal
são partilhadas por uma larga classe de distribuições
chamada de família exponencial de distribuições.

Muitas distribuições conhecidas pertencem a essa
família, como a própria Normal, a Poisson, a Binomial, a
Gama.

Para trabalhar com dados dessas famílias utiliza-se o
Modelo Linear Generalizado ( GLM)
Revista Brasileira de Epidemiologia Vol4, # 3,2001
O Modelo Linear Generalizado (MLG)

K valores independentes Y1, ..., YK, de uma variável
resposta que segue uma distribuição da família
exponencial, com valor esperado E(Yi) = μi;

K vetores Xi= (1 Xi1 Xi2 ….Xip)t, i=1, ..., K, contendo os
valores das p variáveis explicativas;

Uma função monotônica e diferenciável g, chamada de
função de ligação, tal que g(μi) = xitβ, i=1, ..., K ,
com β = (β1 β2 … βp) representando o vetor de
parâmetros a serem estimados.
Revista Brasileira de Epidemiologia Vol4, # 3,2001
O Modelo Linear Generalizado (MLG)



Os modelos lineares generalizados englobam os
modelos de regressão linear simples e múltipla,
regressão logística, regressão de Poisson e muitos
outros.
Se g é a função identidade, isto é, se g(μi) = μi, então
μi = E(Yi) = xitβ, e o modelo resultante,com algumas
suposições adicionais, é o modelo de regressão linear
gaussiana visto anteriormente.
Se g é a função logarítmica e Yi tem distribuição de
Poisson, o modelo resultante é o modelo de regressão
de Poisson,comumente utilizado para avaliar efeitos da
poluição entre outras aplicações
Revista Brasileira de Epidemiologia Vol4, # 3,2001
O Modelo Aditivo Generalizado (GAM)

O modelo aditivo generalizado é uma extensão do
modelo linear generalizado, em que o termo xitβ =  xij  j
i
f
(
X
)
é substituído por 
, com fj(Xij) denotando uma
função não paramétrica (i.e. cuja forma não é
especificada) estimada através de curvas de
alisamento.
j

ij
Com essa substituição, não é necessário assumir uma
relação linear entre g(μi) e as variáveis explicativas,
como no GLM.
Revista Brasileira de Epidemiologia Vol4, # 3,2001
Modelos Lineares Generalizados Mistos


Esses modelos, também denominados de modelos de
efeitos aleatórios, hierárquicos, são modelos estatísticos
que contém efeitos fixos e efeitos aleatórios.
É uma extensão dos modelos lineares generalizados
onde o preditor linear contém efeitos aleatórios além dos
efeitos fixos usuais.
Download

Slides