Análise de Regressão com
Dados Espaciais:
Uma Breve Introdução
Análise Espacial de Dados Geográficos
SER-301 - 2012
Material Elaborado por
Virginia Ragoni, INPE
Flávia Feitosa, INPE
Revisado em 2010: Antônio Miguel V. Monteiro
Revisado em 2011-2013: Flávia Feitosa
Análise de Regressão
Análise de regressão é uma ferramenta estatística
que utiliza a relação entre duas ou mais variáveis
tal que uma variável possa ser explicada (variável
resposta/ dependente) pela outra ou outras
(variáveis indicadoras/ preditoras/ explicativas/
independentes).
Y = aX + b
NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.
Exemplos Alunos

Criminalidade (+) X Renda (-), Investimentos (-)

Longevidade (+) X Escolaridade (+), Renda (+)

...
Objetivos da Análise de Regressão
1.Determinar
como duas ou mais variáveis se
relacionam.
2.Estimar
a função que determina a relação entre
duas variáveis.
3.Usar
a equação para projetar/estimar valores
futuros da variável dependente.
Lembrete importante: A existência de uma relação
estatística entre a variável resposta Y e a variável explicativa
X não implica na existência de uma relação causal entre
elas.
Diagrama de Dispersão
Os dados para a análise de regressão são da
forma:
(x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn)
Com os dados constrói-se o diagrama de
dispersão. Este deve exibir uma tendência linear
para que se possa usar a regressão linear.
Ou seja, o diagrama permite decidir
empiricamente se um relacionamento linear
entre X e Y deve ser assumido.
Diagrama de Dispersão
Sugerem uma regressão/relação não linear.
Assim, a relação entre as variáveis poderá ser descrita por
uma equação não linear.
Diagrama de Dispersão
Sugerem uma regressão/relação linear.
Assim, a relação entre as variáveis poderá ser descrita por
uma equação linear.
Diagrama de Dispersão
Por análise do diagrama de dispersão pode-se também
concluir (empiricamente) se o grau de relacionamento
linear entre as variáveis é forte ou fraco, conforme o modo
como se situam os pontos ao redor de uma reta imaginária
que passa através da concentração de pontos.
Diagrama de Dispersão
Existência de correlação
linear positiva: em média,
quanto maior o X, maior
será o Y
Existência de correlação
linear negativa: em média,
quanto maior o X, menor
será o Y
Modelos de Regressão
Um modelo de regressão contendo somente
uma variável preditora é denominado
modelo de regressão simples.
Um modelo com mais de uma variável
preditora é denominado modelo de
regressão múltiplo.
Regressão Linear Simples
Yi  0  1 X i  i
onde:
Yi é o valor da variável resposta na i-ésima observação;
0 e 1 são parâmetros;
Xi é uma constante conhecida; é o valor da variável
preditora na i-ésima observação;
i é um termo de erro aleatório com média zero e variância
constante 2 (E(i)=0 e 2 (i)= 2 )
i e j são não correlacionados (independentes) para i  j
(2 (i,j)= 0 )
Modelo de Regressão Linear
Inclinação
Intercepto
Populacional Populacional
Variável Preditora
Yi=0+1Xi +i
Variável
Resposta
Yi
i
Y
1
Erro
Aleatório
Y = E(Y) = 0 + 1 X
Coeficiente
angular
Ŷi=b0+b1Xi Modelo estimado
i =Yi-Ŷi Resíduo
0
X
Significado de 0 e 1
Os parâmetros 0 e 1 são denominados
coeficientes de regressão:
1.
2.
1 é a inclinação da reta de regressão. Ela indica a
mudança na média de Y quando X é acrescido de
uma unidade.
0 é o intercepto em Y da equação de regressão (é o
valor de Y quando X = 0.)
0 só tem significado se o modelo incluir X = 0.
E[Yi ]  
Y
1
0
0
X
0
  Xi
1
yi = 0 + 1xi

y
x=1
1 
y
x
0
x
x+1
0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da
média da distribuição de Y em X=0, cc, não tem significado prático
como um termo separado (isolado) no modelo; 1 (inclinação) expressa a
taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a
mudança de uma unidade em X. Ele indica a mudança na média da
distribuição de probabilidade de Y por unidade de acréscimo em X.
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Premissas
1)
Distribuição Normal Para um valor fixo da
variável aleatória X, Y é uma variável aleatória
com distribuição Normal (com média e variâncias
finitas);
Yi ~ N(E(y/x); σ2)
2)
Linearidade
Todos os valores médios de Y (E(y/x)=μY/x)
permanecem sobre uma reta, para um particular
valor de X.
E(y/x)=μy/x = 0 + 1x
Premissas
3)
Independência
Os valores de Yi e Yj são estatisticamente
independentes.
4)
Homocedasticidade
A variância de Y é igual, qualquer que
seja X.
Modelos de Regressão
A figura mostra a distribuição de Y para vários valores de X.
Mostra onde cai a observação Y1. Mostra que o erro é a
diferença entre Y1 e E(Y1). Observe que as distribuições de
probabilidade apresentam a mesma variabilidade.
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Resumo da situação: para qualquer valor Xi, a média de Yi é i
= 0 + 1Xi. As médias estão sobre a linha reta para todos os
valores de X. Devido aos erros aleatórios, os valores de Yi se
distribuem ao redor da reta.
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Regressão Linear Múltipla
Yi=0+1Xi1 + 2Xi2 +…+ pXip + i
Yi é o valor da variável resposta na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis preditoras na i-ésima
observação
i é um termo de erro aleatório com distribuição normal,
média zero e variância constante 2 (E(i )=0 e 2 (i )=
2 )
i e j são não correlacionados (independentes) para i  j
Superfície de Resposta: Função de
Regressão na Regressão Linear Múltipla
Plano de resposta
Yi
•
E(Yi) = 20,00
0
i
•
(1,33;1,67)
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Significado dos Coeficientes de
regressão: 0, 1, 2,.., p
O parâmetro 0 é o intercepto do plano de
regressão. Se a abrangência do modelo inclui
X1=0 e X2=0 então 0=10 representa a resposta
média E(Y) neste ponto. Em outras situações, 0
não tem qualquer outro significado como um
termo separado no modelo de regressão.
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Significado dos Coeficientes de
regressão: 0, 1, 2,.., p
Parâmetro 1 indica a mudança na resposta
média E(Y) por unidade de acréscimo em X1
quando X2 é mantido constante. Da mesma
forma 2 indica a mudança na resposta média
por unidade de aumento em X2 quando X1 é
mantido constante.
“Ceteris Paribus”
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Significado dos Coeficientes de
regressão: 0, 1, 2,.., p
Quando o efeito de X1 sobre a resposta média
não depende de X2 e vice-versa, e assim, para
cada X de [1 a p], dizemos que as variáveis
preditoras tem efeito aditivo ou não interagem.
Se temos somente X1 e X2 por exemplo,
dizemos que temos um modelo de primeira
ordem sem interação.
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Outros modelos de regressão
Y = b0 + b1 X + b2 X + e
2
Modelo quadrático ou de 2º grau


Não é uma linha reta, mas
permanece linear nos
parâmetros  mesmos
métodos são aplicáveis
Pode ser linearizado:
X2 = (X1)2
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Outros modelos de regressão
Y
1
1  2 e 3 X

Modelo de crescimento
logístico (X=tempo)
Modelo não linear nos parâmetros

Necessita de métodos
para modelos nãolineares
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Superfície de Resposta
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Estimação dos parâmetros
Em geral não se conhece os valores de 0 e 1 .
Eles podem ser estimados através de dados obtidos
por amostras.
O método utilizado na estimação dos parâmetros é o
método dos mínimos quadrados, o qual considera
os desvios dos Yi de seu valor esperado (E(Yi )):
i = Yi – (0 + 1 Xi)
Estimação dos parâmetros
Em particular, o método dos mínimos
quadrados requer que a soma dos n
desvios quadrados, denotado por Q, seja
mínima:
n
Q  [Yi   0  1 X i ]2
i 1
Estimação dos parâmetros
Para minimizar Q (soma dos desvios quadrados):
(1) Q deve ser derivado em relação a 0 e 1:
Q
 0
Q
1
n
 2 (Yi   0  1 X i )
i 1
n
 2 X i (Yi   0  1 X i )
i 1
(2) Com
derivadas parciais igualadas à zero, obtêm-se os
valores estimados de 0 e 1:
n
bˆ 0 = Y - bˆ1 X
 ( X  X )(Y  Y )
i
ˆ 1 
i
i 1
n
2
(
X
i

X
)

i 1
Inferência
Testando se a inclinação
1.
ˆ1
é zero.
Construir intervalos de confiança para :ˆ1
0,14
tn-2
0,12
2.
Teste de hipótese para
0,1
:
0,08
H 0 : ˆ 1  0
Ha : ˆ 1  0
0,06
1a
0,04
0,02
a/2
0
0
-
5
-t1-a/2;n-2 10
0
a/2
t1-a/2;n-2
15
+
Se ˆ1 = 0 , significa que não há correlação entre X e Y.
Rejeitar H 0 , significa que o modelo que inclui X é melhor
do que o modelo que não inclui X mesmo que a linha reta
não seja a relação mais apropriada.
Inferência
1.
Construir intervalos de confiança para :ˆ1
n
 ( X  X )(Y  Y )
i
ˆ 1 
i
i 1
n
(X  X )
i
Média:
Variância
estimada:
E(bˆ1) = b1
s (bˆ1 ) =
2
2
i 1
Distribuição da estatística studentizada (σ é desconhecido)
bˆ1 - b1
~ t(n - 2).
ˆ
s(b1 )
Intervalo de confiança
bˆ1 ± t(1- a / 2;n - 2)s(bˆ1 )
å
QMR =
QMR
( Xi -X )
SQR
n- p
2
Inferência
2. Teste estatístico formal: feito de maneira padrão
usando a distribuição de Student
0,14
tn-2
0,12
H 0 : ˆ 1  0
Ha : ˆ 1  0
bˆ1 - b1
t* =
s(bˆ1 )
0,1
0,08
0,06
1a
0,04
0,02
a/2
0
0
-
5
-t1-a/2;n-2 10
0
Se | t * |£ t(1- a / 2;n - 2), não rejeita H 0
Se | t * |> t(1- a / 2;n - 2), rejeita H 0
a/2
t1-a/2;n-2
15
+
Inferência
De forma semelhante testa-se
ˆ0
é zero
H0 : 0  0
H1 :  0  0
Se a hipótese nula H 0 = 0 não for rejeitada, podese excluir a constante do modelo, já que a reta
inclui a origem.
Análise de Variância da Regressão
Inferência: Análise de Variância
Yi  Y  (Yˆi  Y )  (Yi  Yˆ )
Desvio
Total
Desvio Explicado
pelo Modelo
Desvio Não-explicado
pelo Modelo
Elevando-se ao quadrado os dois lados da igualdade e
fazendo-se a soma para todas as observações de uma
determinada amostra tem-se que:
n
n
n
2
ˆ
ˆ
(
Y
i

Y
)

(
Y
i

Y
)

(
Y
i

Y
)



2
i 1
2
i 1
i 1
Soma de quadrados total Soma de quadrados
Soma de quadrados devido
(SQT)
devido ao modelo (SQM) aos resíduos (SQR)
Particionando a soma dos quadrados
n
n
n
i 1
i 1
i 1
2
2
ˆ
ˆ
(
Y
i

Y
)

(
Y
i

Y
)

(
Y
i

Y
)



•Se SQT=0, então todas
as observações Y são
iguais.
•Quanto maior for SQT,
maior será a variação
entre os Y´s.
•SQT é uma medida da
variação dos Y´s quando
não se leva em
consideração a variável
independente X.
Se a linha de regressão
for horizontal, de modo
^

que Y i  Y
SQM = 0.
0
então
Se SQR = 0, então
as observações
caem na linha de
regressão.
Quanto maior SQR,
maior será a variação
das observações Y
ao redor da linha de
regressão.
Particionando a Soma de Quadrados
SQT = SQM + SQR.
Um modo de se saber quão útil será a linha de regressão
para a predição é verificar quanto da SQT está na SQM e
quanto está na SQR.
Idealmente, gostaríamos que SQM fosse muito maior que
SQR.
Gostaríamos, portanto, que
SQM
SQT
fosse próximo de 1.
Coeficiente de determinação
Uma medida do efeito de X em reduzir a variabilidade do
Y é:
R2 
SQM SQT - SQR
SQR

 1
SQT
SQT
SQT
Note que: 0  R2  1
R2 é denominado coeficiente de determinação. Em um
modelo de regressão simples, o coeficiente de
determinação é o quadrado do coeficiente de
correlação (r) entre Y e X. Note que em um modelo de
regressão simples
r   R  1  r  1
2
Coeficiente de determinação
r   R  1  r  1
2
Temos dois casos extremos:
1.
R2 = 1
todas as observações caem na linha
de regressão ajustada. A variável preditora X
explica toda a variação nas observações.
2.
R2 = 0 isto ocorre quando b1 = 0. Não existe
relação linear em Y e X. A variável X não ajuda
a explicar a variação dos Yi .
Tabela ANOVA - F
Graus de
Liberdade
(df)
Soma dos
quadrados
(SQ)
Quadrado
médio
QM=SQ/df
Razão da
variância
1 (p-1)
SQT-SQR=
SQM= 6394.02
6394.02
(QMModelo)
21.33(p<0.001)
Residuo
28 (n-p)
SQR=8393.44
299.77
(QMResíduo)
Total
29 (n-1)
SQT =
14787.46
Regressão(X)
SQT - SQR 6394.02
(SQT - SQR) / k
R2 / k
F
R =
=
= 0.43 F =
2
(
1

R
/(n  k  1)
SQR / (n - k -1)
SQT
14787.46
2
Inferência – Teste F (Adequação Global)
H 0 : ˆ 1  ˆ2  ...ˆk  0
Ha : existe pelo menos um dos j  0
QMModelo
F* =
QMErro
onde
Fc ~ F p-1, n-p
Se F*> F(a; p-1,n-p), rejeitamos a hipótese nula, caso contrário,
aceitamos a hipótese.
Inferência – Teste F Parcial
Compara um modelo reduzido com um modelo completo
H 0 : ˆ *  0
Ha : ˆ *  0
Modelo completo Y =0+1X1+...pXp+*X*
Modelo reduzido Y =0+1X1+...pXp
Ha: X* melhora significativamente a predição
de Y, dado que X1, X2,...Xp já estão no modelo
F=
*
SQR(R)-SQR(C)
glr -glc
¸
SQR(C)
glc
~ F(1- a;glr -glc,glc )
F * £ F(1- a;glr - glc , glc ) Þ aceita H 0
F * > F(1- a;glr - glc , glc ) Þ rejeita H 0
Compara as somas de quadrados dos erros do modelo completo (SQR(C)) e reduzido (SQR(R)).
O modelo reduzido é adequado (não rejeita H0) se SQR(C) não for muito menor que (SQR(R))
Etapas da Análise de Regressão
1.Seleção

e preparação das variáveis
Transformações podem ser necessárias  para linearizar relações
Transformações para não
linearidade do modelo
Transformações
quando a distribuição dos erros é
aproximadamente normal e com variância constante. Deve-se
realizar uma transformação apenas na variável X.
Padrões
de relação entre X e Y:
X '  log10 X
X '
X
X X
X '  exp(X )
'
2
X' =1/ X
X ' = exp(-X)
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Etapas da Análise de Regressão
1.Seleção
e preparação das variáveis

Transformações podem ser necessárias  para linearizar relações

Analisar multicolinearidade  aumenta DP dos coeficientes
estimados )
2.Escolha
e ajuste do modelo de regressão
3.Diagnóstico
é adequado
para verificar se o modelo ajustado
Análise dos Resíduos
Se modelo for adequado, resíduos devem refletir as
propriedades impostas pelo termo de erro do modelo.
Resíduo
 Linearidade
do modelo
0
X
Não Linearidade
Análise dos Resíduos
 Normalidade
dos resíduos: Suposição essencial para
que os resultados do ajuste do modelo sejam confiáveis
Outros diagnósticos: Shapiro-Wilk, Anderson-Darling,
Kolmogorov-Smirnov
Análise dos Resíduos
 Homocedasticidade
(variância constante)
Gráfico resíduos vs. valores ajustados
Resíduo
Variância Não Constante
0
X
Outros diagnósticos: Teste de Breusch-Pagan, Goldfeld-Quandt
Análise dos Resíduos
Presença
de outliers
Gráfico resíduos padronizados vs. valores ajustados
1
Resíduos Padronizados
0,8
0,6
0,4
0,2
0
150
155
160
165
170
175
180
185
-0,2
-0,4
X
Pontos influentes: DFFITS, DFBETA, Distância de Cook
Análise dos Resíduos
Independência
Resíduo

0
X
Erros Correlacionados
Outros diagnósticos: Teste de Durbin-Watson
Autocorrelação espacial: Mapa dos resíduos, Índice de Moran
Análise dos Resíduos
Modelo Adequado
Resíduo

0
X
Análise dos Resíduos
DADOS ESPACIAIS
Caso a hipótese de independência das observações
seja Falsa  Dependência Espacial
Efeitos Espaciais
Se existir forte tendência ou correlação espacial,
os resultados serão influenciados, apresentando
associação estatística onde não existe (e viceversa).
Análise dos Resíduos
Como verificar?
Medir a autocorrelação espacial dos
resíduos da regressão (ex. Índice de
Moran dos resíduos)
Exemplo
São José dos Campos
Crescimento Populacional 91-00 X Densidade Populacional 91
1.
2.
3.
Mapear os resíduos da
regressão – índícios de
correlação
Índice de Moran sobre
mapa de resíduos I=0,45
Testes de pseudosignificância indicam
autocorrelação espacial
Autocorrelação Espacial Constatada!!!

As observações não são independentes
espacialmente.

Portanto... temos uma violação das nossas
premissas (violação do MMQ).

Dependendo da natureza da dependência,
parâmetros estimados por mínimos quadrados
será ineficiente ou inconsistente.
E agora?
Regressão Espacial

Incorpora a estrutura de dependência
espacial no modelo
PREMISSA:
 Assumimos que conhecemos a estrutura de
dependência espacial (ela não é estimada)
 Premissa forte? Sim!
 Porém não tão forte quanto assumir que todas as
observações são independentes espacialmente
 Matrizes de ponderação tipicamente consideradas:
contiguidade (queen, rook...) ou distância (k vizinhos
mais próximos...)
Regressão Espacial
Podem ser globais ou locais
Globais: inclui no modelo de regressão um
parâmetro/elemento para capturar a estrutura
de autocorrelação espacial
Locais: parâmetros variam continuamente no
espaço
Global vs. Local
Global
Local
Estatísticas dizem respeito à
região como um todo (1 valor)
Disagregações locais das
estatísticas globais (Muitos
valores)
Estatísticas globais e não
mapeáveis
Estatísticas locais e mapeáveis
Ênfase nas similaridades da
região
Ênfase nas diferenças ao longo
do espaço
Procura regularidades ou “leis”
Procura por exceções ou “hotspots” locais
Ex.: Regressão Clássica, Spatial Ex.: GWR, Regimes Espaciais
Lag, Spatial Error
Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted
Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
Modelos com Efeitos Espaciais Globais
Premissa:
É possível capturar a estrutura de correlação espacial
num único parâmetro (adicionado ao modelo de
regressão).
Alternativas:
Spatial Lag Models (SAR): atribuem a autocorrelação
espacial à variável resposta Y. (Spatial Autoregressive
Modeling)
Spatial Error Models (CAR): atribuem a autocorrelação
ao erro. (Conditional Autoregressive Modeling)
Spatial Lag Model (LAG)
Hipótese
a variável Yi é afetada pelos valores da variável
resposta nas áreas vizinhas a i:
Y = WY + X + 
 = coeficiente espacial autoregressivo - medida de
correlação espacial
 = 0, se autocorrelação é nula (hipótese nula)
W = matriz de proximidade espacial
WY expressa a dependência espacial em Y
Exemplo: Valor dos imóveis
Spatial Error Model (CAR)
Hipótese:




As observações são interdependentes graças a variáveis
não mensuradas, e que são espacialmente
correlacionadas
Ou seja: efeitos espaciais são um ruído
Por que ele ocorre? Porque não conseguimos modelar
todas as características de uma unidade geográfica que
podem influenciar as regiões vizinhas.
Assume que, se pudéssemos adicionar as variáveis certas
para remover o erro do modelo, o espaço não importaria
mais.
Spatial Error Model (CAR)
Modelo:
Y = X + 
 = W  + ξ
W = erro com efeitos espaciais
 = medida de correlação espacial
ξ = componente do erro com variância constante e não
correlacionada.
Spatial Lag Model X Spatial Error Model
Diagnóstico:
Testes Multiplicadores de Langrange
(Langrange Multiplier Tests, Anselin et al. 1996)
 Executa regressão dos resíduos em relação às variáveis
originais e aos resíduos das áreas vizinhas
 LM-Lag: testes para dependência em relação às variáveis
originais nas áreas vizinhas – lag dependence /missing error
 LM-Error: testes para dependência em relação aos resíduos
nas áreas vizinhas - error dependence / missing lag
Auxilia na escolha de um modelo ou outro !
Spatial Lag Model X Spatial Error Model
Motivações diferentes, porém próximos
em termos formais.
Premissa:
processo
espacial
analisado
é
estacionário e pode ser capturado em
um único parâmetro.
Spatial Lag Model X Spatial Error Model
Porém isto nem sempre é verdade!
Verificar se padrões diversos de associação
espacial estão presentes.
Uma Solução Exploratória:
Indicadores Locais de Autocorrelação Espacial
Indicadores Locais de Variabilidade Espacial

distribuição dos valores
de correlação local para
o índice de exclusão
% Exclusão
Não significantes
p = 0.05
[95% (1,96)]
p = 0.01
[99% (2,54)]
p = 0.001 [99,9% (3,2)]
Modelos com Efeitos Espaciais Locais
Modelos de Regressão com Efeitos Espaciais Discretos
Variações espaciais modeladas de maneira discreta.
Regimes Espaciais
Modelos de Regressão com Efeitos Espaciais Contínuos
Variações espaciais modeladas de forma contínua, com
parâmetros variando no espaço.
“Geographically Weighted Regression” – GWR.
[Regressão Geograficamente Ponderada]
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
Regimes Espaciais
A idéia é regionalizar a área de estudo obtendo subregiões com seu padrão próprio.
Realizar regressões separadas para cada sub-região.
Utilizam-se variáveis preditoras para classificar os
subconjuntos
Y1  X11  1
para Ind =1
Y2  X 2 2  2
para Ind=2
Y3  X 3 3  3
para Ind=3
Esses valores são estimados conjuntamente em um
modelo de regressão usando as variáveis preditoras
Regimes Espaciais

Regionalizações da
área de estudo

Diferentes tipos de
variabilidade espacial

Métricas: Diagrama de
espalhamento e índices
locais e globais –
regionalização tipo kmedias espacial

Ex: Regimes espaciais
para índice de exclusão
Regimes Espaciais x Regiões Administrativas
Impacto de Regimes Espaciais
Análise de Regressão
Idosos = f ( Domicílios Sem Esgoto)
Regressão Linear
R2 = 0,35
Regressão Espacial
Regiões Adm (R2 = 0,72)
Regimes Espaciais (R2 = 0,83)
Para dados socioeconômicos:
modelo de regimes espaciais tende a apresentar resultados
melhores que os de regressão simples ou de regressão espacial
com efeitos globais.
Diagnóstico de modelos de efeitos espaciais
1.
2.
3.
4.
5.
Análise gráfica dos resíduos
Mapear os resíduos – concentração de resíduos
negativos ou positivos em parte do mapa indica
presença de autocorrelação espacial
Índice de Moran dos resíduos
Indicadores de qualidade de ajuste dos modelos
baseados no coeficiente de determinação (R2) serão
incorretos.
Utilização do AIC – critério de informação de Akaike,
a avaliação do ajuste é penalizada por função do # de
parâmetros
Comparação das regressões para SP
Longevidade X renda
Regressão
simples
Spatial Lag
Regimes
espaciais (3)
0.280
0.586
0.80
Log verossimilhança
(LIK)
-187.92
-150.02
-124.04
AIC
379.84
306.51
260.09
Indice Moran dos
resíduos
0.620
R2 ajustado
0.020
GWR – Geographically Weighted Regression
Ajusta um modelo de regressão a cada ponto
observado, ponderando todas as demais
observações como função da distância a este
ponto.
Y(s) = (s)X + 
Y(s): variável que representa o processo no ponto s.
(s): parâmetros estimados no ponto s.
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
GWR – Geographically Weighted Regression
y = b0 + b1x1 + e
 regressão simples com um preditor
b0 , b1 é o mesmo para toda área
Se existe alguma variação geográfica na relação
essa variação fica incluída como erro.
GWR – Geographically Weighted Regression
y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v)
 GWR
b0(u,v), b1(u,v)  para cada ponto do espaço há um b0 e b1 diferentes
Existe uma função (kernel) sobre cada ponto do espaço
que determina todos os pontos da regressão local que é
poderada pela distância. Pontos mais próximos do ponto
central tem maior peso.
Assim como no kernel – a escolha da largura da banda é
importante (pode ser fixa ou adaptável à densidade dos
dados)
GWR – Geographically Weighted Regression
FUNÇÃO DE PONDERAÇÃO
LARGURA DE BANDA
Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted
Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
Ajuste do Modelo GWR
Modelos locais vs. Modelos Globais

Mesmas técnicas de análise do ajuste do modelo, porém
comparação é problemática

GWR apresentará sempre melhores ajustes pois
envolve o ajuste de muito mais parâmetros

Sugestão: medida AIC, que leva em consideração a
complexidade do modelo.
GWR – Geographically Weighted Regression
Os parâmetros podem ser apresentados visualmente
para identificar como se comportam espacialmente
os relacionamentos entre as variáveis.
Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)
GWR – Geographically Weighted Regression
Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)
Mapa de resíduos (I = 0,04) :
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
Distribuição espacial de consumo residencial de água e renda da população em 2010.
Fonte: SNIS (2010) e IBGE (2010).
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo
Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
MODELO DE REGRESSÃO LINEAR GLOBAL
Variável
β
Desvio
Padrão
(constante)
4,25.(10-3)
4,55.(10-4)
RENDA
41.(10-6)
8,2.(10-7)
Coeficiente de determinação: R2 = 0,36
Teste F: F = 2499,1
Estatística t
9,3
49
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo
Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
GWR:
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo
Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
Os menores coeficientes estimados para a variável RENDA foram
observados em municípios do Estado do Rio Grande do Sul e os
maiores em Alagoas.
Região do Município de Traipu (AL)  maior coeficiente estimado
Um aumento de R$ 1 na renda per capita da população está associado
a um incremento do consumo de água de 100,3 ml/dia/hab.
Região do município de Floriano Peixoto (RS)  um dos menores
coeficientes significativos (t-valor > 1,96):
Um aumento de R$ 1 na renda per capita da população está associado
a um aumento do consumo de 10,22 ml/dia/hab.
Hipóteses???
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo
Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
 De maneira geral, as regiões apresentadas na como aquelas onde a
elevação da renda está relacionada a um maior incremento do
consumo (áreas mais escuras) tendem a coincidir com as áreas
onde o aumento do poder de consumo – que acompanhou o recente
processo de estabilização econômica, crescimento econômico e
ampliação dos programas redistributivos – apresentou os maiores
impactos na redução da pobreza e extrema pobreza do país.
 São regiões onde a redução da pobreza ampliou de maneira
expressiva o acesso a recursos básicos para a manutenção de vida
desta população, entre eles a água potável.
 Já em regiões como a Sul, caracterizada por níveis mais elevados
de renda, um aumento na renda tende a gerar um impacto menor no
consumo de bens essenciais como a água e maior no consumo de
bens de outra natureza.
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo
Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Outros modelos GWR


Regressão Poisson (GWPR)
Regressão Logística (GWLR)
Softwares para o Curso
Com
R, aRT + TerraView
É possível testar tudo que vimos nestes
slides!
Um tutorial está disponível na Wiki
R-Spatial Project:
http://cran.r-project.org/web/views/Spatial.html
Outros Tutoriais
Spatial Regression Analysis: A Workbook (Luc Anselin):
http://geodacenter.asu.edu/system/files/rex1.pdf
Fitting and Interpreting Spatial Regression Models: An
Applied Survey (Roger Bivand):
http://www.nek.lu.se/ryde/NordicEcont09/Papers/bivand.pdf
Spatial Econometrics functions in R: Classes and
Methods: http://www.springerlink.com/content/xkmdbdk9jtfwbg9v/
Introduction to Geographically Weighted Regression
(GWR) and to Grid Enabled GWR (Daniel Grose,
Chris Brunsdon, Richard Harris): http://www.esrc.ac.uk/myesrc/grants/RES-149-25-1041/outputs/Read/d68adfdb-50d5-4104882e-a7028549ee37
Softwares Específicos
São Sw Livres disponíveis na WEB
GeoDa
Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag
& Spatial Error)
SPRING e Terraview
Índice de Moran, LISA map
CrimeStat
Índices de Autocorrelação, Taxas e Regressões
SAM (Spatial Analysis in Macroecology, www.ecoevol.ufg.br/sam)
Índices de Autocorrelação, Taxas e Regressões (inclui GWR)
Rangel, T.; Diniz-Filho, J; Bini, L. (2010) SAM: a comprehensive
application for Spatial Analysis in Macroecology. Ecography, 33:46-50
Não é Livre: GWR 3.0
Regressão Clássica e Espacial (GWR)
Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted
Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
Download

Aula_Regressão_Espacial