Análise de Regressão com Dados Espaciais: Uma Breve Introdução Análise Espacial de Dados Geográficos SER-301 - 2012 Material Elaborado por Virginia Ragoni, INPE Flávia Feitosa, INPE Revisado em 2010: Antônio Miguel V. Monteiro Revisado em 2011-2013: Flávia Feitosa Análise de Regressão Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (variável resposta/ dependente) pela outra ou outras (variáveis indicadoras/ preditoras/ explicativas/ independentes). Y = aX + b NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996. Exemplos Alunos Criminalidade (+) X Renda (-), Investimentos (-) Longevidade (+) X Escolaridade (+), Renda (+) ... Objetivos da Análise de Regressão 1.Determinar como duas ou mais variáveis se relacionam. 2.Estimar a função que determina a relação entre duas variáveis. 3.Usar a equação para projetar/estimar valores futuros da variável dependente. Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas. Diagrama de Dispersão Os dados para a análise de regressão são da forma: (x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn) Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear. Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido. Diagrama de Dispersão Sugerem uma regressão/relação não linear. Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear. Diagrama de Dispersão Sugerem uma regressão/relação linear. Assim, a relação entre as variáveis poderá ser descrita por uma equação linear. Diagrama de Dispersão Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos. Diagrama de Dispersão Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y Modelos de Regressão Um modelo de regressão contendo somente uma variável preditora é denominado modelo de regressão simples. Um modelo com mais de uma variável preditora é denominado modelo de regressão múltiplo. Regressão Linear Simples Yi 0 1 X i i onde: Yi é o valor da variável resposta na i-ésima observação; 0 e 1 são parâmetros; Xi é uma constante conhecida; é o valor da variável preditora na i-ésima observação; i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 ) i e j são não correlacionados (independentes) para i j (2 (i,j)= 0 ) Modelo de Regressão Linear Inclinação Intercepto Populacional Populacional Variável Preditora Yi=0+1Xi +i Variável Resposta Yi i Y 1 Erro Aleatório Y = E(Y) = 0 + 1 X Coeficiente angular Ŷi=b0+b1Xi Modelo estimado i =Yi-Ŷi Resíduo 0 X Significado de 0 e 1 Os parâmetros 0 e 1 são denominados coeficientes de regressão: 1. 2. 1 é a inclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade. 0 é o intercepto em Y da equação de regressão (é o valor de Y quando X = 0.) 0 só tem significado se o modelo incluir X = 0. E[Yi ] Y 1 0 0 X 0 Xi 1 yi = 0 + 1xi y x=1 1 y x 0 x x+1 0 (intercepto); quando a região experimental inclui X=0, 0 é o valor da média da distribuição de Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; 1 (inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre a mudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Premissas 1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma variável aleatória com distribuição Normal (com média e variâncias finitas); Yi ~ N(E(y/x); σ2) 2) Linearidade Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta, para um particular valor de X. E(y/x)=μy/x = 0 + 1x Premissas 3) Independência Os valores de Yi e Yj são estatisticamente independentes. 4) Homocedasticidade A variância de Y é igual, qualquer que seja X. Modelos de Regressão A figura mostra a distribuição de Y para vários valores de X. Mostra onde cai a observação Y1. Mostra que o erro é a diferença entre Y1 e E(Y1). Observe que as distribuições de probabilidade apresentam a mesma variabilidade. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Resumo da situação: para qualquer valor Xi, a média de Yi é i = 0 + 1Xi. As médias estão sobre a linha reta para todos os valores de X. Devido aos erros aleatórios, os valores de Yi se distribuem ao redor da reta. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Regressão Linear Múltipla Yi=0+1Xi1 + 2Xi2 +…+ pXip + i Yi é o valor da variável resposta na i-ésima observação 0, …, p são parâmetros Xi1 ,…,Xip são os valores das variáveis preditoras na i-ésima observação i é um termo de erro aleatório com distribuição normal, média zero e variância constante 2 (E(i )=0 e 2 (i )= 2 ) i e j são não correlacionados (independentes) para i j Superfície de Resposta: Função de Regressão na Regressão Linear Múltipla Plano de resposta Yi • E(Yi) = 20,00 0 i • (1,33;1,67) Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Significado dos Coeficientes de regressão: 0, 1, 2,.., p O parâmetro 0 é o intercepto do plano de regressão. Se a abrangência do modelo inclui X1=0 e X2=0 então 0=10 representa a resposta média E(Y) neste ponto. Em outras situações, 0 não tem qualquer outro significado como um termo separado no modelo de regressão. Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Significado dos Coeficientes de regressão: 0, 1, 2,.., p Parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante. “Ceteris Paribus” Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Significado dos Coeficientes de regressão: 0, 1, 2,.., p Quando o efeito de X1 sobre a resposta média não depende de X2 e vice-versa, e assim, para cada X de [1 a p], dizemos que as variáveis preditoras tem efeito aditivo ou não interagem. Se temos somente X1 e X2 por exemplo, dizemos que temos um modelo de primeira ordem sem interação. Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Outros modelos de regressão Y = b0 + b1 X + b2 X + e 2 Modelo quadrático ou de 2º grau Não é uma linha reta, mas permanece linear nos parâmetros mesmos métodos são aplicáveis Pode ser linearizado: X2 = (X1)2 Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Outros modelos de regressão Y 1 1 2 e 3 X Modelo de crescimento logístico (X=tempo) Modelo não linear nos parâmetros Necessita de métodos para modelos nãolineares Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Superfície de Resposta Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Estimação dos parâmetros Em geral não se conhece os valores de 0 e 1 . Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado (E(Yi )): i = Yi – (0 + 1 Xi) Estimação dos parâmetros Em particular, o método dos mínimos quadrados requer que a soma dos n desvios quadrados, denotado por Q, seja mínima: n Q [Yi 0 1 X i ]2 i 1 Estimação dos parâmetros Para minimizar Q (soma dos desvios quadrados): (1) Q deve ser derivado em relação a 0 e 1: Q 0 Q 1 n 2 (Yi 0 1 X i ) i 1 n 2 X i (Yi 0 1 X i ) i 1 (2) Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de 0 e 1: n bˆ 0 = Y - bˆ1 X ( X X )(Y Y ) i ˆ 1 i i 1 n 2 ( X i X ) i 1 Inferência Testando se a inclinação 1. ˆ1 é zero. Construir intervalos de confiança para :ˆ1 0,14 tn-2 0,12 2. Teste de hipótese para 0,1 : 0,08 H 0 : ˆ 1 0 Ha : ˆ 1 0 0,06 1a 0,04 0,02 a/2 0 0 - 5 -t1-a/2;n-2 10 0 a/2 t1-a/2;n-2 15 + Se ˆ1 = 0 , significa que não há correlação entre X e Y. Rejeitar H 0 , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não seja a relação mais apropriada. Inferência 1. Construir intervalos de confiança para :ˆ1 n ( X X )(Y Y ) i ˆ 1 i i 1 n (X X ) i Média: Variância estimada: E(bˆ1) = b1 s (bˆ1 ) = 2 2 i 1 Distribuição da estatística studentizada (σ é desconhecido) bˆ1 - b1 ~ t(n - 2). ˆ s(b1 ) Intervalo de confiança bˆ1 ± t(1- a / 2;n - 2)s(bˆ1 ) å QMR = QMR ( Xi -X ) SQR n- p 2 Inferência 2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student 0,14 tn-2 0,12 H 0 : ˆ 1 0 Ha : ˆ 1 0 bˆ1 - b1 t* = s(bˆ1 ) 0,1 0,08 0,06 1a 0,04 0,02 a/2 0 0 - 5 -t1-a/2;n-2 10 0 Se | t * |£ t(1- a / 2;n - 2), não rejeita H 0 Se | t * |> t(1- a / 2;n - 2), rejeita H 0 a/2 t1-a/2;n-2 15 + Inferência De forma semelhante testa-se ˆ0 é zero H0 : 0 0 H1 : 0 0 Se a hipótese nula H 0 = 0 não for rejeitada, podese excluir a constante do modelo, já que a reta inclui a origem. Análise de Variância da Regressão Inferência: Análise de Variância Yi Y (Yˆi Y ) (Yi Yˆ ) Desvio Total Desvio Explicado pelo Modelo Desvio Não-explicado pelo Modelo Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que: n n n 2 ˆ ˆ ( Y i Y ) ( Y i Y ) ( Y i Y ) 2 i 1 2 i 1 i 1 Soma de quadrados total Soma de quadrados Soma de quadrados devido (SQT) devido ao modelo (SQM) aos resíduos (SQR) Particionando a soma dos quadrados n n n i 1 i 1 i 1 2 2 ˆ ˆ ( Y i Y ) ( Y i Y ) ( Y i Y ) •Se SQT=0, então todas as observações Y são iguais. •Quanto maior for SQT, maior será a variação entre os Y´s. •SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X. Se a linha de regressão for horizontal, de modo ^ que Y i Y SQM = 0. 0 então Se SQR = 0, então as observações caem na linha de regressão. Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão. Particionando a Soma de Quadrados SQT = SQM + SQR. Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR. Gostaríamos, portanto, que SQM SQT fosse próximo de 1. Coeficiente de determinação Uma medida do efeito de X em reduzir a variabilidade do Y é: R2 SQM SQT - SQR SQR 1 SQT SQT SQT Note que: 0 R2 1 R2 é denominado coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação (r) entre Y e X. Note que em um modelo de regressão simples r R 1 r 1 2 Coeficiente de determinação r R 1 r 1 2 Temos dois casos extremos: 1. R2 = 1 todas as observações caem na linha de regressão ajustada. A variável preditora X explica toda a variação nas observações. 2. R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi . Tabela ANOVA - F Graus de Liberdade (df) Soma dos quadrados (SQ) Quadrado médio QM=SQ/df Razão da variância 1 (p-1) SQT-SQR= SQM= 6394.02 6394.02 (QMModelo) 21.33(p<0.001) Residuo 28 (n-p) SQR=8393.44 299.77 (QMResíduo) Total 29 (n-1) SQT = 14787.46 Regressão(X) SQT - SQR 6394.02 (SQT - SQR) / k R2 / k F R = = = 0.43 F = 2 ( 1 R /(n k 1) SQR / (n - k -1) SQT 14787.46 2 Inferência – Teste F (Adequação Global) H 0 : ˆ 1 ˆ2 ...ˆk 0 Ha : existe pelo menos um dos j 0 QMModelo F* = QMErro onde Fc ~ F p-1, n-p Se F*> F(a; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese. Inferência – Teste F Parcial Compara um modelo reduzido com um modelo completo H 0 : ˆ * 0 Ha : ˆ * 0 Modelo completo Y =0+1X1+...pXp+*X* Modelo reduzido Y =0+1X1+...pXp Ha: X* melhora significativamente a predição de Y, dado que X1, X2,...Xp já estão no modelo F= * SQR(R)-SQR(C) glr -glc ¸ SQR(C) glc ~ F(1- a;glr -glc,glc ) F * £ F(1- a;glr - glc , glc ) Þ aceita H 0 F * > F(1- a;glr - glc , glc ) Þ rejeita H 0 Compara as somas de quadrados dos erros do modelo completo (SQR(C)) e reduzido (SQR(R)). O modelo reduzido é adequado (não rejeita H0) se SQR(C) não for muito menor que (SQR(R)) Etapas da Análise de Regressão 1.Seleção e preparação das variáveis Transformações podem ser necessárias para linearizar relações Transformações para não linearidade do modelo Transformações quando a distribuição dos erros é aproximadamente normal e com variância constante. Deve-se realizar uma transformação apenas na variável X. Padrões de relação entre X e Y: X ' log10 X X ' X X X X ' exp(X ) ' 2 X' =1/ X X ' = exp(-X) Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html Etapas da Análise de Regressão 1.Seleção e preparação das variáveis Transformações podem ser necessárias para linearizar relações Analisar multicolinearidade aumenta DP dos coeficientes estimados ) 2.Escolha e ajuste do modelo de regressão 3.Diagnóstico é adequado para verificar se o modelo ajustado Análise dos Resíduos Se modelo for adequado, resíduos devem refletir as propriedades impostas pelo termo de erro do modelo. Resíduo Linearidade do modelo 0 X Não Linearidade Análise dos Resíduos Normalidade dos resíduos: Suposição essencial para que os resultados do ajuste do modelo sejam confiáveis Outros diagnósticos: Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov Análise dos Resíduos Homocedasticidade (variância constante) Gráfico resíduos vs. valores ajustados Resíduo Variância Não Constante 0 X Outros diagnósticos: Teste de Breusch-Pagan, Goldfeld-Quandt Análise dos Resíduos Presença de outliers Gráfico resíduos padronizados vs. valores ajustados 1 Resíduos Padronizados 0,8 0,6 0,4 0,2 0 150 155 160 165 170 175 180 185 -0,2 -0,4 X Pontos influentes: DFFITS, DFBETA, Distância de Cook Análise dos Resíduos Independência Resíduo 0 X Erros Correlacionados Outros diagnósticos: Teste de Durbin-Watson Autocorrelação espacial: Mapa dos resíduos, Índice de Moran Análise dos Resíduos Modelo Adequado Resíduo 0 X Análise dos Resíduos DADOS ESPACIAIS Caso a hipótese de independência das observações seja Falsa Dependência Espacial Efeitos Espaciais Se existir forte tendência ou correlação espacial, os resultados serão influenciados, apresentando associação estatística onde não existe (e viceversa). Análise dos Resíduos Como verificar? Medir a autocorrelação espacial dos resíduos da regressão (ex. Índice de Moran dos resíduos) Exemplo São José dos Campos Crescimento Populacional 91-00 X Densidade Populacional 91 1. 2. 3. Mapear os resíduos da regressão – índícios de correlação Índice de Moran sobre mapa de resíduos I=0,45 Testes de pseudosignificância indicam autocorrelação espacial Autocorrelação Espacial Constatada!!! As observações não são independentes espacialmente. Portanto... temos uma violação das nossas premissas (violação do MMQ). Dependendo da natureza da dependência, parâmetros estimados por mínimos quadrados será ineficiente ou inconsistente. E agora? Regressão Espacial Incorpora a estrutura de dependência espacial no modelo PREMISSA: Assumimos que conhecemos a estrutura de dependência espacial (ela não é estimada) Premissa forte? Sim! Porém não tão forte quanto assumir que todas as observações são independentes espacialmente Matrizes de ponderação tipicamente consideradas: contiguidade (queen, rook...) ou distância (k vizinhos mais próximos...) Regressão Espacial Podem ser globais ou locais Globais: inclui no modelo de regressão um parâmetro/elemento para capturar a estrutura de autocorrelação espacial Locais: parâmetros variam continuamente no espaço Global vs. Local Global Local Estatísticas dizem respeito à região como um todo (1 valor) Disagregações locais das estatísticas globais (Muitos valores) Estatísticas globais e não mapeáveis Estatísticas locais e mapeáveis Ênfase nas similaridades da região Ênfase nas diferenças ao longo do espaço Procura regularidades ou “leis” Procura por exceções ou “hotspots” locais Ex.: Regressão Clássica, Spatial Ex.: GWR, Regimes Espaciais Lag, Spatial Error Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley. Modelos com Efeitos Espaciais Globais Premissa: É possível capturar a estrutura de correlação espacial num único parâmetro (adicionado ao modelo de regressão). Alternativas: Spatial Lag Models (SAR): atribuem a autocorrelação espacial à variável resposta Y. (Spatial Autoregressive Modeling) Spatial Error Models (CAR): atribuem a autocorrelação ao erro. (Conditional Autoregressive Modeling) Spatial Lag Model (LAG) Hipótese a variável Yi é afetada pelos valores da variável resposta nas áreas vizinhas a i: Y = WY + X + = coeficiente espacial autoregressivo - medida de correlação espacial = 0, se autocorrelação é nula (hipótese nula) W = matriz de proximidade espacial WY expressa a dependência espacial em Y Exemplo: Valor dos imóveis Spatial Error Model (CAR) Hipótese: As observações são interdependentes graças a variáveis não mensuradas, e que são espacialmente correlacionadas Ou seja: efeitos espaciais são um ruído Por que ele ocorre? Porque não conseguimos modelar todas as características de uma unidade geográfica que podem influenciar as regiões vizinhas. Assume que, se pudéssemos adicionar as variáveis certas para remover o erro do modelo, o espaço não importaria mais. Spatial Error Model (CAR) Modelo: Y = X + = W + ξ W = erro com efeitos espaciais = medida de correlação espacial ξ = componente do erro com variância constante e não correlacionada. Spatial Lag Model X Spatial Error Model Diagnóstico: Testes Multiplicadores de Langrange (Langrange Multiplier Tests, Anselin et al. 1996) Executa regressão dos resíduos em relação às variáveis originais e aos resíduos das áreas vizinhas LM-Lag: testes para dependência em relação às variáveis originais nas áreas vizinhas – lag dependence /missing error LM-Error: testes para dependência em relação aos resíduos nas áreas vizinhas - error dependence / missing lag Auxilia na escolha de um modelo ou outro ! Spatial Lag Model X Spatial Error Model Motivações diferentes, porém próximos em termos formais. Premissa: processo espacial analisado é estacionário e pode ser capturado em um único parâmetro. Spatial Lag Model X Spatial Error Model Porém isto nem sempre é verdade! Verificar se padrões diversos de associação espacial estão presentes. Uma Solução Exploratória: Indicadores Locais de Autocorrelação Espacial Indicadores Locais de Variabilidade Espacial distribuição dos valores de correlação local para o índice de exclusão % Exclusão Não significantes p = 0.05 [95% (1,96)] p = 0.01 [99% (2,54)] p = 0.001 [99,9% (3,2)] Modelos com Efeitos Espaciais Locais Modelos de Regressão com Efeitos Espaciais Discretos Variações espaciais modeladas de maneira discreta. Regimes Espaciais Modelos de Regressão com Efeitos Espaciais Contínuos Variações espaciais modeladas de forma contínua, com parâmetros variando no espaço. “Geographically Weighted Regression” – GWR. [Regressão Geograficamente Ponderada] Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004) Regimes Espaciais A idéia é regionalizar a área de estudo obtendo subregiões com seu padrão próprio. Realizar regressões separadas para cada sub-região. Utilizam-se variáveis preditoras para classificar os subconjuntos Y1 X11 1 para Ind =1 Y2 X 2 2 2 para Ind=2 Y3 X 3 3 3 para Ind=3 Esses valores são estimados conjuntamente em um modelo de regressão usando as variáveis preditoras Regimes Espaciais Regionalizações da área de estudo Diferentes tipos de variabilidade espacial Métricas: Diagrama de espalhamento e índices locais e globais – regionalização tipo kmedias espacial Ex: Regimes espaciais para índice de exclusão Regimes Espaciais x Regiões Administrativas Impacto de Regimes Espaciais Análise de Regressão Idosos = f ( Domicílios Sem Esgoto) Regressão Linear R2 = 0,35 Regressão Espacial Regiões Adm (R2 = 0,72) Regimes Espaciais (R2 = 0,83) Para dados socioeconômicos: modelo de regimes espaciais tende a apresentar resultados melhores que os de regressão simples ou de regressão espacial com efeitos globais. Diagnóstico de modelos de efeitos espaciais 1. 2. 3. 4. 5. Análise gráfica dos resíduos Mapear os resíduos – concentração de resíduos negativos ou positivos em parte do mapa indica presença de autocorrelação espacial Índice de Moran dos resíduos Indicadores de qualidade de ajuste dos modelos baseados no coeficiente de determinação (R2) serão incorretos. Utilização do AIC – critério de informação de Akaike, a avaliação do ajuste é penalizada por função do # de parâmetros Comparação das regressões para SP Longevidade X renda Regressão simples Spatial Lag Regimes espaciais (3) 0.280 0.586 0.80 Log verossimilhança (LIK) -187.92 -150.02 -124.04 AIC 379.84 306.51 260.09 Indice Moran dos resíduos 0.620 R2 ajustado 0.020 GWR – Geographically Weighted Regression Ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observações como função da distância a este ponto. Y(s) = (s)X + Y(s): variável que representa o processo no ponto s. (s): parâmetros estimados no ponto s. Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004) GWR – Geographically Weighted Regression y = b0 + b1x1 + e regressão simples com um preditor b0 , b1 é o mesmo para toda área Se existe alguma variação geográfica na relação essa variação fica incluída como erro. GWR – Geographically Weighted Regression y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v) GWR b0(u,v), b1(u,v) para cada ponto do espaço há um b0 e b1 diferentes Existe uma função (kernel) sobre cada ponto do espaço que determina todos os pontos da regressão local que é poderada pela distância. Pontos mais próximos do ponto central tem maior peso. Assim como no kernel – a escolha da largura da banda é importante (pode ser fixa ou adaptável à densidade dos dados) GWR – Geographically Weighted Regression FUNÇÃO DE PONDERAÇÃO LARGURA DE BANDA Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley. Ajuste do Modelo GWR Modelos locais vs. Modelos Globais Mesmas técnicas de análise do ajuste do modelo, porém comparação é problemática GWR apresentará sempre melhores ajustes pois envolve o ajuste de muito mais parâmetros Sugestão: medida AIC, que leva em consideração a complexidade do modelo. GWR – Geographically Weighted Regression Os parâmetros podem ser apresentados visualmente para identificar como se comportam espacialmente os relacionamentos entre as variáveis. Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora) GWR – Geographically Weighted Regression Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora) Mapa de resíduos (I = 0,04) : GWR – Geographically Weighted Regression Consumo de Água per Capita (resposta) X Renda per capita(preditora) Distribuição espacial de consumo residencial de água e renda da população em 2010. Fonte: SNIS (2010) e IBGE (2010). CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS. GWR – Geographically Weighted Regression Consumo de Água per Capita (resposta) X Renda per capita(preditora) MODELO DE REGRESSÃO LINEAR GLOBAL Variável β Desvio Padrão (constante) 4,25.(10-3) 4,55.(10-4) RENDA 41.(10-6) 8,2.(10-7) Coeficiente de determinação: R2 = 0,36 Teste F: F = 2499,1 Estatística t 9,3 49 CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS. GWR – Geographically Weighted Regression Consumo de Água per Capita (resposta) X Renda per capita(preditora) GWR: CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS. GWR – Geographically Weighted Regression Consumo de Água per Capita (resposta) X Renda per capita(preditora) Os menores coeficientes estimados para a variável RENDA foram observados em municípios do Estado do Rio Grande do Sul e os maiores em Alagoas. Região do Município de Traipu (AL) maior coeficiente estimado Um aumento de R$ 1 na renda per capita da população está associado a um incremento do consumo de água de 100,3 ml/dia/hab. Região do município de Floriano Peixoto (RS) um dos menores coeficientes significativos (t-valor > 1,96): Um aumento de R$ 1 na renda per capita da população está associado a um aumento do consumo de 10,22 ml/dia/hab. Hipóteses??? CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS. GWR – Geographically Weighted Regression Consumo de Água per Capita (resposta) X Renda per capita(preditora) De maneira geral, as regiões apresentadas na como aquelas onde a elevação da renda está relacionada a um maior incremento do consumo (áreas mais escuras) tendem a coincidir com as áreas onde o aumento do poder de consumo – que acompanhou o recente processo de estabilização econômica, crescimento econômico e ampliação dos programas redistributivos – apresentou os maiores impactos na redução da pobreza e extrema pobreza do país. São regiões onde a redução da pobreza ampliou de maneira expressiva o acesso a recursos básicos para a manutenção de vida desta população, entre eles a água potável. Já em regiões como a Sul, caracterizada por níveis mais elevados de renda, um aumento na renda tende a gerar um impacto menor no consumo de bens essenciais como a água e maior no consumo de bens de outra natureza. CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS. GWR – Geographically Weighted Regression Outros modelos GWR Regressão Poisson (GWPR) Regressão Logística (GWLR) Softwares para o Curso Com R, aRT + TerraView É possível testar tudo que vimos nestes slides! Um tutorial está disponível na Wiki R-Spatial Project: http://cran.r-project.org/web/views/Spatial.html Outros Tutoriais Spatial Regression Analysis: A Workbook (Luc Anselin): http://geodacenter.asu.edu/system/files/rex1.pdf Fitting and Interpreting Spatial Regression Models: An Applied Survey (Roger Bivand): http://www.nek.lu.se/ryde/NordicEcont09/Papers/bivand.pdf Spatial Econometrics functions in R: Classes and Methods: http://www.springerlink.com/content/xkmdbdk9jtfwbg9v/ Introduction to Geographically Weighted Regression (GWR) and to Grid Enabled GWR (Daniel Grose, Chris Brunsdon, Richard Harris): http://www.esrc.ac.uk/myesrc/grants/RES-149-25-1041/outputs/Read/d68adfdb-50d5-4104882e-a7028549ee37 Softwares Específicos São Sw Livres disponíveis na WEB GeoDa Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag & Spatial Error) SPRING e Terraview Índice de Moran, LISA map CrimeStat Índices de Autocorrelação, Taxas e Regressões SAM (Spatial Analysis in Macroecology, www.ecoevol.ufg.br/sam) Índices de Autocorrelação, Taxas e Regressões (inclui GWR) Rangel, T.; Diniz-Filho, J; Bini, L. (2010) SAM: a comprehensive application for Spatial Analysis in Macroecology. Ecography, 33:46-50 Não é Livre: GWR 3.0 Regressão Clássica e Espacial (GWR) Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.