ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV: UMA APLICAÇÃO DO MODELO GLARMA POISSON ALYNE NEVES SILVA NÚCLEO DE MODELAGEM ESTOCÁSTICA, UFES VALDÉRIO ANSELMO REISEN DEPARTAMENTO DE ESTATÍSTICA, UFES Neste trabalho é utilizado o modelo Poisson GLARMA para descrever os delitos comumentes registrados na Região da Grande Vitória, ES, Brasil, pelo CIODES. Com base no trabalho de Davis et al. (1999), que provém uma revisão de modelos para séries temporais com distribuição de Poisson, procedimentos de identicação e análise residual do modelo GLARMA são considerados. Os resultados do ajuste indicaram que o modelo GLARMA é bastante apropriado para modelar os dados observados. Resumo. Palavras-chave: Modelo Linear Generalizado, GLARMA, Modelo ARMA. 1. Introdução Nos últimos anos ocorreu um considerável aumento no estudo de modelos de séries temporais para variáveis com distribuição de probabilidade nãoGaussiana. Grande parte desses estudos considera a variável de interesse como sendo um processo discreto. Mais precisamente, a série temporal de interesse é a contagem de determinado evento, que ocorre num dado período de tempo em uma taxa média conhecida, e cada evento observado é independente do tempo decorrido. Nesse caso, a distribuição de probabilidade "candidata natural" é a Poisson. O Modelo Linear Generalizado (MLG), proposto por Nelder e Wedderburn (1972), foi uma das primeiras metodologias apresentadas sobre o estudo de modelagem para dados discretos. Este pode ser interpretado como uma generalização do tradicional modelo de regressão linear. Anos à frente, McCullagh e Nelder (1989) formalizaram as idéias que envolviam a estrutura teórica, os procedimentos de estimação e os métodos de adequação do MLG. Inúmeros trabalhos relacionados ao MLG foram realizados desde 1972, pode-se citar Wedderburn (1974), Liang e Zeger (1982), Jørgensen (1983), entre outros. Em 1990, Hastie e Tibshirani apresentaram a primeira extensão do MLG, o Modelo Aditivo Generalizado (MAG). O MAG considera um preditor aditivo formado por funções paramétricas e não-paramétricas. Outras extensões do MLG foram desenvolvidas por Breslow e Clayton (1993) e Lee e Nelder (1996, 2001). Date : 30 de abril de 2010. Key words and phrases. Modelo Linear Generalizado, GLARMA, Modelo ARMA. 1 2 SILVA, A.N. E REISEN, V.A. Contudo, essas metodologias não consideram como em um modelo de regressão as relações que podem ocorrer entre as observações analizadas ao longo do tempo. Dessa forma, surge a necessidade e o interesse em se realizar estudos que combinassem os métodos de regressão e de série temporais. Cox (1981) dene em seu trabalho duas classes de modelos para análise de séries temporais não-Gaussianas, os observation-driven models e os parameter-driven models. No parameter-driven model existe um processo latente que rege a função média condicional. Já no observation-driven model a estrutura de dependência é introduzida através da incorporação dos valores desfasados das contagens observadas, obtidas diretamente da função média do modelo. No contexto do trabalho de Cox, Zeger (1988), Zeger e Qaqish (1988), McKenzie (1988), Li (1994), Shephard (1995), Davis et al. (1999, 2000 e 2003), Benjamin, Rigby e Stasinopoulos (2003), entre outros autores abordaram o estudo de modelos matemáticos para análise de séries temporais discretas. Os autores acima citados, derivam em seus trabalhos a metodologia clássica de séries temporais ARMA(p,q) (Box e Jenkins, 1976), de forma a unicar aos modelos de regressão generalizada as componentes autorregressivas e médias móveis. Na classe do observation-driven model destaca-se a interessante metodologia do modelo GLARMA (Generalized Linear Autoregressive Moving Average Models ), proposto primeiramentre por Shephard (1995) e, sequencialmente apresentado por Davis et al. (1999, 2000 e 2003). O modelo GLARMA estende a estrutura familiar do modelo linear generalizado, de forma a permitir a correlação serial entre as observações, bem como uma variação binomial extra nos dados, e obter o logaritmo natural da média condicional do processo como uma função linear das observações passadas. O modelo GLARMA é utilizado para modelar uma variedade de variáveis respostas dependentes do tempo (que também sejam covariáveis dependentes do tempo), que possuam distribuição marginal condicional pentencente à família exponencial, por exemplo, dados contínuos com distribuição Gama condicional (e.g., a volatilidade no modelo GARCH) ou dados de contagem com distribuição condicional binomial negativa, binomial ou Poisson. Neste trabalho a metodologia do GLARMA Poisson é utilizada para modelar o número diário de delitos registrados na Região da Grande Vitória (RGV). Os dados de delitos são referentes aos principais crimes contra a pessoa e contra o patrimônio registrados nos municípios da Grande Vitória pela Gerência de Estatística e Análise Criminal da Secretaria de Estado da Segurança Pública e Defesa Social do Espírito Santo. Este trabalho está organizado da seguinte forma: na Seção 2 é introduz-se a denição e a nomenclatura do MLG; a teoria, a estimação, a inferência e os diagnósticos do GLARMA são apresentados na Seção 3; a Seção 4 descreve os dados utilizados, bem como seu comportamento a partir de estatísticas descritivas; na Seção 5 destaca-se pela aplicação da metodologia abordada nos delitos() e procedimentos de ajuste. Na Seção 5 ilustra a metodologia com os resultados obtidos e na 6 a conclusão do trabalho. ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV 2. 3 Modelo Linear Generalizado Trata-se da generalização do modelo de regressão linear e gaussiano de forma a adequá-lo para a modelagem de variáveis de resposta independentes que apresentem características explícitas de não-normalidade, tais como variáveis contínuas com assimetria e dados de contagem. O modelo linear generalizado, segundo McCullagh e Nelder (1983), pode ser caracterizado em três pontos: (1) Componente Aleatória. Considerem-se N variáveis aleatórias Yi (i = 1,...., n ) independentes, de média µi respectivamente e função de probabilidade ou função densidade de probabilidade pertencente à família exponencial, isto é { f (yi |θt , ϕ) = exp } yi θi − b(θi ) + c(yi , ϕ) αi (ϕ) (1) em que ai (.), b(.) e c(.) são funções especícas para cada distribuição. Se ϕ for conhecido tem-se uma distribuição da família exponencial com parâmetro canônico θ. Caso ϕ seja desconhecido a distribuição pode ou não pertencer à família exponencial, e há então que considerar apenas os casos em que a distribuição pertence àquela família. A função ai (ϕ) toma, na maior parte dos casos, a forma ai = ϕ , ωi onde se assume que ωi e conhecido, enquanto que ϕ, denominado parâmetro de dispersão ou de escala, pode sê-lo ou não. Note-se que, num modelo linear generalizado, a distribuição de todas as variáveis aleatórias Yi é da mesma forma (Normal, Poisson, Gama, ou outra da família exponencial) e o parâmetro de escala, ϕ , é constante, isto é, não varia com o índice i das variáveis aleatórias Yi . (2) Componente Sistemática. Suponha-se agora a existência de p variáveis explicativas Xj (j = 1,..., p ). As N observações destas p variáveis constituem a matriz X. Isto é, cada elemento xij da matriz X designa o valor da j-ésima variável explicativa para a observação i (i = 1, ..., n). A partir desta matriz dene-se um preditor linear ηi , i = 1,...,n, da forma ηi = p ∑ xij βj j=1 constituindo os βj , j = 1,...,p, um vetor de parâmetros desconhecidos, a estimar a partir dos dados. (3) As duas componentes anteriores relacionam-se através de uma função de ligação gi , que se admite existir, ser monótona e diferenciável, e que transforma µi em ηi , ou seja ηi = gi (µi ), i = 1, ..., N. (2) 4 SILVA, A.N. E REISEN, V.A. Essa função de ligação é invertível, logo é possível obter g −1 (ηi ) = µ (3) que é denominada função média. Ficam assim denidas as componentes do modelo linear generalizado. Suponha agora que a variável de interesse, Yi , segue um processo de Poisson com média µi com função densidade P (Yi = yi ) = exp(−µi )µyi i , yi = 0, 1, 2, . . . . yi ! (4) Reescrevendo (4) na forma de (1) ]} exp(−µi )µyi i exp log yi ! exp {log [exp(−µi )µyi i ] − log(yi !)} exp{−µi + yi log(µi ) − log(yi !)} exp{yi log(µi ) − µi − log(yi !)}. { P (Yi = yi ) = = = = [ (5) Comparando o resultado (5) com (1), pode-se concluir que ai (ϕ) = 1, b(θi ) = log(µi ) e ci (y, ϕ) = − log(y!). Fazendo θi = log(µi ), então tem-se que µi = exp(θi ). Assim, considerando o vetor de covariáveis (regressoras) x µi = exp(θi ) =⇒ g −1 (ηi ) = µi = exp(θi ) =⇒ log(µi ) = θi =⇒ ηi = log(µi ) =⇒ log(µi ) = xi β, i = 1, . . . , n. (6) Quando a variável de interesse é um processo de contagem, isto é, um processo de Poisson, o modelo linear generalizado obtido é referido apenas como modelo de regressão de Poisson, por ser derivado da parametrização da relação entre o parâmetro µ, média, e as covariáveis ou regressoras. De acordo com (6), a suposição padrão é utilizar a parametrização da média exponencial, µi = exp(x′ i β), i = 1, . . . , n. (7) A estimação do MLG dá-se pelo método de máxima verossimilhança. 3. Modelo GLARMA Esta seção está fundamentada em descrever o modelo Autorregressivo Média Móvel Linear Generalizado (GLARMA) de acordo com o trabalho apresentado por Davis, Dunsmuir e Wang (1999, 2000 e 2003). O GLARMA é uma combinação dos modelos MLG e ARMA (Box e Jenkins (1976)), sendo considerado uma extensão para distribuições condicionais não-Gaussianas, pertencentes à família exponencial. Este é defenido neste trabalho com a mesma notação utilizada nos MLG para amostras independentes. Sejam {Yt } e Zt−1 = (Z(t−1)1 , ..., Z(t−1)p ), para cada t = 1, ..., n, a série temporal de interesse e o correspondente vetor p -dimensional do passado das ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV 5 variáveis explanatórias ou covariáveis, respectivamente. Seja ℑ o campoσ gerado por Yt−1 , Yt−2 , ..., Zt−1 , Zt−2 , ..., isto é, valores passados da série resposta e possíveis valores do presente (quando conhecidos) das covariáveis ℑt−1 = σ{Yt−1 , Yt−2 , ..., Zt−1 , Zt−2 , ...}. Séries temporais segundo o MLG podem ser denidas com as seguintes modicações nas componentes aleatória e sistemática (Kendem e Fokianos (2000)). (1) A componente aleatória, apresentada em (1), passa ser denida a partir da distribuição condicional da resposta dado o passado, isto é, para t = 1,..., n { f (yt ; θt , ϕ|ℑt−1 ) = exp } yt θt − b(θt ) + c(yt , ϕ) ; αt (ϕ) (8) (2) A componente sistemática passa a ser da seguinte forma g(µt ) = ηt = x′t β + Zt = x′t β + ∞ ∑ γi et−i (9) i=1 onde et = (Yt − µt )/µλt , λ ∈ (0, 1], é uma sequência diferença martingale e γ é o vetor de parâmetros. Conforme apresentado na seção anterior, quando a variável de interesse, Yt , segue um processo de Poisson com média µt , tem-se que ηt = g(µt ) = log(µ). Assim, no contexto deste trabalho de modelos de regressão para séries temporais de contagem, assume-se que Yt |ℑt−1 ∼ P o(µt ) Logo, o processo log(µt ) é dirigido por um ruído que é uma sequência diferença martingale gerada pelo conjunto de dados observado. De acordo com Davis et al. (2003) é possível especicar o termo média móvel innito neste modelo por um número nito de parâmetros. Mais precisamente, ∞ ∑ γi et−i = ∞ ∑ i=1 γi z i = θ(z)/ϕ(z) − 1, i=1 onde ϕ(z) = 1 − ϕ1 z − . . . − ϕp e θ(z) = 1 + θ1 z + . . . + θq z q são, respectivamente, os polinômios autorregressivos e média móvel do ltro ARMA, cada um possuindo seus zeros fora do círculo unitário, e γ é o vetor dos parâmetros consistindo nesses ϕ′i s e θj′ s. Assim, segue que {Zt } pode ser computado como nas recursões do modelo autorregressivo média móvel zp Zt = p ∑ ϕi (Zt−i + et−i ) + i=1 3.1. Propriedades do modelo. q ∑ θi et−i . i=1 Seja Wt = log(µt ) = x′t β + Zt , (10) 6 SILVA, A.N. E REISEN, V.A. segue que, inicialmente, es = 0 e Ys = 0 para s ≤ 0, ℑes−1 = {et : t ≤ s − 1} e ℑs−1 = {Yt : t ≤ s − 1} geram o mesmo campo-σ e, como denido anteriormente,et forma uma sequência diferença martingale, E(es |ℑes−1 ) = 0, para s ≥ 1, onde ℑs−1 é o σ -álgebra gerado por {et : t ≤ s − 1}. Como et tem média e zero, sua variância é V ar(et ) = E(e2t ) = E[E(e2t |ℑt−1 )] = µ1−2λ , t que é unitário quando λ = 0, 5. Outra propriedade da diferença martingale é que a covariância, para s ̸= t, é E(et es ) = 0. Dessas propriedades segue que, para qualquer λ, E(Wt ) = x′t β e V ar(Wt ) = ∞ ∑ γi2 µ1−2λ t−i , i=1 e, para l > 0, Cov(Wt , Wt+l ) = ∞ ∑ γi γi+l µ1−2λ t−i , i=1 e, novamente, se λ = 0, 5, as covariâncias não dependem do tempo t, nem mesmo se {µt } não for estritamente estacionária. 3.2. Estimação. Davis et al. (1999, 2000 e 2003) estabelecem uma aproximação da função de verossimilhança similar as aproximações usadas nos modelos de séries temporais lineares. No entanto, as propriedades de estimação e inferência para o modelo são consideradas somente quando λ = 0, 5. Para estimar os parâmetros do modelo GLARMA a função de verossimilhança deve ser maximizada. A aproximação da verosssimilhança, com as derivadas de primeira e segunda ordem, podem ser calculadas recursivamente utilizando o procedimento de Newton-Raphson. De acordo com Nelder e Wedderburn (1972) e Charnes e Yu (1976) as estimativas dos parâmetros do MLG pelo método de Mínimos Quadrados Iterativos Reponderados (Iteratively Reweighted Least Squares - IWLS) são equivalentes as estimativas de máxima verossimilhança, levando em consideração algumas suposições. A função glm do R (R Develoment Core Team (2007)) utiliza o método IRLS para obter os parâmetros estimados. Outra ferramenta utilizada na estimação dos parâmetros autorregressivos e média móvel, p e q respectivamente, do GLARMA é a identicação do modelo à partir das funções de autocorrelação. A Função de Autocorrelação (FAC) e a Função de Autocorrelação Parcial (FACP) para Yt − g −1 (xt β) são apropriadas para identicação do modelo. ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV 7 3.3. Diagnósticos. O diagnóstico de um modelo de regressão consiste em explorar e testar a adequacidade e a qualidade do ajuste do modelo estimado. Nos modelos lineares generalizados, isso cocorre a partir de uma análise dos resíduos e do deviance. A análise do deviance tem por intuito comparar o modelo saturado, que contém todos os parâmetros, com o modelo reduzido, que contém uma menor quantidade de parâmetros, a partir do logaritmo da verossimilhança de cada modelo, isto é, Deviance = 2[l(saturado) − l(modelo)], onde l(modelo) é o logaritmo da máxima verossimilhança correspondente ao modelo reduzido e l(saturado) é o logaritmo da máxima verossimilhança do modelo saturado. O deviance tem distribuição χ2 com n − p graus de liberdade. Esta estatística possibilita testar se o modelo assumido difere signicativamente do modelo saturado. Para séries temporais de contagem {Yt }, sob um modelo log -linear de Poisson, o deviance tem a forma ( ) } n { ∑ Yt Deviance = −2 Yt log − (Yt − µ̂t ) . µ̂t t=1 O deviance é comumente associado aos critérios de informação de Akaike (AIC) e Bayesiano (BIC). Estes são utilizados para avaliação e seleção de modelos. Em ambos, o modelo escolhido é o que minimiza o valor do critério observado. São eles: AIC(p) = −2l(modelo) + 2p e BIC(p) = −2l(modelo) + p log(n). Com relação aos resíduos, é possível trabalhar com 3 tipos: o de Pearson, o e o Deviance. Utiliza-se a FAC e a FACP dos resíduos para vericar se se trata de um processo de ruído branco, tal como nos modelos ARMA Gaussianos. Working 4. Dados Utilizados O conjunto de dados observados trata-se do número diário de delitos ou ocorrências registradas nos municípios de Vitória, Vila Velha, Guarapari, Viana, Serra e Cariacica, no período de 01 de janeiro de 2005 a 25 de maio de 2007. Os dados foram contabilizados pelo Centro Integrado Operacional de Defesa Social (CIODES), compreendendo um total de 875 dias. A Tabela 1 apresenta as estatísticas dos delitos registrados no período abrangido pelo estudo, para cada município. Como pode ser observado, no município de Vila Velha e Vitória ocorreram, em média, 12 e 11 delitos diaramente com um desvio de 4 delitos, respectivamente. A Tabela 2 apresenta as 38.832 ocorrências registradas na Grande Vitória no período do estudo. Os delitos observados foram os homicídios, as tentativas de homicídios, os furto e os roubo. De acordo com essa tabela, o município de Vitória também apresenta um número elevado de ocorrências, um Delito Homicídio Homicídio por arma de fogo Homicídio por arma branca Homicídio c/ uso de outros obj. e formas Tentativa de homicídio Tentativa de homicídio por arma de fogo Tentativa de homicídio por arma branca Com uso de outros objetos formas Furto a pessoa em via pública Furto em estabelecimento comercial Furto em residência/condomínio Furto de veículo Roubo a pessoa em via pública Roubo em Estabelecimento comercial Roubo em residência/ condomínio Roubo de veículo Total Município Cariacica Guarapari Serra Viana Vila Velha 3 1 1 1 3 27,27% 9,09% 9,09% 9,09% 27,27% 611 84 608 86 428 28,08% 3,86% 27,92% 3,95% 19,65% 38 6 52 10 40 22,89% 3,61% 31,33% 6,02% 24,1% 48 12 83 22 30 22,02% 5,5% 38,07% 10,09% 13,76% 140 34 147 21 162 22,36% 5,43% 23,48% 3,35% 25,88% 296 93 412 47 381 19,32% 6,07% 26,89% 3,07% 24,87% 110 54 115 17 103 22% 10,8% 23% 3,4% 20,6% 22 9 15 6 25 25,58% 10,47% 17,44% 6,98% 29,07% 187 252 316 23 566 9,99% 13,46% 16,88% 1,23% 30,24% 636 392 837 56 1017 14,3% 8,81% 18,81% 1,26% 22,86% 726 704 879 129 1.318 16,1% 16,1% 15,62% 19,5% 2,86% 776 184 1.321 77 1.844 12,54% 2,97% 21,35% 1,24% 29,8% 762 643 892 54 1.891 12,27% 10,35% 14,36% 0,87% 30,45% 810 411 1.105 77 1.437 16,43% 8,34% 22,41% 1,56% 29,15% 183 125 288 31 220 18,62% 12,72% 29,3% 3,15% 22,38% 1.046 113 1.103 112 891 26,86% 16,47% 28,33% 2,88% 22,88% 6.394 3.117 8.174 769 10.837 16,47% 8,03% 21,05% 1,98% 27,91% Vitória 2 18,18% 361 16,57% 20 12,05% 23 10,55% 122 19,49 303 19,78 101 20,2% 9 10,47% 528 28,21% 1.511 33,96% 752 29,24% 1.985 32,08% 1.969 31,7% 1.090 22,11% 136 13,84% 629 16,15% 9.541 24,57% Total 11 100% 2.178 100% 166 100% 218 100% 626 100% 1.532 100% 500 100% 86 100% 1.872 100% 4.449 100% 4.508 100% 6.187 100% 6.211 100% 4.930 100% 983 100% 3.894 100% 38.832 100% 8 SILVA, A.N. E REISEN, V.A. Tabela 1. Estatística descritiva das ocorrências criminais registra- das na Grande Vitória, 01/2005-05/2007 Estatística Cariacica Vila Velha Viana Serra Guarapari Vitória Média 7,31 12,39 0,88 9,34 3,56 10,90 Mediana 7 12 1 9 3 11 Desvio padrão 2,98 4,31 1,03 3,42 2,52 3,66 Mínimo 1 2 0 0 0 1 Máximo 20 32 7 20 17 23 total de 9.541 crimes registrados, cerca de 24% do total dos delitos. Desses, furto à veículo é o de maior incidência, com 1.985 registros no município. Tabela 2. Ocorrências criminais registradas na Grande Vitória ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV 9 Ainda considerando a Tabela 2, tem-se que os homicídios ocorreram com maior freqüência nos municípios de Cariacica e Vila Velha. No caso do homicídio, os municípios apresentam 27% e 28% de ocorrências registradas. Já homicídios com arma de fogo e arma branca apresentam 27 e 20% e 23% e 24% para Cariacica e Vila Velha, respectivamente. Sendo que, o município da Serra apresenta os maiores percentuais de homicídios com arma de fogo (28%), arma branca (31%) e uso de outros objetos e formas (37%). Com relação a tentativa de homicídio, o município da Serra é o campeão de registros, com 2.744 registros, sendo 1.532 somente associado a tentativa de homicídio por arma de fogo e dentre todos os municípios, a Serra apresenta 27% dos registros. O município de Vitória apresentou o maior número de furtos e roubos dentre todos os municípios, 4.776 furtos e 3.824 roubos registrados no período observado. Onde, o furto a veículo e roubo a pessoa em via pública foram os de maiores ocorrências, com 1.985 e 1.969 registros, respectivamente. Observou-se também que, para o município de Vila Velha ocorreram, em média, 12,39 registros diários de crimes relacionados a homicídios, tentativas de homicídios, furtos e roubos. Com base nos resultados, foram registrados 2.573 homicídios, 2.744 tentativas de homicídios, 17.016 furtos e 16.018 roubos no período de janeiro de 2005 a maio de 2007. A Tabela 3 apresenta o número total de delitos registrados por dia da semana para os municípios da RGV. Observa-se nessa tabela que, dentre os 7 dias da semana, grande parte dos delitos são registrados na sexta-feira e no sábado, 15,57% e 14,60% respectivamente. De forma que, o período compreendido entre a sexta-feira e o domingo é o período em que a ocorrência e registros de delitos são amiores, isto é, no m de semana. Realizando a mesma análise para os meses do período de tempo observado, tem-se que em março e abril o número de delitos registrados foi superior ao dos demais meses (ver Tabela 4). Contudo, como faltaram os meses no intervalo de maio a dezembro de 2007, essa suposição não é totalmente valida. Na seqüência é apresentado o estudo de regressão para análise das séries diárias de delitos registrados. Como ilustração é apresentado o procedimento de estimação do modelo de regressão para análise da série temporal do número diário de delitos registrado no município de Vila Velha, e depois, uma sumarização dos modelos ajustados para todos os municípios. 10 SILVA, A.N. E REISEN, V.A. Tabela 3. Número total de delitos registrados por dia da semana para os municípios da RGV Dia da semana Domingo Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira Sábado Total Município Cariacica Guarapari Serra Viana Vila Velha 903 489 1.107 115 1.544 14,12% 15,69% 13,54% 14,95% 14,25% 894 434 1.116 100 1.529 13,98% 13,92% 13,65% 13,00% 14,11% 886 380 1.134 111 1.438 13,86% 12,19% 13,87% 14,43% 13,27% 889 416 1.186 114 1.492 13,90% 13,35% 14,51% 14,82% 13,77% 937 415 1.182 98 1.551 14,65% 13,31% 14,46% 12,74% 14,31% 933 449 1.207 118 1.583 14,59% 14,40% 14,77% 15,34% 14,61% 952 534 1.242 113 1.700 14,89% 17,13% 15,19% 14,69% 15,69% 6394 3.117 8.174 769 10.837 100,00% 100,00% 100,00% 100,00% 100,00% Vitória 1.265 13,26% 1.341 14,06% 1.254 13,14% 1.347 14,12% 1.449 15,19% 1.381 14,47% 1.504 15,76% 9.541 100,00% Total 5.423 13,97% 5.414 13,94% 5.203 13,40% 5.444 14,02% 5.632 14,50% 5.671 14,60% 6.045 15,57% 38.832 100,00% Tabela 4. Número total de delitos registrados por mês para os municípios da RGV Mês Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Total Cariacica Guarapari Serra Viana Vila Velha 667 404 901 93 1122 10,43% 12,96% 11,02% 12,09% 10,35% 529 391 824 64 1094 8,27% 12,54% 10,08% 8,32% 10,10% 708 299 872 78 1392 11,07% 9,59% 10,67% 10,14% 12,84% 729 361 930 95 1362 11,40% 11,58% 11,38% 12,35% 12,57% 575 273 734 63 1063 8,99% 8,76% 8,98% 8,19% 9,81% 413 145 519 57 690 6,46% 4,65% 6,35% 7,41% 6,37% 460 195 555 44 661 7,19 % 6,26 % 6,79 % 5,72 % 6,10 % 438 150 549 52 644 6,85 % 4,81 % 6,72 % 6,76 % 5,94 % 415 207 536 50 677 6,49% 6,64% 6,56% 6,50% 6,25% 453 234 580 48 674 7,08% 7,51% 7,10% 6,24% 6,22% 500 216 551 52 720 7,82 % 6,93 % 6,74 % 6,76 % 6,64 % 507 242 623 73 738 7,93% 7,76% 7,62% 9,49% 6,81% 6394 3117 8174 769 10837 100,00% 100,00% 100,00% 100,00% 100,00% 5. Vitória 996 10,44% 894 9,37% 1054 11,05% 1074 11,26% 853 8,94% 545 5,71% 673 7,05 % 710 7,44 % 668 7,00% 671 7,03% 689 7,22 % 714 7,48% 9541 100,00% Total 4183 10,77% 3796 9,78% 4403 11,34% 4551 11,72% 3561 9,17% 2369 6,10% 2588 6,66% 2543 6,55% 2553 6,57% 2660 6,85% 2728 7,03% 2897 7,46% 38832 100,00% Aplicação Primeiramente, são apresentadas as séries temporais de contagem analisadas, o número diário de delitos registrados desagregado para cada município (Figura 1). 11 10 Nº de ocorrências 0 5 5 10 Nº de ocorrências 15 15 20 ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV 2005 2006 2007 2005 Dias transcorridos 2006 2007 Dias transcorridos (b) Guarapari 4 3 Nº de ocorrências 0 0 1 5 2 10 Nº de ocorrências 5 15 6 7 20 (a) Cariacica 2005 2006 2007 2005 Dias transcorridos 2006 2007 Dias transcorridos (d) Viana 10 Nº de ocorrências 20 15 5 5 10 Nº de ocorrências 15 25 20 30 (c) Serra 2005 2006 Dias transcorridos (e) Vila Velha 2007 2005 2006 2007 Dias transcorridos (f) Vitória Figura 1. Séries do número diário de delitos registrados na Grande Vitória. Percebe-se que as séries diárias de delitos apresentam uma certa sazonalidade, não tão evidente por não apresentarem um padrão tão visível. Além disso, observa-se que para os municípios de Guarapari e Viana existem muitos dias em que não foram registrados nenhum dos delitos aqui observados. Iniciando o procedimento de modelagem, estimou-se um modelo de regressão de Poisson para cada município. Esses modelos contêm as variáveis de confusão tempo trancorrido, dias da semana e feriados, isto é, variáveis de controle da tendência e da sazonalidade nas séries de delitos. A Figura 2 apresenta as FAC e FACP dos resíduos dos modelos de regressão de Poisson, et = (yt −µt )/µt0,5 , onde µt = exp(xt β). Com base nessa gura, existem indícios de correlação serial nos delitos observados nos municípios de Cariacica, Guarapari, Viana, Vila Velha e Vitória, isto é, aparentemente os delitos do tempo t dos municípios de Cariacica e Vila Velha estão correlacionados com 12 SILVA, A.N. E REISEN, V.A. 5 10 15 20 0.8 FAC 25 5 10 Defasagem 15 20 25 0 (b) FACP Cariacica 15 20 25 (c) FAC Guarapari 0.06 FAC FACP 0.6 0.02 0.04 0.8 0.20 0.15 0.10 −0.10 0.0 −0.06 −0.05 −0.04 0.2 0.00 −0.02 0.4 0.05 10 Defasagem 1.0 (a) FAC Cariacica FACP 5 Defasagem 0.00 0 0.0 0.0 −0.05 0.2 0.2 0.4 0.00 0.4 FAC FACP 0.6 0.6 0.05 0.8 1.0 1.0 os do tempo t − 1, os de Guarapari e Vitória no tempo t − 2 e Viana no tempo t − 3. 5 10 15 20 25 0 5 Defasagem 10 15 20 25 5 10 Defasagem (e) FAC Serra 25 1.0 0.8 0.6 FAC 0.4 0.00 0.2 0.0 −0.06 0.0 −0.04 0.2 −0.02 0.4 FAC FACP 0.02 0.6 0.04 0.8 0.06 1.0 20 (f) FACP Serra 0.08 (d) FACP Guarapari 15 Defasagem 0 5 10 15 20 25 5 10 Defasagem 15 20 25 0 5 Defasagem 15 20 25 Defasagem (h) FACP Viana (i) FAC Vila Velha FACP FAC 0.0 −0.05 0.2 0.00 0.4 0.05 0.00 −0.05 FACP 0.6 0.10 0.05 0.8 0.15 1.0 (g) FAC Viana 10 5 10 15 Defasagem (j) FACP Vila Velha 20 25 0 5 10 15 20 25 5 Defasagem (k) FAC Vitória Figura 2. Funções de autocorrelação de 10 15 Defasagem (l) FACP Vitória et . 20 25 Vitória Vila Velha Viana Guarapari Cariacica Município 0 1 2 3 0 1 2 3 0 1 2 3 0 1 2 3 0 1 2 3 q 0 2.563,25 2.559,61 2.560,19 2.796,72 2.779,68 2.770,94 2.824,48 2.803,21 2.790,56 2.669,08 2.664,47 2.662,11 2.612,08 2.607,95 2.609,94 2.595,32 2.626,96 2.728,81 2.721,79 2.555,92 1 2.562,49 2.557,88 2.558,80 2.785,77 2.723,57 2.725,30 2.807,52 2.730,74 2.732,36 2.664,71 2.627,64 2.628,93 2.611,88 2.609,94 2.598,20 2 2.558,81 2.557,88 2.559,18 2.561,18 2.762,71 2.723,58 2.725,48 2.727,46 2.778,70 2.730,75 2.732,70 2.734,70 2.659,90 2.627,00 2.628,96 2.630,87 2.607,45 2.609,22 2.596,27 2.597,84 AIC 2.609,44 2.656,34 2.762,39 2.751,02 3 2.559,52 0 2.564,03 2.565,17 2.570,52 2.797,49 2.785,23 2.781,26 2.825,25 2.808,75 2.800,88 2.669,85 2.670,01 2.672,42 2.612,85 2.613,49 2.620,26 p 2.600,87 2.633,19 2.734,37 2.727,35 2.561,47 1 2.563,25 2.568,20 2.573,90 2.786,55 2.733,90 2.740,40 2.808,29 2.741,06 2.747,46 2.665,47 2.637,28 2.644,04 2.612,65 2.620,26 2.613,30 2 2.564,35 2.568,20 2.574,28 2.581,05 2.768,27 2.733,90 2.740,58 2.747,33 2.784,25 2.741,06 2.747,80 2.754,57 2.665,45 2.637,32 2.644,06 2.650,75 2.612,99 2.619,54 2.611,36 2.617,71 BIC 2.619,76 2.666,66 2.772,70 2.761,34 3 2.569,84 0 1,09 1,08 1,08 1,42 1,39 1,37 1,47 1,43 1,41 1,23 1,22 1,21 1,15 1,14 1,14 1 1,09 1,08 1,08 1,08 1,40 1,30 1,30 1,30 1,44 1,31 1,31 1,31 1,22 1,17 1,17 1,17 1,15 1,13 1,14 1,13 σ̂ 2 2 1,08 1,08 1,08 1,08 1,36 1,30 1,30 1,30 1,39 1,31 1,31 1,31 1,21 1,17 1,17 1,17 1,14 1,14 1,12 1,12 1,14 1,21 1,36 1,34 3 1,08 ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV Tabela 6. Resultados dos critérios AIC, BIC e variância estimada para a série diária do número de delitos registrados nos municípios da Região da Grande Vitória - Modelo GLARMA Poisson 13 Assim, realizou-se a estimação das componentes de séries temporais do modelo GLARMA(p,q) Poisson para cada um dos municípios em que foram registrados a presença de autocorrelação. 14 SILVA, A.N. E REISEN, V.A. 7 20 A Tabela 6 apresenta o AIC, o BIC e a variância estimada, σ̂ 2 , dos modelos estimados. Com base nesses resultados é evidente que para os municípios de Cariacica, Guarapari, Viana e Vitória a estrutura do GLARMA Poisson identicada foi o GLARMA(1,1). Para o município de Vila Velha, os valores identicados pelo AIC e BIC para os modelos estimados divergiram. Logo, considerando o princípio da parcimônia, optou-se na escolha do modelo que possuisse a menor quantidade de parâmetros, isto é, os delitos registrados no município de Vila Velha podem ser estimados pelo modelo GLARMA(1,1). A Figura 3 apresenta as série originais de delitos registrados versus os valores estimados pelo GLARMA, para cada um dos municípios analisados. Série original (µt) ^) Série ajustada (µ 15 Série original (µt) ^) Série ajustada (µ t 6 t Série original (µt) ^) Série ajustada (µ 4 3 Nº de ocorrências 10 Nº de ocorrências 0 0 0 1 5 2 5 10 Nº de ocorrências 5 15 t 2005.0 2005.5 2006.0 2006.5 2007.0 2005.0 Dias transcorridos 2005.5 2006.0 2006.5 2007.0 2005.0 2005.5 Dias transcorridos 2006.5 2007.0 Dias transcorridos (b) Guarapari (c) Vila Velha 20 (a) Cariacica 2006.0 Série original (µt) ^) Série ajustada (µ 10 Nº de ocorrências 10 5 5 Nº de ocorrências 15 15 20 t Série original (µt) ^) Série ajustada (µ 0 t 2005.0 2005.5 2006.0 2006.5 2007.0 2005.0 Dias transcorridos 2005.5 2006.0 2006.5 2007.0 Dias transcorridos (d) Viana (e) Vitória Figura 3. Séries do número diário de delitos registrados na RGV e seus respectivos ajustes do modelo Poisson GLARMA. Como se pode ver nessa gura, a estimação do modelo Poisson GLARMA adequou-se satisfatoriamente aos dados diários de delitos registrados nos municípios de Viana, Guarapari, Cariacica, Vila Velha e Vitória. De acordo com os modelos para todos os municípios, com exceção da Serra, os delitos que são registrados em um dia qualquer, tem relação com os delitos que foram registrados um dia atrás. Realizando a análise residual não constatou-se nenhuma violação da normalidade e independência dos mesmos. 6. Conclusão O objetivo principal deste trabalho foi avançar no estudo da modelagem dos processos de séries espaço-temporal e regressão generalizada considerando casos onde a variável de interesse ou resposta seja não Gaussiana (normal), ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV 15 mais precisamente, possua distribuição de Poisson. Ela expressa, por exemplo, a probabilidade de certo número de eventos ocorrerem num dado período tempo, caso estes ocorram com uma taxa média conhecida e caso cada evento seja independente do tempo decorrido desde o último evento. Como metodologia de modelagem utilizou-se o conceito do Modelo Autorregressivo Média Móvel Linear Generalizado, o GLARMA. A forma funcional do GLARMA, propriedades, estimação e diagnósticos foi apresentada por Davis, Dunsmuir e Wang (1999) e esta que se utiliza neste trabalho Realizando o estudo de regressão para análise de séries constatou-se que o modelo Poisson GLARMA adequou-se muito bem para descrever o número diário de delitos registrados nos município da RGV. Com exceção dos municípios de Viana e Serra que, devido a existência de vários dias em que não foram registrados delitos nesses municípios (presença de valores nulos), os pressupostos para ajuste dos modelos não foram satisfatórios. Pelos ajustes, vericou-se que os delitos dos municípios podem ser descritos pelo modelo Poisson GLARMA (1,1). De acordo com esse modelo, os delitos que são registrados em um dia qualquer, tem relação com os delitos que foram registrados um dia atrás. Além disso, o mesmo delito só é registrado um dia após o mesmo ter ocorrido. Agradecimentos Os autores agradecem Fundo de Apoio à Ciência e Tecnologia da Prefeitura de Vitória (FACITEC) e ao CNPq pelo apoio nanceiro. Referências BENJAMIN, R. A.; RIGBY M. A.; STASINOPOULOS, M. D., Generalized autoregressive moving average models. Journal of the American Statistical Association, 98(461), 214-223, 2003. BOX, G.E.P.; JENKINS, G.M., trol, Holden Day, 1976. Time series analysis: Forecasting and Con- BRANDT, P.T.; WILLIAMS, J.T.; FORDHAM, B.O.; POLLINS, B. Dynamic Models for Persistent Event Count Time Series. American Journal of Political Science 44(4), 823-843, 2000. BRANDT, P. T.; WILLIAMS, J. T., A Linear Poisson Autoregressive Model: The Poisson AR(p) Model. Political Analysis, 9, 164 - 184, 2001. BRANNAS, K.; JOHANSSON, P., Time series count regression. tions in Statistics-Theory and Methods, 23, 2907-2925, 1994. Communica- BRESLOW, N.; CLAYTON, D., Approximate inference in generalized linear mixed models. Journal of the American Statistical Association, 88, 9-25, 1993. COHN, E.G.; ROTTON, J., Weather, seasonal trends and property crimes in Minneapolis, 1987-1988. A moderator-variable time-series analysis of routine activities. Journal of Environmental Psychology, 20, 257-272, 2000. COX, D. R., Statistical analysis of time series: Scandinavian Journal of Statistics, 8, 93-115, 1981. Some recent developments. 16 SILVA, A.N. E REISEN, V.A. DAVIS, R. A.; DUNSMUIR,W. T. M.; WANG, Y., Modelling time series of count data. In S. Ghosh, editor, Asymptotics, Nonparametric & Time Series, pp. 63114. Marcel Dekker, New York, 1999. DAVIS, R. A.; DUNSMUIR,W. T. M.; WANG, Y., On autocorrelation in a Poisson regression model. Biometrika, 87, 491-505, 2000. DAVIS, R.A.; DUNSMUIR, W.T.M.; STREETT, S.B., Observation-driven models for Poisson counts, Biometrika, 90(4), 777-790, 2003. DOMICINI, F.; McDERMOTT, A.; ZEGER, S.; SAMET, J., On the Use of Generalized Additive Models in Time-Series Studies of Air Pollution and Health. American Journal of Epidemiology, (3), 193-203, 2002. GOOR, W.; HARRIS, R., Introduction to crime forecasting. of Forecasting, 19, 551-555, 2003. International Journal GOOR, W.; OLLIGSCHLAEGER, A.; THOMPSON, Y., Short-term forecasting of crime. International Journal of Forecasting, 19, 579-594, 2003. HASTIE, T.J.; TISBSHIRANI, R.J. Generalized Additive Models. London, Chapman and Hall, 1990. JØRGENSEN, B., Maximum likelihood estimation and large-sample inference for generalized linear and nonlinear regression models. Biometrika, 70, 19-28, 1983. JUNG, R.C., KUKUK, M. e LIESENFELD, R., Time series of count data: modeling, estimation and diagnostics. Computational Statistics & Data Analysis, 51(4), 2350-2364, 2006. KEDEM, B.; FOKIANOS, K., Wiley, USA, 2nd, 2002. Regression Models for Time Series Analysis. LEE, Y.; NELDER, J., Hierarchical Generalized Linear Models. the Royal Statistical Society B, (58), 619-678, 1996. Journal of LI, W. K., Time series models based on generalized linear models: Some further results. Biometrics, 50, 506-511, 1994. McKENZIE, E., Some ARMA models for dependent sequences of Poisson counts. Advances in Applied Probability, (20), 822 - 835, 1988. McKENZIE, E., Discrete variate time series. In: Shanbhag, D.N., Rao, C.R. (Eds.), Handbook of Statistics, vol. 21. Elsevier, Amsterdam. pp. 573-606, 2003. McCULLAGH, P.; NELDER, J.A., Hall, Londres, 2nd, 1989. Generalized Linear Models. Chapman and R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org, 2007. SHEPHARD, N., Generalized University, UK), 1995. Linear Autoregressions. (Unpublished paper, Oxford WEDDERBURN, R.W.M., Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika, 61, 439-447, 1974. ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV ZEGER, S.L., A regression model for time series of counts. 621-629, 1988. 17 Biometrika, 75, 4, ZEGER, S. L.; LIANG, K.-Y., Longitudinal data analysis for discrete and continuous outcomes. Biometrics, 42, 121-130, 1986. WEI, W., Time Series Analysis: Univariate Wesley, New York, second edition, 2005. and Multivariate Methods. Addison- 18 SILVA, A.N. E REISEN, V.A. Apêndice A. Propriedades do modelo Seja {Yt } um processo de Poisson (contagem) com média µt = E[Yt |ℑt−1 ], t = 1, . . . , n, e Yt − µt et = µλt para λ ≥ 0. Tem-se que E(et ) = E[E(et |ℑt−1 )] [ ( )] Yt − µt = E E |ℑt−1 µλt 1 = E [E (Yt − µt |ℑt−1 )] µλt 1 = E [E(Y |ℑ )] − E [E(µ |ℑ )] t t−1 t t−1 {z } | {z } µλt | µt = µt 1 {µt − µt } = 0. µλt V ar(et ) = E[V ar(et |ℑt−1 )] − V ar[E(e)t|ℑt−1 )] | {z } E(et )=0 = E[V ar(et |ℑt−1 )] = E{E(e2t |ℑt−1 ) − [E(et |ℑt−1 )]2 } | {z } E(et )=0 = = = = [ ( ] ) ] [ Yt − µt 2 1 2 2 E(Y − 2Y µ + µ |ℑ ) E E |ℑ = E t t t−1 t−1 t t µ2λ µ2λ t t { } ] 1 [ 2 2 E E(Yt |ℑt−1 ) − 2E(Yt µt |ℑt−1 ) + E(µt |ℑt−1 ) µ2λ t { } 1 2 2 E [V ar(Yt |ℑt−1 ) + [E(Yt )] − 2µt E(Yt |ℑt−1 ) + E(µt |ℑt−1 )] µ2λ t [ ] [ ] 1 1 E 2λ (µt + µ2t − 2µ2t + µ2t ) = E 2λ (µt ) µt µt = E(µt1−2λ ) = µ1−2λ . t Segue que, para t ̸= s, Cov(et , es ) = = = = = )( { [( ) ]} Ys − µs Yt − µt E[E(et es |ℑt−1 )] = E E |ℑt−1 µλs µλt { [ ]} 1 E E (Yt − µt ) (Ys − µs ) |ℑt−1 (µt µs )λ 1 E {E [(Yt Ys − Yt µs − µt Ys + µt µs ) |ℑt−1 ]} (µt µs )λ 1 E[E(Yt Ys |ℑt−1 ) − E(Yt µs |ℑt−1 ) − E(µt Ys |ℑt−1 ) + E(µt µs |ℑt−1 )] (µt µs )λ 1 E[µt µs − µt µs − µt µs + µt µs ] = 0. (µt µs )λ