ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA
RGV: UMA APLICAÇÃO DO MODELO GLARMA POISSON
ALYNE NEVES SILVA
NÚCLEO DE MODELAGEM ESTOCÁSTICA, UFES
VALDÉRIO ANSELMO REISEN
DEPARTAMENTO DE ESTATÍSTICA, UFES
Neste trabalho é utilizado o modelo Poisson GLARMA para
descrever os delitos comumentes registrados na Região da Grande Vitória,
ES, Brasil, pelo CIODES. Com base no trabalho de Davis et al. (1999),
que provém uma revisão de modelos para séries temporais com distribuição de Poisson, procedimentos de identicação e análise residual do
modelo GLARMA são considerados. Os resultados do ajuste indicaram
que o modelo GLARMA é bastante apropriado para modelar os dados
observados.
Resumo.
Palavras-chave:
Modelo Linear Generalizado, GLARMA, Modelo ARMA.
1.
Introdução
Nos últimos anos ocorreu um considerável aumento no estudo de modelos
de séries temporais para variáveis com distribuição de probabilidade nãoGaussiana. Grande parte desses estudos considera a variável de interesse
como sendo um processo discreto. Mais precisamente, a série temporal de
interesse é a contagem de determinado evento, que ocorre num dado período
de tempo em uma taxa média conhecida, e cada evento observado é independente do tempo decorrido. Nesse caso, a distribuição de probabilidade
"candidata natural" é a Poisson.
O Modelo Linear Generalizado (MLG), proposto por Nelder e Wedderburn
(1972), foi uma das primeiras metodologias apresentadas sobre o estudo de
modelagem para dados discretos. Este pode ser interpretado como uma generalização do tradicional modelo de regressão linear. Anos à frente, McCullagh
e Nelder (1989) formalizaram as idéias que envolviam a estrutura teórica, os
procedimentos de estimação e os métodos de adequação do MLG.
Inúmeros trabalhos relacionados ao MLG foram realizados desde 1972,
pode-se citar Wedderburn (1974), Liang e Zeger (1982), Jørgensen (1983),
entre outros.
Em 1990, Hastie e Tibshirani apresentaram a primeira extensão do MLG, o
Modelo Aditivo Generalizado (MAG). O MAG considera um preditor aditivo
formado por funções paramétricas e não-paramétricas. Outras extensões do
MLG foram desenvolvidas por Breslow e Clayton (1993) e Lee e Nelder (1996,
2001).
Date : 30 de abril de 2010.
Key words and phrases. Modelo Linear Generalizado, GLARMA, Modelo ARMA.
1
2
SILVA, A.N. E REISEN, V.A.
Contudo, essas metodologias não consideram como em um modelo de regressão as relações que podem ocorrer entre as observações analizadas ao
longo do tempo. Dessa forma, surge a necessidade e o interesse em se realizar estudos que combinassem os métodos de regressão e de série temporais. Cox (1981) dene em seu trabalho duas classes de modelos para
análise de séries temporais não-Gaussianas, os observation-driven models e
os parameter-driven models. No parameter-driven model existe um processo
latente que rege a função média condicional. Já no observation-driven model
a estrutura de dependência é introduzida através da incorporação dos valores
desfasados das contagens observadas, obtidas diretamente da função média
do modelo.
No contexto do trabalho de Cox, Zeger (1988), Zeger e Qaqish (1988),
McKenzie (1988), Li (1994), Shephard (1995), Davis et al. (1999, 2000 e
2003), Benjamin, Rigby e Stasinopoulos (2003), entre outros autores abordaram o estudo de modelos matemáticos para análise de séries temporais
discretas. Os autores acima citados, derivam em seus trabalhos a metodologia clássica de séries temporais ARMA(p,q) (Box e Jenkins, 1976), de forma
a unicar aos modelos de regressão generalizada as componentes autorregressivas e médias móveis.
Na classe do observation-driven model destaca-se a interessante metodologia do modelo GLARMA (Generalized Linear Autoregressive Moving Average
Models ), proposto primeiramentre por Shephard (1995) e, sequencialmente
apresentado por Davis et al. (1999, 2000 e 2003). O modelo GLARMA estende a estrutura familiar do modelo linear generalizado, de forma a permitir
a correlação serial entre as observações, bem como uma variação binomial extra nos dados, e obter o logaritmo natural da média condicional do processo
como uma função linear das observações passadas.
O modelo GLARMA é utilizado para modelar uma variedade de variáveis
respostas dependentes do tempo (que também sejam covariáveis dependentes
do tempo), que possuam distribuição marginal condicional pentencente à
família exponencial, por exemplo, dados contínuos com distribuição Gama
condicional (e.g., a volatilidade no modelo GARCH) ou dados de contagem
com distribuição condicional binomial negativa, binomial ou Poisson.
Neste trabalho a metodologia do GLARMA Poisson é utilizada para modelar o número diário de delitos registrados na Região da Grande Vitória
(RGV). Os dados de delitos são referentes aos principais crimes contra a
pessoa e contra o patrimônio registrados nos municípios da Grande Vitória
pela Gerência de Estatística e Análise Criminal da Secretaria de Estado da
Segurança Pública e Defesa Social do Espírito Santo.
Este trabalho está organizado da seguinte forma: na Seção 2 é introduz-se
a denição e a nomenclatura do MLG; a teoria, a estimação, a inferência e os
diagnósticos do GLARMA são apresentados na Seção 3; a Seção 4 descreve
os dados utilizados, bem como seu comportamento a partir de estatísticas
descritivas; na Seção 5 destaca-se pela aplicação da metodologia abordada
nos delitos() e procedimentos de ajuste. Na Seção 5 ilustra a metodologia
com os resultados obtidos e na 6 a conclusão do trabalho.
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
2.
3
Modelo Linear Generalizado
Trata-se da generalização do modelo de regressão linear e gaussiano de
forma a adequá-lo para a modelagem de variáveis de resposta independentes
que apresentem características explícitas de não-normalidade, tais como variáveis contínuas com assimetria e dados de contagem.
O modelo linear generalizado, segundo McCullagh e Nelder (1983), pode
ser caracterizado em três pontos:
(1) Componente Aleatória. Considerem-se N variáveis aleatórias Yi
(i = 1,...., n ) independentes, de média µi respectivamente e função
de probabilidade ou função densidade de probabilidade pertencente
à família exponencial, isto é
{
f (yi |θt , ϕ) = exp
}
yi θi − b(θi )
+ c(yi , ϕ)
αi (ϕ)
(1)
em que ai (.), b(.) e c(.) são funções especícas para cada distribuição.
Se ϕ for conhecido tem-se uma distribuição da família exponencial
com parâmetro canônico θ.
Caso ϕ seja desconhecido a distribuição pode ou não pertencer à
família exponencial, e há então que considerar apenas os casos em
que a distribuição pertence àquela família. A função ai (ϕ) toma, na
maior parte dos casos, a forma
ai =
ϕ
,
ωi
onde se assume que ωi e conhecido, enquanto que ϕ, denominado
parâmetro de dispersão ou de escala, pode sê-lo ou não.
Note-se que, num modelo linear generalizado, a distribuição de
todas as variáveis aleatórias Yi é da mesma forma (Normal, Poisson,
Gama, ou outra da família exponencial) e o parâmetro de escala, ϕ ,
é constante, isto é, não varia com o índice i das variáveis aleatórias
Yi .
(2) Componente Sistemática. Suponha-se agora a existência de p
variáveis explicativas Xj (j = 1,..., p ).
As N observações destas p variáveis constituem a matriz X. Isto
é, cada elemento xij da matriz X designa o valor da j-ésima variável
explicativa para a observação i (i = 1, ..., n).
A partir desta matriz dene-se um preditor linear ηi , i = 1,...,n,
da forma
ηi =
p
∑
xij βj
j=1
constituindo os βj , j = 1,...,p, um vetor de parâmetros desconhecidos,
a estimar a partir dos dados.
(3) As duas componentes anteriores relacionam-se através de uma função
de ligação gi , que se admite existir, ser monótona e diferenciável, e
que transforma µi em ηi , ou seja
ηi = gi (µi ), i = 1, ..., N.
(2)
4
SILVA, A.N. E REISEN, V.A.
Essa função de ligação é invertível, logo é possível obter
g −1 (ηi ) = µ
(3)
que é denominada função média.
Ficam assim denidas as componentes do modelo linear generalizado.
Suponha agora que a variável de interesse, Yi , segue um processo de Poisson
com média µi com função densidade
P (Yi = yi ) =
exp(−µi )µyi i
, yi = 0, 1, 2, . . . .
yi !
(4)
Reescrevendo (4) na forma de (1)
]}
exp(−µi )µyi i
exp log
yi !
exp {log [exp(−µi )µyi i ] − log(yi !)}
exp{−µi + yi log(µi ) − log(yi !)}
exp{yi log(µi ) − µi − log(yi !)}.
{
P (Yi = yi ) =
=
=
=
[
(5)
Comparando o resultado (5) com (1), pode-se concluir que ai (ϕ) = 1, b(θi ) =
log(µi ) e ci (y, ϕ) = − log(y!). Fazendo θi = log(µi ), então tem-se que µi =
exp(θi ).
Assim, considerando o vetor de covariáveis (regressoras) x
µi = exp(θi ) =⇒ g −1 (ηi ) = µi = exp(θi )
=⇒ log(µi ) = θi =⇒ ηi = log(µi )
=⇒ log(µi ) = xi β, i = 1, . . . , n.
(6)
Quando a variável de interesse é um processo de contagem, isto é, um processo de Poisson, o modelo linear generalizado obtido é referido apenas como
modelo de regressão de Poisson, por ser derivado da parametrização da relação entre o parâmetro µ, média, e as covariáveis ou regressoras. De acordo
com (6), a suposição padrão é utilizar a parametrização da média exponencial,
µi = exp(x′ i β), i = 1, . . . , n.
(7)
A estimação do MLG dá-se pelo método de máxima verossimilhança.
3.
Modelo GLARMA
Esta seção está fundamentada em descrever o modelo Autorregressivo Média Móvel Linear Generalizado (GLARMA) de acordo com o trabalho apresentado por Davis, Dunsmuir e Wang (1999, 2000 e 2003).
O GLARMA é uma combinação dos modelos MLG e ARMA (Box e
Jenkins (1976)), sendo considerado uma extensão para distribuições condicionais não-Gaussianas, pertencentes à família exponencial. Este é defenido
neste trabalho com a mesma notação utilizada nos MLG para amostras independentes.
Sejam {Yt } e Zt−1 = (Z(t−1)1 , ..., Z(t−1)p ), para cada t = 1, ..., n, a série
temporal de interesse e o correspondente vetor p -dimensional do passado das
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
5
variáveis explanatórias ou covariáveis, respectivamente. Seja ℑ o campoσ gerado por Yt−1 , Yt−2 , ..., Zt−1 , Zt−2 , ..., isto é, valores passados da série
resposta e possíveis valores do presente (quando conhecidos) das covariáveis
ℑt−1 = σ{Yt−1 , Yt−2 , ..., Zt−1 , Zt−2 , ...}.
Séries temporais segundo o MLG podem ser denidas com as seguintes
modicações nas componentes aleatória e sistemática (Kendem e Fokianos
(2000)).
(1) A componente aleatória, apresentada em (1), passa ser denida a
partir da distribuição condicional da resposta dado o passado, isto é,
para t = 1,..., n
{
f (yt ; θt , ϕ|ℑt−1 ) = exp
}
yt θt − b(θt )
+ c(yt , ϕ) ;
αt (ϕ)
(8)
(2) A componente sistemática passa a ser da seguinte forma
g(µt ) = ηt = x′t β + Zt = x′t β +
∞
∑
γi et−i
(9)
i=1
onde et = (Yt − µt )/µλt , λ ∈ (0, 1], é uma sequência diferença martingale e γ é o vetor de parâmetros.
Conforme apresentado na seção anterior, quando a variável de interesse, Yt ,
segue um processo de Poisson com média µt , tem-se que ηt = g(µt ) = log(µ).
Assim, no contexto deste trabalho de modelos de regressão para séries temporais de contagem, assume-se que
Yt |ℑt−1 ∼ P o(µt )
Logo, o processo log(µt ) é dirigido por um ruído que é uma sequência diferença martingale gerada pelo conjunto de dados observado.
De acordo com Davis et al. (2003) é possível especicar o termo média
móvel innito neste modelo por um número nito de parâmetros. Mais
precisamente,
∞
∑
γi et−i =
∞
∑
i=1
γi z i = θ(z)/ϕ(z) − 1,
i=1
onde ϕ(z) = 1 − ϕ1 z − . . . − ϕp e θ(z) = 1 + θ1 z + . . . + θq z q são, respectivamente, os polinômios autorregressivos e média móvel do ltro ARMA, cada
um possuindo seus zeros fora do círculo unitário, e γ é o vetor dos parâmetros consistindo nesses ϕ′i s e θj′ s. Assim, segue que {Zt } pode ser computado
como nas recursões do modelo autorregressivo média móvel
zp
Zt =
p
∑
ϕi (Zt−i + et−i ) +
i=1
3.1.
Propriedades do modelo.
q
∑
θi et−i .
i=1
Seja
Wt = log(µt ) = x′t β + Zt ,
(10)
6
SILVA, A.N. E REISEN, V.A.
segue que, inicialmente, es = 0 e Ys = 0 para s ≤ 0, ℑes−1 = {et : t ≤
s − 1} e ℑs−1 = {Yt : t ≤ s − 1} geram o mesmo campo-σ e, como denido
anteriormente,et forma uma sequência diferença martingale,
E(es |ℑes−1 ) = 0, para s ≥ 1,
onde ℑs−1
é o σ -álgebra gerado por {et : t ≤ s − 1}. Como et tem média
e
zero, sua variância é
V ar(et ) = E(e2t ) = E[E(e2t |ℑt−1 )] = µ1−2λ
,
t
que é unitário quando λ = 0, 5. Outra propriedade da diferença martingale
é que a covariância, para s ̸= t, é
E(et es ) = 0.
Dessas propriedades segue que, para qualquer λ,
E(Wt ) = x′t β
e
V ar(Wt ) =
∞
∑
γi2 µ1−2λ
t−i ,
i=1
e, para l > 0,
Cov(Wt , Wt+l ) =
∞
∑
γi γi+l µ1−2λ
t−i ,
i=1
e, novamente, se λ = 0, 5, as covariâncias não dependem do tempo t, nem
mesmo se {µt } não for estritamente estacionária.
3.2. Estimação. Davis et al. (1999, 2000 e 2003) estabelecem uma aproximação da função de verossimilhança similar as aproximações usadas nos
modelos de séries temporais lineares. No entanto, as propriedades de estimação e inferência para o modelo são consideradas somente quando λ = 0, 5.
Para estimar os parâmetros do modelo GLARMA a função de verossimilhança deve ser maximizada. A aproximação da verosssimilhança, com as
derivadas de primeira e segunda ordem, podem ser calculadas recursivamente
utilizando o procedimento de Newton-Raphson. De acordo com Nelder e
Wedderburn (1972) e Charnes e Yu (1976) as estimativas dos parâmetros do
MLG pelo método de Mínimos Quadrados Iterativos Reponderados (Iteratively Reweighted Least Squares - IWLS) são equivalentes as estimativas de
máxima verossimilhança, levando em consideração algumas suposições. A
função glm do R (R Develoment Core Team (2007)) utiliza o método IRLS
para obter os parâmetros estimados.
Outra ferramenta utilizada na estimação dos parâmetros autorregressivos
e média móvel, p e q respectivamente, do GLARMA é a identicação do
modelo à partir das funções de autocorrelação. A Função de Autocorrelação
(FAC) e a Função de Autocorrelação Parcial (FACP) para Yt − g −1 (xt β) são
apropriadas para identicação do modelo.
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
7
3.3. Diagnósticos. O diagnóstico de um modelo de regressão consiste em
explorar e testar a adequacidade e a qualidade do ajuste do modelo estimado.
Nos modelos lineares generalizados, isso cocorre a partir de uma análise dos
resíduos e do deviance.
A análise do deviance tem por intuito comparar o modelo saturado, que
contém todos os parâmetros, com o modelo reduzido, que contém uma menor
quantidade de parâmetros, a partir do logaritmo da verossimilhança de cada
modelo, isto é,
Deviance = 2[l(saturado) − l(modelo)],
onde l(modelo) é o logaritmo da máxima verossimilhança correspondente
ao modelo reduzido e l(saturado) é o logaritmo da máxima verossimilhança
do modelo saturado. O deviance tem distribuição χ2 com n − p graus de
liberdade. Esta estatística possibilita testar se o modelo assumido difere
signicativamente do modelo saturado.
Para séries temporais de contagem {Yt }, sob um modelo log -linear de
Poisson, o deviance tem a forma
( )
}
n {
∑
Yt
Deviance = −2
Yt log
− (Yt − µ̂t ) .
µ̂t
t=1
O deviance é comumente associado aos critérios de informação de Akaike
(AIC) e Bayesiano (BIC). Estes são utilizados para avaliação e seleção de
modelos. Em ambos, o modelo escolhido é o que minimiza o valor do critério
observado. São eles:
AIC(p) = −2l(modelo) + 2p
e
BIC(p) = −2l(modelo) + p log(n).
Com relação aos resíduos, é possível trabalhar com 3 tipos: o de Pearson, o
e o Deviance. Utiliza-se a FAC e a FACP dos resíduos para vericar
se se trata de um processo de ruído branco, tal como nos modelos ARMA
Gaussianos.
Working
4.
Dados Utilizados
O conjunto de dados observados trata-se do número diário de delitos ou
ocorrências registradas nos municípios de Vitória, Vila Velha, Guarapari,
Viana, Serra e Cariacica, no período de 01 de janeiro de 2005 a 25 de maio
de 2007. Os dados foram contabilizados pelo Centro Integrado Operacional
de Defesa Social (CIODES), compreendendo um total de 875 dias.
A Tabela 1 apresenta as estatísticas dos delitos registrados no período
abrangido pelo estudo, para cada município. Como pode ser observado, no
município de Vila Velha e Vitória ocorreram, em média, 12 e 11 delitos
diaramente com um desvio de 4 delitos, respectivamente.
A Tabela 2 apresenta as 38.832 ocorrências registradas na Grande Vitória
no período do estudo. Os delitos observados foram os homicídios, as tentativas de homicídios, os furto e os roubo. De acordo com essa tabela, o município de Vitória também apresenta um número elevado de ocorrências, um
Delito
Homicídio
Homicídio por arma de fogo
Homicídio por arma branca
Homicídio c/ uso de outros obj. e formas
Tentativa de homicídio
Tentativa de homicídio por arma de fogo
Tentativa de homicídio por arma branca
Com uso de outros objetos formas
Furto a pessoa em via pública
Furto em estabelecimento comercial
Furto em residência/condomínio
Furto de veículo
Roubo a pessoa em via pública
Roubo em Estabelecimento comercial
Roubo em residência/ condomínio
Roubo de veículo
Total
Município
Cariacica Guarapari Serra Viana Vila Velha
3
1
1
1
3
27,27%
9,09% 9,09% 9,09% 27,27%
611
84
608
86
428
28,08%
3,86% 27,92% 3,95% 19,65%
38
6
52
10
40
22,89%
3,61% 31,33% 6,02% 24,1%
48
12
83
22
30
22,02%
5,5% 38,07% 10,09% 13,76%
140
34
147
21
162
22,36%
5,43% 23,48% 3,35% 25,88%
296
93
412
47
381
19,32%
6,07% 26,89% 3,07% 24,87%
110
54
115
17
103
22%
10,8%
23% 3,4%
20,6%
22
9
15
6
25
25,58% 10,47% 17,44% 6,98% 29,07%
187
252
316
23
566
9,99%
13,46% 16,88% 1,23% 30,24%
636
392
837
56
1017
14,3%
8,81% 18,81% 1,26% 22,86%
726
704
879
129
1.318
16,1%
16,1% 15,62% 19,5% 2,86%
776
184
1.321
77
1.844
12,54%
2,97% 21,35% 1,24% 29,8%
762
643
892
54
1.891
12,27% 10,35% 14,36% 0,87% 30,45%
810
411
1.105
77
1.437
16,43%
8,34% 22,41% 1,56% 29,15%
183
125
288
31
220
18,62% 12,72% 29,3% 3,15% 22,38%
1.046
113
1.103 112
891
26,86% 16,47% 28,33% 2,88% 22,88%
6.394
3.117
8.174 769
10.837
16,47%
8,03% 21,05% 1,98% 27,91%
Vitória
2
18,18%
361
16,57%
20
12,05%
23
10,55%
122
19,49
303
19,78
101
20,2%
9
10,47%
528
28,21%
1.511
33,96%
752
29,24%
1.985
32,08%
1.969
31,7%
1.090
22,11%
136
13,84%
629
16,15%
9.541
24,57%
Total
11
100%
2.178
100%
166
100%
218
100%
626
100%
1.532
100%
500
100%
86
100%
1.872
100%
4.449
100%
4.508
100%
6.187
100%
6.211
100%
4.930
100%
983
100%
3.894
100%
38.832
100%
8
SILVA, A.N. E REISEN, V.A.
Tabela 1. Estatística descritiva das ocorrências criminais registra-
das na Grande Vitória, 01/2005-05/2007
Estatística Cariacica Vila Velha Viana Serra Guarapari Vitória
Média
7,31
12,39
0,88 9,34
3,56
10,90
Mediana
7
12
1
9
3
11
Desvio padrão 2,98
4,31
1,03 3,42
2,52
3,66
Mínimo
1
2
0
0
0
1
Máximo
20
32
7
20
17
23
total de 9.541 crimes registrados, cerca de 24% do total dos delitos. Desses,
furto à veículo é o de maior incidência, com 1.985 registros no município.
Tabela 2. Ocorrências criminais registradas na Grande Vitória
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
9
Ainda considerando a Tabela 2, tem-se que os homicídios ocorreram com
maior freqüência nos municípios de Cariacica e Vila Velha. No caso do
homicídio, os municípios apresentam 27% e 28% de ocorrências registradas.
Já homicídios com arma de fogo e arma branca apresentam 27 e 20% e
23% e 24% para Cariacica e Vila Velha, respectivamente. Sendo que, o
município da Serra apresenta os maiores percentuais de homicídios com arma
de fogo (28%), arma branca (31%) e uso de outros objetos e formas (37%).
Com relação a tentativa de homicídio, o município da Serra é o campeão de
registros, com 2.744 registros, sendo 1.532 somente associado a tentativa de
homicídio por arma de fogo e dentre todos os municípios, a Serra apresenta
27% dos registros.
O município de Vitória apresentou o maior número de furtos e roubos dentre todos os municípios, 4.776 furtos e 3.824 roubos registrados no período
observado. Onde, o furto a veículo e roubo a pessoa em via pública foram
os de maiores ocorrências, com 1.985 e 1.969 registros, respectivamente.
Observou-se também que, para o município de Vila Velha ocorreram, em
média, 12,39 registros diários de crimes relacionados a homicídios, tentativas
de homicídios, furtos e roubos. Com base nos resultados, foram registrados 2.573 homicídios, 2.744 tentativas de homicídios, 17.016 furtos e 16.018
roubos no período de janeiro de 2005 a maio de 2007.
A Tabela 3 apresenta o número total de delitos registrados por dia da
semana para os municípios da RGV. Observa-se nessa tabela que, dentre
os 7 dias da semana, grande parte dos delitos são registrados na sexta-feira
e no sábado, 15,57% e 14,60% respectivamente. De forma que, o período
compreendido entre a sexta-feira e o domingo é o período em que a ocorrência
e registros de delitos são amiores, isto é, no m de semana.
Realizando a mesma análise para os meses do período de tempo observado,
tem-se que em março e abril o número de delitos registrados foi superior ao
dos demais meses (ver Tabela 4). Contudo, como faltaram os meses no intervalo de maio a dezembro de 2007, essa suposição não é totalmente valida. Na
seqüência é apresentado o estudo de regressão para análise das séries diárias
de delitos registrados. Como ilustração é apresentado o procedimento de
estimação do modelo de regressão para análise da série temporal do número
diário de delitos registrado no município de Vila Velha, e depois, uma sumarização dos modelos ajustados para todos os municípios.
10
SILVA, A.N. E REISEN, V.A.
Tabela 3. Número total de delitos registrados por dia da semana
para os municípios da RGV
Dia da
semana
Domingo
Segunda-feira
Terça-feira
Quarta-feira
Quinta-feira
Sexta-feira
Sábado
Total
Município
Cariacica Guarapari Serra Viana Vila Velha
903
489
1.107
115
1.544
14,12% 15,69% 13,54% 14,95% 14,25%
894
434
1.116
100
1.529
13,98% 13,92% 13,65% 13,00% 14,11%
886
380
1.134
111
1.438
13,86% 12,19% 13,87% 14,43% 13,27%
889
416
1.186
114
1.492
13,90% 13,35% 14,51% 14,82% 13,77%
937
415
1.182
98
1.551
14,65% 13,31% 14,46% 12,74% 14,31%
933
449
1.207
118
1.583
14,59% 14,40% 14,77% 15,34% 14,61%
952
534
1.242
113
1.700
14,89% 17,13% 15,19% 14,69% 15,69%
6394
3.117
8.174
769
10.837
100,00% 100,00% 100,00% 100,00% 100,00%
Vitória
1.265
13,26%
1.341
14,06%
1.254
13,14%
1.347
14,12%
1.449
15,19%
1.381
14,47%
1.504
15,76%
9.541
100,00%
Total
5.423
13,97%
5.414
13,94%
5.203
13,40%
5.444
14,02%
5.632
14,50%
5.671
14,60%
6.045
15,57%
38.832
100,00%
Tabela 4. Número total de delitos registrados por mês para os
municípios da RGV
Mês
Janeiro
Fevereiro
Março
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
Total
Cariacica Guarapari Serra Viana Vila Velha
667
404
901
93
1122
10,43% 12,96% 11,02% 12,09% 10,35%
529
391
824
64
1094
8,27%
12,54% 10,08% 8,32% 10,10%
708
299
872
78
1392
11,07%
9,59% 10,67% 10,14% 12,84%
729
361
930
95
1362
11,40% 11,58% 11,38% 12,35% 12,57%
575
273
734
63
1063
8,99%
8,76%
8,98% 8,19%
9,81%
413
145
519
57
690
6,46%
4,65%
6,35% 7,41%
6,37%
460
195
555
44
661
7,19 % 6,26 % 6,79 % 5,72 % 6,10 %
438
150
549
52
644
6,85 % 4,81 % 6,72 % 6,76 % 5,94 %
415
207
536
50
677
6,49%
6,64%
6,56% 6,50%
6,25%
453
234
580
48
674
7,08%
7,51%
7,10% 6,24%
6,22%
500
216
551
52
720
7,82 % 6,93 % 6,74 % 6,76 % 6,64 %
507
242
623
73
738
7,93%
7,76%
7,62% 9,49%
6,81%
6394
3117
8174
769
10837
100,00% 100,00% 100,00% 100,00% 100,00%
5.
Vitória
996
10,44%
894
9,37%
1054
11,05%
1074
11,26%
853
8,94%
545
5,71%
673
7,05 %
710
7,44 %
668
7,00%
671
7,03%
689
7,22 %
714
7,48%
9541
100,00%
Total
4183
10,77%
3796
9,78%
4403
11,34%
4551
11,72%
3561
9,17%
2369
6,10%
2588
6,66%
2543
6,55%
2553
6,57%
2660
6,85%
2728
7,03%
2897
7,46%
38832
100,00%
Aplicação
Primeiramente, são apresentadas as séries temporais de contagem analisadas, o número diário de delitos registrados desagregado para cada município (Figura 1).
11
10
Nº de ocorrências
0
5
5
10
Nº de ocorrências
15
15
20
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
2005
2006
2007
2005
Dias transcorridos
2006
2007
Dias transcorridos
(b) Guarapari
4
3
Nº de ocorrências
0
0
1
5
2
10
Nº de ocorrências
5
15
6
7
20
(a) Cariacica
2005
2006
2007
2005
Dias transcorridos
2006
2007
Dias transcorridos
(d) Viana
10
Nº de ocorrências
20
15
5
5
10
Nº de ocorrências
15
25
20
30
(c) Serra
2005
2006
Dias transcorridos
(e) Vila Velha
2007
2005
2006
2007
Dias transcorridos
(f) Vitória
Figura 1. Séries do número diário de delitos registrados na Grande
Vitória.
Percebe-se que as séries diárias de delitos apresentam uma certa sazonalidade, não tão evidente por não apresentarem um padrão tão visível. Além
disso, observa-se que para os municípios de Guarapari e Viana existem muitos
dias em que não foram registrados nenhum dos delitos aqui observados.
Iniciando o procedimento de modelagem, estimou-se um modelo de regressão de Poisson para cada município. Esses modelos contêm as variáveis
de confusão tempo trancorrido, dias da semana e feriados, isto é, variáveis
de controle da tendência e da sazonalidade nas séries de delitos. A Figura 2
apresenta as FAC e FACP dos resíduos dos modelos de regressão de Poisson,
et = (yt −µt )/µt0,5 , onde µt = exp(xt β). Com base nessa gura, existem indícios de correlação serial nos delitos observados nos municípios de Cariacica,
Guarapari, Viana, Vila Velha e Vitória, isto é, aparentemente os delitos do
tempo t dos municípios de Cariacica e Vila Velha estão correlacionados com
12
SILVA, A.N. E REISEN, V.A.
5
10
15
20
0.8
FAC
25
5
10
Defasagem
15
20
25
0
(b)
FACP
Cariacica
15
20
25
(c)
FAC
Guarapari
0.06
FAC
FACP
0.6
0.02
0.04
0.8
0.20
0.15
0.10
−0.10
0.0
−0.06
−0.05
−0.04
0.2
0.00
−0.02
0.4
0.05
10
Defasagem
1.0
(a)
FAC
Cariacica
FACP
5
Defasagem
0.00
0
0.0
0.0
−0.05
0.2
0.2
0.4
0.00
0.4
FAC
FACP
0.6
0.6
0.05
0.8
1.0
1.0
os do tempo t − 1, os de Guarapari e Vitória no tempo t − 2 e Viana no
tempo t − 3.
5
10
15
20
25
0
5
Defasagem
10
15
20
25
5
10
Defasagem
(e)
FAC
Serra
25
1.0
0.8
0.6
FAC
0.4
0.00
0.2
0.0
−0.06
0.0
−0.04
0.2
−0.02
0.4
FAC
FACP
0.02
0.6
0.04
0.8
0.06
1.0
20
(f)
FACP
Serra
0.08
(d)
FACP
Guarapari
15
Defasagem
0
5
10
15
20
25
5
10
Defasagem
15
20
25
0
5
Defasagem
15
20
25
Defasagem
(h)
FACP
Viana
(i)
FAC
Vila
Velha
FACP
FAC
0.0
−0.05
0.2
0.00
0.4
0.05
0.00
−0.05
FACP
0.6
0.10
0.05
0.8
0.15
1.0
(g)
FAC
Viana
10
5
10
15
Defasagem
(j)
FACP
Vila
Velha
20
25
0
5
10
15
20
25
5
Defasagem
(k)
FAC
Vitória
Figura 2. Funções de autocorrelação de
10
15
Defasagem
(l)
FACP
Vitória
et .
20
25
Vitória
Vila
Velha
Viana
Guarapari
Cariacica
Município
0
1
2
3
0
1
2
3
0
1
2
3
0
1
2
3
0
1
2
3
q
0
2.563,25
2.559,61
2.560,19
2.796,72
2.779,68
2.770,94
2.824,48
2.803,21
2.790,56
2.669,08
2.664,47
2.662,11
2.612,08
2.607,95
2.609,94
2.595,32
2.626,96
2.728,81
2.721,79
2.555,92
1
2.562,49
2.557,88
2.558,80
2.785,77
2.723,57
2.725,30
2.807,52
2.730,74
2.732,36
2.664,71
2.627,64
2.628,93
2.611,88
2.609,94
2.598,20
2
2.558,81
2.557,88
2.559,18
2.561,18
2.762,71
2.723,58
2.725,48
2.727,46
2.778,70
2.730,75
2.732,70
2.734,70
2.659,90
2.627,00
2.628,96
2.630,87
2.607,45
2.609,22
2.596,27
2.597,84
AIC
2.609,44
2.656,34
2.762,39
2.751,02
3
2.559,52
0
2.564,03
2.565,17
2.570,52
2.797,49
2.785,23
2.781,26
2.825,25
2.808,75
2.800,88
2.669,85
2.670,01
2.672,42
2.612,85
2.613,49
2.620,26
p
2.600,87
2.633,19
2.734,37
2.727,35
2.561,47
1
2.563,25
2.568,20
2.573,90
2.786,55
2.733,90
2.740,40
2.808,29
2.741,06
2.747,46
2.665,47
2.637,28
2.644,04
2.612,65
2.620,26
2.613,30
2
2.564,35
2.568,20
2.574,28
2.581,05
2.768,27
2.733,90
2.740,58
2.747,33
2.784,25
2.741,06
2.747,80
2.754,57
2.665,45
2.637,32
2.644,06
2.650,75
2.612,99
2.619,54
2.611,36
2.617,71
BIC
2.619,76
2.666,66
2.772,70
2.761,34
3
2.569,84
0
1,09
1,08
1,08
1,42
1,39
1,37
1,47
1,43
1,41
1,23
1,22
1,21
1,15
1,14
1,14
1
1,09
1,08
1,08
1,08
1,40
1,30
1,30
1,30
1,44
1,31
1,31
1,31
1,22
1,17
1,17
1,17
1,15
1,13
1,14
1,13
σ̂ 2
2
1,08
1,08
1,08
1,08
1,36
1,30
1,30
1,30
1,39
1,31
1,31
1,31
1,21
1,17
1,17
1,17
1,14
1,14
1,12
1,12
1,14
1,21
1,36
1,34
3
1,08
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
Tabela 6. Resultados dos critérios AIC, BIC e variância estimada
para a série diária do número de delitos registrados nos municípios
da Região da Grande Vitória - Modelo GLARMA Poisson
13
Assim, realizou-se a estimação das componentes de séries temporais do
modelo GLARMA(p,q) Poisson para cada um dos municípios em que foram
registrados a presença de autocorrelação.
14
SILVA, A.N. E REISEN, V.A.
7
20
A Tabela 6 apresenta o AIC, o BIC e a variância estimada, σ̂ 2 , dos modelos
estimados. Com base nesses resultados é evidente que para os municípios de
Cariacica, Guarapari, Viana e Vitória a estrutura do GLARMA Poisson
identicada foi o GLARMA(1,1). Para o município de Vila Velha, os valores
identicados pelo AIC e BIC para os modelos estimados divergiram. Logo,
considerando o princípio da parcimônia, optou-se na escolha do modelo que
possuisse a menor quantidade de parâmetros, isto é, os delitos registrados no
município de Vila Velha podem ser estimados pelo modelo GLARMA(1,1).
A Figura 3 apresenta as série originais de delitos registrados versus os
valores estimados pelo GLARMA, para cada um dos municípios analisados.
Série original (µt)
^)
Série ajustada (µ
15
Série original (µt)
^)
Série ajustada (µ
t
6
t
Série original (µt)
^)
Série ajustada (µ
4
3
Nº de ocorrências
10
Nº de ocorrências
0
0
0
1
5
2
5
10
Nº de ocorrências
5
15
t
2005.0
2005.5
2006.0
2006.5
2007.0
2005.0
Dias transcorridos
2005.5
2006.0
2006.5
2007.0
2005.0
2005.5
Dias transcorridos
2006.5
2007.0
Dias transcorridos
(b) Guarapari
(c) Vila Velha
20
(a) Cariacica
2006.0
Série original (µt)
^)
Série ajustada (µ
10
Nº de ocorrências
10
5
5
Nº de ocorrências
15
15
20
t
Série original (µt)
^)
Série ajustada (µ
0
t
2005.0
2005.5
2006.0
2006.5
2007.0
2005.0
Dias transcorridos
2005.5
2006.0
2006.5
2007.0
Dias transcorridos
(d) Viana
(e) Vitória
Figura 3. Séries do número diário de delitos registrados na RGV e
seus respectivos ajustes do modelo Poisson GLARMA.
Como se pode ver nessa gura, a estimação do modelo Poisson GLARMA
adequou-se satisfatoriamente aos dados diários de delitos registrados nos
municípios de Viana, Guarapari, Cariacica, Vila Velha e Vitória. De acordo
com os modelos para todos os municípios, com exceção da Serra, os delitos
que são registrados em um dia qualquer, tem relação com os delitos que
foram registrados um dia atrás.
Realizando a análise residual não constatou-se nenhuma violação da normalidade e independência dos mesmos.
6.
Conclusão
O objetivo principal deste trabalho foi avançar no estudo da modelagem
dos processos de séries espaço-temporal e regressão generalizada considerando
casos onde a variável de interesse ou resposta seja não Gaussiana (normal),
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
15
mais precisamente, possua distribuição de Poisson. Ela expressa, por exemplo, a probabilidade de certo número de eventos ocorrerem num dado
período tempo, caso estes ocorram com uma taxa média conhecida e caso
cada evento seja independente do tempo decorrido desde o último evento.
Como metodologia de modelagem utilizou-se o conceito do Modelo Autorregressivo Média Móvel Linear Generalizado, o GLARMA. A forma funcional do GLARMA, propriedades, estimação e diagnósticos foi apresentada
por Davis, Dunsmuir e Wang (1999) e esta que se utiliza neste trabalho
Realizando o estudo de regressão para análise de séries constatou-se que o
modelo Poisson GLARMA adequou-se muito bem para descrever o número
diário de delitos registrados nos município da RGV. Com exceção dos municípios de Viana e Serra que, devido a existência de vários dias em que não
foram registrados delitos nesses municípios (presença de valores nulos), os
pressupostos para ajuste dos modelos não foram satisfatórios. Pelos ajustes,
vericou-se que os delitos dos municípios podem ser descritos pelo modelo
Poisson GLARMA (1,1). De acordo com esse modelo, os delitos que são
registrados em um dia qualquer, tem relação com os delitos que foram registrados um dia atrás. Além disso, o mesmo delito só é registrado um dia
após o mesmo ter ocorrido.
Agradecimentos
Os autores agradecem Fundo de Apoio à Ciência e Tecnologia da Prefeitura
de Vitória (FACITEC) e ao CNPq pelo apoio nanceiro.
Referências
BENJAMIN, R. A.; RIGBY M. A.; STASINOPOULOS, M. D., Generalized autoregressive moving average models. Journal of the American Statistical Association,
98(461), 214-223, 2003.
BOX, G.E.P.; JENKINS, G.M.,
trol, Holden Day, 1976.
Time series analysis: Forecasting and Con-
BRANDT, P.T.; WILLIAMS, J.T.; FORDHAM, B.O.; POLLINS, B. Dynamic
Models for Persistent Event Count Time Series. American Journal of Political
Science 44(4), 823-843, 2000.
BRANDT, P. T.; WILLIAMS, J. T., A Linear Poisson Autoregressive Model:
The Poisson AR(p) Model. Political Analysis, 9, 164 - 184, 2001.
BRANNAS, K.; JOHANSSON, P., Time series count regression.
tions in Statistics-Theory and Methods, 23, 2907-2925, 1994.
Communica-
BRESLOW, N.; CLAYTON, D., Approximate inference in generalized linear
mixed models. Journal of the American Statistical Association, 88, 9-25, 1993.
COHN, E.G.; ROTTON, J., Weather, seasonal trends and property crimes in
Minneapolis, 1987-1988. A moderator-variable time-series analysis of routine activities. Journal of Environmental Psychology, 20, 257-272, 2000.
COX, D. R., Statistical analysis of time series:
Scandinavian Journal of Statistics, 8, 93-115, 1981.
Some recent developments.
16
SILVA, A.N. E REISEN, V.A.
DAVIS, R. A.; DUNSMUIR,W. T. M.; WANG, Y., Modelling time series of
count data. In S. Ghosh, editor, Asymptotics, Nonparametric & Time Series, pp. 63114. Marcel Dekker, New York, 1999.
DAVIS, R. A.; DUNSMUIR,W. T. M.; WANG, Y., On autocorrelation in a
Poisson regression model. Biometrika, 87, 491-505, 2000.
DAVIS, R.A.; DUNSMUIR, W.T.M.; STREETT, S.B., Observation-driven models
for Poisson counts, Biometrika, 90(4), 777-790, 2003.
DOMICINI, F.; McDERMOTT, A.; ZEGER, S.; SAMET, J., On the Use of
Generalized Additive Models in Time-Series Studies of Air Pollution and Health.
American Journal of Epidemiology, (3), 193-203, 2002.
GOOR, W.; HARRIS, R., Introduction to crime forecasting.
of Forecasting, 19, 551-555, 2003.
International Journal
GOOR, W.; OLLIGSCHLAEGER, A.; THOMPSON, Y., Short-term forecasting of crime. International Journal of Forecasting, 19, 579-594, 2003.
HASTIE, T.J.; TISBSHIRANI, R.J. Generalized Additive Models. London, Chapman
and Hall, 1990.
JØRGENSEN, B., Maximum likelihood estimation and large-sample inference
for generalized linear and nonlinear regression models. Biometrika, 70, 19-28, 1983.
JUNG, R.C., KUKUK, M. e LIESENFELD, R., Time series of count data:
modeling, estimation and diagnostics. Computational Statistics & Data Analysis,
51(4), 2350-2364, 2006.
KEDEM, B.; FOKIANOS, K.,
Wiley, USA, 2nd, 2002.
Regression Models for Time Series Analysis.
LEE, Y.; NELDER, J., Hierarchical Generalized Linear Models.
the Royal Statistical Society B, (58), 619-678, 1996.
Journal of
LI, W. K., Time series models based on generalized linear models: Some further results. Biometrics, 50, 506-511, 1994.
McKENZIE, E., Some ARMA models for dependent sequences of Poisson counts.
Advances in Applied Probability, (20), 822 - 835, 1988.
McKENZIE, E., Discrete variate time series. In: Shanbhag, D.N., Rao, C.R.
(Eds.), Handbook of Statistics, vol. 21. Elsevier, Amsterdam. pp. 573-606, 2003.
McCULLAGH, P.; NELDER, J.A.,
Hall, Londres, 2nd, 1989.
Generalized Linear Models.
Chapman and
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN
3-900051-07-0, URL http://www.r-project.org, 2007.
SHEPHARD, N., Generalized
University, UK), 1995.
Linear Autoregressions. (Unpublished paper, Oxford
WEDDERBURN, R.W.M., Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika, 61, 439-447, 1974.
ASSOCIAÇÃO ENTRE OS DELITOS REGISTRADOS NA RGV
ZEGER, S.L., A regression model for time series of counts.
621-629, 1988.
17
Biometrika,
75, 4,
ZEGER, S. L.; LIANG, K.-Y., Longitudinal data analysis for discrete and
continuous outcomes. Biometrics, 42, 121-130, 1986.
WEI, W., Time Series Analysis: Univariate
Wesley, New York, second edition, 2005.
and Multivariate Methods.
Addison-
18
SILVA, A.N. E REISEN, V.A.
Apêndice A. Propriedades do modelo
Seja {Yt } um processo de Poisson (contagem) com média µt = E[Yt |ℑt−1 ],
t = 1, . . . , n, e
Yt − µt
et =
µλt
para λ ≥ 0. Tem-se que
E(et ) = E[E(et |ℑt−1 )]
[ (
)]
Yt − µt
= E E
|ℑt−1
µλt
1
=
E [E (Yt − µt |ℑt−1 )]
µλt






1
=
E
[E(Y
|ℑ
)]
−
E
[E(µ
|ℑ
)]
t t−1
t t−1
{z
} |
{z
}
µλt 
 |

µt
=
µt
1
{µt − µt } = 0.
µλt
V ar(et ) = E[V ar(et |ℑt−1 )] − V ar[E(e)t|ℑt−1 )]
|
{z
}
E(et )=0
= E[V ar(et |ℑt−1 )] =
E{E(e2t |ℑt−1 )
− [E(et |ℑt−1 )]2 }
| {z }
E(et )=0
=
=
=
=
[ (
]
)
]
[
Yt − µt 2
1
2
2
E(Y
−
2Y
µ
+
µ
|ℑ
)
E E
|ℑ
=
E
t t
t−1
t−1
t
t
µ2λ
µ2λ
t
t
{
}
]
1 [
2
2
E
E(Yt |ℑt−1 ) − 2E(Yt µt |ℑt−1 ) + E(µt |ℑt−1 )
µ2λ
t
{
}
1
2
2
E
[V ar(Yt |ℑt−1 ) + [E(Yt )] − 2µt E(Yt |ℑt−1 ) + E(µt |ℑt−1 )]
µ2λ
t
[
]
[
]
1
1
E 2λ (µt + µ2t − 2µ2t + µ2t ) = E 2λ (µt )
µt
µt
= E(µt1−2λ ) = µ1−2λ
.
t
Segue que, para t ̸= s,
Cov(et , es ) =
=
=
=
=
)(
{ [(
)
]}
Ys − µs
Yt − µt
E[E(et es |ℑt−1 )] = E E
|ℑt−1
µλs
µλt
{ [
]}
1
E E
(Yt − µt ) (Ys − µs ) |ℑt−1
(µt µs )λ
1
E {E [(Yt Ys − Yt µs − µt Ys + µt µs ) |ℑt−1 ]}
(µt µs )λ
1
E[E(Yt Ys |ℑt−1 ) − E(Yt µs |ℑt−1 ) − E(µt Ys |ℑt−1 ) + E(µt µs |ℑt−1 )]
(µt µs )λ
1
E[µt µs − µt µs − µt µs + µt µs ] = 0.
(µt µs )λ
Download

Alyne Silva e Valdério Reisen