Estudo do padrão espacial para dados binários: uma aplicação do teste de
aleatorização
Gabriela Isabel Limoeiro Alves1, Denise Nunes Viola2
1
Graduação, UFBA - Universidade Federal da Bahia/Departamento de Estatística, Av. Adhemar de
Barros, s/n, Ondina, CEP: 40170-110 - Salvador, BA - Brasil, [email protected]
2
Doutorado, UFBA - Universidade Federal da Bahia /Departamento de Estatística, [email protected]
Resumo – Este trabalho apresenta o resultado de um estudo do teste de aleatorização para identificar a
existência de padrão espacial em dados binários. Foi ajustado o modelo autologístico, considerando duas
covariáveis com dependência espacial e a informação da vizinhança no modelo de estrutura de vizinhança
de primeira ordem com alta intensidade de infestação (em torno de 50%) de pragas em culturas vegetais e
cinco valores para o parâmetro de correlação entre plantas vizinhas. Em todos os casos foi verificada a
existência de padrão espacial.
Palavras-chave: modelo autologístico, dependência espacial.
Study of spatial pattern to binary data: one aplication of the randomization test
Abstract – This research presents the study´s results of the randomization test to identify the spatial
patterns in binary data. Autologistic model was adjusted considering two covariates with spatial dependence
and the neighborhood information in the model of the first order neighborhood structure with high infestation
levels (around 50%) of pests on fields and five values for the correlation parameter between neighboring
plants. In all cases was checked spatial pattern.
Key words: Autologistic model, spatial pattern.
Introdução
A identificação de padrões espaciais de insetos presentes em culturas vegetais é de grande importância
para o produtor, pois, uma vez identificado os pontos de alta infestação, podem ser realizadas intervenções
prioritárias nos locais que oferecem maior risco. Essa abordagem contribui com a redução dos gastos do
produtor com agrotóxicos, além de contribuir com a produção de alimentos mais saudáveis (VIOLA,
SOARES JUNIOR; LIMA, 2009). Em muitos casos, o interesse do pesquisador é verificar se a planta está
ou não infestada, independente da quantidade e/ou qualidade da variável medida. Neste caso, os dados
podem ser analisados utilizando as técnicas dos modelos lineares generalizados.
Os modelos lineares generalizados começaram a ser utilizados na década de 90. Para ajustar um
modelo linear generalizado, é necessário que os dados atendam alguns pressupostos, dentre eles, que as
observações sejam independentes. Em geral, os métodos clássicos de análise estatística são baseados em
amostras independentes e identicamente distribuídas. Isto não acontece em dados que apresentam
estrutura de dependência espacial, pois nestes casos, os elementos que compõem a amostra são
correlacionados. Quando não se leva em consideração a correlação entre as observações, estas
informações ficam presentes nos resíduos.
O objetivo deste trabalho é avaliar a eficiência do teste de aleatorização para identificar a existência de
dependência especial para dados com resposta binária.
Material e Métodos
O teste de aleatorização é indicado para analisar um conjunto de dados muito pequeno e/ou quando a
amostra não é aleatória. A principal vantagem deste teste é que ele pode ser utilizado para pequenas
amostras, aleatórias ou não, além de não apresentar os pressupostos dos testes convencionais. A principal
desvantagem do teste é que não é possível generalizar conclusões para a população de interesse (MANLY,
II Simpósio de Geoestatística em Ciências Agrárias
ISSN: 2236-2118
1
2006). A utilização deste teste tem se tornado mais freqüente com o avanço computacional. Este teste pode
ser feito em diversos softwares estatísticos, dentre eles, o software R.
Quando a hipótese nula é verdadeira, todas as possíveis ordens dos dados são igualmente prováveis
(MANLY, 2006). Para a realização deste teste, calcula-se o valor de uma estatística “E” de um conjunto de
dados (eo). A seguir aleatorizam-se os dados um grande número de vezes e calculam-se as estatísticas
para cada uma das aleatorizações (eai, em que i é a i-ésima aleatorização). A proporção de vezes que a
estatística aleatorizada foi maior que a observada é comparada com o nível de significância adotado.
Rejeita-se a hipótese nula quando esta proporção for menor que o nível de significância (VIOLA, 2007).
Para verificar se um conjunto de dados com resposta dicotômica é independente, pode-se considerar o
coeficiente da vizinhança como a estatística de interesse.
Um conjunto de dados com resposta binária pode ser modelado pela regressão logística. Porém o
pesquisador deve estar atento a alguns pressupostos, dentre eles, que as observações sejam
independentes. No caso de dados com resposta binária e padrão espacial não aleatório, uma alternativa é o
pesquisador utilizar o modelo autologístico.
O modelo autologístico é uma extensão do modelo logístico e considera a dependência espacial e/ou
temporal entre as respostas. Este modelo é indicado quando existe dependência entre as observações. Por
exemplo, além de avaliar o padrão espacial, o interesse pode estar na modelagem da probabilidade de
ocorrência de alguma infestação em culturas vegetais, considerando o status da vizinhança como
covariável.
A estrutura de vizinhança desses fenômenos pode ser representada de diferentes maneiras. As
construções mais usuais são baseadas na ordem do modelo e podem, em alguns casos, levar em
consideração as linhas e colunas separadamente. Na Figura 1 é representada a estrutura de vizinhança de
primeira ordem.
O Modelo autologistico é uma extensão do modelo logístico que considera a dependência espacial entre
as respostas.
Yi-1,j
Yi,j-1 Yi,j Yi,j+1
Yi+1,j
Figura 1. Representação esquemática de estrutura de vizinhança de primeira ordem.
Seja Y a variável resposta que pode assumir dois valores (0-fracasso ou 1–sucesso). O modelo
autolologistico é dado por:
logit()=0+1X1+2X2+...+ kXk+Z,
(1)
em que i, i=1, 2, ..., k representa o parâmetro associado à informação das covariáveis,  é o parâmetro
associado à informação da vizinhança, e Z (ou Autocov) é a covariável referente à informação da
v
vizinhança. Tem-se ainda que
zi 
w
w
i 1
Para o modelo de primeira ordem,
yj
ij
i 1
v
zi 
, em que wij 
1
e hij é a distância entre as observações.
hij
ij
yi , j 1  yi , j 1  yi 1, j  yi 1, j
4
.
Para o teste de aleatorização foram geradas duas covariáveis (Cov1 e Cov2) com dependência espacial,
dispostas em grids regulares 20x20. Cada covariável tinha quatrocentas observações, sendo que a primeira
covariável possui valores de alcance de cinco unidades e a segunda covariável possui alcance de sete
unidades. A seguir, foi ajustado o modelo logístico a partir do qual foram obtidos os valores para as
probabilidades de sucesso e depois da construção da variável espacial definidas no modelo autologístico,
foram calculados os valores da covariável Z. Este processo foi repetido novamente e a partir destas
II Simpósio de Geoestatística em Ciências Agrárias
ISSN: 2236-2118
2
informações foram gerados valores para a variável resposta Y a partir de uma distribuição Bernoulli com
probabilidade de sucesso definida anteriormente.
Resultados e Discussão
O comportamento do parâmetro foi verificado através do modelo autologístico considerando a estrutura
de vizinhança de primeira ordem (Figura 1) considerando intensidades de correlação com a vizinhança:
0,00; 0,25; 0,50; 0,75 e 1,00. Os dados foram gerados através do software R, com o pacote geoR. Os
resultados dos testes de aleatorização estão na Tabela 1.
Tabela 1: Resultado das aleatorizações para o teste da significância estatística da Autocov
Correlação Espacial
0,00
0,25
0,50
0,75
1,00
p-valor
0,0488
0,0439
0,0454
0,0464
0,0472
Nota-se que para as cinco intensidades estudadas foi rejeitada a hipótese de padrão espacial aleatório,
indicando que existe correlação entre as observações. Este resultado era esperado, uma vez que as
covariáveis foram geradas com padrão espacial.
Conclusão
O teste de aleatorização mostrou-se bastante eficiente para identificar o padrão espacial em um modelo
autologistico. Estudos adicionais estao sendo feitos considerando outras estruturas de covariáveis.
Referências
VIOLA, D. N. Detecção e modelagem de padrão espacial em dados binários e de contagem. 2007. 118
f. Tese (Doutorado em Agronomia) – Estatística e Experimentação Agronômica, ESALQ/USP – Piracicaba.
MANLY, B. F. J. Randomization, Bootstrap and Monte Carlo Methods in Biology, Flórida: Champman &
Hall, 460p. 2006.
VIOLA, D. N.; SOARES JUNIOR, J. S., LIMA, V. M. C. Modelo Autologistico Espacial com estrutura de
vizinhança de terceira ordem: uma avaliação do estimador de pseudo-verossimilhança. In: ESCOLA DE
MODELOS DE REGRESSÃO, XI., 2009, Recife. Anais da XI Escola de Modelos de Regressão. Recife.
2009. p. 28.
II Simpósio de Geoestatística em Ciências Agrárias
ISSN: 2236-2118
3
Download

1 Estudo do padrão espacial para dados binários: uma aplicação do