Estudo do padrão espacial para dados binários: uma aplicação do teste de aleatorização Gabriela Isabel Limoeiro Alves1, Denise Nunes Viola2 1 Graduação, UFBA - Universidade Federal da Bahia/Departamento de Estatística, Av. Adhemar de Barros, s/n, Ondina, CEP: 40170-110 - Salvador, BA - Brasil, [email protected] 2 Doutorado, UFBA - Universidade Federal da Bahia /Departamento de Estatística, [email protected] Resumo – Este trabalho apresenta o resultado de um estudo do teste de aleatorização para identificar a existência de padrão espacial em dados binários. Foi ajustado o modelo autologístico, considerando duas covariáveis com dependência espacial e a informação da vizinhança no modelo de estrutura de vizinhança de primeira ordem com alta intensidade de infestação (em torno de 50%) de pragas em culturas vegetais e cinco valores para o parâmetro de correlação entre plantas vizinhas. Em todos os casos foi verificada a existência de padrão espacial. Palavras-chave: modelo autologístico, dependência espacial. Study of spatial pattern to binary data: one aplication of the randomization test Abstract – This research presents the study´s results of the randomization test to identify the spatial patterns in binary data. Autologistic model was adjusted considering two covariates with spatial dependence and the neighborhood information in the model of the first order neighborhood structure with high infestation levels (around 50%) of pests on fields and five values for the correlation parameter between neighboring plants. In all cases was checked spatial pattern. Key words: Autologistic model, spatial pattern. Introdução A identificação de padrões espaciais de insetos presentes em culturas vegetais é de grande importância para o produtor, pois, uma vez identificado os pontos de alta infestação, podem ser realizadas intervenções prioritárias nos locais que oferecem maior risco. Essa abordagem contribui com a redução dos gastos do produtor com agrotóxicos, além de contribuir com a produção de alimentos mais saudáveis (VIOLA, SOARES JUNIOR; LIMA, 2009). Em muitos casos, o interesse do pesquisador é verificar se a planta está ou não infestada, independente da quantidade e/ou qualidade da variável medida. Neste caso, os dados podem ser analisados utilizando as técnicas dos modelos lineares generalizados. Os modelos lineares generalizados começaram a ser utilizados na década de 90. Para ajustar um modelo linear generalizado, é necessário que os dados atendam alguns pressupostos, dentre eles, que as observações sejam independentes. Em geral, os métodos clássicos de análise estatística são baseados em amostras independentes e identicamente distribuídas. Isto não acontece em dados que apresentam estrutura de dependência espacial, pois nestes casos, os elementos que compõem a amostra são correlacionados. Quando não se leva em consideração a correlação entre as observações, estas informações ficam presentes nos resíduos. O objetivo deste trabalho é avaliar a eficiência do teste de aleatorização para identificar a existência de dependência especial para dados com resposta binária. Material e Métodos O teste de aleatorização é indicado para analisar um conjunto de dados muito pequeno e/ou quando a amostra não é aleatória. A principal vantagem deste teste é que ele pode ser utilizado para pequenas amostras, aleatórias ou não, além de não apresentar os pressupostos dos testes convencionais. A principal desvantagem do teste é que não é possível generalizar conclusões para a população de interesse (MANLY, II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 1 2006). A utilização deste teste tem se tornado mais freqüente com o avanço computacional. Este teste pode ser feito em diversos softwares estatísticos, dentre eles, o software R. Quando a hipótese nula é verdadeira, todas as possíveis ordens dos dados são igualmente prováveis (MANLY, 2006). Para a realização deste teste, calcula-se o valor de uma estatística “E” de um conjunto de dados (eo). A seguir aleatorizam-se os dados um grande número de vezes e calculam-se as estatísticas para cada uma das aleatorizações (eai, em que i é a i-ésima aleatorização). A proporção de vezes que a estatística aleatorizada foi maior que a observada é comparada com o nível de significância adotado. Rejeita-se a hipótese nula quando esta proporção for menor que o nível de significância (VIOLA, 2007). Para verificar se um conjunto de dados com resposta dicotômica é independente, pode-se considerar o coeficiente da vizinhança como a estatística de interesse. Um conjunto de dados com resposta binária pode ser modelado pela regressão logística. Porém o pesquisador deve estar atento a alguns pressupostos, dentre eles, que as observações sejam independentes. No caso de dados com resposta binária e padrão espacial não aleatório, uma alternativa é o pesquisador utilizar o modelo autologístico. O modelo autologístico é uma extensão do modelo logístico e considera a dependência espacial e/ou temporal entre as respostas. Este modelo é indicado quando existe dependência entre as observações. Por exemplo, além de avaliar o padrão espacial, o interesse pode estar na modelagem da probabilidade de ocorrência de alguma infestação em culturas vegetais, considerando o status da vizinhança como covariável. A estrutura de vizinhança desses fenômenos pode ser representada de diferentes maneiras. As construções mais usuais são baseadas na ordem do modelo e podem, em alguns casos, levar em consideração as linhas e colunas separadamente. Na Figura 1 é representada a estrutura de vizinhança de primeira ordem. O Modelo autologistico é uma extensão do modelo logístico que considera a dependência espacial entre as respostas. Yi-1,j Yi,j-1 Yi,j Yi,j+1 Yi+1,j Figura 1. Representação esquemática de estrutura de vizinhança de primeira ordem. Seja Y a variável resposta que pode assumir dois valores (0-fracasso ou 1–sucesso). O modelo autolologistico é dado por: logit()=0+1X1+2X2+...+ kXk+Z, (1) em que i, i=1, 2, ..., k representa o parâmetro associado à informação das covariáveis, é o parâmetro associado à informação da vizinhança, e Z (ou Autocov) é a covariável referente à informação da v vizinhança. Tem-se ainda que zi w w i 1 Para o modelo de primeira ordem, yj ij i 1 v zi , em que wij 1 e hij é a distância entre as observações. hij ij yi , j 1 yi , j 1 yi 1, j yi 1, j 4 . Para o teste de aleatorização foram geradas duas covariáveis (Cov1 e Cov2) com dependência espacial, dispostas em grids regulares 20x20. Cada covariável tinha quatrocentas observações, sendo que a primeira covariável possui valores de alcance de cinco unidades e a segunda covariável possui alcance de sete unidades. A seguir, foi ajustado o modelo logístico a partir do qual foram obtidos os valores para as probabilidades de sucesso e depois da construção da variável espacial definidas no modelo autologístico, foram calculados os valores da covariável Z. Este processo foi repetido novamente e a partir destas II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 2 informações foram gerados valores para a variável resposta Y a partir de uma distribuição Bernoulli com probabilidade de sucesso definida anteriormente. Resultados e Discussão O comportamento do parâmetro foi verificado através do modelo autologístico considerando a estrutura de vizinhança de primeira ordem (Figura 1) considerando intensidades de correlação com a vizinhança: 0,00; 0,25; 0,50; 0,75 e 1,00. Os dados foram gerados através do software R, com o pacote geoR. Os resultados dos testes de aleatorização estão na Tabela 1. Tabela 1: Resultado das aleatorizações para o teste da significância estatística da Autocov Correlação Espacial 0,00 0,25 0,50 0,75 1,00 p-valor 0,0488 0,0439 0,0454 0,0464 0,0472 Nota-se que para as cinco intensidades estudadas foi rejeitada a hipótese de padrão espacial aleatório, indicando que existe correlação entre as observações. Este resultado era esperado, uma vez que as covariáveis foram geradas com padrão espacial. Conclusão O teste de aleatorização mostrou-se bastante eficiente para identificar o padrão espacial em um modelo autologistico. Estudos adicionais estao sendo feitos considerando outras estruturas de covariáveis. Referências VIOLA, D. N. Detecção e modelagem de padrão espacial em dados binários e de contagem. 2007. 118 f. Tese (Doutorado em Agronomia) – Estatística e Experimentação Agronômica, ESALQ/USP – Piracicaba. MANLY, B. F. J. Randomization, Bootstrap and Monte Carlo Methods in Biology, Flórida: Champman & Hall, 460p. 2006. VIOLA, D. N.; SOARES JUNIOR, J. S., LIMA, V. M. C. Modelo Autologistico Espacial com estrutura de vizinhança de terceira ordem: uma avaliação do estimador de pseudo-verossimilhança. In: ESCOLA DE MODELOS DE REGRESSÃO, XI., 2009, Recife. Anais da XI Escola de Modelos de Regressão. Recife. 2009. p. 28. II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 3