Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Teoria da amostragem Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/estatistica/ Algumas Considerações... É importante ter consciência de que dominar as técnicas estatísticas não é suficiente para garantir o sucesso de uma análise, ou seja, conseguir chegar a conclusões “interessantes”. De forma geral, para que as análises estatísticas sejam válidas, as amostras devem representar a população, ou seja, a menos que discrepâncias ocorram devido ao acaso, as amostras devem reproduzir as mesmas características da população considerando a variável estudada. É fundamental que as amostras sejam obtidas por processos adequados de modo a evitar que erros grosseiros possam comprometer a análise dos dados. 2 Algumas Considerações... Em muitos casos, é bastante tentador que as observações mais convenientes sejam as selecionadas para compor uma amostra ou então aplicar algum tipo de critério (ou julgamento) no momento dessa seleção. Nesses casos, pode-se introduzir algum tipo de tendência que poderá causar uma super ou subestimativa dos parâmetros de interesse. A identificação (e descrição) desta tendência é quase sempre difícil (ou impossível) de ser feita após a coleta dessas amostras. Assim, para se evitar esse tipo de problema, o ideal é que a seleção das amostras seja feito através de algum processo aleatório, de modo que qualquer elemento da população tenha igual chance de ser escolhido para compor a amostra. 3 Censo ou Amostragem? Por que fazer Censo? • a população é pequena ou amostragem indicada é quase tão grande quanto a população • necessita-se de uma precisão completa (não é permitido nenhum erro) • os dados de toda população já se encontram disponíveis Por que fazer Amostragem? • a população é infinita (ou muito grande) • os custos de obtenção das medidas são elevados (análises muito caras) • o tempo para caracterização da população é muito longo • deseja-se aumentar a representatividade, amostrando-se diferentes subgrupos • necessita-se melhorar a precisão das medidas (mais cuidado na obtenção dos dados) • a obtenção das medidas requer a destruição das amostras (p. ex: biomassa) 4 Amostragem Toda amostragem requer planejamento a) O que quero caracterizar neste estudo? algum parâmetro específico (média, variância, etc), distribuição espacial, variação temporal? b) Qual é a unidade amostral apropriada para o estudo? quem é o elemento da população? c) Quantas amostras são necessárias? qual é a precisão exigida? quanto tempo e recurso disponho? d) Como estas amostras devem ser coletadas? qual é a variabilidade espacial e temporal? quais fatores podem influenciar nos resultados? 5 Unidade Amostral A unidade amostral representa a menor entidade identificada na população e é considerada o objeto de estudo. Em um mapa, por exemplo, a unidade amostral pode ser: • pontos simples (ou pixels numa imagem) sorteio aleatório é facilitado mesmo com GPS, a localização precisa pode ser difícil de ser alcançada pode induzir a erros em regiões heterogêneas • grupos de pontos ou pixels considera a informação contextual minimiza problemas de georreferenciamento deve representar áreas homogêneas (deve-se evitar áreas de transição) deve ser contabilizado como apenas uma observação e portanto deve-se adotar uma medida representativa para o grupo (média, mediana, etc) • polígonos (ou objetos) mesmos benefícios encontrados em grupos de pontos dificilmente há correspondência espacial perfeita com a realidade • grupos de polígonos útil quando os polígonos são muito pequenos 6 Tamanho de Amostra Quanto amostrar? depende: da variabilidade original dos dados (maior variância maior n) da precisão requerida no trabalho (maior precisão maior n) do tempo disponível (menor o tempo menor n) do custo da amostragem (maior o custo menor n) Em geral, é calculado com base no parâmetro que se deseja estimar e leva em consideração as incertezas inerentes a esta estimação: a) variação “natural” dos dados (variância populacional) b) erros do tipo I e II 7 Tamanho da Amostra X ~ N 0, n 0,12 0,1 0,08 P z /2 X z /2 1 0,06 n n 0,04 e z /2 n z /2 2 n e 2 2 1 0,02 2 0 0 2 - 5 10 15 erro máximo de estimativa Proporção pq pˆ p ~ N 0, n + 20 pq pˆ p ~ N 0, n 0,14 0,12 0,1 pq pq 0,08 0,06 P z / 2 pˆ p z / 2 1 n n 0,04 pq n z /2 pq e2 n 2 e z /2 2 X ~ N 0, n Média 0,14 2 2 1 2 0,02 0 0 - 5 10 erro máximo de estimativa 15 + 20 8 Tamanho da Amostra Correção para populações finitas (quando a amostra representa mais que 5% da população) n' n = tamanho de amostra sem correção N = tamanho da população n' = tamanho de amostra corrigido n n 1 1 N N 2 z / 2 n' N 1e 2 2 z / 2 2 2 Para média: Npqz / 2 Para proporção: n' N 1e2 pqz / 2 2 2 9 Tamanho da Amostra Exemplo: Deseja-se estimar a exatidão de um mapa de modo que o valor estimado não ultrapasse em 8% a exatidão verdadeira (para mais ou para menos), utilizando-se um nível de confiança de 95%. Suponha que a exatidão verdadeira é de 80%. z n /2 2 pq e2 1,962 0,80 0, 20 n 96, 04 2 0, 08 n 96 No pior caso (maior variância), a exatidão verdadeira seria de 50%. 1,962 0,50 0,50 n 150,06 0,082 n 150 10 Tamanho da Amostra Pode também considerar também o erro (tipo II) Exemplo para proporção Hipóteses 0,14 H0 : p = p0 0,1 0,08 H1: p < p0 P pˆ p0 z p0 q0 n 0,06 1 1 0,04 0,02 0 0 5 p0 q0 p0 z p1 pˆ p n 1 P p1q1 p1q1 n n 10 15 p0 p1 Considerando H1verdadeira (p = p1) z H0 H1 0,12 P z p1q1 z n n z p0 q0 p0 p1 n p1q1 z p0 p1 p0 q0 2 2 11 Tamanho da Amostra Exemplo: Deseja-se testar se a exatidão de um mapa é no mínimo de 85%, adotando-se 5% de nível de significância. Deseja-se, ainda, fixar a probabilidade em 6% de se aceitar um mapa com 81% de exatidão (erro tipo II). 0,14 H0 : p = 0,85 H0 H1 0,12 0,1 0,08 H1: p = 0,81 0,06 1 0,04 z n p1q1 z p0 p1 1,555 p0 q0 2 0 0 2 0,81 0,19 1, 645 0,85 0,15 0,85 0,81 0,02 2 5 10 0,85 0,81 15 2 n 896 12 Tipos de Amostragem Como amostrar? amostragem probabilística X não probabilística Amostragem probabilística: cada elemento da população tem uma probabilidade (não nula) de ser escolhido Amostragem não probabilística: amostragem restrita aos elementos que se tem acesso (ex: estudo sobre ocorrência de focos de dengue em casas de veraneio) escolha a esmo (ex: estudo sobre a variabilidade no DAP em talhões de reflorestamento de eucalipto) impossibilidade de sorteio (ex: estudo sobre qualidade de água num rio) amostragem intencional ou por julgamento (ex: estudo sobre o comportamento social de machos adultos de muriquis) voluntários (ex: estudo sobre a eficácia de uma nova vacina contra febre amarela) 13 Amostragem Aleatória Simples Escolhe-se n elementos de uma população de tamanho N amostra = {X1, X2, ..., Xn} Exemplo: escolher 10 pixels de uma imagem 13x17 etapas: rotular cada pixel com um código único sortear aleatoriamente 10 códigos (tabelas ou geradores de números aleatórios) identificar os pixels selecionados OBS: método mais simples rotulação dos elementos pode ser dispendiosa pressupõe população homogênea não garante representatividade pois alguns grupos (mais raros) podem não ser sorteados 14 Amostragem Aleatória Estratificada Primeiramente a população (N) é dividida em L sub-populações (estratos) com N1, N2, ..., NL elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, totalizando n elementos. ni n L todos iguais ni n Ni N proporcionais a Ni ni n N i si L N s i 1 i i tamanho ótimo (considera a variabilidade) Exemplo: escolher 10 pixels de uma imagem 13x17 etapas: selecionar um estrato rotular cada pixel com um código único sortear aleatoriamente ni códigos (tabelas ou geradores de números aleatórios) identificar os pixels selecionados repetir o processo para todos os estratos OBS: garante menor variabilidade garante melhor representatividade pressupõe estratos homogêneos requer conhecimento prévio sobre os estratos 15 Amostragem Sistemática Se os elementos da população já se encontram ordenados segundo algum critério, pode-se selecionar um elemento qualquer e escolher um “passo” que definirá qual será o próximo elemento escolhido. 1 10 20 passo = 5 Exemplo: escolher pixels de uma imagem 13x17 com passos 5 em x e 4 em y etapas: escolher aleatoriamente um pixel na célula 5x4 superior esquerda com base nesse pixel, definir uma grade com espaçamento de 5x4 elementos identificar os pixels selecionados OBS: amostra-se uniformemente todo o espaço garante-se 1 amostra por célula (5x4 no exemplo acima) pode-se não conseguir o valor exato de amostras pretendidas desaconselhado para ordenações periódicas 16 Amostragem Sistemática Não Alinhada A ideia é semelhante da amostragem sistemática mas, nesse caso, tenta-se aleatorizar os passos de modo a desalinhar as amostras sorteadas. Ainda assim, garante-se apenas uma amostra para cada célula Exemplo: escolher pixels de uma imagem 13x17 com passos máximos de 5 em x e 4 em y etapas: a cada célula 5x4 da primeira linha, definir um passo em y a cada célula da primeira coluna, definir um passo em x identificar os pixels selecionados 17 Outras Amostragens Amostragem em múltiplos estágios amostragem sistemática dentro do talhão talhões Amostragem por conglomerados amostra-se todos (ou alguns) elementos do conglomerado conglomerados 18