Estatística: Aplicação ao Sensoriamento Remoto ANO 2010 Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/estatistica/ Amostragem Problema: quanto pesa, em média, uma folha de eucalipto? 1 kg? 1 g? 1 g quantas folhas tem, em média, um eucalipto? 2? 1.000? 1.000.000.000? Amostragem ou Censo? Por que fazer amostragem? população infinita diminuir custo aumentar velocidade na caracterização (medidas que variam no tempo) aumentar a representatividade melhorar a precisão (mais cuidado na obtenção dos dados) minimizar perdas por medidas destrutivas Por que fazer censo? população pequena ou amostragem muito grande em relação a população precisão completa (não se permite erros) a observação já é completa Amostragem Problema: quanto pesa, em média, uma folha de eucalipto? 1 kg? 1 g? 1 g quantas folhas tem, em média, um eucalipto? 2? 1.000? 1.000.000.000? Quanto amostrar? depende: da variabilidade original dos dados (maior variância maior n) da precisão requerida no trabalho (maior precisão maior n) do tempo disponível (menor o tempo menor n) do custo da amostragem (maior o custo menor n) Como amostrar? amostragem probabilística X não probabilística Amostragem Probabilística e Não Probabilística Amostragem probabilística: cada elemento da população tem uma probabilidade (não nula) de ser escolhido Amostragem não probabilística: amostragem restrita aos elementos que se tem acesso (ex: drogados) escolha a esmo (ex: coelhos numa gaiola, escolha de parafusos numa caixa) impossibilidade de sorteio (ex: sangue) amostragem intencional, sem sorteio (ex: escolha de elementos “típicos”) voluntários (ex: testes de vacina) Amostragem Aleatória Simples Escolhe-se n elementos de uma população de tamanho N amostra = {X1, X2, ..., Xn} P( X1 X 2 ... X n ) n (n 1) N ( N 1) n (n 1) N N 1 n! 1 n n ( N n 1) PN CN 1 n! n N N (sem reposição) (com reposição) Exemplo: escolher 10 pixels de uma imagem 13x17 etapas: rotular cada pixel com um código único sortear aleatoriamente 10 códigos (tabelas ou geradores de números aleatórios) identificar os pixels selecionados OBS: método mais simples pressupõe população homogênea Amostragem Aleatória Estratificada Primeiramente a população (N) é dividida em L sub-populações (estratos) com N1, N2, ..., NL elementos. Para cada estrato, escolhe-se ni elementos aleatoriamente, totalizando n elementos. todos iguais ni ni proporcionais a Ni n L ni n Ni N tamanho ótimo (considera a variabilidade) ni n N i si L N s i 1 i i Exemplo: escolher 10 pixels de uma imagem 13x17 etapas: selecionar um estrato rotular cada pixel com um código único sortear aleatoriamente ni códigos (tabelas ou geradores de números aleatórios) identificar os pixels selecionados repetir o processo para todos os estratos OBS: usado para população heterogênea (estratos homogêneos) Amostragem Sistemática Se os elementos da população já se encontram ordenados segundo algum critério, pode-se selecionar um elemento qualquer e escolher um “passo” que definirá qual será o próximo elemento escolhido. 1 10 20 passo = 5 Exemplo: escolher pixels de uma imagem 13x17 com passos 5 em x e 4 em y etapas: escolher aleatoriamente um pixel na janela 5x4 superior esquerda com base nesse pixel, definir uma grade com espaçamento de 5x4 elementos identificar os pixels selecionados OBS: amostra-se uniformemente todo o espaço Outras Amostragens Amostragem em múltiplos estágios amostragem sistemática dentro do talhão talhões Amostragem por conglomerados amostra-se todos (ou alguns) elementos do conglomerado conglomerados Tamanho da Amostra É calculado com base no parâmetro que se deseja estimar e leva em consideração as incertezas inerentes a esta estimação: a) variação “natural” dos dados (variância populacional) b) erros do tipo I e II Exemplo: Deseja-se estimar a exatidão de um mapa de modo que o valor estimado não ultrapasse em 8% a exatidão verdadeira (para mais ou para menos), utilizando-se um nível de confiança de 95%. Suponha que a exatidão verdadeira é de 80%. pq 0,14 P z / 2 pq pˆ p z / 2 n pˆ p ~ N 0, n 0,12 pq 1 0,1 n 0,08 P 0,08 pˆ p 0,08 0,95 2 0,06 0,04 z / 2 pq 0,02 2 n e 0 0 2 1,962 0,80 0, 20 n 96,04 2 0,08 2 1 n 96 - 5 10 15 + amplitude erro máximo de total estimativa e z / 2 20 pq n Tamanho da Amostra É calculado com base no parâmetro que se deseja estimar e leva em consideração as incertezas inerentes a esta estimação: a) variação “natural” dos dados (variância populacional) b) erros do tipo I e II Exemplo: Deseja-se testar se a exatidão de um mapa é no mínimo de 85%, adotando-se 5% de nível de significância. Deseja-se, ainda, fixar a probabilidade em 6% de se aceitar um mapa com 81% de exatidão (erro tipo II). 0,14 H1 p0 q0 0,12 ˆ P p p0 z 1 0,1 n 0,08 p0 q0 0,06 p0 z p1 pˆ p n 1 0,04 P 0,02 p1q1 p1q1 0 n n 0 5 0,81 p0 q0 p1q1 P z z p0 p1 n n 2 2 1,555 0,81 0,19 1, 645 0,85 0,15 z p1q1 z p0 q0 n n 2 2 0,85 0,81 p p 0 1 H0 1 10 0,85 n 126 15