Estatística: Aplicação ao Sensoriamento Remoto
ANO 2010
Camilo Daleles Rennó
[email protected]
http://www.dpi.inpe.br/~camilo/estatistica/
Amostragem
Problema: quanto pesa, em média, uma folha de eucalipto? 1 kg? 1 g? 1 g
quantas folhas tem, em média, um eucalipto?
2? 1.000? 1.000.000.000?
Amostragem ou Censo?
Por que fazer amostragem?
população infinita
diminuir custo
aumentar velocidade na caracterização (medidas que variam no tempo)
aumentar a representatividade
melhorar a precisão (mais cuidado na obtenção dos dados)
minimizar perdas por medidas destrutivas
Por que fazer censo?
população pequena ou amostragem muito grande em relação a população
precisão completa (não se permite erros)
a observação já é completa
Amostragem
Problema: quanto pesa, em média, uma folha de eucalipto? 1 kg? 1 g? 1 g
quantas folhas tem, em média, um eucalipto?
2? 1.000? 1.000.000.000?
Quanto amostrar?
depende:
da variabilidade original dos dados (maior variância  maior n)
da precisão requerida no trabalho (maior precisão  maior n)
do tempo disponível (menor o tempo  menor n)
do custo da amostragem (maior o custo  menor n)
Como amostrar?
amostragem probabilística X não probabilística
Amostragem Probabilística e Não Probabilística
Amostragem probabilística:
cada elemento da população tem uma probabilidade (não nula) de ser escolhido
Amostragem não probabilística:
amostragem restrita aos elementos que se tem acesso (ex: drogados)
escolha a esmo (ex: coelhos numa gaiola, escolha de parafusos numa caixa)
impossibilidade de sorteio (ex: sangue)
amostragem intencional, sem sorteio (ex: escolha de elementos “típicos”)
voluntários (ex: testes de vacina)
Amostragem Aleatória Simples
Escolhe-se n elementos de uma população de tamanho N
amostra = {X1, X2, ..., Xn}
P( X1  X 2  ...  X n ) 

n (n  1)
N ( N  1)
n (n  1)
N N
1
n!
1
 n  n
( N  n  1) PN CN
1
n!
 n
N
N
(sem reposição)
(com reposição)
Exemplo: escolher 10 pixels de uma imagem 13x17
etapas: rotular cada pixel com um código único
sortear aleatoriamente 10 códigos
(tabelas ou geradores de números aleatórios)
identificar os pixels selecionados
OBS:
método mais simples
pressupõe população homogênea
Amostragem Aleatória Estratificada
Primeiramente a população (N) é dividida em L sub-populações (estratos) com
N1, N2, ..., NL elementos. Para cada estrato, escolhe-se ni elementos
aleatoriamente, totalizando n elementos.
todos iguais
ni
ni 
proporcionais a Ni
n
L
ni  n
Ni
N
tamanho ótimo (considera a variabilidade)
ni  n
N i si
L
N s
i 1
i i
Exemplo: escolher 10 pixels de uma imagem 13x17
etapas: selecionar um estrato
rotular cada pixel com um código único
sortear aleatoriamente ni códigos
(tabelas ou geradores de números aleatórios)
identificar os pixels selecionados
repetir o processo para todos os estratos
OBS:
usado para população heterogênea
(estratos homogêneos)
Amostragem Sistemática
Se os elementos da população já se encontram ordenados segundo algum
critério, pode-se selecionar um elemento qualquer e escolher um “passo” que
definirá qual será o próximo elemento escolhido.
1
10
20
passo = 5
Exemplo: escolher pixels de uma imagem 13x17 com
passos 5 em x e 4 em y
etapas: escolher aleatoriamente um pixel na janela
5x4 superior esquerda
com base nesse pixel, definir uma grade com
espaçamento de 5x4 elementos
identificar os pixels selecionados
OBS:
amostra-se uniformemente todo o espaço
Outras Amostragens
Amostragem em múltiplos estágios
amostragem sistemática
dentro do talhão
talhões
Amostragem por conglomerados
amostra-se todos (ou alguns)
elementos do conglomerado
conglomerados
Tamanho da Amostra
É calculado com base no parâmetro que se deseja estimar e leva em consideração as
incertezas inerentes a esta estimação:
a) variação “natural” dos dados (variância populacional)
b) erros do tipo I e II
Exemplo: Deseja-se estimar a exatidão de um mapa de modo que o valor estimado
não ultrapasse em 8% a exatidão verdadeira (para mais ou para menos),
utilizando-se um nível de confiança de 95%. Suponha que a exatidão verdadeira é
de 80%.
pq
0,14

P   z / 2

pq
 pˆ  p  z / 2
n


pˆ  p ~ N  0,

 n 
0,12
pq 

1



0,1
n 
0,08
P  0,08  pˆ  p  0,08  0,95

2
0,06
0,04
 z / 2  pq
0,02
2
n
e
0
0
2
1,962 0,80 0, 20
n
 96,04
2
0,08

2
1
n  96
-
5
10
15
+
amplitude
erro máximo
de
total
estimativa
e  z / 2
20
pq
n
Tamanho da Amostra
É calculado com base no parâmetro que se deseja estimar e leva em consideração as
incertezas inerentes a esta estimação:
a) variação “natural” dos dados (variância populacional)
b) erros do tipo I e II
Exemplo: Deseja-se testar se a exatidão de um mapa é no mínimo de 85%,
adotando-se 5% de nível de significância. Deseja-se, ainda, fixar a probabilidade
em 6% de se aceitar um mapa com 81% de exatidão (erro tipo II).
0,14
H1

p0 q0 
0,12
ˆ
P  p  p0  z
  1  

0,1
n


0,08


p0 q0
0,06
p0  z
 p1 
 pˆ  p
n
1
0,04

P

0,02
 p1q1

p1q1



0
n
n


0
5
0,81


p0 q0
p1q1
P  z
 z
 p0  p1   


n
n



2
2
1,555 0,81 0,19  1, 645 0,85 0,15 
z p1q1  z p0 q0 


n
n
2
2
0,85

0,81


p

p
 0 1
H0
1
10
0,85
n  126
15