Estatística: Aplicação ao Sensoriamento Remoto
SER 202 - ANO 2015
Teoria da amostragem
Camilo Daleles Rennó
[email protected]
http://www.dpi.inpe.br/~camilo/estatistica/
Algumas Considerações...
É importante ter consciência de que dominar as técnicas estatísticas não é
suficiente para garantir o sucesso de uma análise, ou seja, conseguir chegar a
conclusões “interessantes”.
De forma geral, para que as análises estatísticas sejam válidas, as amostras
devem representar a população, ou seja, a menos que discrepâncias ocorram
devido ao acaso, as amostras devem reproduzir as mesmas características da
população considerando a variável estudada.
É fundamental que as amostras sejam obtidas por processos adequados de modo
a evitar que erros grosseiros possam comprometer a análise dos dados.
2
Algumas Considerações...
Em muitos casos, é bastante tentador que as observações mais convenientes
sejam as selecionadas para compor uma amostra ou então aplicar algum tipo de
critério (ou julgamento) no momento dessa seleção.
Nesses casos, pode-se introduzir algum tipo de tendência que poderá causar uma
super ou subestimativa dos parâmetros de interesse. A identificação (e
descrição) desta tendência é quase sempre difícil (ou impossível) de ser feita
após a coleta dessas amostras.
Assim, para se evitar esse tipo de problema, o ideal é que a seleção das amostras
seja feito através de algum processo aleatório, de modo que qualquer elemento
da população tenha igual chance de ser escolhido para compor a amostra.
3
Censo ou Amostragem?
Por que fazer Censo?
•
a população é pequena ou amostragem indicada é quase tão grande quanto a população
•
necessita-se de uma precisão completa (não é permitido nenhum erro)
•
os dados de toda população já se encontram disponíveis
Por que fazer Amostragem?
•
a população é infinita (ou muito grande)
•
os custos de obtenção das medidas são elevados (análises muito caras)
•
o tempo para caracterização da população é muito longo
•
deseja-se aumentar a representatividade, amostrando-se diferentes subgrupos
•
necessita-se melhorar a precisão das medidas (mais cuidado na obtenção dos dados)
•
a obtenção das medidas requer a destruição das amostras (p. ex: biomassa)
4
Amostragem
Toda amostragem requer planejamento
a) O que quero caracterizar neste estudo?
algum parâmetro específico (média, variância, etc),
distribuição espacial, variação temporal?
b) Qual é a unidade amostral apropriada para o estudo?
quem é o elemento da população?
c) Quantas amostras são necessárias?
qual é a precisão exigida?
quanto tempo e recurso disponho?
d) Como estas amostras devem ser coletadas?
qual é a variabilidade espacial e temporal?
quais fatores podem influenciar nos resultados?
5
Unidade Amostral
A unidade amostral representa a menor entidade identificada na população e é
considerada o objeto de estudo.
Em um mapa, por exemplo, a unidade amostral pode ser:
• pontos simples (ou pixels numa imagem)
sorteio aleatório é facilitado
mesmo com GPS, a localização precisa pode ser difícil de ser alcançada
pode induzir a erros em regiões heterogêneas
• grupos de pontos ou pixels
considera a informação contextual
minimiza problemas de georreferenciamento
deve representar áreas homogêneas (deve-se evitar áreas de transição)
deve ser contabilizado como apenas uma observação e portanto deve-se adotar
uma medida representativa para o grupo (média, mediana, etc)
• polígonos (ou objetos)
mesmos benefícios encontrados em grupos de pontos
dificilmente há correspondência espacial perfeita com a realidade
• grupos de polígonos
útil quando os polígonos são muito pequenos
6
Tamanho de Amostra
Quanto amostrar?
depende:
da variabilidade original dos dados (maior variância  maior n)
da precisão requerida no trabalho (maior precisão  maior n)
do tempo disponível (menor o tempo  menor n)
do custo da amostragem (maior o custo  menor n)
Em geral, é calculado com base no parâmetro que se deseja estimar e leva em
consideração as incertezas inerentes a esta estimação:
a) variação “natural” dos dados (variância populacional)
b) erros do tipo I e II
7
Tamanho da Amostra
  
X   ~ N  0,

 n 
0,12
0,1

  0,08

P   z /2
 X    z /2
 1 
 0,06
n
n  0,04

e  z /2

n
 z /2  
2
 n
e

2

2
1
0,02
2
0
0
2
-
5
10
15
erro máximo
de estimativa
Proporção
 pq 
pˆ  p ~ N  0,

 n 
+
20
 pq 
pˆ  p ~ N  0,

 n 
0,14
0,12
0,1

pq
pq  0,08
 0,06
P  z / 2
 pˆ  p  z / 2
 1
n
n

 0,04
pq  n   z /2  pq
e2
n
2
e  z /2
 2 
X   ~ N  0,

 n 
Média
0,14
2

2
1

2
0,02
0
0
-
5
10
erro máximo
de estimativa
15
+
20
8
Tamanho da Amostra
Correção para populações finitas
(quando a amostra representa mais que 5% da população)
n' 
n = tamanho de amostra sem correção
N = tamanho da população
n' = tamanho de amostra corrigido
n
n 1
1
N
N 2  z / 2 
n' 
N  1e 2   2 z / 2 2
2
Para média:
Npqz / 2 
Para proporção: n' 
N  1e2  pqz / 2 2
2
9
Tamanho da Amostra
Exemplo: Deseja-se estimar a exatidão de um mapa de modo que o valor estimado
não ultrapasse em 8% a exatidão verdadeira (para mais ou para menos),
utilizando-se um nível de confiança de 95%. Suponha que a exatidão verdadeira é
de 80%.
z 
n   /2
2
pq
e2
1,962 0,80 0, 20
n
 96, 04
2
0, 08
n  96
No pior caso (maior variância), a exatidão verdadeira seria de 50%.
1,962 0,50 0,50
n
 150,06
0,082
n  150
10
Tamanho da Amostra
Pode também considerar também o erro  (tipo II)
Exemplo para proporção
Hipóteses
0,14
H0 : p = p0
0,1
0,08
H1: p < p0

P  pˆ  p0  z


p0 q0
n
0,06

  1  

1
0,04

0,02
0
0
5


p0 q0
p0  z
 p1 
 pˆ  p
n
1

P

 p1q1

p1q1


n
n


10
15
p0
p1
Considerando H1verdadeira (p = p1)
z
H0
H1
0,12


P  z


p1q1
 z
n
n

z

p0 q0
 p0  p1   

n

p1q1  z
 p0  p1 
p0 q0

2
2
11
Tamanho da Amostra
Exemplo: Deseja-se testar se a exatidão de um mapa é no mínimo de 85%,
adotando-se 5% de nível de significância. Deseja-se, ainda, fixar a probabilidade
em 6% de se aceitar um mapa com 81% de exatidão (erro tipo II).
0,14
H0 : p = 0,85
H0
H1
0,12
0,1
0,08
H1: p = 0,81
0,06
1
0,04
z

n

p1q1  z
 p0  p1 
1,555


p0 q0

2
0
0
2
0,81 0,19  1, 645 0,85 0,15
 0,85  0,81

0,02

2
5
10
0,85
0,81
15

2
n  896
12
Tipos de Amostragem
Como amostrar?
amostragem probabilística X não probabilística
Amostragem probabilística:
cada elemento da população tem uma probabilidade (não nula) de ser escolhido
Amostragem não probabilística:
amostragem restrita aos elementos que se tem acesso (ex: estudo sobre ocorrência
de focos de dengue em casas de veraneio)
escolha a esmo (ex: estudo sobre a variabilidade no DAP em talhões de
reflorestamento de eucalipto)
impossibilidade de sorteio (ex: estudo sobre qualidade de água num rio)
amostragem intencional ou por julgamento (ex: estudo sobre o comportamento social
de machos adultos de muriquis)
voluntários (ex: estudo sobre a eficácia de uma nova vacina contra febre amarela)
13
Amostragem Aleatória Simples
Escolhe-se n elementos de uma população de tamanho N
amostra = {X1, X2, ..., Xn}
Exemplo: escolher 10 pixels de uma imagem 13x17
etapas: rotular cada pixel com um código único
sortear aleatoriamente 10 códigos
(tabelas ou geradores de números aleatórios)
identificar os pixels selecionados
OBS: método mais simples
rotulação dos elementos pode ser dispendiosa
pressupõe população homogênea
não garante representatividade pois alguns
grupos (mais raros) podem não ser sorteados
14
Amostragem Aleatória Estratificada
Primeiramente a população (N) é dividida em L sub-populações (estratos) com
N1, N2, ..., NL elementos. Para cada estrato, escolhe-se ni elementos
aleatoriamente, totalizando n elementos.
ni 
n
L
todos iguais
ni  n
Ni
N
proporcionais a Ni
ni  n
N i si
L
N s
i 1
i i
tamanho ótimo
(considera a variabilidade)
Exemplo: escolher 10 pixels de uma imagem 13x17
etapas: selecionar um estrato
rotular cada pixel com um código único
sortear aleatoriamente ni códigos
(tabelas ou geradores de números aleatórios)
identificar os pixels selecionados
repetir o processo para todos os estratos
OBS: garante menor variabilidade
garante melhor representatividade
pressupõe estratos homogêneos
requer conhecimento prévio sobre os estratos
15
Amostragem Sistemática
Se os elementos da população já se encontram ordenados segundo algum
critério, pode-se selecionar um elemento qualquer e escolher um “passo” que
definirá qual será o próximo elemento escolhido.
1
10
20
passo = 5
Exemplo: escolher pixels de uma imagem 13x17 com
passos 5 em x e 4 em y
etapas: escolher aleatoriamente um pixel na célula
5x4 superior esquerda
com base nesse pixel, definir uma grade com
espaçamento de 5x4 elementos
identificar os pixels selecionados
OBS: amostra-se uniformemente todo o espaço
garante-se 1 amostra por célula (5x4 no exemplo acima)
pode-se não conseguir o valor exato de amostras
pretendidas
desaconselhado para ordenações periódicas
16
Amostragem Sistemática Não Alinhada
A ideia é semelhante da amostragem sistemática
mas, nesse caso, tenta-se aleatorizar os passos de
modo a desalinhar as amostras sorteadas.
Ainda assim, garante-se apenas uma amostra para
cada célula
Exemplo: escolher pixels de uma imagem 13x17 com
passos máximos de 5 em x e 4 em y
etapas: a cada célula 5x4 da primeira linha, definir
um passo em y
a cada célula da primeira coluna, definir um
passo em x
identificar os pixels selecionados
17
Outras Amostragens
Amostragem em múltiplos estágios
amostragem sistemática
dentro do talhão
talhões
Amostragem por conglomerados
amostra-se todos (ou alguns)
elementos do conglomerado
conglomerados
18
Download

13TAmostr - DPI