Estatística: Aplicação ao Sensoriamento Remoto SER 202 - ANO 2015 Técnicas de Reamostragem Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/estatistica/ Distribuição Amostral Testes paramétricos clássicos utilizam estatísticas (calculadas a partir de uma amostra) cujas distribuições amostrais teóricas são conhecidas. 2 X ~ N 0,1 Exemplo: X ~ N , n n Se H 0 : 0 for verdadeira, então X ~ N 0,1 n Nem todos os estimadores têm suas distribuições amostrais facilmente definidas, mesmo quando se conhece a distribuição original da variável aleatória estudada. Exemplo: X ~ N , 2 mediana(X1 , X 2 ,, X n ) ~ ? Quando a amostra é pequena, certas suposições podem não ser válidas, dificultando a obtenção da distribuição amostral de um estimador qualquer. Exemplo: 2 X X ~ ? , ~ N 0,1 se n for grande (TLC) n n 2 Reamostragem A reamostragem é o nome que se dá a um conjunto de técnicas ou métodos que se baseiam em calcular estimativas a partir de repetidas amostragens dentro da mesma amostra (única). Estas técnicas se propõem a avaliar as incertezas relacionadas a obtenção de estatísticas com distribuições amostrais desconhecidas. Também podem ser utilizadas para avaliar a significância de testes cujas estatísticas básicas não têm suas propriedades bem estabelecidas ou cujas premissas não podem ser consideradas verdadeiras. Exemplos de técnicas de reamostragem: Testes de Aleatorização (Testes de Permutação) Jackknife Bootstrap Validação Cruzada 3 Testes de Aleatorização Testes de aleatorização (ou testes de permutação ou testes exatos) são típicos testes de significância onde a distribuição da estatística testada é obtida calculando-se todos os possíveis valores desta estatística rearranjando-se os valores da amostra considerando uma hipótese nula verdadeira. Região Área corretamente classificada Dif 1 imagem 2 imagens 1 70 117 47 2 51 48 -3 3 60 63 3 4 57 90 33 5 43 41 -2 6 15 21 6 7 25 36 11 8 103 122 19 Dif média = 14,25 Qual valor esperado caso não houvesse diferença na área corretamente classificada quando uma ou duas imagens forem utilizadas? Quão raro seria encontrar o valor 14,25 nesse caso? Ou seja, qual o valor-P associado a esta estatística? Solução: calcular todos os valores possíveis de diferença média quando trocamos ou não os valores entre as 2 abordagens para cada amostra. Com isso, obtém-se a distribuição amostral desta estatística . 4 Testes de Aleatorização H0: não há diferença entre as abordagens (Dif média = 0) H1: usar 2 imagens é melhor que usar apenas 1 imagem (Dif média > 0) Se H0 é verdadeira, então haverá 28 possibilidades de trocas, gerando 256 resultados diferentes Região Área corretamente classificada Dif Dif 1 imagem 2 imagens 1 70 117 47 -47 2 48 51 3 3 60 63 3 4 57 90 33 5 41 43 2 6 15 21 7 25 8 103 Região Área corretamente classificada Dif 1 imagem 2 imagens 1 117 70 -47 -3 2 51 48 -3 3 3 63 60 -3 4 90 57 -33 -2 5 43 41 -2 6 6 6 21 15 -6 36 11 -11 7 36 25 -11 122 19 -19 8 122 103 -19 Dif média 15,5 -5 Dif média -15,5 ... 33 ... Valor-P = P(Dif média H0 verdadeiro Dif média observada) = 2,34% Conclusão: rejeita-se H0 a 5% de significância, ou seja, é melhor usar 2 imagens (ver Aleatorização em Reamostragem.xls) 5 Jackknife Também chamado “leave-one-out test” Usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na remoção de 1 amostra (podendo ser mais) do conjunto total observado, recalculando-se o estimador a partir dos valores restantes. É de fácil implementação e possui número fixo de iterações (n caso se retire apenas 1 amostra por vez). 6 Jackknife População, amostragem X1, X2, ..., Xn reamostragem X2, X3, ..., Xn estatísticas ˆ(1) n vezes X1, X3, ..., Xn X1, X2, ..., Xn-1 ˆ(2) ˆ( n ) inferência estimado por ˆ 7 Jackknife Suponha que um determinado parâmetro pode ser estimado a partir de uma amostra de n valores, ou seja, ˆ f ( x , x ,..., x ) 1 2 n Então a i-ésima replicação Jackknife corresponde ao valor estimado sem a amostra i: ˆ(i ) f ( x1 , x2 ,...xi 1 , xi 1 ,..., xn ) Define-se o i-ésimo pseudovalor como: x(*i ) nˆ (n 1)ˆ(i ) Com base nos pseudovalores, pode-se calcular então: n 1 ˆjk x(*i ) nˆ (n 1)ˆ(.) n i 1 n 1 Varjk ˆ ˆ(i ) ˆ(.) n i 1 n n onde ˆ(.) 1 ˆ(i ) n i 1 ˆ jk Varjk ˆ ~ t n 1 (n grande) 2 Efron, B.; Stein, C. The Jacknife estimate of variance. The Annals of Statistics, 9(3): 586-596. 1981 8 Jackknife Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: 1 2 3 4 5 6 7 8 9 10 X 2,2 3,5 3,4 6,7 6,2 8,2 9,2 7,9 9,0 10,1 mg(i) x*(i) 6,688 -0,350 6,352 2,677 6,372 2,492 5,910 6,656 5,961 6,196 5,779 7,837 5,705 8,497 5,803 7,621 5,719 8,372 5,646 9,027 Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? mg 10 2,2 3,5...10,1 5,9844 (amostra completa) m g(1) 10 3,5 3,4 ...10,1 6,688 m g(10 ) 10 2,2 3,5 ... 9,0 5,646 x *(1) 10 5,9844 9 6,688 0,350 x *(10 ) 10 5,9844 9 5,646 9,027 1 10 m gJK x *(i ) 5,9026 10 i 1 (ver exemplo JK em Reamostragem.xls) 9 10 2 VarJK (m g) m g(i ) m g(.) 1,0119 10 i 1 9 Bootstrap Pode ser considerado uma estratégia mais abrangente que o Jackknife por permitir um maior número de replicações. Também é usado para estimar a variância e a tendência de um estimador qualquer. Baseia-se na geração de uma nova amostra de mesmo tamanho da amostra original, a partir do sorteio aleatório com reposição de seus elementos. 10 Bootstrap População, amostragem X1, X2, ..., Xn reamostragem Yk é um dos Xi m vezes inferência estimado por ˆ (com repetição) Y1, Y2, ..., Yn estatísticas ˆ(1) Y1, Y2, ..., Yn Y1, Y2, ..., Yn ˆ(2) ˆ( n ) 11 Bootstrap Suponha que um determinado parâmetro pode ser estimado a partir de uma amostra de n valores, ou seja, ˆ f x1, x2 ,, xn Então a cada iteração j o valor estimado a partir da amostra será: ˆ(i ) f y1 , y2 ,, yn onde yk é um dos valores da amostra (com reposição) Com base nas estimativas de m iterações, pode-se calcular então: m 1 ˆb ˆ(i ) m i 1 ˆb 2 1 m ˆ ˆ Varb (i ) ˆ m i 1 Varb ˆ ~ tn (n grande) Recomenda-se que m n2 , ou pelo menos, m = n ln(n) 12 Bootstrap Suponha que se deseja saber qual é a média geométrica de uma população e para isso obteve-se uma amostra de 10 valores: 1 2 3 4 5 6 7 8 9 10 X 2,2 3,5 3,4 6,7 6,2 8,2 9,2 7,9 9,0 10,1 Qual é o valor da média geométrica desta amostra e qual a variância deste estimador? mg 10 2,2 3,5...10,1 5,9844 (amostra completa) Y1 {3,4;6,7;8,2;7,9;10,1;9,2;7,9;6,2;3,5;10,1} m g(1) 6,8794 Y200 {7,9;9,2;9,0;8,2;10,1;8,2;6,2;7,9;9,2} m g( 200 ) 8,3158 1 200 m gb m g(i ) 6,0703 200 i 1 1 200 m g(i) 5,98442 0,9611 Varb m g 200 i 1 (ver exemplo BS em Reamostragem.xls) 13 Validação Cruzada Tipicamente, na validação cruzada, a amostra é particionada aleatoriamente em dois subconjuntos: um de treinamento e outro de teste (validação). Esta técnica é aplicada principalmente quando um modelo é gerado e posteriormente este modelo é utilizado para se fazer predição. É importante observar que as avaliações feitas sobre o mesmo conjunto amostral de treinamento (única amostra) sempre são superestimadas uma vez que o modelo encontrado tenta minimizar os erros de cada observação em relação ao modelo desejado. Para reduzir a casualidade do resultado encontrado após uma única divisão arbitrária, pode-se repetir o processo de partição aleatoriamente muitas vezes (validação cruzada exaustiva) e avaliar cada uma delas, sintetizando os resultados em uma medida de tendência central (média, mediana, etc). Outra abordagem bastante utilizada é reservar apenas 1 amostra por vez para teste e usar as demais para validação. Este método é conhecido como Validação Cruzada LOO (Leave One Out). 14 Validação Cruzada Num estudo de regressão, por exemplo, um conjunto pode ser usado para calcular os coeficientes da equação e o outro para comparar com os valores estimados por esta regressão. Treinamento X 1,2 1,9 2,8 4,3 5,5 7,2 9,1 11,7 13,0 14,9 Y 16,4 13,3 18,4 21,4 27,7 23,0 25,8 35,2 34,5 42,4 Teste X 2,5 3,6 5,6 7,8 10,1 11,1 12,0 12,4 13,7 14,7 Y 12,8 22,1 23,3 24,7 31,9 34,0 38,0 39,2 44,2 41,0 (ver exemplo VCruzada em Reamostragem.xls) Yest 17,3 19,3 23,0 27,0 31,2 33,0 34,6 35,4 37,7 39,5 erro -4,5 2,8 0,3 -2,3 0,7 1,0 3,4 3,8 6,5 1,5 erro m édio 1,32 RMS 3,42 r 0,9708 15