Estatística: Aplicação ao Sensoriamento Remoto ANO 2010 Camilo Daleles Rennó [email protected] http://www.dpi.inpe.br/~camilo/estatistica/ Teste de Aderência Exemplo: Deseja-se testar a hipótese de que um dado seja honesto. Para tanto, joga-se o mesmo 1200 vezes anotando-se os resultados: Valor do dado 1 2 3 4 5 6 Freq. Abs. Obs. 180 207 191 203 210 209 1200 H0 : p ?i = 1/6 (i = 1, 2, ..., 6) (dado honesto) H1: pelo menos algum pi 1/6 Se H0 é verdadeira, então Valor do dado 1 2 3 4 5 6 Freq. Abs. Obs. 180 207 191 203 210 209 1200 Freq. Abs. Esp. ? 200 200 200 200 200 200 1200 c X i 1 FAObsi FAEspi FAEspi 2 ~ 2 c 1 c21 c é o número de classes 0 X crít H0 verd. ac. H0 + rej. H0 falso H0 Teste de Aderência Exemplo: Deseja-se testar a hipótese de que um dado seja honesto. Para tanto, joga-se o mesmo 1200 vezes anotando-se os resultados (tabela abaixo). H0 : pi = 1/6 (i = 1, 2, ..., 6) (dado honesto) H1: pi 1/6 Se H0 é verdadeira, então Valor do dado 1 2 3 4 5 6 Freq. Abs. Obs. 180 207 191 203 210 209 1200 Freq. Abs. Esp. 200 200 200 200 200 200 1200 180 200 X 200 2 207 200 200 2 209 200 ... 200 2 3,6 Conclusão: considerando 5% de significância, aceita-se H0, ou seja, não há razões para discordar que o dado seja honesto. 0 52 = 0,05 XXcrítcrít11,07 ? + Teste de Normalidade / Teste de Aderência Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8. 2,2 4,1 3,5 4,5 5,0 3,7 3,0 2,6 3,4 1,6 3,1 3,3 3,8 3,1 4,7 3,7 2,5 4,3 4,9 3,6 2,9 3,3 3,9 3,1 4,8 3,1 3,7 4,4 3,2 4,1 1,9 3,4 4,7 3,8 3,0 2,6 3,9 3,0 4,2 3,5 H0 : Y ~ N( = 3,6; 2 = 0,8) H1 : Y ~ ? H0 : (Y – 3,6)/0,8944 = Z ~ N(0,1) H1: (Y – 3,6)/0,8944 ~ ? Valores padronizados: -1,57 0,56 -0,11 1,01 1,57 0,11 -0,67 -1,12 -0,22 -2,24 -0,56 -0,34 0,22 -0,56 1,23 0,11 -1,23 0,78 1,45 0,00 -0,78 -0,34 0,34 -0,56 1,34 -0,56 0,11 0,89 -0,45 0,56 -1,90 -0,22 1,23 0,22 -0,67 -1,12 0,34 -0,67 0,67 -0,11 Teste de Normalidade / Teste de Aderência Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8. Valores padronizados: -1,57 0,56 -0,11 1,01 1,57 0,11 -0,67 -1,12 -0,22 -2,24 -0,56 -0,34 0,22 -0,56 1,23 0,11 -1,23 0,78 1,45 0,00 -0,78 -0,34 0,34 -0,56 1,34 -0,56 0,11 0,89 -0,45 0,56 -1,90 -0,22 1,23 0,22 -0,67 -1,12 0,34 -0,67 0,67 -0,11 Agrupando-se os valores padronizados em 7 classes equiprováveis tem-se Limites - a -1,068 -1,068 a -0,566 -0,566 a -0,180 -0,180 a 0,180 0,180 a 0,566 0,566 a 1,068 1,068 a + FAObs 6 4 9 6 6 4 5 FAEsp 40/7 40/7 40/7 40/7 40/7 40/7 40/7 7 X FAObsi FAEspi i 1 FAEspi 2 ~ 62 X = 3,05 Conclusão: aceita-se H0 a 5% sig., ou seja, Y ~ N( = 3,6; 2 = 0,8) 62 = 0,05 0 X crít 12,59 + Teste de Aderência OBSERVAÇÕES: - Deve-se agrupar os dados em 2 a 20 classes excludentes (ideal ≥ 5); - Se houver apenas 2 classes, o valor esperado de cada uma deve ser ≥ 5; - Se houver mais que 2 classes, não mais de 20% dos valores esperados devem ser < 5, e nenhum deve ser nulo; - Não é necessário que as classes sejam equiprováveis; - Este teste não é sensível ao ordenamento das classes; e - Para cada parâmetro estimado, perde-se 1 grau de liberdade. Teste de Normalidade / Teste de Aderência Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal. 2,2 4,1 3,5 4,5 5,0 3,7 3,0 2,6 3,4 1,6 3,1 3,3 3,8 3,1 4,7 3,7 2,5 4,3 4,9 3,6 2,9 3,3 3,9 3,1 4,8 3,1 3,7 4,4 3,2 4,1 1,9 3,4 4,7 3,8 3,0 2,6 3,9 3,0 4,2 3,5 X 3,5275 s2 0,6528 H0 : Y ~ N( = 3,5275; 2 = 0,6528) H1 : Y ~ ? 2 H0 : (Y – 3,5275)/0,8080 = Z ~ N(0,1) H1: (Y – 3,5275)/0,8080 ~ ? Valores padronizados: -1,64 -0,53 0,71 -0,28 -0,03 0,34 1,20 -0,53 1,82 1,45 0,21 0,21 -0,65 -1,27 -1,15 0,96 -0,16 1,70 -2,39 0,09 -0,78 -2,01 -0,28 -0,16 0,46 1,45 -0,53 0,34 1,57 -0,65 -0,53 -1,15 0,21 0,46 1,08 -0,65 -0,41 0,83 0,71 -0,03 Teste de Normalidade / Teste de Aderência Exemplo: Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer Y. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal. Valores padronizados: -1,64 -0,53 -0,78 -2,01 0,71 -0,28 -0,28 -0,16 -0,03 0,34 0,46 1,45 1,20 -0,53 -0,53 0,34 1,82 1,45 1,57 -0,65 0,21 0,21 -0,53 -1,15 -0,65 -1,27 0,21 0,46 -1,15 0,96 1,08 -0,65 -0,16 1,70 -0,41 0,83 -2,39 0,09 0,71 -0,03 Agrupando-se os valores padronizados em 7 classes equiprováveis tem-se Limites - a -1,068 -1,068 a -0,566 -0,566 a -0,180 -0,180 a 0,180 0,180 a 0,566 0,566 a 1,068 1,068 a + FAObs 6 4 7 5 7 4 7 FAEsp 40/7 40/7 40/7 40/7 40/7 40/7 40/7 Conclusão: aceita-se H0 a 5% sig., ou seja, Y ~ N 7 FAObsi FAEspi i 1 FAEspi X 2 7-1-2 = 4 ~ 42 X=2 42 = 0,05 0 X crít 9,49 + Teste de Kolmogorov-Smirnov Exemplo (usado no teste 2): Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer X. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8. 2,2 4,1 3,5 4,5 5,0 3,7 3,0 2,6 3,4 1,6 3,1 3,3 3,8 3,1 4,7 3,7 2,5 4,3 4,9 3,6 2,9 3,3 3,9 3,1 4,8 3,1 3,7 4,4 3,2 4,1 1,9 3,4 4,7 3,8 3,0 2,6 3,9 3,0 4,2 3,5 H0 : X ~ N( = 3,6; 2 = 0,8) H1 : X ~ ? H0 : (X – 3,6)/0,8944 = Z ~ N(0,1) H1: (X – 3,6)/0,8944 ~ ? Valores padronizados: -1,57 0,56 -0,11 1,01 1,57 0,11 -0,67 -1,12 -0,22 -2,24 -0,56 -0,34 0,22 -0,56 1,23 0,11 -1,23 0,78 1,45 0,00 -0,78 -0,34 0,34 -0,56 1,34 -0,56 0,11 0,89 -0,45 0,56 -1,90 -0,22 1,23 0,22 -0,67 -1,12 0,34 -0,67 0,67 -0,11 Teste de Kolmogorov-Smirnov Exemplo (usado no teste 2): Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer X. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8. Valores padronizados ordenados: -2,24 -1,9 -1,57 -1,23 -1,12 -1,12 -0,78 -0,67 -0,67 -0,67 -0,56 -0,56 -0,56 -0,56 -0,45 -0,34 -0,34 -0,22 -0,22 -0,11 -0,11 0,00 0,11 0,11 0,11 0,22 0,22 0,34 0,34 0,56 0,56 0,67 0,78 0,89 1,01 1,23 1,23 1,34 1,45 1,57 1 i 3 Fobs (1,57) n 40 Fesp (Zi ) P(Z Zi ) Fesp (Z 1,57) 0,0582 Fobs ( Zi ) F (Z ) 0,8 0,6 0,4 D máx Fobs ( Z i ) Fesp ( Z i ) 0,2 0 -3 -2 -1 0 1 Z Observado Observado Esperado 2 3 valores críticos tabelados! Se D maior que Dcrít, então conclui-se que a distribuição teórica não é válida, com certo nível de significância. Teste de Kolmogorov-Smirnov D máx Fobs ( X ) Fesp ( X ) Teste de Kolmogorov-Smirnov Exemplo (usado no teste 2): Considere os dados abaixo, resultantes da observação de 40 valores de uma variável aleatória qualquer X. Deseja-se testar a hipótese de que esta variável aleatória tenha distribuição normal com média igual a 3,6 e variância 2 igual a 0,8. Valores padronizados ordenados: -2,24 -1,9 -1,57 -1,23 -1,12 -1,12 -0,78 -0,67 -0,67 -0,67 -0,56 -0,56 -0,56 -0,56 -0,45 -0,34 -0,34 -0,22 -0,22 -0,11 -0,11 0,00 0,11 0,11 0,11 0,22 0,22 0,34 0,34 0,56 0,56 0,67 0,78 0,89 1,01 1,23 1,23 1,34 1,45 1,57 1 i 3 Fobs (1,57) n 40 Fesp (Zi ) P(Z Zi ) Fesp (Z 1,57) 0,0582 Fobs ( Zi ) F (Z ) 0,8 0,6 0,4 D máx Fobs ( Z i ) Fesp ( Z i ) 0,2 0 -3 -2 -1 0 1 Z Observado Esperado 2 3 D 0,0919 Dcrít 0,2150 ( 5%) Conclusão: pode-se aceitar a hipótese de que os dados provenham de uma normal, a 5% de significância. Teste de Kolmogorov-Smirnov OBSERVAÇÕES: - É o teste mais apropriado para dados ordenados; - Ideal quando a variável tem distribuição contínua; e - Não há uma modificação quando se estima os parâmetros de uma distribuição (não há perdas de graus de liberdade como no teste 2). Teste de Independência Exemplo: Suponha que 200 estudantes sejam selecionados aleatoriamente em uma universidade e que cada estudante seja classificado de acordo com a sua área de estudo e com sua preferência entre dois candidatos para uma próxima eleição. Área de Estudo Engenharia Psicologia Direito Administração Total A 24 24 17 27 92 Candidato B 23 14 8 19 64 Indeciso 12 10 13 9 44 Total 59 48 38 55 200 Deseja-se testar a hipótese de que a preferência a um certo candidato é independente da área de estudo. pi = probabilidade de estar na área i pj = probabilidade de votar no candidato j H0 : pij = pi * pj H1: pij pi * pj Teste de Independência Observado Exemplo: Suponha que 200 estudantes sejam selecionados aleatoriamente em uma universidade e que cada estudante seja classificado de acordo com a sua área de estudo e com sua preferência entre dois candidatos para uma próxima eleição. Área de Estudo Engenharia Psicologia Direito Administração Total A 24 24 17 27 92 Candidato B 23 14 8 19 64 Indeciso 12 10 13 9 44 H0 : pij = pi * pj H1: pij pi * pj Total 59 48 38 55 200 Se H0 é verdadeira, então Esperado Área de Estudo Engenharia Psicologia Direito Administração Total A 27,14 ? 22,08 17,48 25,30 92 Candidato B 18,88 15,36 12,16 17,60 64 l Indeciso 12,98 10,56 8,36 12,10 44 Total 59 48 38 55 200 c i 1 j 1 *92 59FAObs 200 ij FAEspij FAEspij 2 ~ ?2(l 1)(c1) 2 l é o número de linhas c é o número de colunas Teste de Independência Observado 24 24 17 27 23 14 8 19 12 10 13 9 Esperado Exemplo: Suponha que 200 estudantes sejam selecionados aleatoriamente em uma universidade e que cada estudante seja classificado de acordo com a sua área de estudo e com sua preferência entre dois candidatos para uma próxima eleição. 27,14 22,08 17,48 25,30 18,88 15,36 12,16 17,60 12,98 10,56 8,36 12,10 4 3 X i 1 j 1 FAObs ij FAEspij FAEspij 62 2 6, 68 = 0,05 0 ? + XXcrítcrít12,59 Conclusão: aceita-se H0 a 5% sig., ou seja, há independência entre a área e o candidato escolhido pelo estudante