Aula Prática Condições de Normalidade Teste de Hipótese Prof. Renata M. C. R. Souza Alunos: [email protected] [email protected] Tópicos Abordados Base de Dados Condições de Normalidade Exemplo Teste de Aderência Exemplo Teste de Hipótese Paramétrico exemplo Não- Paramétrico exemplo Condições de Normalidade • Verificar se amostra segue uma distribuição normal ou não Histograma – fazer a análise pela quantidade, ou seja, por linha; Box-Plot – faz a análise por variáveis, ou seja, por coluna. Teste de Aderência. Histograma Histograma simétrico , distribuição Normal A freqüência é mais alta no centro e decresce gradualmente para as caudas de maneira simétrica (forma de sino). A média e a mediana são aproximadamente iguais e localizam-se no centro do histograma (ponto de pico). Box-Plot O Box-Plot é um gráfico no formato de caixa, cujos limites são o 1º quartil e o 3º quartil, que representam 25% e 75% dos dados respectivamente. Esta caixa é dividida por uma linha, a mediana, que significa 50% dos dados. Existem também dois eixos,ligados à caixa estendendo-se aos extremos, isto é ao menor e ao maior valor dos dados, excluindo os valores discrepantes (outliers). De um extremo ao outro, temos o espalhamento dos dados. • Quando a mediana divide exatamente no meio(simetria) a caixa. Base de Dados - IRIS Problema de Classificação de flores e possui 4 variáveis, são elas: 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class: Iris Setosa Iris Versicolour Iris Virginica http://archive.ics.uci.edu/ml/machine-learning- databases/iris www/~raaf/ESAP Exemplo – Pratica1.r Pratica1.r Ler os dados da população hist(conjuntos) boxplot(conjuntos) Exercícios Pratica2.r Criar uma amostra de uma classe Pratica3.r Criar amostras usando as três classes Ao final calcular a média Pratica4.r Criar amostras usando as três classes Ao final calcular a média Teste de Hipótese Caso a amostra seja normal Supõe que a distribuição é normal Teste de Hipóteses paramétricos Student T test P-value – quanto menor melhor para rejeitar H0 Caso a amostra NÃO seja normal Não faz suposição de distribuição de probabilidade Teste de hipótese não paramétricos Wilcoxn test P-value - quanto menor melhor para rejeitar H0 Exemplo Hip1 <- wilcox.test(MEDIA1,MEDIA2,alternative=c("less")) alternative = c("two.sided", "less", "greater") analisar p-value Rej1 = ifelse (Hip1$p.value<0.05,1,0) Hip2 <- t.test(MEDIA1,MEDIA2,alternative=c("less")) alternative = c("two.sided", "less", "greater") Analisar p-value Rej2 = ifelse (Hip2$p.value<0.05, 1, 0) Pratica4.r Testar as duas médias da amostra utilizando teste de hipótese Condições de Normalidade Teste de Aderência A idéia é de comparar as freqüências observadas com as freqüências esperadas. H0: a amostra é selecionada de uma população que segue uma determinada distribuição. Ha: a amostra não é selecionada de uma população que segue uma determinada distribuição. Exemplo usando KolmogorovSmirnov H0: segue a mesma distribuição normal H1:não segue a mesma distribuição normal X = rnorm(100) e Y=runif(100) hist(X) , hist(Y) ks.test(X,Y) Two-sample Kolmogorov-Smirnov test data: x and y D = 0.55, p-value = 1.458e-13 alternative hypothesis: two-sided Conclusão: Se o p-value menor que o valor D, então rejeita HO e aceita H1.Logo, as distribuições não são iguais Exemplo usando KolmogorovSmirnov H0: segue a mesma distribuição normal H1:não segue a mesma distribuição normal X = rnorm(100) e Y=rnorm(100) hist(X) ,hist(Y) ks.test(X,Y) Two-sample Kolmogorov-Smirnov test data: x and y D = 0.11, p-value = 0.5806 alternative hypothesis: two-sided Conclusão: Se o p-value maior que o valor D, então NÃO rejeita HO.Logo, ????? Exemplo Prático no R Selecione duas amostras www/~raaf/ESAP; • setwd("C://Desktop//Disciplina Prof.Renata“) • conjunto1 <- read.table("irisA.txt",sep=",“) • Análise descritiva dos dados média, mediana, desvio-padrão e variância mean(conjunto1), median(conjunto1) sd(conjunto1) e var(conjunto1) Exemplo Prático no R • Condições de Normalidade • Histograma = hist() • Box – Plot = boxplot() • Teste de Aderência • chisq.test • ks.test • Teste de Hipótese • Paramétrico = t.test • Não –Paramétrico = wilcox.test Referencias http://www/~rmcrs/ESAP/arquivos/TestesAderencia.pdf http://cran.r-project.org/