Analysis of Variance Wagner Oliveira de Araujo Technical Report - RT-MSTMA_001-09 - Relatório Técnico April - 2009 - Abril The contents of this document are the sole responsibility of the authors. O conteúdo do presente documento é de única responsabilidade dos autores. Mestrado Sociedade, Tenologia e Meio Ambiente Centro Universitário de Anápolis www.unievangelica.edu.br Analysis of Variance Wagner Oliveira de Araujo ∗ [email protected] Clarimar Jose Coelho † [email protected] Resumo. Este meta-artigo descreve uma síntese da Análise Univariada de Variância, técnica estatística para determinar, com base em uma medida dependente, se várias amostras são oriundas de populações com médias iguais. 1 Introdução • A análise da variância é uma técnica que pode ser usada para determinar se as médias de duas ou mais populações são iguais. ANalysis Of Variance (ANOVA); • Permite determinar se as médias de 2 ou mais populações são iguais. • População: o grupo (universo) do qual se extrai a amostra • Amostra: parcela do grupo examinada • Suposições: – As amostras devem ser aleatórias e independentes – As amostras devem ser extraídas de populações normais – As populações devem ter variâncias iguais, isto é: σ12 = σ32 = σ22 = . . . = σk2 Observações: Média y= n X yi i=1 Variância = n s2 = Covariância = Pn Sxy = ∗ † 1 X (yi − y)2 n − 1 i=1 i=1 (xi yi − nx y) n−1 Mestrando em Sociedade, Tecnologia e Meio Ambiente – Responsável pelo texto do artigo. Orientador, Centro Universitário de Anápolis – UniEVAGÉLICA 1 (1) 2 Tabela 1: Dados de Quilometragem Tipos de Gasolina Observação 1 2 3 4 1 15,1 14,9 15,4 15,6 2 15,0 15,2 15,2 15,5 3 14,9 14,9 16,1 15,8 4 15,7 14,8 15,3 15,3 5 15,4 14,9 15,2 15,7 6 15,1 15,3 15,2 15,7 Médias Amostrais 15,2 15,0 15,4 15,6 Variâncias Amostrais 0,088 0,040 0,124 0,032 Tabela 2: Extrai-se uma amostra de cada população e, para cada uma delas, calcula-se a média e a variância. População 1 População 2 População 3 População k Parâmetros desconhecidos µ1 µ2 µ3 µk σ1 σ2 σ3 σk ↓ ↓ ↓ ↓ Estatística Amostral x1 x2 x3 xk s21 s22 s23 s2k • Duas hipóteses possíveis: – H0 : as médias das populações são todas iguais (nula); – H1 : as médias das populações não são iguais (alternativa). • Se a hipótese nula for verdadeira: diferenças devidas à variações aleatórias nas amostras • Caso contrário as diferenças são muito grandes para serem causadas apenas devido a aleatoriedade • Fundamentos lógicos: – Se H0 é verdadeira: conceitualmente idêntico a uma situação em que todas as amostras tenham sido tiradas de uma única população – Se H0 é "falsa": as amostras vêm de populações com médias diferentes (mas normais e com variâncias iguais) • Variância populacional é a média das variâncias amostrais. – Variância "dentro": s2 +s2 +s2 +s2 +...+s2 k Sw2 = 1 2 3K 4 2 s1 = variancia da amostra 1 s22 = variancia da amostra 2 .. . s2k = variancia da amostra k K = numero de amostras 3 Veja Tabela 1 página 2 Sw2 = 0,088 + 0,040 + 0,124 + 0,032 4 • Estimativa "dentro"da variância não é afetada pela veracidade de H0 => não pode ser usada sozinha para julgar se as médias populacionais são iguais; • Estimativa "entre"da variância é sensível às diferenças das médias populacionais. • Desvio padrão da distribuição amostral é: – σx = σx √ n • σx => desvio padrão da população • n = tamanho da amostra • Não conhecemos o desvio padrão da distribuição amostral, neste caso, usa-se o desvio padrão da distribuição da qual se extraiu a amostra; • A determinação da variância das médias amostrais possibilita estimar a variância da distribuição da qual se extraiu a amostra. – Sx2 = Sb2 n • Estimativa "entre"da variância (Sb ): Veja Tabela 1 página 2 • Calcular a média das médias amostrais: P – x = kj=1 xj = 15,2 + 15,0 +4 15,4 + 15,6 = 15, 3 • Calcular Sx2 – Sx2 = Pk 2 j=1 (xj −x) k−1 = (15,2−15,3)2 +(15,0−15,3)2 +(15,4−15,3)2 +(15,6−15,3)2 4−1 • Sendo n o número de amostras (observações) teremos: – Sb2 = ns2x = 6(0, 067) = 0, 402 • Comparando com a variância "dentro": – Sw2 = 0, 071 • Sb2 > Sw2 – 0, 402 > 0, 071 • Temos então 2 estimativas da variância populacional. – Se H0 é verdadeira Sb2 ∼ = Sw2 – Se H0 é falsa Sb2 > Sw2 = 0, 067 4 Figura 1: Teste de hipótese • No nosso exemplo sabemos que Sb é maior, mas não sabemos se é significativamente maior (a variação casual devida a amostragem pode ser responsável por isso). • Calculemos então a razão F : Razão F = Sb2 2 Sw • O valor obtido com a estatística é comparado com uma tabela de valores F • As formas da distribuição F variam de acordo com os graus de liberdade do numerador e denominador. Ver Figura 2 Figura 2: Grau de liberdade do numerador e denominador • Os graus de liberdade são calculados como: – Numerador: número de amostras menos 1 (k − 1) – Denominador: número de amostras x (tamanho da amostra -1) {k[n − 1]} – Exemplo: (k−1) {k[n−1]} = 4−1 4(6−1) = 3 20 • Utilização da tabela F – Representam a linha divisória entre o aleatório e o não aleatório; – Compara-se a razão F calculada com o valor tabelado – Se o valor calculado for maior que o tabelado rejeitasse a hipótese nula. Ver Figura 3 5 Figura 3: Rejeitando a hipótese nula Figura 4: Maior que o tabulado • Lembrando . . . F = Sb2 2 Sw = 0,402 0,071 = 5, 661 ≈ 5, 70 • Este valor é maior que o tabulado => rejeita-se H0 . Ver Figura 4 • Atualmente os programas estatísticos fornecem diretamente o valor p Tabela 3: Fontes Fonte de variação Soma de quadrados G.L. Variância Razão F Pk 2 2 entre médias n j=1 (xj − x) ÷k−1 = Sb2 F = SS2x w dentro de amostras ÷ k(n − 1) = Sw2 Total kn − 1 k = número de amostras n = número de observações em cada amostra nk = número total de observações Nota: i se refere às linhas, e j às colunas 1.1 Utilizando Matlab Utilizaremos o software Matlab 6.5 para gerar os resultados de nosso exemplo. 6 Tabela 4: Exemplo de tabela amostral Amostra Observações 1 2 3 ... n1 x1 x1 x1 . . . x1 n2 x2 x2 x2 . . . x2 n3 x3 x3 x3 . . . x3 .. .. .. .. n4 . . . . n5 n6 Médias Amostrais xn x1 xn x2 xn x3 ... ... xn xk X=[15.1,14.9,15.4,15.6; 15.0,15.2,15.2,15.5; 14.9,14.9,16.1,15.8; 15.7,14.8,15.3,15.3; 15.4,14.9,15.2,15.7; 15.1,15.3,15.2,15.7] p = anova1(X) Resultado produzido no MatLab: 16 15.8 Values 15.6 15.4 15.2 15 14.8 1 2 3 Column Number (a) Execução de resultados (b) Plotagem do gráfico Figura 5: Resultado da execução juntamente com o gráfico 4 7 Referências FREUND, J. E.; SIMON, G. A. Estatística Aplicada: economia, administração e contabilidade. 9.ed. Porto Alegre: Bookman, 1997. HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Multivariate Data Analsys. 5.ed. New Jersey-USA: Prentice-Hall, 1998. MANLY, B. J. F. Métodos Estatísticos Multivariados: uma introdução. 3.ed. Porto Alegre: Bookman, 2005. RENCHER, A. C. Methods of Multivariate Analysis. 2.ed. Nova York: John Wiley & Sons, Inc, 2002. STEVENSON, W. J. Estatística: aplicada à administração. 1.ed. São Paulo: HARBRA, 2001.