Inferências sobre Média de Grandes Amostras Gustavo Teodoro Laureanoa , Clarimar José Coelhob , Anderson da Silva Soaresc , Daniel Vitor de Lucenad a Universidade Católica de Goiás, Departamento de Computação, E-mail: [email protected] b Universidade Católica de Goiás, Departamento de Computação, E-mail: [email protected] c Universidade Católica de Goiás, Departamento de Computação, E-mail: [email protected] d Universidade Católica de Goiás, Departamento de Computação, E-mail: [email protected] Palavras chaves: controle de qualidade, inferência estatı́stica, média de grandes amostras. Determinar inferências empregando intervalos de confiança para grandes amostras (n > 35)[2]. A análise é feita a partir de um novo software desenvolvido para análise multivariada. Devido ao teorema do limite central [1], à medida que n aumenta, as distribuições amostrais da população aproximam-se da normal, independentemente da distribuição populacional. A distribuição amostral multivariada das médias X̄ é distribuı́da como Np (µ, n1 Σ)[3]. A média da distribuição amostral tende para a média populacional µ. Sua matriz de covariâncias tende para n1 Σ [1]. A densidade normal multivariada com p dimensões é dada por f (x) = 1 p (2π) 2 1 |Σ| 2 e −(x−µ)0 Σ−1 (x−µ) 2 . O expoente (x − u)0 Σ−1 (x − u) é o contorno constante da densidade para uma distribuição normal p-dimensional que forma elipsóides centradas em µ com eixos definidos por auto valores e auto vetores de X̄. As elipsóides têm distribuição aproximada a χ2p (α) com p graus de liberdade e probabilidade 1 − α. Seja {X1 , X2 , . . . , Xn }, observações independentes de qualquer população com √ média µ e matriz de covariâncias finita Σ. Então, n(X − µ) tem distribuição aproximada de Np (0, Σ), quando n for muito grande em relação a p. A matriz de covariâncias da população aproxima-se de Σ em probabilidade. Substituindo Σ por S o efeito sobre cálculos probabilı́sticos é desprezı́vel. Diz-se que n(X̄ − µ)0 S−1 (X̄ − µ) aproxima-se da distribuição χ2p para n − p muito grande e nı́vel de significância α. Devido a aproximação com distribuição qui-quadrado, testes de hipóteses e intervalos de confiança podem ser construı́dos sem a suposição de da população [1]. Intervalos de confiança são qnormalidade p sii 2 calculados pela fórmula xi ± χp (α) ( n ) com nı́vel de significância α e probabilidade 1 − α do intervalo conter µi . Casos pequenos que afastam as amostras das teorias de normalidade não causam qualquer dificuldade pra n muito grande, mas casos extremos que possam indicar uma não normalidade da população possibilitam problemas na definição desses intervalos. É necessário uma forma de detectar os outliers e aplicar as ações corretas para eliminar esse problema. Outra forma de construir esses intervalos de confiança é basear osp cálculos na distribuiçãop normal padrão. Nesse caso, µi está contido no intervalo x̄ − z( α2 ) snii ≤ µi ≤ x̄ + z( α2 ) snii , onde z( α2 ) é o percentil superior 100( α2 ) da distribuição normal padrão. Os resultados obtidos utilizando esse método, demonstram uma maior precisão nos intervalos de confiança em comparação aos outros métodos especı́ficos para pequenas amostras. Os intervalos, com o mesmo nivel de significância, são um pouco mais estreitos em relação aos outros, mas essa diferença é mı́nima. O teste baseado na distribuição χ2p obteve resultados significativos na determinação desses intervalos, mas os cálculos utilizando a abordagem de uma distribuição normal padrão demostraram maior eficiência na determinação desses valores. Agradecimentos: PROPE UCG. Referências: [1] R. A. Johnson D. W. Wichern. Applied Multivariate Statistical Analysis, Prentice Hall (2002). [2] David M. Levine, Mark L. Berenson and David Stephan Estatı́stica: Teoria e aplicações, Spectrochimica Acta, v. B, (1997), n. 52, p. 2151-2161. [3] James, Barry R., 1942 Probabilidade: Um curso em nı́vel intermediário (Segunda Edição)