Universidade do Minho Escola de Engenharia ESTATÍSTICA II Mestrado Integrado em Engenharia e Gestão Industrial FORMULÁRIO Ano Lectivo 2007-2008 Índice Intervalos de Confiança (uma amostra / duas amostras independentes)............................................................................... 1 Testes de Hipótese (uma amostra / duas amostras independentes)....................................................................................... 1 Bom Ajuste (grandes amostras)............................................................................................................................................ 2 Tabelas de Contingência....................................................................................................................................................... 2 Análise da Variância............................................................................................................................................................. 3 Planeamento Completamente Aleatório.......................................................................................................................... 3 Planeamento com Blocos Aleatórios .............................................................................................................................. 3 Planeamento Factorial com Replicações......................................................................................................................... 4 Planeamento 22 ......................................................................................................................................................... 5 Planeamento 23 ......................................................................................................................................................... 6 Testes a K Médias (não paramétrico) ................................................................................................................................... 6 Kruskal Wallis ................................................................................................................................................................ 6 Quade.............................................................................................................................................................................. 7 Bom Ajuste (pequenas amostras) ......................................................................................................................................... 7 Kolmogorov .................................................................................................................................................................... 7 Lilliefors para a Normal.................................................................................................................................................. 8 Lilliefors para a Exponencial .......................................................................................................................................... 8 Teste às Distribuições........................................................................................................................................................... 9 Kolmogorov – Smirnov .................................................................................................................................................. 9 Smirnov Unilateral.......................................................................................................................................................... 9 Regressão.............................................................................................................................................................................. 9 Regressão Linear Simples............................................................................................................................................... 9 Regressão Linear Múltipla.............................................................................................................................................. 10 Regressão Não Linear ..................................................................................................................................................... 10 Independência Estocástica.................................................................................................................................................... 11 Correlação de Pearson .................................................................................................................................................... 11 Correlação de Spearman ................................................................................................................................................. 11 FUNÇÕES DE PROBABILIDADE DISCRETAS CONTÍNUAS Distribuição de Bernoulli Distribuição Uniforme [U(a,b)] f ( x ) = θ x (1 − θ ) 1− x x = 0,1 µ = nθ σ = nθ (1 − θ ) 2 1 f (x ) = b − a 0 a< x<b outros (b − a ) a+b µ= σ2 = 2 12 2 Distribuição Binomial [B(n,p)] n n−x f ( x ) = p x (1 − p ) x x = 0,1,2,..., n µ = np σ 2 = np (1 − p ) Distribuição Exponencial [EN(1/θ)] 1 −x e θ f ( x ) = θ 0 x>0 outros µ =θ σ 2 =θ 2 Distribuição Poisson [P(λ)] f (x ) = λx e −λ x! x = 0,1,2,..., n µ =λ σ2 =λ Distribuição Normal [N(µ,σ2)] f (x ) = 1 σ 2π e − ( x − µ )2 2σ 2 µ = µ σ 2 =σ 2 Z= Aproximação da Binomial à Poisson N grande e p muito pequeno λ = np X −µ σ Aproximação da Binomial à Normal np > 5 nq > 5 Condições µ = np σ 2 = npq Distribuição Uniforme (discreta) f (x ) = 1 k x = x1 , x 2 ,..., x k µ =∑ xi k σ2 =∑ i i (xi − µ )2 k Correcção de Yates P ( X ≤ x ) ≈ P ( X < x + 0.5) P (Y ≥ y ) ≈ P (Y > y − 0.5) INTERVALOS DE CONFIANÇA E TESTES DE HIPÓTESES PARA UMA AMOSTRA Parâmetro a estimar Tipo de População Dimensão da amostra Conhece σ? E.T ~ Distribuição Normal Qualquer Sim x −µ Z = σ ~ N (0, 1) n x − z(1−α 2) x − z(1−α 2) Média µ Qualquer n ≥ 30 Não x −µ Z = s ~ N (0, 1) n Normal n < 30 Não x −µ T = s ~ t n −1 n Proporção binomial p Bernoulli Variância População Normal - Q= σ2 x − t(α pˆ − p ~ N (0, 1) p (1− p ) n Z = n > 30 (2) Intervalo de Confiança (n−1)s2 σ 2 σ 2), n −1 Notas < µ < x + z(1−α σ 2) n s < µ < x + z(1−α 2) n s < µ < x + t(α 2), n −1 n z(1−α n s n s n 2) : quantil da tabela acumulada da Normal padrão à esquerda Estimador do desvio padrão: σ ≈s (1) Estimador da proporção binomial pˆ − z(1−α 2) 2 ~ χn−1 pˆ (1 − pˆ ) < p < pˆ + z(1−α 2) n ( n − 1) s 2 < σ 2 < ( n − 1) s 2 χ (2α 2),n −1 χ (12 −α 2),n −1 pˆ (1 − pˆ ) n p ≈ pˆ = x n INTERVALOS DE CONFIANÇA E TESTES DE HIPÓTESES PARA DUAS AMOSTRAS Parâmetro a estimar Tipo de População Dimensão da amostra Conhece σ ? Quaisquer σ1 e σ 2 Normais Diferença entre as médias Quaisquer Normais Normais Amostras dependentes Diferença de proporções p1 − p2 Razão de variâncias σ 12 σ 22 Bernoulli n1 < 30 e n2 < 30 n1 < 30 e n2 < 30 n1 ≥ 30 e n2 ≥ 30 Z= σ 12 n1 σ1 e σ 2 e + T= ( x1 − x2 ) − ( µ1 − µ2 ) ~ t s12 s22 + n1 n2 σ 12 = σ 22 sp σ1 e σ 2 T= Não Quaisquer (1) O desvio padrão σ , sendo desconhecido, é estimado através de s = de proporções se H0 : p1 – p2 = 0 , a E.T. passa a ser Z= ( pˆ1 − pˆ 2 ) 1 1 pˆ (1 − pˆ ) + n1 n2 GL 1 1 + n1 n2 Di − ( µ1 − µ2 ) ~ t( n −1) sDi n Z= - ( pˆ1 − pˆ 2 ) − ( p1 − p2 ) pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) + n1 n2 F= - s22 σ 12 σ 2 2 ~ N (0,1) (3) Notas ( x1 − x2 ) ± z(1−α 2) σ 12 σ 22 + n1 n2 ( x1 − x2 ) ± z(1−α 2) s12 s22 + n1 n2 n2 ( x1 − x2 ) − ( µ1 − µ2 ) ~ N (0,1) s12 Normais σ 22 Z= Não σ 1 e σ 2 Não Intervalo de Confiança ( x1 − x2 ) − ( µ1 − µ2 ) ~ N (0,1) Sim n1 ≥ 30 e n2 ≥ 30 µ1 − µ 2 E.T ~ Distribuição ( x1 − x2 ) ± t(α 2),GL s p Di − t( n−1),α 2 . sDi n 1 1 + n1 n2 < µ1 − µ2 < Di + t( n −1),α 2 . ( pˆ1 − pˆ 2 ) ± z(1−α 2) pˆ1 (1 − pˆ1 ) n1 + sDi n pˆ 2 (1 − pˆ 2 ) n2 Estimadores dos desvios padrão: σ 1 ≈ s1 , σ 2 ≈ s2 GL = n1 + n2 − 2 s 2p = ( n1 − 1) s12 + ( n2 − 1) s22 n1 + n2 − 2 sDi = sn −1 para Di = X 1i − X 2i Estimadores das proporções binomiais (4) pˆ1 = x1 x e pˆ 2 = 2 n1 n2 ν 1 = n1 − 1 e ν 2 = n2 − 1 ~ Fν1 ,ν 2 s12 1 σ 2 s2 1 < 12 < 12 2 s2 F(α 2),ν1 ,ν 2 σ 2 s2 F(1−α 2),ν1 ,ν 2 1 F(1−α 2),ν 1 ,ν 2 = F(α 2),ν 2 ,ν 1 1 n ∑ ( xi − x )2 ; (2) Proporção para amostras de pequena dimensão necessário recorrer à solução exacta através da distribuição binomial; (3) e (4) No teste à diferença n − 1 i =1 ~ N (0,1), com pˆ = x1 + x2 . n1 + n2 1 Teste do ”bom ajuste” do Qui-Quadrado para grandes amostras • Probabilidades completamente esp ecificadas na hip ótese nula H0 : p1 = p10 , p2 = p20 , ..., pk = pk0 Q≥c R.R: H0 : p10 + p20 + ...pk0 = 1. c = χ2k−1,α com • Probabilidades e não totalmente esp ecificadas na hip ótese nula as probabilidades corresp ondentes das classes provêm de uma distribuição da família ... R.R: R.R: Q≥c com graus de lib erdade = n Pk Q= i=1 o c = χ2g.l,α de celas -1- n o de parâmetros estimados (fi −ei )2 com a frequência esp erada dada p or ei ei =n.pi Tabelas de Contingência Característica B Característica A A1 A2 A3 .. . Aa n.j 1. . Teste B1 f11 f21 f31 .. . B2 f12 f22 f32 .. . B3 f13 f23 f33 .. . fa1 fa2 fa3 ··· ··· ··· ··· ··· Bb f1b f2b f3b .. . ni. fab n de independência Hipótese nula: H0 : pij = pi. p.j R.R: (as variáveis são indep endentes), i = 1, ..., a e j = 1, ..., b Q > c com c = χ2(a−1)(b−1),α 2 . Teste de homogeneidade Hipótese nula: H0 : w1j = w2j = ... = waj R.R: Q > c com c = Q= (as subp opulações A são equivalentes) para j = 1, ..., b. χ2(a−1)(b−1),α a b X X (fij − eij )2 com eij j=1 i=1 a frequência esp eradada dada por 2 eij = ni. n.j n i = 1, ..., a e j = 1, ..., b Planeamento completamente aleatório SQT = ST Q = SQR = T.j Pk nj (y .j − Y )2 Pj=1 Pnj k (yij − Y )2 Pj=1 Pi=1 nj k 2 i=1 (yij − y .j ) j=1 SQT = 2 T.j 1 2 j=1 nj − N T.. Pk Pnj 2 1 2 i=1 yij − N T.. j=1 ST Q = SQR = ST Q − SQT é o total dos valores obtidos para o tratamento j ; T.. com N= é o grande total Pk j=1 nj ST Q = SQT + SQR Tendo-se M odelo p opulacional: com Pk i = 1, ..., nj e yij = µ + αj + eij j = 1, ..., k eij ∼ N (0, σ 2 ) Teste às diferenças entre os tratamentos H0 : α1 = α2 = ... = αk = 0 (não existem diferenças entre as m édias das H1 : os k p opulações). efeitos da aplicação dos tratamentos são significativos ( ou existem diferenças entre os tratamentos). R.R : F > c em que c (Fisher) é determinado p or forma a α = P [F > c; H0 ] Tab ela ANOVA Fonte de variação Soma dos quadrados graus de liberdade M édia dos quadrados Tratamentos SQT k-1 M QT=SQT/(k-1) Resíduos SQR Total STQ Σnj − k Σnj − 1 • Intervalos M QR=SQR/ (Σnj de confiança para diferenças entre pares de médias de tratamentos iej − k) v.a. F MQT F= MQR com i 6= j = 1, 2, ..., k T = (y .i − y .j ) − (µi − µj ) q ∼ tN −k SQR 1 1 ( + ) N−k ni nj Planeamento com blocos aleatórios Pk SQT = b j=1 (y .j − Y )2 Pb SQB = k i=1 (y i. − Y )2 Pb Pk ST Q = i=1 j=1 (yij − Y )2 P P SQR = bi=1 kj=1 (yij − y i. − y .j + Y )2 Ti. é o total dos valores obtidos para o bloco o tratamento i ; T.j Pk 1 2 SQT = 1b j=1 T.j2 − kb T.. Pb 1 1 2 2 SQB = k i=1 Ti. − kb T.. Pb Pk 1 2 2 ST Q = i=1 j=1 yij T.. − kb SQR = ST Q − SQT − SQB é o total dos valores obtidos para j 3 M odelo p opulacional: para i = 1, ..., b yij = µ + αj + β i + eij eij ∼ N (0, σ 2 ) j = 1, ..., k e Teste às diferenças entre os tratamentos H01 : α1 = α2 = ... = αk = 0 (não existem diferenças significativas entre os tratamentos). H11 : os efeitos da aplicação dos tratamentos são significativos ( ou existem diferenças entre os tratamentos). R.R : F1 > c em que c (Fisher) é determinado a partir de α = P [F1,((k−1),(b−1)(k−1)) > c; H01 ] e F1 = MQT M QR Teste às diferenças entre os blocos H02 : β 1 = β 2 = ... = β b = 0 (não existem diferenças significativas entre os efeitos dos blocos) H12 : R.R : existem diferenças entre os efeitos dos blocos. F2 > c em que c (Fisher) é determinado a partir de α = P [F2,((b−1),(b−1)(k−1)) > c; H02 ] e F2 = M QB MQR Tab ela ANOVA F. de variação S. dos quadrados graus de lib erdade M édia dos quadrados Tratamentos SQT k-1 M QT=SQT/(k-1) Blocos SQB b-1 M QB=SQB/(b-1) Resíduos SQR Total STQ (k − 1).(b − 1) k.b − 1 M QR=SQR/ (k − 1).(b − 1) v.a. F MQT F 1 = MQR MQB F 2 = MQR Intervalos de confiança para diferenças entre pares de médias de tratamentos: T = (y j1 − y j2 ) − (µj1 − µj2 ) q ∼ t(b−1)(k−1) M QR( 2b ) Planeamento factorial com replicações P SQFA = qr pi=1 (y i.. − Y )2 P SQFB = pr qj=1 (y .j. − Y )2 Pp Pq Pr SQR = i=1 j=1 k=1 (yijk − y ij. )2 Pp Pq Pr ST Q = i=1 j=1 k=1 (yijk − Y )2 Tij é a soma das observações da célula SQFA = Pp i=1 P qrq 2 Ti. T2 T..2 pqr 2 T.. − pqr P − .j SQFB = j=1 rp P T2 2 SQR = ijk yijk − ijr ij Pp Pq Pr T..2 2 ST Q = i=1 j=1 k=1 yijk − pqr SQIAB = ST Q − SQFA − SQFB − SQR (i, j) M odelo p opulacional yijk = µ + αi + β j + γ ij + eijk 4 para i = 1, ..., p , j = 1, ..., q . k = 1, ..., r e e eijk ∼ N (0, σ 2 ) Testes de hip óteses • Factor A H01 : α1 = α2 = ... = αp = 0 H11 : R.R : A existem diferenças significativas entre os níveis de F1 > c com c (Fisher) determinado de α = P r[F1(p−1),pq(r−1) > c; H01 ] e F1 = • Factor MQFA MQR B H02 : β 1 = β 2 = ... = β q = 0 H12 R.R : : existem diferenças significativas entre os níveis de F2 > c com c (Fisher) determinado de α = P r[F2(q−1),pq(r−1) > c; H02 ] e F2 = • Interacção B M QFB MQR AB H03 : γ 11 = γ 12 = ... = γ 21 = ... = γ pq = 0 H13 : R.R : existem diferenças significativas devido a interacção F3 > c com c (Fisher) determinado de α = P r[F3(p−1)(q−1),pq(r−1) > c; H03 ] e F3 = MQIAB M QR Tab ela ANOVA Fonte de variação Soma dos Quadrados graus de lib. M édia dos Quadrados Factor A SQF A p-1 M QF A Factor B SQF B q-1 M QF B Interacção AxB SQI AB (p-1).(q-1) M QI AB Resíduos SQR p.q.(r-1) M QR Total STQ p qr-1 v.a F A = MQF MQR MQF F 2 = MQRB MQIAB F 3 = MQR F1 Planeamento 22 tratamento factor A factor B A×B 1 - - + 2 + - 3 - + - 4 + + + - observações y11 y21 y31 y41 y12 y22 y32 y42 ... ... ... ... médias y1r y2r y3r y4r y1 y2 y3 y4 Estimativa dos efeitos principais 4 −y 3 ) eeA = (y2 −y1 )+(y 2 4 −y 2 ) eeB = (y3 −y1 )+(y 2 (y4 −y3 )+(y1 −y2 ) eeAB = 2 − Variância residual: SQFA = r (eeA )2 SQFB = r (eeB )2 SQIAB = r (eeAB )2 s2 = 14 (s21 + s22 + s23 + s24 ) com s2i = Pr 2 j=1 (yij −y i ) (r−1) Intervalos de confiança para os ”efeitos” devidos aos factores principais e à interacção 5 ee − µ T =q ∼ t4(r−1) 2 ( sr ) Planeamento 23 factores B C + + + + + + + + A + + + + T1 T2 T3 T4 T5 T6 T7 T8 ee = Efeitos estimados: interacções AC BC + + + + + + + + AB + + + + 1 23−1 [±y 1 observações ABC + + + + y11 y21 y31 médias y12 y22 y32 ... ... ... y1r y2r y3r y1 y2 y3 y82 ... y8r y8 ... y81 ± y 2 ± y 3 ± y 4 ± ... ± y 8 ] A som a dos quadrados dos efeitos de cada factor (ou interacção) p ode ser calculada a partir de SQfactor ou interac. = 2n−2 r(eefactor ou interac. ) sendo no número de factores presentes no planeamento e Variância residual: s2 = ro 2 número de replicações. s21 +s22 +...+s28 8 Intervalos de confiança para os ”efeitos reais” T = ee − ”ef eito real” q ∼ t8(r−1) s2 2r Teste de Kruskal Wallis H 0 : Não existem diferenças significativas entre os efeitos dos tratamentos ou as médias das distribuições das k p opulações são idênticas H 1 : Nem todas as R.R: H ≥ c onde c é H= Para k distribuições têm m édias idênticas. determinado de α = P r[H ≥ c; H0 ] e ni X 12 W2 W2 W2 Rij i = 1, 2, ..., k [ 1 + 2 +...+ k ] − 3(n + 1)com W i = n(n + 1) n1 n2 nk j=1 k > 3 ou n1 , n2 , ... e/ou ni > 5, a distribuição assintótica de H é a χ2 com k−1 graus de liberdade. A ’estatística’ a justada é 0 H= 1− em que 1, ..., l). l Pl H qj (qj2 −1) n(n2 −1) j=1 é o número de conjuntos com observações rep etidas existente e 0 H tem ainda uma distribuição assintótica χ2k−1 . A ’estatística’ 6 qj é o número de elementos nesse conjunto j (j = Planeamento com blocos. Teste de Quade b variáveis Os dados consistem num conjunto de (yi1 , yi2 , ..., yik ), i = 1, ..., b, chamadas aleatórias independentes a k dimensões blocos. Os cálculos para este teste devem estar assim ordenados: Amplitude do bloco: Ai Ai = maxj (yij ) − minj (yij ) Graduações do bloco de acordo com a sua amplitude: R(Ai ) M atriz Sij Sij = R(Ai )[R(yij ) − k+1 2 ] R(yij ) - graduações das observações yij , (j = 1, ..., k) P P P P 2 Sj = bi=1 Sij ; SQT = 1b kj=1 Sj2 ; ST Q = bi=1 kj=1 Sij ST Q reduz-se Se não existirem observações rep etidas, a b(b + 1)(2b + 1)k(k + 1)(k − 1)/72. Teste de hip óteses H 0 : Não existem diferenças significativas entre os tratamentos (ou, os efeitos dos tratamentos são idênticos) H 1 : Pelo menos um dos tratamentos tende a conseguir valores observados maiores do que um outro tratamento. R.R : com T > c onde c é um p onto crítico da distribuição (k − 1) e (b − 1)(k − 1) graus F que corresp onde ao nível de significância α, de lib erdade T = (b − 1)SQT ST Q − SQT Comparações dois a dois Os tratamentos iej são considerados significativamente diferentes se s |S i −S j | > c sendo co p onto crítico da distribuição t-Student, com rejeição de tamanho α (nível de significância) 2b(ST Q − SQT ) (b − 1)(k − 1) (b − 1)(k − 1) graus de lib erdade que corresp onde a uma região de Testes de ajuste de distribuições Testes do tipo de Kolmogorov para pequenas amostras 0 ou S(x) é a função de distribuição empírica que é definida como fracção dos Xi s (elementos da amostra) que são menores iguais a X , para cada X (−∞ < X < +∞) Dados: F ∗ (x) é uma função distribuição completamente esp ecificada. A. Teste bilateral H0 : F (x) = F ∗ (x) ∀x H1 : F (x) 6= F ∗ (x) T = supx | F ∗ (x) − S(x) | R.R: T (T + ou T − ) > c B. Teste unilateral H0 : F (x) ≥ F ∗ (x) H1 : F (x) < F ∗ (x) T + = supx [ F ∗ (x) − com c calculado de S(x) ] C. Teste unilateral H0 : F (x) ≤ F ∗ (x) H1 : F (x) > F ∗ (x) T − = supx [ S(x) − F ∗ (x) ] α = P rob(Rej H0 ; H0 ) = P rob(T > c; H0 de A.) . 7 Os p ontos críticos da distribuição de T (T + ou T − ) correspondem a p=1−α Teste de Lilliefors para a Normal DADOS: Os dados consistem numa amostra aleatória desconhecida X1 , X2 , ..., Xn de tamanho n associada com alguma função distribuição F (x). H 0 : A amostra aleatória foi retirada de uma distribuição normal, com média e/ou variância não esp ecificadas. H 1 : A função distribuição dos R.R: T1 > c sendo c o 0 Xi s não é normal. p onto crítico da distribuição de X= Zi = Pn i=1 Xi n Xi − X , s T1 que corresp onde a v u u s =t e p=1−α n 1 X (Xi − X)2 n − 1 i=1 i = 1, 2, ..., n T 1 = supz | F ∗ (z) − S(z) | Teste de Lilliefors para a exponencial DADOS: Os dados consistem numa amostra aleatória desconhecida H0 : A amostra aleatória segue a distribuição exp onencial: ∗ F (x) = F (x) = em que H1 : X1 , X2 , ..., Xn de tamanho n associada com alguma função distribuição F (x). β ½ 1 − e−x/β , para x > 0 0 para x < 0 é um parâmetro desconhecido. A distribuição dos 0 Xi s não é exp onencial. X= Pn i=1 Xi n F ∗ (z) = ½ Zi= Xi , i = 1, 2, ..., n X 1 − e−z , para z > 0 0 para z < 0 T2 = supz | F ∗ (z) − S(z) | R.R: T2 > c sendo c o p onto crítico da distribuição de T2 que corresp onde a p = 1 − α. Teste a duas distribuições. Amostras independentes. Teste de Kolmogorov - Smirnov n, X1 , X2 , ..., Xn e F (x) e G(y) (ou G(x)) resp ectivamente. DADOS: Os dados consistem em duas amostras aleatórias indep endentes, uma de tamanho tamanho m, Y1 , Y2 , ..., Ym retiradas de duas p opulações com distribuições A. Teste bilateral B. Teste unilateral C. Teste unilateral H0 : F (x) = G(x) ∀x H1 : F (x) 6= G(x) T1 = supx | S1 (x) − S2 (x) | H0 : F (x) ≤ G(x) H1 : F (x) > G(x) T1+ = supx [ S1 (x) − S2 (x) ] H0 : F (x) ≥ G(x) H1 : F (x) < G(x) T1− = supx [ S2 (x) − S1 (x) ] 8 outra de com S1 (x) a função empírica baseada na amostra + R.R: T1 (T1 ou T1− ) X1 , X2 , ..., Xn e S2 (x) a função empírica baseada em Y1 , Y2 , ..., Ym > c sendo c o p onto crítico da distribuição da estatística que corresp onde a um nível de significância α. Teste a k distribuições. Amostras independentes.Teste unilateral de Smirnov DADOS: k amostras aleatórias de tamanho iguais a S1 (x), S2 (x), ..., Sk (x), forem, resp ectivamente, F2 (x), ..., Fk (x) representam as k T2 > c sendo c o R.R: algum Se as distribuições empíricas e as funções distribuição F1 (x), p opulações, desconhecidas, H0 : F1 (x) ≤ F2 (x) ≤ ... ≤ Fk (x) para H1 : Fi (x) > Fj (x) para n. i<j todo o e algum x x p onto crítico, que corresp onde a p = 1 − α, ao nível de significância α. T2 = supx,i<k [ S i (x) − S i+1 (x) ] i = 1, ..., k − 1 Regressão linear e simples Yi ∼ N (α + βxi , σ 2 ) Yi = α + βxi + ei com xi = Xi − X , i = 1, .., n 2 Os estimadores de máxima verosimilhança, para os parâmetros α, β e σ são Pn Pn Pn Yi (Xi −X)(Yi −Y ) (Xi −X)Yi Pn α̃ = i=1 = Y ; β̃ = i=1 = Pi=1 ; n 2 2 n i=1 (Xi −X) i=1 (Xi −X) σ̃ 2 = 1 (n−2) Pn i=1 [Yi − α̃ − β̃(Xi − X)]2 Testes de hipóteses α̃ − α T1 = q ∼ tn−2 σ̃ 2 T2 = q ; n β̃ − β 2 P n σ̃ 2 1 (Xi −X) ∼ tn−2 H0 : β = 0 H1 : β > 0 (ou β 6= 0) T2 ≥ c com c = tn−2,α (ou R.R: Do mesmo modo, a ’estatística’ o parâmetro α/2) T1 p ode ser usada para calcular intervalos de confiança α Média e variância de um valor estimado de Y: E[Y 0 ] = E[α̃] + (X 0 −X)E[β̃] = α + β(X 0 −X) 1 (X0 − X)2 var[Y 0 ] = σ 2 ( + Pn ) 2 n i=1 (Xi − X) 9 e testes de hip óteses relacionados com Regressão linear e múltipla Yi = α + βxi +γz i +ei em que xi = Xi − X, zi = Zi − Z σ 2 (i = 1, ..., n). e ei é o erro aleatório de observação,normalmente distribuído com média zero e variância comum E[Y ] = α + β(X − X) + γ(Z − Z). α̃ = Pn i=1 Yi n ; σ̃ 2 = =Y 1 (n−3) Pn i=1 (Yi − α̃ − β̃xi − γ̃zi )2 ½ Pn P P xi Yi = β̃ ni=1 x2i + γ̃ ni=1 xi zi Pn Pn Pi=1 n 2 i=1 zi Yi = β̃ i=1 xi zi + γ̃ i=1 zi As ’estatísticas’ T1 , T2 e T3 para testes de hip óteses e intervalos de confiança, em relação, resp ectivamente, aos parâmetros α̃ − α T1 = q ; σ̃ 2 n n − 3 graus de lib erdade. α, β e γ , são: T2 = r β̃ − β P ; 2 σ̃P ( x z )2 x2i − P i 2i z i T3 = r γ̃ − γ P 2 σ̃P ( x z )2 zi2 − P i 2i x i e seguem a distribuição t-Student com Regressão não-linear i) E[Yi ] = α + βXi2 2 O modelo matemático geral, é: Yi = α + βwi + γwi + ei com wi = Wi 2 Define-se X = W e Z = W , o que reduz este caso à regressão múltipla e linear. ii) −W e o ei ∼ N (0, σ2 ) (i = 1, ..., n). E[Yi ] = Xiβ Yi = αeβXi ui . O modelo matemático mais geral e comum é: Os erros aleatórios ui (i = 1, ..., n) têm agora uma distribuição, em geral não simétrica e centrada em 1. Lineariza-se o modelo passando-se a ter: lnYi = lnα + βXi + lnui e aplica-se a análise de regressão linear e simples. Testes de independência estocástica • Coeficiente de correlação da amostra. Teste de Pearson X ∼ N (µ1 , σ 21 ) e Y ∼ N (µ2 , σ22 ) H0 : ρ = 0 H1 : ρ 6= 0 R.R: |R| ≥ c. O valor de cé determinado de Pn α = Pr [|R| ≥ c; H0 ] i=1 Xi Yi − R =q P n ( i=1 Xi2 − Pn i=1 P Xi n i=1 Yi n P Pn 2 ( n i=1 Xi ) )( i=1 n e que é o coeficiente de correlação da am ostra de Pearson. 10 Yi2 − P 2 ( n i=1 Yi ) ) n A variável √ R √ n−2 1−R2 T = ∼ tn−2 c; H0 ] . e o teste resume-se a, rejeitar H0 se |T | ≥ c com c determ inado de α = Pr [|T | ≥ • Correlação de Spearman (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ) R(Xi ) graduação R(Yi ) graduação A medida de do valor de do valor de n amostra aleatória bivariada, de tamanho Xi Yi (i = 1, 2, ..., n) correlação de Spearman RS RS = é definida p or Pn n+1 2 ][R(Yi ) n(n2 −1) 12 i=1 [R(Xi ) − − n+1 2 ] ou RS = 1− 6T n(n2 − 1) T = com n X i=1 [R(X i ) − R(Y i )]2 caso não existam observações rep etidas. Existindo rep etições deve usar-se a expressão: Pn 2 R(Xi )R(Yi ) − n( n+1 2 ) qP n n n+1 2 n+1 2 2 2 i=1 R(Xi ) − n( 2 ) . i=1 R(Yi ) − n( 2 ) i=1 RS = qP A. Teste bilateral H 0 : As variáveis XeY são indep endentes. H 1 : (a) Existe uma tendência para os maiores valores de os m aiores valores de R.R: c2 RS > c1 ou form arem pares com Y , ou (b) Existe uma tendência para os menores valores de os m aiores valores de X X formarem pares com Y. RS < c2 , sendo c1 o p onto crítico que corresp onde a α o p onto crítico que corresp onde a 2 1− α 2 e B. Teste unilateral para correlação p ositiva H 0 : As variáveis XeY são indep endentes. H 1 : Existe uma tendência para os maiores valores de R.R: RS > c, em que cé X e de o p onto crítico que corresp onde a Y formarem pares. 1−α C. Teste unilateral para correlação negativa H 0 : As variáveis XeY são indep endentes. H 1 : Existe uma tendência para os menores valores de maiores valores de R.R: Y X formarem pares com os e vice-versa. RS < c sendo c o ponto crítico que corresp onde a α. 11