PONTO DOS CONCURSOS Estatística SUSEP Banca: ESAF Resolução da Prova 2 – Atuária 2010 Alexandre Barbosa de Lima 20/04/2010 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima COMENTÁRIOS PRELIMINARES Não identificamos questões passíveis de recurso nesta prova de 2010 da SUSEP. As questões foram bem elaboradas e cobraram assuntos que foram especificados pelo Edital. CORREÇÃO DA PROVA 1. Admita que a probabilidade de uma pessoa de um particular grupo genético ter uma determinada doença é de 30%. Um custoso e invasivo exame para diagnóstico específico dessa doença tem uma probabilidade de um resultado falso positivo de 10% e de um resultado falso negativo de 30%. Considerando que uma pessoa desse grupo genético com suspeita da doença fez o referido exame, qual a probabilidade dela ter a doença dado que o resultado do exame foi negativo? A) 30% B) 7,5% C) 25% D) 15% E) 12,5% Resolução Esta questão aborda o Teorema de Bayes e é bastante parecida com um exemplo que dei na Aula 07, pág. 03. Devemos calcular a probabilidade de que a pessoa tenha doença (= causa) dado que o resultado do exame foi negativo (= efeito observado): P(D | −) = P(− | D)P(D) P(− | D)P(D) = , P(−) P(− | D)P(D) + P(− | S)P(S) em que “S” denota a parcela saudável da população (isto é, que não possui a doença), “D” representa a parcela da população que tem a € doença, “-” e “+” denotam “resultado negativo” e “resultado positivo”, respectivamente. O enunciado fornece as seguintes probabilidades a priori: - P(D) = 30% = 0,3 - P(S) = 1 – 0,3 = 0,7 - P(+|S) = 0,1 (falso positivo) 2 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima - P(-|D) = 0,3 (falso negativo) Logo, P(+|D) = 1 – P(-|D) = 1 – 0,3 = 0,7. Além disso, temos que P(-|S) = 1 – P(+|S) = 1 – 0,1 = 0,9. P(D | −) = P(− | D)P(D) 0,3 × 0,3 0,09 = = = 12,5% P(− | D)P(D) + P(− | S)P(S) 0,3 × 0,3 + 0,9 × 0,7 0,09 + 0,63 GABARITO: E € 2. Sejam n variáveis aleatórias iid, isto é, independentes e identicamente distribuídas X1, X2,..., Xn com função densidade de probabilidade f(x) e função de distribuição F(x), onde -∞ < x < ∞. Considere uma nova variável aleatória Xmin tal que Xmin > x se e somente se Xi > x para todo i, i = 1, 2, ..., n. Obtenha fmin(x), a função densidade de probabilidade da variável aleatória Xmin. A) fmin(x) = n(F(x))n-1f(x). B) fmin(x) = n(1 - F(x))n-1 f(x). C) fmin(x) = 1 - (1 - F(x))n. D) fmin(x) = (F(x))n. E) fmin(x) = exp(-|x|)/2. Resolução O enunciado diz que Xmin > x se e somente se Xi > x para todo i, i = 1, 2, ..., n. Logo, P(Xmin > x) = P(X1 > x) . P(X2 > x) … . P(Xn > x) Mas, P(Xi > x) = 1 - P(Xi ≤ x) = 1 - F(x), i = 1, 2, ..., n. Então, P(Xmin > x) = (1 – F(x))n e P(Xmin ≤ x) = Fmin(x) = 1 - (1 – F(x))n. A função densidade de probabilidade corresponda à derivada da função distribuição em relação a x. Portanto1, fmin(x) = (Fmin(x))’ = -n(1 – F(x))n-1(1 – F(x))’ = -n(1 – F(x))n-1(–f(x)) (lembre que F(x)’ = f(x)) 1 Lembre da regra de derivação de uma função composta f(x) = u[v(x)]: f’(x) = u’[v(x)].v’(x). 3 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima fmin(x) = n(1 – F(x))n-1f(x) Observem que a matéria cobrada nesta questão foi dada na Aula 01 do curso. GABARITO: B 3. Qual o limite de f(x) = Cn,x px (1-p)n-x, onde x =0,1,2,…,n, quando n → ∞, p → 0, e np → λ. A) f(x) = (2π)-1/2 exp(-(x - λ)2/2). B) f(x) = e-λλx/x!. C) f(x) = e-x/λ/λ. D) f(x) = λe-λx. E) f(x) = exp(-λ) xλ/x!. Resolução Esta questão aborda o comportamento assintótico da Lei Binomial (lei de Poisson). Vimos esse tópico na Aula 01. Suponha n >> 1 (isto é, que n seja grande), p << 1 (probabilidade de sucesso próxima de zero), mas de tal forma que np permaneça constante, digamos np = λ, na distribuição binomial , Portanto, n −x ⎛ n ⎞ x 1 x ⎛ λ ⎞ n −x ⎜ ⎟ p (1 − p) ≈ λ ⎜1 − ⎟ x! ⎝ n ⎠ ⎝ x ⎠ em que € se k << n), obtemos . No limite, para , (admitindo- n −x 1 x ⎛ λ ⎞ λx λ ⎜1 − ⎟ → e − λ . x! ⎝ n ⎠ x! O resultado acima mostra que a distribuição Binomial pode ser aproximada pela Distribuição de Poisson quando n >> 1, p << € 1, np=λ. GABARITO: B 4 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima 4. Considere um grupo de 15 pessoas dos quais 5 são estrangeiros. Ao se escolher ao acaso 3 pessoas do grupo, sem reposição, qual a probabilidade de exatamente uma das três pessoas escolhidas ser um estrangeiro? A) 45/91. B) 1/3. C) 4/9. D) 2/9. E) 42/81. Resolução Temos um grupo com 10 Patrícios (P) e 5 estrangeiros (E). Se escolhermos 3 pessoas do grupo ao acaso (sem reposição), obteremos s1={E, P, P} OU s2={P, E, P} OU s3={P, P, E}. Então, P(exatamente um “E”) = P(s1) + P(s2) + P(s3). Note que P(s1) = P(E).P(P).P(P) = (5/15) x (10/14) x (9/13) = 45/273, P(s2) = P(P).P(E).P(P) = (10/15) x (5/14) x (9/13) = 45/273, P(s3) = P(P).P(P).P(E) = (10/15) x (9/14) x (5/13) = 45/273, Logo, P(exatamente um “E”) = 3 x 45/273 = 45/91 Os conhecimentos necessários para resolver esta questão foram vistos na Aula 01. GABARITO: A 5. Y e X são variáveis aleatórias com distribuição normal conjunta com E(Y) = µY, E(X) = µX, e Cov(Y,X) = ρσYσX, onde σY e σX são os desvios padrões de Y e X, respectivamente, e ρ o coeficiente de correlação entre Y e X. Qual a expressão da regressão de X em Y, E(X/Y=y)? A) µY + ρσY(x – µX)/σX. B) µY + ρσX(x – µX)/σY. C) µY + ρσY(y – µY)/σX. D) µX + ρσX(y – µY)/σY. E) µX + ρσY(y – µY)/σX. 5 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima Resolução A variável (X, Y) tem distribuição normal bidimensional se sua densidade conjunta for dada por f (x, y) = 1 2πσ xσ y 2 ⎤ ⎫ 2 ⎧ ⎡⎛ ⎪ (x − µx )(y − µy ) ⎛ y − µy ⎞ ⎥⎪ 1 x − µx ⎞ ⎢ ⎟⎟ ⎬ exp⎨ − + ⎜⎜ ⎜ ⎟ − 2 ρ 2 σ xσ y 1 − ρ2 ⎪⎩ 2(1 − ρ ) ⎢⎣⎝ σ x ⎠ ⎝ σ y ⎠ ⎥⎦⎪⎭ para −∞ < x < ∞ , −∞ < y < ∞ . € Observe que a densidade normal conjunta depende de cinco µX e µY (médias), σX e σY (desvios padrões) e ρ € parâmetros: € (coeficiente de correlação entre Y e X). As seguintes propriedades podem ser demonstradas: (a) As distribuições marginais de X e Y são normais unidimensionais, a saber: X ~ N( µx ,σ x2 ) , Y ~ N( µy ,σ y2 ) . (b) ρ = Corr(X,Y ) (correlação entre X e Y). € € (c) As distribuições condicionais são normais com: € ⎛ ⎞ σy fY |X (y | x) ~ N ⎜ µy + ρ (x − µx ),σ y2 (1 − ρ 2 )⎟ , σx ⎝ ⎠ € ⎛ ⎞ σ f X |Y (x | y) ~ N ⎜⎜ µx + ρ x (y − µy ),σ x2 (1 − ρ 2 )⎟⎟ . σy ⎝ ⎠ σ Note que a média condicional E(X|Y=y) = µx + ρ x (y − µy ) é uma σy € função linear de y; é por isso que E(X|Y=y) é a regressão de X em Y (isso implica que as opções A e B poderiam ser descartadas logo de início). € A opção D contém a expressão µx + ρ σx (y − µy ) . Logo é a opção σy correta. Notas: i) apesar de ter feito um breve comentário sobre a € distribuição normal bidimensional no curso para a SUSEP (vide nota de rodapé 8, item 3.1 da Aula 02), não ensinei como resolver esta questão. ii) Não há tempo hábil para deduzir a propriedade (c) numa 6 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima prova de concurso. Portanto, acertou a questão quem “chutou” ou havia “memorizado” as propriedades vistas acima. Essa questão era da banca! (maldosa...) GABARITO: D 6. Considere as n variáveis aleatórias iid, isto é, independentes e identicamente distribuídas X1, X2 ,..., Xn com distribuição N(µ,σ2). n n Considere ainda X = ∑i=1 X i /n e s2 = ∑i=1 (X i − X ) 2 /(n −1) . Dessa maneira o quociente entre as variáveis aleatórias independentes n(X − µ) 2 /σ 2 e s2/σ2 é uma variável aleatória: € € A) “t” de Student com n-1 graus de liberdade. € B) Qui quadrado com n-1 graus de liberdade dividida pelo seu número de graus de liberdade. C) Qui quadrado com 1 grau de liberdade. D) F com n-1 graus de liberdade no numerador e 1 grau de liberdade no denominador. E) F com 1 grau de liberdade no numerador e n-1 graus de liberdade no denominador. Resolução A questão quer saber se o candidato sabe qual é a distribuição da estatística n(X − µ) 2 σ2 = s2 σ2 ⎛ X − µ ⎞ 2 ⎜ ⎟ ⎝ σ / n ⎠ 2 . n ⎛ X − X ⎞ ∑i=1⎜⎝ i σ ⎟⎠ n −1 Ora, a média amostral X é normal, pois X1, X2 ,..., Xn têm € distribuição N(µ,σ2). Assim, o numerador € ⎛ X − µ ⎞ 2 ⎜ ⎟ ⎝ σ / n ⎠ tem distribuição qui quadrado com 1 grau de liberdade, pois trata-se do quadrado de uma variável aleatória normal reduzida (vide Aula 03 € do curso). A estatística 7 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima ⎛ X i − X ⎞ 2 ∑i=1⎜⎝ σ ⎟⎠ n tem distribuição (vide Aula 03 do curso). Sabe-se que uma variável aleatória F com n1 graus de liberdade no numerador e n2 € graus de liberdade no denominador é dada por (vide Aula 01) Fn1 ,n 2 χn21 /n1 . = 2 χn 2 /n 2 Portanto, a variável aleatória € ⎛ X − µ ⎞ 2 ⎜ ⎟ ⎝ σ / n ⎠ 1 2 n ⎛ X − X ⎞ i ∑i=1⎜⎝ σ ⎟⎠ n −1 tem distribuição F com 1 grau de liberdade no numerador e n-1 graus de liberdade no denominador. € GABARITO: E 7. Deseja-se estimar a proporção p de pessoas com determinada característica em uma população. Um levantamento preliminar forneceu pˆ = 2 /7 . Usando essa estimativa, obtenha o menor tamanho de amostra aleatória simples necessária para estimar p com um intervalo de 95% de confiança e um erro de amostragem z €pˆ qˆ /n ≤ 2% , onde qˆ = 1 − pˆ . A) 7840 € B) 2500 € C) 1960 D) 9604 E) 2401 Resolução Vimos na Aula 04 que uma freqüência relativa amostral pˆ apresenta uma distribuição binomial, cuja média é o próprio parâmetro populacional p e cuja variância é dada por . Sendo e , aprendemos que é possível aproximar € a binomial pela 8 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima normal. Como p é desconhecido, adotaremos como condições de aproximação npˆ ≥ 5 e n(1 − pˆ ) ≥ 5 . Sendo a amostra suficientemente grande, o intervalo de confiança para p será da forma pˆ ± e0 , em que e0 é dado por € € € . A expressão acima tem um problema: não conhecemos o valor de p. Para amostras suficientemente grandes, podemos aproximá-la por . Note que a banca forneceu a fórmula acima. Por outro lado, a banca não forneceu a tabela normal; esperava-se que o candidato soubesse, de cor, o valor z2,5% = 1,96 (lembro que cheguei comentar no curso que valia a pena decorar esse valor, pois é “muito manjado” em prova de Estatística). A questão será resolvida desenvolvendo-se a fórmula que foi fornecida pela banca: 1,96 2 5 1 2 × × = 7 7 n 100 Aproximando 1,96 por 2, obtemos € 2 € 10 2 10 1 10 1 10 × 10.000 ≈ ∴ ≈ ∴ ≈ ∴n ≈ = 2.000 49n 100 49n 100 49n 10.000 100 /2 A opção C nos dá o valor mais próximo (1.960). Se você fizer as contas com a calculadora obterá o valor exato de 1.960. GABARITO: C 8. A partir de uma amostra aleatória (X1 ,Y1), (X2 ,Y2),..., (X20 ,Y20) foram obtidas as estastísticas: médias X = 12,5 e Y = 19, variâncias amostrais sx2 = 30 e sy2 = 54 e covariância Sxy = 36. Qual a reta de € € regressão estimada de Y em€X? € 9 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima € € € € € A) Yˆi = 19 + 0,667X i B) Yˆi = 12,5 +1,2X i C) Yˆ = 4 +1,2X i i D) Yˆi = 19 +1,2X i E) Yˆ = 80 + 22,8X i i Resolução A reta a estimar é Yˆi = a + bX i , em que o parâmetro b (estimativa da declividade) é dado por € n Sxy ∑i=1 (X i − X )(Yi − Y ) b= = , n Sxx ∑ (X − X )2 i=1 i e o parâmetro a (estimativa do intercepto) por € a = Y − bX , € conforme vimos na Aula 02 do curso. Observe que estou usando uma notação diferente do enunciado: a quantidade Sxy definida acima não é a covariância entre X e Y. Podemos calcular b adaptando a fórmula dada acima: € ∑ b= n i=1 (X i − X )(Yi − Y ) ∑ n i=1 n −1 (X i − X ) 2 = sxy . sx2 n −1 € Ou seja, b pode ser calculado, de forma alternativa, pela razão entre a covariância amostral sxy (estou usando uma notação diferente da do enunciado, mas que está coerente com a vista no curso!) e a variância amostral sx2 . Logo, b= 36 = 1,2 30 € e € a = 19 −1,2 × 12,5 = 4,0 . 10 € Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima Deste modo, a reta de regressão estimada de Y em X é Yˆi = 4 +1,2X i . GABARITO: C € 9. Com os dados da questão anterior, determine o valor da estatística F para testar a hipótese nula de que o coeficiente angular da reta do modelo de regressão linear simples de Y em X é igual a zero. A) 144 B) 18 C) 36 D) 72 E) 48 Resolução Aprendemos na Aula 07 (vide item 20 – Análise de Variância) que F= SQR SQE /(n − 2) Também vimos que € SQT = SQR + SQE em que ⇒ SQT = Soma dos quadrados total = Syy = (ou variação total) ⇒ SQE = Soma dos quadrados dos erros = (ou variação residual) ⇒ SQR = Soma dos quadrados da regressão = (ou variação explicada) Além disso, temos que SQR = b 2 Sxx = 1,2 2 [(n −1)sx2 ] = 1,44[19 × 30] = 820,80 SQT = Syy = (n-1) sy2 = 19 x 54 = 1.026 € SQE = SQT – SQR = 1.026 – 820,80 = 205,20 € 11 Resolução da Prova de Estatística da SUSEP 2010 Alexandre Lima Assim, F = 820,20/(205,20/18) = 820,80/11,40 = 72 GABARITO: D 10. Um modelo ARIMA(1,1,1) sem termo constante para uma variável Yt tem um coeficiente autoregressivo φ e um coeficientede do termo de média móvel θ. Seja o operador B tal que BYt = Yt-1, seja ∇ tal que ∇ = 1 − B , e seja at a representação do ruído branco. Assim, uma representação compatível desse modelo ARIMA é: A) (1 − ϕB)∇Yt = (1 − θB)at € € B) (1 − ϕ)BYt = (1 − θ )∇at € € € € € C) ϕ∇Yt = θBat D) ϕBYt = θ∇at E) (1 − ϕ∇)BYt = (1 − θ∇)at Resolução Vimos na Aula 05 que um modelos ARIMA(1,d,1) é definido por φ (B)∇ d Yt = θ (B)a(t) em que φ (B) = 1 − ϕB denota o polinômio autorregressivo, ∇ é o operador diferença€ e θ (B) = 1 − θB representa o polinômio de médias móveis. Temos, para o processo aleatório da questão, d = 1. Assim, o modelo ARIMA(1,1,1) será dado por € € € φ (B)∇Yt = θ (B)a(t)∴(1 − ϕB)∇Yt = (1 − θB)at GABARITO: A € 12