PONTO DOS CONCURSOS Estatística SUSEP Banca: ESAF Resolução da Prova 2 – Atuária 2010 Alexandre Barbosa de Lima 20/04/2010 Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
COMENTÁRIOS PRELIMINARES
Não identificamos questões passíveis de recurso nesta prova de 2010
da SUSEP. As questões foram bem elaboradas e cobraram assuntos
que foram especificados pelo Edital.
CORREÇÃO DA PROVA
1. Admita que a probabilidade de uma pessoa de um particular grupo
genético ter uma determinada doença é de 30%. Um custoso e
invasivo exame para diagnóstico específico dessa doença tem uma
probabilidade de um resultado falso positivo de 10% e de um
resultado falso negativo de 30%. Considerando que uma pessoa
desse grupo genético com suspeita da doença fez o referido exame,
qual a probabilidade dela ter a doença dado que o resultado do
exame foi negativo?
A) 30%
B) 7,5%
C) 25%
D) 15%
E) 12,5%
Resolução
Esta questão aborda o Teorema de Bayes e é bastante parecida com
um exemplo que dei na Aula 07, pág. 03. Devemos calcular a
probabilidade de que a pessoa tenha doença (= causa) dado
que o resultado do exame foi negativo (= efeito observado):
P(D | −) =
P(− | D)P(D)
P(− | D)P(D)
=
,
P(−)
P(− | D)P(D) + P(− | S)P(S)
em que “S” denota a parcela saudável da população (isto é, que não
possui a doença), “D” representa a parcela da população que tem a
€
doença, “-” e “+” denotam “resultado negativo” e “resultado
positivo”, respectivamente.
O enunciado fornece as seguintes probabilidades a priori:
- P(D) = 30% = 0,3
- P(S) = 1 – 0,3 = 0,7
- P(+|S) = 0,1 (falso positivo)
2
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
- P(-|D) = 0,3 (falso negativo)
Logo, P(+|D) = 1 – P(-|D) = 1 – 0,3 = 0,7. Além disso, temos que
P(-|S) = 1 – P(+|S) = 1 – 0,1 = 0,9.
P(D | −) =
P(− | D)P(D)
0,3 × 0,3
0,09
=
=
= 12,5%
P(− | D)P(D) + P(− | S)P(S) 0,3 × 0,3 + 0,9 × 0,7 0,09 + 0,63
GABARITO: E
€
2. Sejam n variáveis aleatórias iid, isto é, independentes e
identicamente distribuídas X1, X2,..., Xn com função densidade de
probabilidade f(x) e função de distribuição F(x), onde -∞ < x < ∞.
Considere uma nova variável aleatória Xmin tal que Xmin > x se e
somente se Xi > x para todo i, i = 1, 2, ..., n. Obtenha fmin(x), a
função densidade de probabilidade da variável aleatória Xmin.
A) fmin(x) = n(F(x))n-1f(x).
B) fmin(x) = n(1 - F(x))n-1 f(x).
C) fmin(x) = 1 - (1 - F(x))n.
D) fmin(x) = (F(x))n.
E) fmin(x) = exp(-|x|)/2.
Resolução
O enunciado diz que Xmin > x se e somente se Xi > x para todo i, i =
1, 2, ..., n. Logo,
P(Xmin > x) = P(X1 > x) . P(X2 > x) … . P(Xn > x)
Mas, P(Xi > x) = 1 - P(Xi ≤ x) = 1 - F(x), i = 1, 2, ..., n.
Então, P(Xmin > x) = (1 – F(x))n e
P(Xmin ≤ x) = Fmin(x) = 1 - (1 – F(x))n.
A função densidade de probabilidade corresponda à derivada da
função distribuição em relação a x. Portanto1,
fmin(x) = (Fmin(x))’ = -n(1 – F(x))n-1(1 – F(x))’ = -n(1 – F(x))n-1(–f(x))
(lembre que F(x)’ = f(x))
1
Lembre da regra de derivação de uma função composta f(x) = u[v(x)]: f’(x) = u’[v(x)].v’(x).
3
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
fmin(x) = n(1 – F(x))n-1f(x)
Observem que a matéria cobrada nesta questão foi dada na Aula 01
do curso.
GABARITO: B
3. Qual o limite de f(x) = Cn,x px (1-p)n-x, onde x =0,1,2,…,n, quando
n → ∞, p → 0, e np → λ.
A) f(x) = (2π)-1/2 exp(-(x - λ)2/2).
B) f(x) = e-λλx/x!.
C) f(x) = e-x/λ/λ.
D) f(x) = λe-λx.
E) f(x) = exp(-λ) xλ/x!.
Resolução
Esta questão aborda o comportamento assintótico da Lei
Binomial (lei de Poisson). Vimos esse tópico na Aula 01.
Suponha n >> 1 (isto é, que n seja grande), p << 1 (probabilidade
de sucesso próxima de zero), mas de tal forma que np permaneça
constante, digamos np = λ, na distribuição binomial
,
Portanto,
n −x
⎛ n ⎞ x
1 x ⎛ λ ⎞
n −x
⎜ ⎟ p (1 − p) ≈ λ ⎜1 − ⎟
x! ⎝ n ⎠
⎝ x ⎠
em que
€
se k << n), obtemos
. No limite, para
,
(admitindo-
n −x
1 x ⎛ λ ⎞
λx
λ ⎜1 − ⎟ → e − λ .
x! ⎝ n ⎠
x!
O resultado acima mostra que a distribuição Binomial pode ser
aproximada pela Distribuição de Poisson quando n >> 1, p <<
€
1, np=λ.
GABARITO: B
4
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
4. Considere um grupo de 15 pessoas dos quais 5 são estrangeiros.
Ao se escolher ao acaso 3 pessoas do grupo, sem reposição, qual a
probabilidade de exatamente uma das três pessoas escolhidas ser um
estrangeiro?
A) 45/91.
B) 1/3.
C) 4/9.
D) 2/9.
E) 42/81.
Resolução
Temos um grupo com 10 Patrícios (P) e 5 estrangeiros (E). Se
escolhermos 3 pessoas do grupo ao acaso (sem reposição),
obteremos s1={E, P, P} OU s2={P, E, P} OU s3={P, P, E}. Então,
P(exatamente um “E”) = P(s1) + P(s2) + P(s3). Note que
P(s1) = P(E).P(P).P(P) = (5/15) x (10/14) x (9/13) = 45/273,
P(s2) = P(P).P(E).P(P) = (10/15) x (5/14) x (9/13) = 45/273,
P(s3) = P(P).P(P).P(E) = (10/15) x (9/14) x (5/13) = 45/273,
Logo, P(exatamente um “E”) = 3 x 45/273 = 45/91
Os conhecimentos necessários para resolver esta questão foram
vistos na Aula 01.
GABARITO: A
5. Y e X são variáveis aleatórias com distribuição normal conjunta
com E(Y) = µY, E(X) = µX, e Cov(Y,X) = ρσYσX, onde σY e σX são os
desvios padrões de Y e X, respectivamente, e ρ o coeficiente de
correlação entre Y e X. Qual a expressão da regressão de X em Y,
E(X/Y=y)?
A) µY + ρσY(x – µX)/σX.
B) µY + ρσX(x – µX)/σY.
C) µY + ρσY(y – µY)/σX.
D) µX + ρσX(y – µY)/σY.
E) µX + ρσY(y – µY)/σX.
5
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
Resolução
A variável (X, Y) tem distribuição normal bidimensional se sua
densidade conjunta for dada por
f (x, y) =
1
2πσ xσ y
2 ⎤ ⎫
2
⎧
⎡⎛
⎪
(x − µx )(y − µy ) ⎛ y − µy ⎞ ⎥⎪
1
x − µx ⎞
⎢
⎟⎟ ⎬
exp⎨ −
+ ⎜⎜
⎜
⎟ − 2 ρ
2
σ xσ y
1 − ρ2
⎪⎩ 2(1 − ρ ) ⎢⎣⎝ σ x ⎠
⎝ σ y ⎠ ⎥⎦⎪⎭
para −∞ < x < ∞ , −∞ < y < ∞ .
€
Observe que a densidade normal conjunta depende de cinco
µX e µY (médias), σX e σY (desvios padrões) e ρ
€ parâmetros:
€
(coeficiente de correlação entre Y e X). As seguintes propriedades
podem ser demonstradas:
(a) As distribuições marginais de X e Y são normais unidimensionais,
a saber:
X ~ N( µx ,σ x2 ) , Y ~ N( µy ,σ y2 ) .
(b) ρ = Corr(X,Y ) (correlação entre X e Y).
€
€
(c) As distribuições condicionais são normais com:
€
⎛
⎞
σy
fY |X (y | x) ~ N ⎜ µy + ρ (x − µx ),σ y2 (1 − ρ 2 )⎟ ,
σx
⎝
⎠
€
⎛
⎞
σ
f X |Y (x | y) ~ N ⎜⎜ µx + ρ x (y − µy ),σ x2 (1 − ρ 2 )⎟⎟ .
σy
⎝
⎠
σ
Note que a média condicional E(X|Y=y) = µx + ρ x (y − µy ) é uma
σy
€
função linear de y; é por isso que E(X|Y=y) é a regressão de X
em Y (isso implica que as opções A e B poderiam ser descartadas
logo de início).
€
A opção D contém a expressão µx + ρ
σx
(y − µy ) . Logo é a opção
σy
correta.
Notas: i) apesar de ter feito um breve comentário sobre a
€
distribuição normal bidimensional no curso para a SUSEP (vide nota
de rodapé 8, item 3.1 da Aula 02), não ensinei como resolver esta
questão. ii) Não há tempo hábil para deduzir a propriedade (c) numa
6
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
prova de concurso. Portanto, acertou a questão quem “chutou” ou
havia “memorizado” as propriedades vistas acima. Essa questão era
da banca! (maldosa...)
GABARITO: D
6. Considere as n variáveis aleatórias iid, isto é, independentes e
identicamente distribuídas X1, X2 ,..., Xn com distribuição N(µ,σ2).
n
n
Considere ainda X = ∑i=1 X i /n e s2 = ∑i=1 (X i − X ) 2 /(n −1) . Dessa maneira
o quociente entre as variáveis aleatórias independentes n(X − µ) 2 /σ 2 e
s2/σ2 é uma variável aleatória:
€
€
A) “t” de Student com n-1 graus de liberdade.
€
B) Qui quadrado com n-1 graus de liberdade dividida pelo seu
número de graus de liberdade.
C) Qui quadrado com 1 grau de liberdade.
D) F com n-1 graus de liberdade no numerador e 1 grau de liberdade
no denominador.
E) F com 1 grau de liberdade no numerador e n-1 graus de liberdade
no denominador.
Resolução
A questão quer saber se o candidato sabe qual é a distribuição da
estatística
n(X − µ) 2
σ2
=
s2
σ2
⎛ X − µ ⎞ 2
⎜
⎟
⎝ σ / n ⎠
2 .
n ⎛ X − X ⎞
∑i=1⎜⎝ i σ ⎟⎠
n −1
Ora, a média amostral X é normal, pois X1, X2 ,..., Xn têm
€
distribuição N(µ,σ2). Assim, o numerador
€
⎛ X − µ ⎞ 2
⎜
⎟
⎝ σ / n ⎠
tem distribuição qui quadrado com 1 grau de liberdade, pois trata-se
do quadrado de uma variável aleatória normal reduzida (vide Aula 03
€
do curso). A estatística
7
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
⎛ X i − X ⎞ 2
∑i=1⎜⎝ σ ⎟⎠
n
tem distribuição
(vide Aula 03 do curso). Sabe-se que uma
variável aleatória F com
n1 graus de liberdade no numerador e n2
€
graus de liberdade no denominador é dada por (vide Aula 01)
Fn1 ,n 2
χn21 /n1
.
= 2
χn 2 /n 2
Portanto, a variável aleatória
€
⎛ X − µ ⎞ 2
⎜
⎟
⎝ σ / n ⎠
1
2
n ⎛ X − X ⎞
i
∑i=1⎜⎝ σ ⎟⎠
n −1
tem distribuição F com 1 grau de liberdade no numerador e n-1 graus
de liberdade no denominador.
€
GABARITO: E
7. Deseja-se estimar a proporção p de pessoas com determinada
característica em uma população. Um levantamento preliminar
forneceu pˆ = 2 /7 . Usando essa estimativa, obtenha o menor tamanho
de amostra aleatória simples necessária para estimar p com um
intervalo de 95% de confiança e um erro de amostragem
z €pˆ qˆ /n ≤ 2% , onde qˆ = 1 − pˆ .
A) 7840
€
B) 2500
€
C) 1960
D) 9604
E) 2401
Resolução
Vimos na Aula 04 que uma freqüência relativa amostral pˆ apresenta
uma distribuição binomial, cuja média é o próprio parâmetro
populacional p e cuja variância é dada por
. Sendo
e
, aprendemos que é possível aproximar
€ a binomial pela
8
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
normal. Como p é desconhecido, adotaremos como condições de
aproximação npˆ ≥ 5 e n(1 − pˆ ) ≥ 5 .
Sendo a amostra suficientemente grande, o intervalo de confiança
para p será da forma pˆ ± e0 , em que e0 é dado por
€
€
€
.
A expressão acima tem um problema: não conhecemos o valor de p.
Para amostras suficientemente grandes, podemos aproximá-la por
.
Note que a banca forneceu a fórmula acima. Por outro lado, a banca
não forneceu a tabela normal; esperava-se que o candidato
soubesse, de cor, o valor z2,5% = 1,96 (lembro que cheguei comentar
no curso que valia a pena decorar esse valor, pois é “muito manjado”
em prova de Estatística).
A questão será resolvida desenvolvendo-se a fórmula que foi
fornecida pela banca:
1,96
2 5 1
2
× × =
7 7 n 100
Aproximando 1,96 por 2, obtemos
€
2
€
10
2
10
1
10
1
10 × 10.000
≈
∴
≈
∴
≈
∴n ≈
= 2.000
49n 100
49n 100 49n 10.000
100 /2
A opção C nos dá o valor mais próximo (1.960). Se você fizer as
contas com a calculadora obterá o valor exato de 1.960.
GABARITO: C
8. A partir de uma amostra aleatória (X1 ,Y1), (X2 ,Y2),..., (X20 ,Y20)
foram obtidas as estastísticas:
médias X = 12,5 e Y = 19, variâncias amostrais sx2 = 30 e sy2 = 54 e
covariância Sxy = 36.
Qual a reta de
€
€ regressão estimada de Y em€X?
€
9
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
€
€
€
€
€
A) Yˆi = 19 + 0,667X i
B) Yˆi = 12,5 +1,2X i
C) Yˆ = 4 +1,2X
i
i
D) Yˆi = 19 +1,2X i
E) Yˆ = 80 + 22,8X
i
i
Resolução
A reta a estimar é
Yˆi = a + bX i ,
em que o parâmetro b (estimativa da declividade) é dado por
€
n
Sxy ∑i=1 (X i − X )(Yi − Y )
b=
=
,
n
Sxx
∑ (X − X )2
i=1
i
e o parâmetro a (estimativa do intercepto) por
€
a = Y − bX ,
€
conforme vimos na Aula 02 do curso. Observe que estou usando uma
notação diferente do enunciado: a quantidade Sxy definida acima não é
a covariância entre X e Y.
Podemos calcular b adaptando a fórmula dada acima:
€
∑
b=
n
i=1
(X i − X )(Yi − Y )
∑
n
i=1
n −1
(X i − X ) 2
=
sxy
.
sx2
n −1
€
Ou seja, b pode ser calculado, de forma alternativa, pela razão entre
a covariância amostral sxy (estou usando uma notação diferente da do
enunciado, mas que está coerente com a vista no curso!) e a
variância amostral sx2 . Logo,
b=
36
= 1,2
30
€
e
€
a = 19 −1,2 × 12,5 = 4,0 .
10
€
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
Deste modo, a reta de regressão estimada de Y em X é Yˆi = 4 +1,2X i .
GABARITO: C
€
9. Com os dados da questão anterior, determine o valor da estatística
F para testar a hipótese nula de que o coeficiente angular da reta do
modelo de regressão linear simples de Y em X é igual a zero.
A) 144
B) 18
C) 36
D) 72
E) 48
Resolução
Aprendemos na Aula 07 (vide item 20 – Análise de Variância) que
F=
SQR
SQE /(n − 2)
Também vimos que
€
SQT = SQR + SQE
em que
⇒ SQT = Soma dos quadrados total = Syy =
(ou
variação total)
⇒ SQE = Soma dos quadrados dos erros =
(ou
variação residual)
⇒ SQR = Soma dos quadrados da regressão =
(ou
variação explicada)
Além disso, temos que
SQR = b 2 Sxx = 1,2 2 [(n −1)sx2 ] = 1,44[19 × 30] = 820,80
SQT = Syy = (n-1) sy2 = 19 x 54 = 1.026
€
SQE = SQT – SQR = 1.026 – 820,80 = 205,20
€
11
Resolução da Prova de Estatística da SUSEP 2010
Alexandre Lima
Assim,
F = 820,20/(205,20/18) = 820,80/11,40 = 72
GABARITO: D
10. Um modelo ARIMA(1,1,1) sem termo constante para uma variável Yt tem
um coeficiente autoregressivo φ e um coeficientede do termo de média móvel
θ. Seja o operador B tal que BYt = Yt-1, seja ∇ tal que ∇ = 1 − B , e seja at a
representação do ruído branco. Assim, uma representação compatível desse
modelo ARIMA é:
A) (1 − ϕB)∇Yt = (1 − θB)at
€
€
B) (1 − ϕ)BYt = (1 − θ )∇at
€
€
€
€
€
C) ϕ∇Yt = θBat
D) ϕBYt = θ∇at
E) (1 − ϕ∇)BYt = (1 − θ∇)at
Resolução
Vimos na Aula 05 que um modelos ARIMA(1,d,1) é definido por
φ (B)∇ d Yt = θ (B)a(t)
em que φ (B) = 1 − ϕB denota o polinômio autorregressivo, ∇ é o
operador diferença€ e θ (B) = 1 − θB representa o polinômio de médias
móveis. Temos, para o processo aleatório da questão, d = 1. Assim, o
modelo ARIMA(1,1,1) será dado por
€
€
€
φ (B)∇Yt = θ (B)a(t)∴(1 − ϕB)∇Yt = (1 − θB)at
GABARITO: A
€
12
Download

Estatística SUSEP Banca: ESAF