Alguns comentários sobre a prova de estatística do TCU.
Sem dúvidas, uma prova difícil.
Creio que cabe recurso contra o item 219. Comentamos alguma coisa a respeito
logo abaixo.
A primeira questão da prova foi muito boa. Especialmente porque era possível
“fugir” das contas.
A única ressalva que eu faço é para o item 206. Em vez da cobrança do modelo de
regressão padrão, cobrou-se o modelo que passa pela origem. Este segundo
modelo é usado em casos excepcionais, quando há alguma razão teórica que nos
indique ser esse o modelo mais adequado. Do contrário, o que se faz é a aplicação
do modelo padrão. Os valores da amostra nos dirão se a reta de regressão passa
pela origem ou não.
De todo modo, entrar com recurso por falta de previsão no edital não dá. O edital
trazia “regressão simples”, o que dá margem para se cobrar um monte de coisas,
inclusive este modelo. Não que ele seja difícil. Só não é muito cobrado (vi poucas
vezes, e sempre em provas para a área de estatística).
Para vocês terem uma idéia, durante o nosso curso de estatística, até tentamos
aprofundar um pouco a regressão linear, explicando tópicos que caem com maior
freqüência em provas, mesmo sabendo que dificilmente seriam cobrados neste
concurso. Neste sentido, falamos um pouco sobre modelo não linear que se torna
linear por transformação, e vimos alguns conceitos relacionados à análise de
variância da regressão. Mas, quanto à tal da reta de regressão passando pela
origem, que poucas vezes vi sendo cobrada, realmente considero uma surpresa.
Na segunda questão foi preciso um pouco de “jogo de cintura” para fugir das contas
mais difíceis. Acho que poderiam ter colocado números um pouco “mais fáceis”.
Testaria o conhecimento do mesmo jeito, diminuindo o trabalho braçal.
A terceira questão foi sobre o teste de qui-quadrado para proporções, que é a
aplicação mais comum deste teste (ao menos em provas de concursos).
A quarta questão foi sobre o teste de hipóteses/intervalo de confiança para a
média, tópico também comum em provas. Aqui, cabem elogios à questão. O edital
falava em teste de hipóteses para a média, mas não falava em distribuição t.
Conclusão: não poderiam ser cobrados testes de hipóteses em que fosse exigida tal
distribuição.
Mas, considerando que se poderia “forçar a barra”, trazendo testes com esta
distribuição (pois não deixaria de ser um teste de hipóteses para a média),
considerando que a maior parte das questões de testes de hipóteses em concursos
cobra a distribuição t, falamos sobre ela no nosso curso, alertando que não seria
razoável sua cobrança.
E a questão foi realmente acertada, fornecendo a
permitindo que se usasse a distribuição normal.
variância populacional,
Nesta última questão, em que foi necessário usar a distribuição normal, a prova
não forneceu a tabela de áreas para a variável normal. Mas deu um jeito sutil de
informar as áreas necessárias para resolver o problema, o que tornou a questão
bem interessante.
Passo agora a comentar bem rapidamente cada item da prova.
PRIMEIRA QUESTÃO
Texto para os itens de 206 a 213
Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela
a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em
determinado município, nos anos de 2005 a 2007.
Ano
2005
2006
2007
Número de imóveis
Ofertados (X)
Vendidos (Y)
1.500
100
1.750
400
2.000
700
Considerando as informações do texto, julgue os itens subseqüentes.
206 A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y
representa o número esperado de imóveis vendidos para uma quantidade X de
imóveis ofertados, é superior a 0,23 e inferior a 0,26.
207 O coeficiente de correlação linear entre X e Y é inferior a 0,8.
208 Considerando que em 2008 sejam ofertados 2.500 imóveis, dos quais sejam
vendidos Y imóveis nesse mesmo ano, nesse caso, se a probabilidade de um imóvel
ofertado em 2008 ser vendido no mesmo ano for igual a 0,4, e se Y seguir uma
distribuição binomial, então a probabilidade de se observar o evento Y $ 1.000
imóveis será inferior a 0,41.
209 A variável X forma uma série estatística denominada série temporal.
COMENTÁRIOS
Item 206.
Seja â a estimativa de
Seja
a.
Yˆ a estimativa de Y .
Dados os valores de X, as estimativas de Y ficam:
Yˆ = aˆ × X
O erro cometido na estimativa fica:
e = (Y − aˆ × X )
Somando os quadrados de todos os erros cometidos, num conjunto de n
observações:
∑e
∑e
2
2
= ∑ (Y − aˆ × X )
2
= ∑ Y 2 − 2 × aˆ × XY + aˆ 2 × X 2
(
)
Queremos que a soma dos quadrados dos desvios seja a menor possível. Para
tanto, derivamos a função (em relação a â ) e igualamos a zero:
∑ (− 2 × XY + 2aˆ × X ) = 0
∑ (2aˆ × X ) = ∑ (2 × XY )
∑ (aˆ × X ) = ∑ ( XY )
∑ ( XY )
aˆ =
∑ (X )
2
2
2
2
Esta é a fórmula que temos que aplicar.
Ano
X
2005
2006
2007
aˆ =
1.500
1.750
2.000
TOTAL
Y
X ×Y
100
400
700
150.000
700.000
1.400.000
2.250.000
X2
2.250.000
3.062.500
4.000.000
9.312.500
2.250.000
≅ 0,242
9.312.500
Item correto.
207. Vamos calcular a correlação linear entre X e Y.
Ano
X
5
6
7
1.500
1.750
2.000
Y
n
∑ [(X
r=
i
Y −Y
100
-250
400
0
700
250
TOTAL
-300
0
300
) (
− X × Yi − Y
(X − X )× (Y − Y ) (X − X )
2
75.000
0
75.000
150.000
)]
i =1
n
∑ (X
i
−X
n
) × ∑ (Y − Y )
2
i =1
r=
X−X
2
i
i =1
150.000
125.000 × 180.000
=
150
125 × 180
=
150
5 900
As contas foram relativamente tranqüilas.
=
150
=1
150
62.500
0
62.500
125.000
(Y − Y )
2
90.000
0
90.000
180.000
Só um detalhe. Era possível resolver a questão sem fazer contas. Note como os
valores de X e Y estão exatamente ao longo de uma reta. Para cada variação de
250 em X, temos uma variação de 300 em Y. Ou seja, os três pares ordenados
fornecidos estão ao longo de uma mesma reta.
Para deixar mais claro, segue o gráfico:
Vendidos (Y)
700
400
100
1500
1750
2000
Ofertados (X)
O coeficiente de correlação linear nos dá uma medida de quão forte é a relação
linear entre duas variáveis. Acontece que, para os valores fornecidos, temos uma
relação linear perfeita (é exatamente uma reta). Por isso já dava para falar que
este coeficiente é igual a 1.
Portanto, o coeficiente não é inferior a 0,8. Item errado.
Item 208.
Temos uma variável binomial. Precisaríamos calcular a probabilidade de Y assumir
o valor 1.000. Depois, a probabilidade de Y assumir o valor 1.001, 1.002, ...,
2.500. E em seguida somar todos esses valores. Só que isso dá muito trabalho. O
que fazer?
Quando o número de observações cresce muito (aqui temos 2.500 imóveis sendo
ofertados), a distribuição binomial se aproxima de uma distribuição normal. A idéia,
portanto, é fazer a aproximação e usar a tabela de áreas para a variável normal.
A média para a variável binomial é:
µ = np
‘n’ é o número de observações (são 2.500 imóveis). ‘p’ é a probabilidade de
sucesso. A situação favorável (=sucesso) ocorre quando dado imóvel ofertado é
vendido.
Conforme dados do enunciado:
p = 0,4 e n = 2500
Portanto:
µ = np = 1000
A média de nossa variável normal (ou praticamente normal) é 1.000. O gráfico da
sua função densidade de probabilidade é simétrico. Portanto, a probabilidade de
termos valores à esquerda de 1.000 é igual a probabilidade de termos valores à
direita de 1.000. E ambas são iguais a 50%. 50% não é inferior a 0,41.
Item errado.
Item 209.
Item correto.
SEGUNDA QUESTÃO
Com respeito ao texto, considere que cada imóvel ofertado em determinado ano
seja classificado como vendido ou não-vendido, e, a um imóvel e classificado como
vendido seja atribuído um valor Z = 1, e, ao imóvel classificado como não-vendido,
seja atribuído um valor Z = 0. Supondo-se que as classificações dos imóveis como
vendido ou não-vendido em um dado ano possam ser consideradas como sendo
realizações de uma amostragem aleatória simples, julgue os itens a seguir. 210. A
variável Z é classificada como variável qualitativa nominal, pois representa o
atributo do imóvel como vendido ou não-vendido.
211. Considerando os dados de 2007, a estimativa da probabilidade P(Z = 1) é
igual a 0,35, e o erro-padrão dessa estimativa é superior a 0,01 e inferior a 0,02.
212. A variância de Z é superior a 0,30 e inferior a 1,0.
213. O valor do coeficiente de variação de Z em 2005 é maior que o coeficiente de
variação de Z em 2007.
COMENTÁRIOS
Item 211
No fundo, quereremos, a partir da amostra fornecida, estimar a proporção de
imóveis vendidos na população.
Consideramos que a proporção de imóveis vendidos na amostra é um estimador da
proporção de imóveis vendidos na população. Esta estimativa fica:
pˆ =
700
= 0,35
2000
A primeira parte do item está certa. Falta o desvio padrão.
E o desvio padrão fica:
σ=
pq
n
Em que p é a proporção de imóveis vendidos (=sucesso) e q é a proporção de
imóveis não vendidos (=fracasso).
Como não conhecemos as proporções da população, substituímos pelas proporções
da amostra:
pq
=
n
7 13
×
20 20
2000
E o problema agora é resolver a raiz quadrada.
Como os números não são muito amigáveis, vamos achar a variância. Desta forma,
trabalhando com a variância, nos livramos da raiz quadrada.
Para responder à questão, precisamos saber se o desvio padrão está no seguinte
intervalo:
0,01 < σ < 0,02
Caso essa inequação seja verdadeira, então podemos achar o intervalo em que está
a variância:
0,01 < σ < 0,02 ⇒ 1 × 10 −4 < σ 2 < 4 × 10 −4
Então é isso que vamos fazer. Vamos achar a variância e ver se ela está ou não
entre
10 −4 e 4 × 10 −4
7 13
×
91
91
σ 2 = 20 20 =
=
× 10 − 4
2000
800.000 80
A fração
91
é um pouco maior que 1.
80
Portanto, o item está correto.
Para quem quiser fazer a conta:
91
× 10 − 4 = 1,1375 × 10 − 4 .
80
Item 212.
A maior variância ocorre em 2007, quando a proporção de imóveis vendidos mais
se aproxima de 0,5.
V ( Z ) = pq =
7 13
×
= 0,2275
20 20
Item errado.
Item 213
Cálculo do coeficiente de variação em 2005:
A variância de Z em 2005 é:
V ( Z ) = pq =
100 1400
×
1500 1500
E a média de Z é:
CV _ 2005 =
100
1500
100 1400 100
1400 100
1400 1500
×
÷
=
÷
=
×
= 14
1500 1500 1500
1500 1500
1500 100
Analogamente, o coeficiente de variação em 2007 fica:
CV _ 2007 =
14 >
13
7
13
7
Item correto.
TERCEIRA QUESTÃO
Tipo
Funcionários
Estagiários
Prestadores de serviços
Total
2006
70
16
14
100
2007
74
16
10
100
Considerando a tabela acima, que apresenta a distribuição do quadro de
colaboradores da CAIXA, em mil pessoas, no final dos anos de 2006 e 2007, julgue
os itens seguintes.
214 Considerando que, para se testar a hipótese nula de que a distribuição do
quadro de colaboradores de 2007 manteve-se estatisticamente igual à distribuição
de 2006, seja aplicado um teste qui-quadrado, nessa situação, a estatística do
teste será igual a e possuirá 2 graus de liberdade.
215 Se uma variável X registra a classificação de cada pessoa do quadro como
funcionária, estagiária ou prestadora de serviço, então X é uma variável qualitativa.
216 Se as médias das idades dos funcionários, estagiários e prestadores de serviço
em 2007 foram, respectivamente, iguais a 40 anos, 20 anos e 35 anos, então a
média das idades dos colaboradores em 2007 foi inferior a 35 anos.
COMENTÁRIOS
Item 214.
Supondo que a hipótese nula seja verdadeira, podemos afirmar que a proporção
geral de funcionários é:
144
= 72%
200
Analogamente, para estagiários:
E para prestadores de serviços:
32
= 16%
200
24
= 12%
200
Designando as freqüências observadas por ‘O’ e esperadas por ‘E’, podemos montar
a seguinte tabela:
Tipo
2006
2007
E
O
E
O
Funcionários
72
70
72
74
Estagiários
16
16
16
16
Prestadores de serviços
Total
12
100
14
100
A estatística teste é a soma de todos os valores de
12
100
10
100
(O − E ) 2
.
E
2
2
2
2
2
2
(
70 − 72 )
(
16 − 16 )
(
14 − 12 )
(
74 − 72 )
(
16 − 16 )
(
10 − 12 )
χ _ teste =
+
+
+
+
+
2
72
16
χ 2 _ teste =
4
4
4
4
+ +
+
72 12 72 12
χ 2 _ teste =
4 + 24 + 4 + 24 56 7
=
=
72
72 9
12
72
16
12
Sejam L e C os números de linhas e colunas da tabela dada.
O número de graus de liberdade é:
( L − 1) × (C − 1) = (3 − 1) × (2 − 1) = 2
Item correto.
Item 215. Item correto.
Item 216.
A média das idades dos funcionários é de 40 anos. São 74 funcionários (na
verdade, 74.000, mas vamos deixar esse ‘mil’ pra lá).
Isto quer dizer que, somando as idades de todos os funcionários e dividindo por 74,
obtemos 40.
40 =
soma _ funcionarios
74
Isolando a soma das idades dos funcionários:
soma _ funcionarios = 40 × 74
O mesmo vale para os estagiários.
20 =
soma _ estagiarios
⇒ soma _ estagiarios = 20 × 16
16
O mesmo vale para os prestadores de serviço:
35 =
soma _ prestadores
⇒ soma _ prestadores = 35 × 10
10
Para obter a média geral, somamos todas as idades e dividimos por 100 (são cem
pessoas ao todo).
Media _ geral =
40 × 74 + 20 × 16 + 35 × 10
= 36,3
100
Item errado.
QUARTA QUESTÃO
Uma instituição afirma que o custo médio para a realização de certa obra é igual ou
inferior a R$ 850,00/m2. Para avaliar essa afirmação, foi realizado um teste
estatístico cujas hipótese nula e hipótese alternativa são, respectivamente,
H 0 : µ ≤ R$ 850,00/m2 e HA : µ > R$ 850,00/m2. Considere que a distribuição
dos custos por metro quadrado possa ser considerada como normal com média
µ
e desvio-padrão de R$ 300,00/m2. A partir de uma amostra aleatória de tamanho
25, a estatística do teste para a média foi igual a 2,1. O valor P do teste foi igual a
0,018. Com base nessas informações, julgue os itens subseqüentes.
217 A média amostral produzida pelo teste estatístico foi superior a R$ 950,00/m2
e inferior a R$ 1.000,00/m2.
218 Um intervalo de confiança de 96,4% para o custo médio por metro quadrado é
[R$ 850,00; R$ 1.102,00].
219 A probabilidade de significância do teste é inferior a 0,02 e, portanto, hipótese
nula é rejeitada caso seja fixado um nível de significância superior a 2%.
220 O poder do teste, que representa a probabilidade de se aceitar corretamente a
hipótese nula, é igual a 98,2%.
COMENTÁRIOS
Item 217.
A estatística teste é dada por:
Z _ teste =
Onde
X −µ
σX
.
X é a média amostral e σ X é o desvio padrão da média amostral.
O desvio padrão da média amostral é dado por:
σX =
Onde
σX =
σ
n
σ
é o desvio padrão da população e n é o tamanho da amostra.
σ
n
=
300
= 60
5
Portanto, a estatística teste fica:
Z _ teste =
2,1 =
X −µ
σX
X − 850
⇒ X = 976
60
Este valor, de fato, está entre 950 e 1.000. Item correto.
Item 218.
Antes de começarmos a resolver este item, voltemos ao enunciado da questão.
A estatística teste foi de 2,1. E o p-valor foi igual a 0,018. Isto quer dizer que a
área vermelha da figura abaixo é de 0,018.
Como o gráfico da função densidade de probabilidade (fdp) da variável normal é
simétrico, a área à esquerda de -2,1 também é de 0,018. Portanto, a área verde da
figura abaixo é de 0,964.
Visto isso, retornemos ao item.
Vamos encontrar o intervalo de confiança.
Primeiro passo: determinar o intervalo centrado em zero, para a variável reduzida
Z, que contém 96,4% dos valores.
Conforme vimos na figura acima, este intervalo é delimitado pelos valores -2,1 e
2,1.
Segundo passo: determinar o tamanho da amostra e o desvio padrão da média
amostral
O tamanho da amostra foi dado:
n = 25
O desvio padrão da média amostral foi calculado no item anterior.
σX =
σ
n
=
300
= 60
5
Terceiro passo: encontrar a média amostral específica para a amostra feita.
Este valor também foi encontrado no item anterior.
X = 976
O intervalo de confiança é da forma:
X − Z0 ×σ X ≤ µ ≤ X + Z0 ×σ X
976 − 2,1 × 60 ≤ µ ≤ 976 + 2,1 × 60
850 ≤ µ ≤ 1102
Item correto.
Item 219.
Probabilidade de significância é o mesmo que p-valor. O enunciado disse que o pvalor é igual a 0,018.
Portanto, realmente o p-valor é inferior a 0,02. A primeira parte do item está
correta.
Vamos à segunda parte que, ao meu ver, também está correta.
Sempre que o p-valor for inferior ao nível de significância, rejeitamos a hipótese
nula. Portanto, se o nível de significância for superior a 1,8%, rejeitamos H0.
Repetindo: adotar nível de significância superior a 1,8% significa rejeitar a hipótese
nula. Portanto, realmente, caso adotemos um nível de significância superior a 2%,
com certeza rejeitaremos a hipótese nula.
Se o exercício tivesse dito que rejeitamos a hipótese nula APENAS quando o nível
de significância é superior a 2% aí sim a questão estaria errada (estariam sendo
desprezados valores entre 1,8% e 2%). Mas não foi isso que foi dito.
Na minha opinião, o item está certo. Mas o gabarito do CESPE foi errado.
Para quem for fazer o recurso, dá para citar o livro do Gilberto de Andrade Martins
– Estatística Geral e Aplicada.
Não estou com o livro aqui para passar a edição, editora, número de página etc. Se
alguém tiver acesso ao livro, lá está bem legal de citar, porque ele é bem direto.
Vou tentar passar na biblioteca amanhã para copiar o trecho e postar aqui no site.
Um outro livro que também fala do assunto é o Estatística Básica, do Wilton de O.
Bussab e Pedro A. Morettin.
Este eu tenho em mãos. Editora Saraiva. 5ª edição. São Paulo 2002. Ele fala no
assunto nas páginas 341/343.
O ruim é que não dá para fazer uma citação direta deste último livro. É que ele fala
um pouco sobre cada aspecto do p-valor em cada um dos exemplos que traz.
De todo modo, esses dois livros são facilmente encontrados em bibliotecas de
faculdades. Fica aí a dica.
Segue um trecho do livro do Morettin:
O método de construção de um teste de hipóteses, descrito nas seções anteriores,
parte da fixação do nível de significância α . Pode-se argumentar que esse
procedimento pode levar à rejeição da hipótese nula para um valor α e à nãorejeição para um valor menor. Outra maneira de proceder consiste em apresentar
a probabilidade de significância ou nível descritivo ou ainda p-valor do teste. Os
passos são muito parecidos aos já apresentados; a principal diferença está em não
construir a região crítica. O que se faz é indicar a probabilidade de ocorrer valores
da estatística mais extremos do que o observado, sob a hipótese de H0 ser
verdadeira.
Exemplo 12.5. Voltemos ao exemplo 12.3, onde H0:
Como vimos, admitindo essa hipótese verdadeira,
p = 0,60 .
pˆ ~ N (0,60;0,24 / 200) . Colhida a
pˆ 0 = 104 / 200 = 0,52 . Portanto, podemos calcular qual a
probabilidade de ocorrerem valores de p̂ mais desfavoráveis para H0 do que esse.
É evidente que quanto menor for p̂ , maior será a evidência contra H0: p = 0,60 .
amostra obtivemos
Assim, calculemos:
P( pˆ < 0,52 p = 0,60) =
[...]
= 1%
Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a
probabilidade de encontrarmos uma amostra de 200 famílias com 52% ou menos
de audiência é de 1%. Isso sugere que, ou estamos diante de uma amostra rara
de ocorrer, 1 em 100, ou então a hipótese formulada não é aceitável. Nesse caso,
somos levados a essa segunda opção, ou seja, os dados da amostra sugerem que
a hipótese H0 deve ser rejeitada.
[...]
Se indicarmos genericamente por
α̂
o p-valor, rejeitamos H0 para aqueles níveis
de significância α maiores do que α̂ . No Exemplo 12.7, rejeitamos H0, por
exemplo, se α = 0,10 , mas não a rejeitaremos se α = 0,05 ou α = 0,01 . Ou seja,
se o nível descritivo for muito pequeno, como o caso
αˆ < 0,01
do Exemplo 12.6,
há evidências de que a hipótese não seja válida. Como vimos nesse exemplo, a
probabilidade de significância é muitas vezes denotada por p na literatura (pvalue).
Item 220.
O poder do teste é a probabilidade de a hipótese nula ser rejeitada dado que ela é
falsa.
Item errado.