Alguns comentários sobre a prova de estatística do TCU. Sem dúvidas, uma prova difícil. Creio que cabe recurso contra o item 219. Comentamos alguma coisa a respeito logo abaixo. A primeira questão da prova foi muito boa. Especialmente porque era possível “fugir” das contas. A única ressalva que eu faço é para o item 206. Em vez da cobrança do modelo de regressão padrão, cobrou-se o modelo que passa pela origem. Este segundo modelo é usado em casos excepcionais, quando há alguma razão teórica que nos indique ser esse o modelo mais adequado. Do contrário, o que se faz é a aplicação do modelo padrão. Os valores da amostra nos dirão se a reta de regressão passa pela origem ou não. De todo modo, entrar com recurso por falta de previsão no edital não dá. O edital trazia “regressão simples”, o que dá margem para se cobrar um monte de coisas, inclusive este modelo. Não que ele seja difícil. Só não é muito cobrado (vi poucas vezes, e sempre em provas para a área de estatística). Para vocês terem uma idéia, durante o nosso curso de estatística, até tentamos aprofundar um pouco a regressão linear, explicando tópicos que caem com maior freqüência em provas, mesmo sabendo que dificilmente seriam cobrados neste concurso. Neste sentido, falamos um pouco sobre modelo não linear que se torna linear por transformação, e vimos alguns conceitos relacionados à análise de variância da regressão. Mas, quanto à tal da reta de regressão passando pela origem, que poucas vezes vi sendo cobrada, realmente considero uma surpresa. Na segunda questão foi preciso um pouco de “jogo de cintura” para fugir das contas mais difíceis. Acho que poderiam ter colocado números um pouco “mais fáceis”. Testaria o conhecimento do mesmo jeito, diminuindo o trabalho braçal. A terceira questão foi sobre o teste de qui-quadrado para proporções, que é a aplicação mais comum deste teste (ao menos em provas de concursos). A quarta questão foi sobre o teste de hipóteses/intervalo de confiança para a média, tópico também comum em provas. Aqui, cabem elogios à questão. O edital falava em teste de hipóteses para a média, mas não falava em distribuição t. Conclusão: não poderiam ser cobrados testes de hipóteses em que fosse exigida tal distribuição. Mas, considerando que se poderia “forçar a barra”, trazendo testes com esta distribuição (pois não deixaria de ser um teste de hipóteses para a média), considerando que a maior parte das questões de testes de hipóteses em concursos cobra a distribuição t, falamos sobre ela no nosso curso, alertando que não seria razoável sua cobrança. E a questão foi realmente acertada, fornecendo a permitindo que se usasse a distribuição normal. variância populacional, Nesta última questão, em que foi necessário usar a distribuição normal, a prova não forneceu a tabela de áreas para a variável normal. Mas deu um jeito sutil de informar as áreas necessárias para resolver o problema, o que tornou a questão bem interessante. Passo agora a comentar bem rapidamente cada item da prova. PRIMEIRA QUESTÃO Texto para os itens de 206 a 213 Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. Ano 2005 2006 2007 Número de imóveis Ofertados (X) Vendidos (Y) 1.500 100 1.750 400 2.000 700 Considerando as informações do texto, julgue os itens subseqüentes. 206 A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y representa o número esperado de imóveis vendidos para uma quantidade X de imóveis ofertados, é superior a 0,23 e inferior a 0,26. 207 O coeficiente de correlação linear entre X e Y é inferior a 0,8. 208 Considerando que em 2008 sejam ofertados 2.500 imóveis, dos quais sejam vendidos Y imóveis nesse mesmo ano, nesse caso, se a probabilidade de um imóvel ofertado em 2008 ser vendido no mesmo ano for igual a 0,4, e se Y seguir uma distribuição binomial, então a probabilidade de se observar o evento Y $ 1.000 imóveis será inferior a 0,41. 209 A variável X forma uma série estatística denominada série temporal. COMENTÁRIOS Item 206. Seja â a estimativa de Seja a. Yˆ a estimativa de Y . Dados os valores de X, as estimativas de Y ficam: Yˆ = aˆ × X O erro cometido na estimativa fica: e = (Y − aˆ × X ) Somando os quadrados de todos os erros cometidos, num conjunto de n observações: ∑e ∑e 2 2 = ∑ (Y − aˆ × X ) 2 = ∑ Y 2 − 2 × aˆ × XY + aˆ 2 × X 2 ( ) Queremos que a soma dos quadrados dos desvios seja a menor possível. Para tanto, derivamos a função (em relação a â ) e igualamos a zero: ∑ (− 2 × XY + 2aˆ × X ) = 0 ∑ (2aˆ × X ) = ∑ (2 × XY ) ∑ (aˆ × X ) = ∑ ( XY ) ∑ ( XY ) aˆ = ∑ (X ) 2 2 2 2 Esta é a fórmula que temos que aplicar. Ano X 2005 2006 2007 aˆ = 1.500 1.750 2.000 TOTAL Y X ×Y 100 400 700 150.000 700.000 1.400.000 2.250.000 X2 2.250.000 3.062.500 4.000.000 9.312.500 2.250.000 ≅ 0,242 9.312.500 Item correto. 207. Vamos calcular a correlação linear entre X e Y. Ano X 5 6 7 1.500 1.750 2.000 Y n ∑ [(X r= i Y −Y 100 -250 400 0 700 250 TOTAL -300 0 300 ) ( − X × Yi − Y (X − X )× (Y − Y ) (X − X ) 2 75.000 0 75.000 150.000 )] i =1 n ∑ (X i −X n ) × ∑ (Y − Y ) 2 i =1 r= X−X 2 i i =1 150.000 125.000 × 180.000 = 150 125 × 180 = 150 5 900 As contas foram relativamente tranqüilas. = 150 =1 150 62.500 0 62.500 125.000 (Y − Y ) 2 90.000 0 90.000 180.000 Só um detalhe. Era possível resolver a questão sem fazer contas. Note como os valores de X e Y estão exatamente ao longo de uma reta. Para cada variação de 250 em X, temos uma variação de 300 em Y. Ou seja, os três pares ordenados fornecidos estão ao longo de uma mesma reta. Para deixar mais claro, segue o gráfico: Vendidos (Y) 700 400 100 1500 1750 2000 Ofertados (X) O coeficiente de correlação linear nos dá uma medida de quão forte é a relação linear entre duas variáveis. Acontece que, para os valores fornecidos, temos uma relação linear perfeita (é exatamente uma reta). Por isso já dava para falar que este coeficiente é igual a 1. Portanto, o coeficiente não é inferior a 0,8. Item errado. Item 208. Temos uma variável binomial. Precisaríamos calcular a probabilidade de Y assumir o valor 1.000. Depois, a probabilidade de Y assumir o valor 1.001, 1.002, ..., 2.500. E em seguida somar todos esses valores. Só que isso dá muito trabalho. O que fazer? Quando o número de observações cresce muito (aqui temos 2.500 imóveis sendo ofertados), a distribuição binomial se aproxima de uma distribuição normal. A idéia, portanto, é fazer a aproximação e usar a tabela de áreas para a variável normal. A média para a variável binomial é: µ = np ‘n’ é o número de observações (são 2.500 imóveis). ‘p’ é a probabilidade de sucesso. A situação favorável (=sucesso) ocorre quando dado imóvel ofertado é vendido. Conforme dados do enunciado: p = 0,4 e n = 2500 Portanto: µ = np = 1000 A média de nossa variável normal (ou praticamente normal) é 1.000. O gráfico da sua função densidade de probabilidade é simétrico. Portanto, a probabilidade de termos valores à esquerda de 1.000 é igual a probabilidade de termos valores à direita de 1.000. E ambas são iguais a 50%. 50% não é inferior a 0,41. Item errado. Item 209. Item correto. SEGUNDA QUESTÃO Com respeito ao texto, considere que cada imóvel ofertado em determinado ano seja classificado como vendido ou não-vendido, e, a um imóvel e classificado como vendido seja atribuído um valor Z = 1, e, ao imóvel classificado como não-vendido, seja atribuído um valor Z = 0. Supondo-se que as classificações dos imóveis como vendido ou não-vendido em um dado ano possam ser consideradas como sendo realizações de uma amostragem aleatória simples, julgue os itens a seguir. 210. A variável Z é classificada como variável qualitativa nominal, pois representa o atributo do imóvel como vendido ou não-vendido. 211. Considerando os dados de 2007, a estimativa da probabilidade P(Z = 1) é igual a 0,35, e o erro-padrão dessa estimativa é superior a 0,01 e inferior a 0,02. 212. A variância de Z é superior a 0,30 e inferior a 1,0. 213. O valor do coeficiente de variação de Z em 2005 é maior que o coeficiente de variação de Z em 2007. COMENTÁRIOS Item 211 No fundo, quereremos, a partir da amostra fornecida, estimar a proporção de imóveis vendidos na população. Consideramos que a proporção de imóveis vendidos na amostra é um estimador da proporção de imóveis vendidos na população. Esta estimativa fica: pˆ = 700 = 0,35 2000 A primeira parte do item está certa. Falta o desvio padrão. E o desvio padrão fica: σ= pq n Em que p é a proporção de imóveis vendidos (=sucesso) e q é a proporção de imóveis não vendidos (=fracasso). Como não conhecemos as proporções da população, substituímos pelas proporções da amostra: pq = n 7 13 × 20 20 2000 E o problema agora é resolver a raiz quadrada. Como os números não são muito amigáveis, vamos achar a variância. Desta forma, trabalhando com a variância, nos livramos da raiz quadrada. Para responder à questão, precisamos saber se o desvio padrão está no seguinte intervalo: 0,01 < σ < 0,02 Caso essa inequação seja verdadeira, então podemos achar o intervalo em que está a variância: 0,01 < σ < 0,02 ⇒ 1 × 10 −4 < σ 2 < 4 × 10 −4 Então é isso que vamos fazer. Vamos achar a variância e ver se ela está ou não entre 10 −4 e 4 × 10 −4 7 13 × 91 91 σ 2 = 20 20 = = × 10 − 4 2000 800.000 80 A fração 91 é um pouco maior que 1. 80 Portanto, o item está correto. Para quem quiser fazer a conta: 91 × 10 − 4 = 1,1375 × 10 − 4 . 80 Item 212. A maior variância ocorre em 2007, quando a proporção de imóveis vendidos mais se aproxima de 0,5. V ( Z ) = pq = 7 13 × = 0,2275 20 20 Item errado. Item 213 Cálculo do coeficiente de variação em 2005: A variância de Z em 2005 é: V ( Z ) = pq = 100 1400 × 1500 1500 E a média de Z é: CV _ 2005 = 100 1500 100 1400 100 1400 100 1400 1500 × ÷ = ÷ = × = 14 1500 1500 1500 1500 1500 1500 100 Analogamente, o coeficiente de variação em 2007 fica: CV _ 2007 = 14 > 13 7 13 7 Item correto. TERCEIRA QUESTÃO Tipo Funcionários Estagiários Prestadores de serviços Total 2006 70 16 14 100 2007 74 16 10 100 Considerando a tabela acima, que apresenta a distribuição do quadro de colaboradores da CAIXA, em mil pessoas, no final dos anos de 2006 e 2007, julgue os itens seguintes. 214 Considerando que, para se testar a hipótese nula de que a distribuição do quadro de colaboradores de 2007 manteve-se estatisticamente igual à distribuição de 2006, seja aplicado um teste qui-quadrado, nessa situação, a estatística do teste será igual a e possuirá 2 graus de liberdade. 215 Se uma variável X registra a classificação de cada pessoa do quadro como funcionária, estagiária ou prestadora de serviço, então X é uma variável qualitativa. 216 Se as médias das idades dos funcionários, estagiários e prestadores de serviço em 2007 foram, respectivamente, iguais a 40 anos, 20 anos e 35 anos, então a média das idades dos colaboradores em 2007 foi inferior a 35 anos. COMENTÁRIOS Item 214. Supondo que a hipótese nula seja verdadeira, podemos afirmar que a proporção geral de funcionários é: 144 = 72% 200 Analogamente, para estagiários: E para prestadores de serviços: 32 = 16% 200 24 = 12% 200 Designando as freqüências observadas por ‘O’ e esperadas por ‘E’, podemos montar a seguinte tabela: Tipo 2006 2007 E O E O Funcionários 72 70 72 74 Estagiários 16 16 16 16 Prestadores de serviços Total 12 100 14 100 A estatística teste é a soma de todos os valores de 12 100 10 100 (O − E ) 2 . E 2 2 2 2 2 2 ( 70 − 72 ) ( 16 − 16 ) ( 14 − 12 ) ( 74 − 72 ) ( 16 − 16 ) ( 10 − 12 ) χ _ teste = + + + + + 2 72 16 χ 2 _ teste = 4 4 4 4 + + + 72 12 72 12 χ 2 _ teste = 4 + 24 + 4 + 24 56 7 = = 72 72 9 12 72 16 12 Sejam L e C os números de linhas e colunas da tabela dada. O número de graus de liberdade é: ( L − 1) × (C − 1) = (3 − 1) × (2 − 1) = 2 Item correto. Item 215. Item correto. Item 216. A média das idades dos funcionários é de 40 anos. São 74 funcionários (na verdade, 74.000, mas vamos deixar esse ‘mil’ pra lá). Isto quer dizer que, somando as idades de todos os funcionários e dividindo por 74, obtemos 40. 40 = soma _ funcionarios 74 Isolando a soma das idades dos funcionários: soma _ funcionarios = 40 × 74 O mesmo vale para os estagiários. 20 = soma _ estagiarios ⇒ soma _ estagiarios = 20 × 16 16 O mesmo vale para os prestadores de serviço: 35 = soma _ prestadores ⇒ soma _ prestadores = 35 × 10 10 Para obter a média geral, somamos todas as idades e dividimos por 100 (são cem pessoas ao todo). Media _ geral = 40 × 74 + 20 × 16 + 35 × 10 = 36,3 100 Item errado. QUARTA QUESTÃO Uma instituição afirma que o custo médio para a realização de certa obra é igual ou inferior a R$ 850,00/m2. Para avaliar essa afirmação, foi realizado um teste estatístico cujas hipótese nula e hipótese alternativa são, respectivamente, H 0 : µ ≤ R$ 850,00/m2 e HA : µ > R$ 850,00/m2. Considere que a distribuição dos custos por metro quadrado possa ser considerada como normal com média µ e desvio-padrão de R$ 300,00/m2. A partir de uma amostra aleatória de tamanho 25, a estatística do teste para a média foi igual a 2,1. O valor P do teste foi igual a 0,018. Com base nessas informações, julgue os itens subseqüentes. 217 A média amostral produzida pelo teste estatístico foi superior a R$ 950,00/m2 e inferior a R$ 1.000,00/m2. 218 Um intervalo de confiança de 96,4% para o custo médio por metro quadrado é [R$ 850,00; R$ 1.102,00]. 219 A probabilidade de significância do teste é inferior a 0,02 e, portanto, hipótese nula é rejeitada caso seja fixado um nível de significância superior a 2%. 220 O poder do teste, que representa a probabilidade de se aceitar corretamente a hipótese nula, é igual a 98,2%. COMENTÁRIOS Item 217. A estatística teste é dada por: Z _ teste = Onde X −µ σX . X é a média amostral e σ X é o desvio padrão da média amostral. O desvio padrão da média amostral é dado por: σX = Onde σX = σ n σ é o desvio padrão da população e n é o tamanho da amostra. σ n = 300 = 60 5 Portanto, a estatística teste fica: Z _ teste = 2,1 = X −µ σX X − 850 ⇒ X = 976 60 Este valor, de fato, está entre 950 e 1.000. Item correto. Item 218. Antes de começarmos a resolver este item, voltemos ao enunciado da questão. A estatística teste foi de 2,1. E o p-valor foi igual a 0,018. Isto quer dizer que a área vermelha da figura abaixo é de 0,018. Como o gráfico da função densidade de probabilidade (fdp) da variável normal é simétrico, a área à esquerda de -2,1 também é de 0,018. Portanto, a área verde da figura abaixo é de 0,964. Visto isso, retornemos ao item. Vamos encontrar o intervalo de confiança. Primeiro passo: determinar o intervalo centrado em zero, para a variável reduzida Z, que contém 96,4% dos valores. Conforme vimos na figura acima, este intervalo é delimitado pelos valores -2,1 e 2,1. Segundo passo: determinar o tamanho da amostra e o desvio padrão da média amostral O tamanho da amostra foi dado: n = 25 O desvio padrão da média amostral foi calculado no item anterior. σX = σ n = 300 = 60 5 Terceiro passo: encontrar a média amostral específica para a amostra feita. Este valor também foi encontrado no item anterior. X = 976 O intervalo de confiança é da forma: X − Z0 ×σ X ≤ µ ≤ X + Z0 ×σ X 976 − 2,1 × 60 ≤ µ ≤ 976 + 2,1 × 60 850 ≤ µ ≤ 1102 Item correto. Item 219. Probabilidade de significância é o mesmo que p-valor. O enunciado disse que o pvalor é igual a 0,018. Portanto, realmente o p-valor é inferior a 0,02. A primeira parte do item está correta. Vamos à segunda parte que, ao meu ver, também está correta. Sempre que o p-valor for inferior ao nível de significância, rejeitamos a hipótese nula. Portanto, se o nível de significância for superior a 1,8%, rejeitamos H0. Repetindo: adotar nível de significância superior a 1,8% significa rejeitar a hipótese nula. Portanto, realmente, caso adotemos um nível de significância superior a 2%, com certeza rejeitaremos a hipótese nula. Se o exercício tivesse dito que rejeitamos a hipótese nula APENAS quando o nível de significância é superior a 2% aí sim a questão estaria errada (estariam sendo desprezados valores entre 1,8% e 2%). Mas não foi isso que foi dito. Na minha opinião, o item está certo. Mas o gabarito do CESPE foi errado. Para quem for fazer o recurso, dá para citar o livro do Gilberto de Andrade Martins – Estatística Geral e Aplicada. Não estou com o livro aqui para passar a edição, editora, número de página etc. Se alguém tiver acesso ao livro, lá está bem legal de citar, porque ele é bem direto. Vou tentar passar na biblioteca amanhã para copiar o trecho e postar aqui no site. Um outro livro que também fala do assunto é o Estatística Básica, do Wilton de O. Bussab e Pedro A. Morettin. Este eu tenho em mãos. Editora Saraiva. 5ª edição. São Paulo 2002. Ele fala no assunto nas páginas 341/343. O ruim é que não dá para fazer uma citação direta deste último livro. É que ele fala um pouco sobre cada aspecto do p-valor em cada um dos exemplos que traz. De todo modo, esses dois livros são facilmente encontrados em bibliotecas de faculdades. Fica aí a dica. Segue um trecho do livro do Morettin: O método de construção de um teste de hipóteses, descrito nas seções anteriores, parte da fixação do nível de significância α . Pode-se argumentar que esse procedimento pode levar à rejeição da hipótese nula para um valor α e à nãorejeição para um valor menor. Outra maneira de proceder consiste em apresentar a probabilidade de significância ou nível descritivo ou ainda p-valor do teste. Os passos são muito parecidos aos já apresentados; a principal diferença está em não construir a região crítica. O que se faz é indicar a probabilidade de ocorrer valores da estatística mais extremos do que o observado, sob a hipótese de H0 ser verdadeira. Exemplo 12.5. Voltemos ao exemplo 12.3, onde H0: Como vimos, admitindo essa hipótese verdadeira, p = 0,60 . pˆ ~ N (0,60;0,24 / 200) . Colhida a pˆ 0 = 104 / 200 = 0,52 . Portanto, podemos calcular qual a probabilidade de ocorrerem valores de p̂ mais desfavoráveis para H0 do que esse. É evidente que quanto menor for p̂ , maior será a evidência contra H0: p = 0,60 . amostra obtivemos Assim, calculemos: P( pˆ < 0,52 p = 0,60) = [...] = 1% Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a probabilidade de encontrarmos uma amostra de 200 famílias com 52% ou menos de audiência é de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 em 100, ou então a hipótese formulada não é aceitável. Nesse caso, somos levados a essa segunda opção, ou seja, os dados da amostra sugerem que a hipótese H0 deve ser rejeitada. [...] Se indicarmos genericamente por α̂ o p-valor, rejeitamos H0 para aqueles níveis de significância α maiores do que α̂ . No Exemplo 12.7, rejeitamos H0, por exemplo, se α = 0,10 , mas não a rejeitaremos se α = 0,05 ou α = 0,01 . Ou seja, se o nível descritivo for muito pequeno, como o caso αˆ < 0,01 do Exemplo 12.6, há evidências de que a hipótese não seja válida. Como vimos nesse exemplo, a probabilidade de significância é muitas vezes denotada por p na literatura (pvalue). Item 220. O poder do teste é a probabilidade de a hipótese nula ser rejeitada dado que ela é falsa. Item errado.