MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 1 VARIÁVEIS ALEATÓRIAS O que se entende por variável aleatória? Até agora nossos estudos estavam praticamente voltados mais para definirmos nosso Espaço Amostral U, sem associarmos suas respectivas probabilidades aos experimentos aleatórios. Existem, contudo, experimentos cujos resultados podem ser expressos por quantidades numéricas. Ou ainda, por vezes, desejamos atribuir um valor específico a cada resultado do experimento aleatório. Quando realizamos a observação dos resultados de um experimento que pode ser resultado repetidamente sob condições essencialmente inalteradas (experimento aleatório), não poderemos, de antemão, dizer qual particular resultado irá ocorrer na próxima tentativa, muito embora sejamos capazes de descrever o conjunto de todos os possíveis resultados do experimento. Assim, por exemplo, antes de lançar um dado poderemos descrever que os possíveis resultados são: l, 2, 3, 4, 5, 6, mas qual desses, em particular, irá ocorrer, no próximo lançamento é impossível predizer com absoluta certeza. Variável aleatória é, pois o resultado da observação de experimentos não determinísticos. Entretanto o resultado de um experimento não é necessariamente, um número. De fato na observação das peças que saem de uma máquina poderemos, simplesmente, anotar as categorias "defeituosas" ou "não defeituosas". Contudo, em muitas situações experimentais, estamos interessados na mensuração de alguma coisa e no seu registro como um número. Mesmo no exemplo acima, poderemos atribuir um número a cada resultado (não numérico) do experimento. U: observação das peças (telhas) que saem de uma máquina X número de peças defeituosas X = 0, 1, 2, 3, .....................,n Portanto, chama-se variável aleatória a uma variável cujo valor é um número determinado pelo resultado de um experimento ou através da observação, e aos quais podemos associar probabilidade. As variáveis aleatórias podem ser classificadas em: 1- VARIÁVEIS ALEATÓRIAS DISCRETA Seja X uma variável aleatória que assume os valores x1, x2, x3, ...........xn. Diremos que X é uma variável aleatória discreta. Se o número de valores tomados por X é finito ou infinito numerável. Exemplo: U: Lançamento de quatro moedas Seja, X: o número de caras observadas. X = 0, 1, 2, 3, 4 De modo geral podemos dizer que as variáveis aleatórias discretas são as que resultem de contagens. 2- VARIÁVEIS ALEATÓRIAS CONTÍNUAS Seja X uma variável aleatória que pode assumir qualquer valor num intervalo, diremos que X é uma variável aleatória contínua. Exemplos: a) Número de horas de duração de uma lâmpada ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 2 b) b) A altura de um indivíduo que pode ser: 1,65m, l,652m, 1,6524m, conforme a precisão de medida. De modo geral podemos afirmar que as variáveis aleatórias contínuas são aquelas que resultem de "medição", em especial, de tempo, temperatura, comprimento, peso, volume, etc. Um aspecto interessante é o que o mesmo experimento pode dar margem à observações de várias variáveis, e a escolha da que vai ser observada fica a critério do observador. Como exemplo vejamos o experimento "jogar 4 moedas simultaneamente". Como variável aleatória poderemos escolher "o número de caras obtidas ou a distância mínima entre 2 moedas". A primeira seria uma variável aleatória discreta e a Segunda seria uma variável aleatória contínua. 1- VARIÁVEL ALEATÓRIA DISCRETA 1.1- FUNÇÃO DE PROBABILIDADE A probabilidade de que a variável aleatória assuma o valor X, é a função de probabilidade de X que representamos por P(X = xi) ou simplesmente por P(X). f(x) = 0 se X xi n f(xi) = 1 f(x) = P(X = xi) i=1 Portanto a função que associa probabilidade aos possíveis valores de uma variável aleatória, denomina-se função de probabilidade. A função P(X) pode ser expressa por uma tabela ou gráfico Exemplo Seja E: o espaço amostral no lançamento de 2 moedas e X: o número de caras C obtidas. Isto é: E = (K,K); (K,C); (C,K); (C,C) X = 0, 1, 2 TABELA: X 0 1 2 P(X) 1/4 1/2 1/4 GRÁFICO: P(X) 1/2 1/4 0 1 2 X ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 3 1.2- FUNÇÃO REPARTIÇÃO Define-se função repartição da variável aleatória X, no ponto x, como sendo a probabilidade de que x assuma um valor menor ou igual a X, isto é: F(X) = P(X x). No exemplo acima teremos: F(X) = 1/4 se x 0 F(X) = 1/2 se 1 x 2 F(X) = 1/4 se x 2 2- VARIÁVEL ALEATÓRIA CONTÍNUA 2.1- FUNÇÃO DENSIDADE DE PROBABILIDADE Seja X uma variável aleatória contínua. A função densidade de probabilidade f(x) é uma função que satisfaz as seguintes condições. f(x) 0 f(x).d(x) = 1 b Assim P( a x b) = f(x).d(x) a 2.2- FUNÇÃO REPARTIÇÃO F(X) = P(X x) = P( -oo x +oo) = +oo f(x).dx -oo = 1 Seja X uma variável aleatória contínua com a seguinte função densidade de probabilidade. f(x) = 2x 0 para para (qualquer) outro valor para x 0 f(x) = 0 x 1 F(x) = 0 para 0 x 1 F(x) = 2x.dx = 2x2 x 0 para x 1 2 = x2 0 F(x) = 1 Representação gráfica ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 4 F(x) 1 1 Exemplo/Exercício x Seja f(x) = 3/2 (1 - x2 ), 0x1 0, caso contrário Ache a função repartição e esboce o gráfico. 3- DISTRIBUIÇÃO DISCRETAS DE PROBABILIDADES 3.1- DISTRIBUIÇÃO DE PROBABILIDADE No contexto das distribuições de probabilidades, os valores individuais de probabilidades podem ser designados pelo símbolo f(x), que enfatiza a existência de uma função matemática (variáveis contínuas). Por P(X = x), que enfatiza que a variável aleatória pode assumir diversos valores, ou simplesmente por P(X). Para uma variável aleatória discreta todos os possíveis valores da variável aleatória podem ser listados numa tabela com as probabilidades correspondentes: distribuição de probabilidade Binomial, Hipergeométrica e de Poisson. Para uma variável aleatória contínua não podem ser listados todos os possíveis valores fracionários da variável, e desta forma as probabilidades são determinadas por uma função matemática, são retratadas, tipicamente, por uma função densidade ou por uma curva de probabilidade. 3.2 VALOR DISCRETAS. ESPERADO E VARIÂNCIA DE VARIÁVEIS ALEATÓRIAS n Média, Valor Esperado ou Esperança Matemática: = E(X) = xi.P(xi) i=1 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 5 3.3 PROPRIEDADES DA ESPERANÇA MATEMÁTICA: 3.3.1- A média de uma constante é a própria constante E(X) = k.P(xi) = k. P(xi) = k 3.3.2- A média de uma variável multiplicada por uma constante é igual à constante multiplicada pela média da variável. E(k.X) = k.xi.P(xi) = k. xi.P(xi) = k.E(xi) 3.3.3- A média da soma ou da diferença é a soma ou diferença das médias. E( X + Y) = E( X ) + E( Y ) ou E(X - Y) = E(X) - E(Y) 3.3.4- Somando ou subtraindo uma constante a uma variável aleatória, a sua média fica somada ou subtraída da mesma constante. E(X + k) = E(X) + E(k) = E(X) + k ou E(X- k) = E(X) - k 3.3.5- A média do produto de duas variáveis aleatórias independentes é o produto das médias. E(X.Y) = xi.yj.P(xiyj) = xi.yi.P(xi).P(yj) = xi.P(xi). yj.P(yj) = E(X).E(Y) 3.4- VARIÂNCIA A forma geral de desvios para a fórmula da variância de uma distribuição discreta de probabilidade é: V(X) = 2(X) = xi - E(X)2.p(xi) ou V(X) = 2(X) = E(X2) - E(X)2 ( Fórmula Computacional) 3.5- PROPRIEDADE DA VARIÂNCIA 3.5.1- A variância de uma constante é zero 2(X) = V(k) = E k - E(k)2 = E(k - k)2 = 0 3.5.2- Multiplicando-se uma variável aleatória por uma constante, sua variância fica multiplicada pelo quadrado da constante. V(k.X) = 2(k.X) = kX - E(k.X)2 = k.X - k.E(X)2 = k(X - E(X)2 = k2.X - E(X)2 = k2.V(X) 3.5.3- Somando-se ou subtraindo-se uma constante à variável aleatória, sua variância não se altera. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 6 2(X + k) = 2(X) + 2(k) = 2(X) + 0 = 2(X) 3.5.4- A variância da soma ou da diferença de duas variáveis aleatórias independentes é a soma das respectivas variâncias. 2(X +Y) = 2(X) + 2(Y) e 2(X - Y) = 2(X) + 2(-Y) = 2(X) + (-1)2.2(X) = 2(X) + 2(Y) EXEMPLO: A tabela abaixo está registrado o número de caminhonetes solicitadas em uma agência de aluguel de carros durante um período de 50 dias. Demanda possível X Nº de dias Probabilidade Valor Ponde- Demanda ao Quad. PondeP(X) rado X:P(X) quadrado X2 rado X2.P(X) 3 3 0,06 = 3/50 0,18 9 0,54 4 7 0,14 = 7/50 0,56 16 2,24 5 12 0,24 1,20 25 6,00 6 14 0,28 1,68 36 10,08 7 10 0,20 1,40 49 9,80 8 4 0,08 0,64 64 5,12 TOTAL 50 1,00 E(X) = 5,66 E(X2) = 33,78 OBS. A probabilidade de serem solicitadas exatamente sete (7) caminhonetes em um determinado dia aleatoriamente escolhido no período é de 0,20 e de cinco (5) é de 0,24. Determine: a) A esperança matemática b) A variância, cálculo computacional. a) E(X) = 5,66 Isto é, o valor esperado para dados discretos pode ser fracionário porque ele representa um valor médio de longo prazo e não o valor específico para qualquer observação dada. c) V(X) = 2(X) = E(X2) - E(X)2 = 33,78 - (5,66)2 = 33,78 - 32,04 = 1,74 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 7 Isto é a variação do número de caminhonetes em torno da média ao quadrado é de 1,74. Exercícios 1- Um dentista tem 5 cadeiras disponíveis para pacientes em sua sala de espera. A probabilidade do número de cadeiras ocupadas X é dada por: X P(X) 0 0,304 1 0,228 2 0,171 3 0,128 4 0,096 5 0,073 a) Ache a média E(X) = da variável aleatória X. E(x) = 1,7 b) Calcule a variância e o desvio padrão, da variável aleatória X. V(X) = 2,53 c) Calcule P( 2 X 5). 0.468 d) Desenvolva no formato tabular a cdf ( Função de Distribuição Acumulada) dessa distribuição. e) Desenvolva a função repartição dessa distribuição. 2- Considere uma moeda perfeita lançada 3 vezes. Seja X o número de caras obtida. Calcule a) a distribuição de X b) média de X E(x) = 1,5 c) a variância ² = 0,75 3- Considere uma urna contendo três bolas vermelhas e cinco pretas. Retire três bolas sem reposição, e defina a V.A X igual a número de bolas pretas. a) Obtenha a distribuição de X b) Obtenha a média e a variância da V.A X E(X) =1,875 ² = 0,502 4- Uma moeda é lançada 4 vezes. Seja Y o número de caras obtidas. Calcule ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 8 a) a distribuição de Y = 2 , ² = 1 b) a média e variância de Y 5- Considere uma mesa contendo 10 frutas das quais 4 estão estragadas. Retire três dessas frutas ao acaso, sem reposição e defina a V.A. X igual a número de frutas estragadas. a) Obtenha a distribuição de X = 1,2 b) Obtenha a média e a variância da V.A. , ² = 0,560 4-DISTRIBUIÇÃO BINOMIAL 4.1- INTRODUÇÃO: DISTRIBUIÇÃO DE BERNOULLI Seja um experimento que consiste na realização de uma prova, cujos resultados só podem ser "sucesso" ou "fracasso". Observando ainda que na realização desta prova os eventos são independentes, vamos chamar de X uma variável aleatória que de acordo com a pressuposição citada, somente assumirá valores 0 e 1, sendo 0 a ocorrência do evento "fracasso" e 1 a ocorrência do evento "sucesso" com probabilidades P(X = 0) = q X 0 1 P(X = 1) = p P(X) q p p+ q = 1 q = 1 - p Obs. q = l- p é complementar de p, pois p + q = 1. 2- E(X) = xi.p(xi) = 0.q + 1.p = p E(X) = p 3- V(X) = E(X2) - E(X)2 = 02.q + 12.p - p2 = p - p2 = p(1 - p) = p.q V(X) = p.q Consideremos que: a) n provas independentes e do mesmo tipo são realizadas. b) Cada prova é uma prova de Bernoulli ou seja, admite dois resultados: sucesso ou fracasso que são mutuamente exclusivos. c) A probabilidade de sucesso ou fracasso é a mesma em cada prova, isto é, constantes. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 9 d) p é a probabilidade de sucesso em cada prova e q = 1 - p a ocorrência do fracasso. 4.2- DISTRIBUIÇÃO BINOMIAL Se p é a probabilidade de um evento acontecer em uma tentativa única (sucesso), e q = 1 - p é a probabilidade de que o evento não ocorra (insucesso), então a probabilidade do evento ocorrer exatamente x vezes em n tentativas, isto é, de que haja X sucessos e n - x insucesso, é dado por: P(X = x) = p x . qn - x n x PARÂMETROS DA DISTRIBUIÇÃO BINOMIAL Baseados na propriedades da E(X) e V(X) e como a variável binomial X é uma soma de variáveis independentes do tipo Bernoulli, teremos que: E(X) = E( x1 + x2 + x3 + ........+ xn) = E(x1) + E(x2) + E(x3) +........+ E(xn) = np E(x) = = n.p V(X) = V(x1 + x2 + x3 + ........+ xn) = V(x1) + V(x2) + V(x3) + ......+ V(xn) = p.q + p.q + p.q + .........+ p.q = n.pq. = n.p.(1 - p) V(x) = ² = n.p.q FÓRMULAS GERAIS: E(X) = xi.p(xi) P(X = xi) = n . pxi.(1 - p) n - xi xi E(X) = xi. n .pxi. (1 - p)n - xi xi V(X) = (xi – E(X))².p(xi) ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 10 TRIÂNGULO DE PASCAL UMA FERRAMENTA IMPORTANTE Números Combinatórios Ou binomiais n p n! = Cn,p = p!.(n-p)! P=0 P=1 P=2 P=3 P=4 n=0 0 0 n=1 1 0 1 1 n=2 2 0 2 1 2 2 n=3 3 0 3 1 3 2 n=4 4 0 4 1 4 2 4 3 4 4 n=5 5 0 5 1 5 2 5 3 5 4 5 5 n=6 6 0 6 1 6 2 6 3 6 4 6 5 P=5 P=6 3 3 6 6 n n n n n n n n ... n 0 1 2 3 4 5 6 n Substituindo-se cada número combinatório pelo respectivo valor, o triângulo de Pascal fica assim: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO P=0 P=1 P=2 P=3 P=4 P=5 n=0 1 n=1 1 1 n=2 1 2 1 n=3 1 3 3 1 n=4 1 4 6 4 1 n=5 1 5 10 10 5 1 n=6 . . . 1 6 15 20 15 6 11 P= 6 1 Observe que o triângulo de Pascal continua infinitamente, à medida que vai aumentando o valor de n. APLICAÇÕES 1- Em uma fábrica de parafusos um terço da produção é defeituosa. Em uma amostra de 6 parafusos, pergunta-se a) Qual a probabilidade de que não tenham nenhum defeituoso? b) Qual a probabilidade de que o número de parafusos defeituosos seja no máximo 2? c) Qual o número esperado de parafusos defeituosos? d) Qual a dispersão em torno do número esperado de parafusos defeituosos? Solução X = 0, 1, 2, 3, 4, 5, 6 a) P(X = 0) = 6 . (1/3) 0.(2/3)6-0 defeituosos = (2/3)6 = 64/729 0 b) P(X 2) = P(X = 0) + P(X = 1) + P(X = 2) = 64 / 729 + 192 / 729 + 240 / 729 = ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 12 = 496 / 729 = 68% c) E(X) = xi.P(xi) = 0.64 / 729 + 1.192 / 729 + 2.240 / 729 + 3.160 / 729 + 4.60 / 729 5.12 / 729 + 6.1 / 729 E(X) = 2 defeituosos ou E(X) = n.p = 6.1/3 = 2 defeituosos d) V(X) = 2(X) = E(X2) - E(X)2 V(X) = 02.64/729 + 12.192/729 + 22.240/729 + 32.160/729 + 42.60/729 + 52.12/729 + 62.1/729 = 5,33 V(X) = 5,33 - 22 = 1,33 1,15 ou V(X) = n.p.q = 6.1/3.2/3 = 1,33 = 1,33 = 2- Num hospital 5 pacientes devem submeter-se a um tipo de operação da qual 80% sobrevivem. Qual a probabilidade de que: a) Todos sobrevivem R 32,775 b) Pelos menos dois sobrevivem R 99,33% c) No máximo 3 não consigam sobreviver. R 99,33% d) Qual é o número esperado de sobreviventes? R 4 sobreviventes 3- Se 2/3 da população de certo município não assistem regularmente a programas de televisão e, colocando 250 pesquisadores cada um entrevistando 8 pessoas, estimar quantos desse pesquisadores informarão que até 2 das pessoas consultadas são telespectadores habituais. Solução X . Assistem regularmente televisão p = 1/3 q = 2/3 X = 0, 1, 2 P(X=0) = 8 .(1/3)0.(2/3)8 = 256/6561 0 P(X=1) = 8 .(1/3)1.(2/3)7 = 1024/6561 1 P(X 2) = 256 + 1024 + 1792 6561 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO P(X=2) = 8 .(1/3)2.(2/3)6 = 1792/6561 13 P(X) = 3072 = 46,82% 2 6561 Logo E(X) = n.p 250.(3072/6561) = 117,055 117 pesquisadores. 4- DISTRIBUIÇÃO HIPERGEOMÉTRICA Quando a amostragem se faz sem reposição de cada item amostrado de uma população finita, não se pode aplicar o processo de Bernoulli, uma vez que exite uma mudança sistemática na probabilidade de sucesso á medida que os itens são retirados da população. A distribuição Hipergeométrica é uma distribuição discreta de probabilidade apropriada quando existe amostragem sem reposição em uma situação que, se não fosse por isso, seria um processo de Bernoulli. Suponha-se que tenhamos um lote de N peças e M das quais são defeituosas. Suponha-se que escolhemos, ao acaso n peças desse lote ( n N); sem reposição. Seja X o número de peças defeituosas encontradas. Desde que X = x se, e somente se, obtivermos exatamente k peças defeituosas ( dentre as M defeituosas do lote) e exatamente ( n - x) não defeituosas ( dentre as N - M não defeituosas do lote, teremos: P(X = x) = M x . N n N-M n-x PARÂMETROS DA DISTRIBUIÇÃO HIPERGEOMÉTRICA E(X) = n.p V(X) = 2(X) = n.p.q. N-n N-1 E(x) = xi.p(xi) = xi. M x N-M n-x (*) N n APLICAÇÕES 1- Em uma sala há 6 homens e 5 mulheres. Uma comissão de 4 pessoas é formada ao acaso. Qual a probabilidade de que: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 14 a) apareçam 3 homens na comissão, b) não apareça nenhum homem, c) Qual o número esperado de homens na comissão e o número de mulheres? Solução a) N = 11 (total de pessoas) n = 4 ( número de pessoas na comissão) M = 6 ( quantidade de homens) N - M = 5 ( quantidade de mulheres) x = 3 (quantidade de homens na comissão) 6 5 P(X = 3) = 3 1 = 20.5/330 = 10 / 33 11 4 b) P(X = 0) = 6 0 5 4 = 1.5 / 330 = 1 / 66 11 4 c) E(X) = E(x) = 4.6/11 = 24/11 = 2,l8 2 homens E(X) = E( N - x) = 4.5/11 = 20/11 2 mulheres Poderia calcular E(X) usando a fórmula (*). 2- Uma caixa contém 12 lâmpadas das quais 5 estão queimadas. São escolhidas 6 lâmpadas ao acaso para iluminação de uma sala. Qual a probabilidade de que: a) exatamente duas estejam queimadas? b) Pelo menos uma seja boa? c) Pelo menos duas estejam queimadas? d) Encontre o número esperado de lâmpadas queimadas e a dispersão em torno da média. Solução X: lâmpadas queimadas M: total de lâmpadas queimadas = 5 k: lâmpadas queimadas (ao acaso) n: número de lâmpadas (ao acaso) = 6 N: total de lâmpadas = 12. 5 a) P(X=2) = 2 7 4 = 10.35/924 = 350/924 12 6 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO b) X = 0, 1, 2, 3, 4, 5 P(X 5) = P(0) + P(1) + P(2) + P(3) + P(4) + P(5) = 5 7 5 7 5 7 5 7 5 0 6 + 1 5 + 2 4 + 3 3 + 4 12 6 12 6 12 6 12 6 7 2 5 + 5 12 6 15 7 1 12 6 = 7/924 + 105/924 + 350/924 + 350/924 + 105/924 + 7/924 = 924/924 = 1 = 100% c) P(X 2) = p(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) = 350 + 350 + 105 + 7 = 812 / 924 = 87,88% 924 d) E(X) = n.p = 6.5/12 = 2,5 2 lâmpadas queimadas 2(X) = V(X) = n.p.q. N - n = 6. 5/12. 7/12. 12 - 6 N-1 12 - 1 2(X) = 0,795 = 0,89 = 0,795 1 lâmpada 5-DISTRIBUIÇÃO DE POISSON A distribuição de Poisson pode ser usada par determinar a probabilidade de um dado número de sucessos quando os eventos ocorrem em um continuum de tempo ou espaço. Tal processo, chamado de processo de Poisson é similar ao processo de Bernoulli, exceto que os eventos ocorrem em um continuum ao invés de ocorrerem em tentativas ou observações fixadas. Um exemplo de tal processo é a chegada de chamadas em uma central telefônica. Tal como no caso do processo de Bernoulli, supõe-se que os eventos são independentes e que o processo é estacionário (a média não altera dentro da especificação). Somente um valor é necessário para determinar a probabilidade de um dado número de sucessos em um processo de Poisson: o número médio de sucessos para a específica dimensão de tempo ou espaço de interesse. Este número médio é geralmente representado por ou . A fórmula para determinar a probabilidade de um dado número X de sucessos em uma distribuição de Poisson é: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO P(X / ) = X.e- 16 e = 2,71828........ X! PARÂMETRO DA DISTRIBUIÇÃO DE POISSON E(X) = e V(X) = 2 = EXEMPLOS 1- Em um cruzamento de 2 ruas o número médio de acidentes é igual a 2 semanais. Determinar a) a probabilidade de que uma determinada semana ocorram 3 acidentes. b) A probabilidade de que não ocorra nenhum acidente c) A probabilidade de que ocorra acidente. Solução X = 0, 1, 2, 3, ......., n a) P(X = 3) = 23.e-2 = 8/6.2,7183-2 = 4/3.0,13534 = 0,18 = 18% 3! b) P(X = 0) = 20.e-2 = 0,13534 = 13,53% 0! d) P(X 1) = 1 - P(X = 0) = 1 - 0,13534 = 0,86466 = 86,47% 2- Um departamento de conserto de máquinas recebe uma média de cinco chamadas por hora. A probabilidade de que menos do que três chamadas sejam recebidas durante uma hora aleatoriamente escolhida é: P(X < 3) / = 5) = P(X 2) = P(X = 0) + P(X = 1) + P(X = 2) = 50.e-5 + 51.e-5 0! 1! + 52.e-5 2! = 0,0067 + 0,0337 + 0,0842 = 0,1248 = 12,5% EXERCÍCIOS DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADES 1- Descobriu-se que a chegada de clientes a um Banco, durante intervalos aleatoriamente escolhidos de 10minutos, segue a distribuição de probabilidade da ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 17 tabela, abaixo. Calcular o número esperado de chegadas por intervalo de 10 minutos bem como calcular a variância das chegadas. E(X) = 2, V(X) = 1,9 Nº de chegadas X Probabilida -de P(X) 0 1 2 3 0,15 0,25 0,25 0,20 4 0,10 5 0,05 2- Em um levantamento recente, a probabilidade de que um acidente de carro é causado por um motorista embriagado é cerca de 0,229. Nos próximos três acidentes, qual a é probabilidade de que: a) exatamente um acidente seja causado por um motorista embriagado? 40,8% b) No mínimo um acidente seja causado por um motorista embriagado? 57,6% c) Se você tem os seguintes resultados de probabilidade de acidentes causados por motoristas embriagados nos 10 próximos acidentes: Pdf (*) Cdf (**) 0 0,0742 0,0742 1 0,2205 0,2947 2 0,2947 0,5893 3 0,2334 0,8227 4 0,1213 0,9440 5 0,0432 0,9873 6 0,0107 0,9980 7 0,0018 0,9998 8 0,0002 1,0000 9 0,0000 1,0000 10 0,0000 1,0000 (*) pdf - Probability Distribution Function (Função de Distribuição de Probabilidade) (**) Cdf - Cumulative Distribution Function ( Função de Distribuição Cumulativa) 1- ache P(x=3) 23,34% 2- ache P(5 x 9) 1,27% 3- qual é a média e a variância da distribuição tabulada acima? =2,29, ² =1,77 3- Existem 90% de probabilidade de que um certo tipo de componente se comporte de forma adequada sob condições de elevadas temperatura. Se o dispositivo em questão tem quatro de tais componentes, determinar, por meio da fórmula de probabilidades binomiais a probabilidade de cada um dos eventos. a) Todos os componentes se comportam de forma adequada, por conseguinte, o dispositivo funciona. 65,61% b) O dispositivo não funciona por falhar um dos quatro componentes. 29,16% c) O dispositivo não funciona por que falham um ou mais dos componentes. 34,39% ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 18 4-Suponha que 40% dos empregados horistas de uma grande empresa estejam a favor da representação sindical e que se peça uma resposta anônima a uma amostra aleatória de 10 empregados. Qual a probabilidade de estarem a favor da representação sindical: a) a maior parte dos que responderam? 16,08% b) Menos da metade dos que responderam? 63,92% 5- De 20 estudantes em uma classe, 15 não estão satisfeitos com o texto utilizado. Se uma amostra aleatória de quatro alunos se perguntar sobre o texto, determinar a probabilidade de que estivessem descontentes com o texto: a) exatamente três estudantes. 46,96% b) No mínimo três estudantes. 75,13% 6- Somente um de cada mil geradores montados em uma fábrica apresenta defeitos, sendo que os geradores defeituosos se distribuem aleatoriamente ao longo da produção. a) Qual a probabilidade de que um carregamento de 500 geradores não inclua gerador defeituoso algum? 60,65% b) Qual a probabilidade de um carregamento de 100 geradores contenha no mínimo um gerador defeituosos? 9,52% 7- Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 0,2. Se dez itens produzidos por essa máquina são selecionados ao acaso, qual a probabilidade de que não mais do que um defeituoso seja encontrado? Use a binomial e a distribuição de Poisson e compare os resultados. Pb = 37,58% e Pp = 40,6% 8- Num certo tipo de fabricação de fita magnética, ocorrem corte a uma taxa de um por 2000 pés. Qual a probabilidade de que um rolo com 2000 pés a fita magnética tenha: a) nenhum corte? 36,79% b) No máximo 2 cortes? 91,97% c) Pelo menos dois cortes? 26,42% 9- Numa central telefônica, o número de chamadas chega segundo uma distribuição de Poisson, com a média de 8 chamadas por minuto. Determinar a probabilidade de que num minuto aleatoriamente escolhido se tenha. a) três ou mais chamadas 98,62% b) menos do que 5 chamadas 9,96% c) entre 7 (inclusive) e nove (exclusive) chamadas. 27,92% 10- Uma máquina, fabrica placas de papelão que podem apresentar nenhum defeito, um, dois, três ou quatro defeitos, com probabilidade 90%, 5%, 3%, 1% e 1%, respectivamente. O preço de venda de uma placa perfeita é 10 u.m. e à medida que apresente defeito, o preço cai 50% para cada defeito apresentado. Qual o preço médio de venda destas placas? E(x) = 9,34 u.m 11- Uma empresa distribuidora costuma falhar em suas entregas de mercadorias 15% das vezes, por atraso na entrega, mercadoria fora de especificação danos, etc. causando reclamações por parte dos clientes. Calcule a probabilidade de: a) não ocorrer reclamações nas 10 entregas de hoje. R 19,69% b) Acontecer pelo menos uma reclamação nas 4 primeiras entregas. R 47,80% ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO c) Acontecer no máximo uma reclamação nas 10 entregas. 19 R 54,43% 12- Em um pedágio de determinada rodovia chegam em média 600 carros por hora. Determine a probabilidade de : a) chegarem exatamente 10 carros em um minuto R: 12,51% b) chegarem menos que 5 caros em um minuto R:2,92% II-DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE : EXPONENCIAL E NORMAL 1– DISTRIBUIÇÃO DE PROBABILIDADE EXPONENCIAL É uma distribuição de Poisson, uma vez que o tempo ou espaço são um continuum(distribuição contínua). Uma vez que o processo de Poisson é estacionário, a distribuição exponencial aplica-se quer estejamos interessados com o tempo entre dois eventos sucessivos, ou quer no tempo decorrido até acontecer o primeiro evento após um ponto aleatoriamente selecionado A probabilidade exponencial de que o primeiro evento ocorrerá dentro do intervalo especificado de tempo ou espaço é: P(T t) = 1 – e- A probabilidade exponencial de que o primeiro evento não ocorrerá dentro do intervalo especificado de tempo ou espaço é: P(T > t) = e- PARÂMETROS DA DISTRIBUIÇÃO EXPONENCIAL E(t) = 1/ V(T) = 1/² EXEMPLOS 1- Um departamento de conserto de máquinas recebe em média, 5 chamadas por hora. Iniciando em um ponto do tempo aleatoriamente escolhido, qual a probabilidade de que a primeira chamada chegue dentro de meia hora? Solução /hora = 5 = 2,5 Logo P((T ½) = 1 – e- = 1 – e-2,5 + 1 – 0,0821 = 0,9179 = 91,79% ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 20 2- Em média, um navio atraca um certo porto a cada 2 dias. Qual a probabilidade de que, a partir da partida de um navio, se passem 4 dias antes da chegada do próximo navio? Solução Média a cada 2 dias = 1 = média pó período de 4 dias = 1.2 = 2 Logo P(T > 4 ) = e- = e-2 = 0,1353 = 13,53% EXERCÍCIO Em média seis pessoas por hora se utilizam de um caixa-automático de um banco em uma grande loja de departamentos. a) Qual a probabilidade de que se passem pelo menos 10 minutos entre a chegada de dois clientes? R. 0,3678 b) Qual a probabilidade de que, depois da saída de um cliente, não se apresente outro em pelo menos 20 minutos R.0,1353 c) Qual a probabilidade de que chegue um segundo cliente dentro de 1 minuto após a chegado do primeiro R0,0952 2-DISTRIBUIÇÃO NORMAL A distribuição normal de probabilidade é uma distribuição de probabilidade contínua que é simétrica ( X = Me = Mo) e mesocúrtica K = Q3 - Q1 = 0,263 2(P90 - P10) A curva que representa a distribuição normal de probabilidade é freqüentemente descrita como tendo uma forma de sino, como segue o exemplo. F(X) X = Me = Mo X ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 21 A distribuição de probabilidade normal é importante na inferência estatística por três razões distintas. 1- As medidas produzidas em diversos processos aleatórios seguem esta distribuição 2- Probabilidades normais podem ser usadas freqüentemente como aproximações de outras distribuições de probabilidades, tais como as distribuições Binomiais e de Poisson. 3- As distribuições de estatísticas da amostra tais como a Média e a Proporção freqüentemente seguem a distribuição normal independentemente da distribuição da população. Como para qualquer distribuição contínua de probabilidade, o valor da probabilidade pode somente ser determinado para um intervalo de valores da variável. A altura da função densidade, ou curva de probabilidade, para uma variável normalmente distribuida é dada por: -1/2( x - )2 f(x) = l .e 2 . onde: = 3,14159... e = 2,7183..... : é a média da distribuição : é o desvio padrão da distribuição Em particular, a distribuição normal de probabilidade com = 0 e = 1 é conhecida como distribuição normal padronizada(reduzida), na qual as tabelas de probabilidades da normal são construídas. Qualquer conjunto de valores de X normalmente distribuídos pode ser convertido em valores normais padronizados Z pelo uso da fórmula. Z = x - Logo -1/2.z2 f(x) = 1 .e 2 . -z2/2 = 1 .e 2 . (-oo, + oo) ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 22 f(z) -3 -2 -1 0 1 2 3 z Parâmetros da distribuição N(, ) E(x) = = 0 V(x) = 2 = 1 N ( 0 , 1) Exemplos 1- As alturas dos alunos de uma determinada escola são normalmente distribuídas com média de 1,60 m e desvio padrão 0,30 m. Encontre a probabilidade de um aluno aleatório medir: a) entre 1,50m e 1,80m b) mais de 1,75 m c) menos de 1, 48m ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 23 d) qual deve ser a medida mínima para escolher 10% dos mais altos? e) abaixo de qual estatura estão os 20% mais baixos? 2- Sabe-se que a vida útil de um componente elétrico segue uma distribuição normal com média = 2000 horas e desvio padrão = 200 horas, determine. a) a probabilidade de que um componente aleatoriamente selecionado dure entre 2000 e 2400 horas 47,72% b) a probabilidade de que um componente aleatoriamente selecionado dure mais do que 2200 horas. 15,87% c) a probabilidade de que um componente aleatoriamente selecionado dure entre 1500 e 2100 horas. 68,53% d) A probabilidade de que um componente aleatoriamente selecionado dure entre 2100 e 2500 horas. 30,23% 2- APROXIMAÇÃO PELA NORMAL DAS PROBABILIDADES BINOMIAIS Quando o número de observações ou tentativas forem relativamente grande, a distribuição de probabilidade normal pode ser utilizada para a aproximações das probabilidades binomiais. Regra aceitável "regra de bolso" n 30 n.p 5 n.(1 - p) 5 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 24 Para uso da distribuição normal de probabilidade como uma aproximação da distribuição de probabilidade binomial, a média e o desvio padrão se baseiam no valor esperado e na variância do número de sucessos de uma distribuição binomial, ou seja: E(x) = = n.p = n.p.(1 - p) Aplicações 1- Para um grande número de clientes potenciais, sabe-se que 20% dos contactados pessoalmente por agentes de vendas realizarão uma compra. Se um representante de vendas visita 30 clientes potenciais, podemos determinar a probabilidade de que 10 ou mais farão uma compra. a) utilizando as probabilidades binomiais. b) Utilizando a aproximação normal do valor de probabilidade binomial. Solução a) P(x 10) = ..... 6,11% b) = n.p = 30.2/10 = 6 = n,p.(1-p) P binomial (x 10) = 30.0,2.0,8 = 2,19 = Pbin.( x 9,5 / = 6, = 2,19) = …. = 5,48% Obs. Supõe-se que a classe de eventos "10 ou mais começa em 9,5 quando se utiliza a aproximação normal. Esta subtração de meia unidade é chamada correção de continuidade e é necessária porque embora não existem eventos possíveis no intervalo ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 25 entre 9 e 10 sucessos, a área sob a curva normal deve ser distribuída entre duas classes adjacentes. Se no exemplo, fosse pedida a probabilidade de "mais de 10" sucessos, a correção apropriada de continuidade implicaria adicionar 0,5 a 10 e determinar a área do intervalo começando em 10,5. A correção de continuidade tem um efeito muito pequeno e pode, portanto, ser omitida quando existir um grande número de valores da viável X. Portanto Pbin(x 10) = P(x 9,5) = .... 2- Uma moeda é lançada 12 vezes. Determinar a probabilidade de que o número de coroas ocorra entre 4 e 7 inclusive o 4 e o 7. a) pela distribuição binomial b) pela distribuição normal 3- APROXIMAÇÃO PELA NORMAL DAS PROBABILIDADES DE POISSON Quando a média de uma distribuição de Poisson for relativamente grande a distribuição normal de probabilidade pode ser usada como uma aproximação das probabilidades de Poisson. Uma regra conveniente é que tal aproximação é aceitável quando 10. A média e o desvio padrão da distribuição normal de probabilidade, n o caso, baseiam-se no valor esperado e na variância do número de sucessos em uma processo de Poisson, ou seja: = = Aplicação Um departamento de conserto de máquinas recebe em média, 10 chamadas em cada período de 8 horas. Podemos determinar a probabilidade de que mais de 15 chamadas serão recebidas em um período de 8 horas aleatoriamente escolhido. a) pela distribuição de Poisson b) pela distribuição normal ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 4- Métodos 26 de Amostragem e Distribuições Amostrais OBJETIVOS DO CAPÍTULO: Explicar porque em muitas situações uma amostra é a única forma plausível de aprender alguma coisa sobre uma população. Explicar os métodos de selecionar uma amostra Distinguir entre amostragem probabilística e amostragem não probabilística Definir e construir uma distribuição amostral de médias amostrais Explicar o Teorema do Limite Central e sua importância para a Inferência Estatística Calcular Intervalos de Confiança para Médias e Proporções Determinar que tamanho uma amostra deve ter para estimar médias e proporções Porque amostrar uma população Natureza destrutiva de certos testes A impossibilidade física de checar todos os itens na população O custo de estudar todos os itens em uma população é freqüentemente proibitivo Muitas vezes as estimativas baseadas em uma amostra são mais precisas do que os resultados obtidos através de um levantamento censitário Tempo muito elevado para a apuração de resultados em censos 6.1 Amostragem Probabilística O que é uma amostragem probabilística ? É uma amostra selecionada de tal forma que cada item ou pessoa na população estudada têm uma probabilidade (não nula) conhecida de ser incluída na amostra. Métodos de Amostragem Probabilística: Amostragem Aleatória Simples (AAS) ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 27 Uma amostra escolhida de tal forma que cada item ou pessoa na população tem a mesma probabilidade de ser incluída. Se a população tem um tamanho N, cada pessoa desta população tem a mesma probabilidade igual a 1/N de entrar na amostra. Utilizamos uma tabela de números aleatórios para sortear (com mesma probabilidade) os elementos da amostra. Também pode ser utilizada uma função randômica: No Excel, por exemplo, temos a função ALEATÓRIO ENTER. Amostragem Aleatória Sistemática Os itens ou indivíduos da população são ordenados de alguma forma – alfabeticamente ou através de algum outro método. Um ponto de partida aleatório é sorteado, e então cada késimo membro da população é selecionado para a amostra. Amostragem Aleatória Estratificada A população é inicialmente dividida em subgrupos (estratos) e uma subamostra é selecionada a partir de cada estrato da população. Amostragem aleatória Estratificada com Repartição Proporcional Suponhamos que a população é subdividida em k estratos. Sejam: N = o número de indivíduos na população n = o número de indivíduos na amostra Ni = o número de indivíduos contidos no i-ésimo estrato da população ni = o número de indivíduos contidos no i-ésimo estrato na amostra ni n Ni N i 1,2,...., k os estratos devem ser o mais homogêneos possíveis com relação às características relevantes da pesquisa (variáveis que se correlacionam fortemente com a variável estudada) para um mesmo tamanho amostral, a amostragem aleatória estratificada com repartição proporcional é mais precisa (menor variância do estimador) do que a amostragem aleatória simples (AAS). Amostragem Aleatória Estratificada com Repartição de Neyman (ou repartição ótima) ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 28 Se conhecermos a variância de cada estrato populacional referente a variável que estamos desejando estimar o seu parâmetro, um método mais adequado é o da repartição de Neyman. ni n wi i n k W i 1 i i N i i k N i 1 i i para um mesmo tamanho amostral a precisão é maior para amostra aleatória estratificada com repartição de Neyman (repartição ótima) do que para a amostra aleatória estratificada com repartição proporcional que por sua vez é maior do que a amostra aleatória simples Amostragem por Conglomerados A população é inicialmente subdividida inicialmente em subgrupos (estratos) e uma amostra de estratos é selecionada (por exemplo, com probabilidade proporcional ao tamanho de cada estrato). A seguir, amostras são selecionadas dos estratos selecionados previamente. A principal vantagem da amostra por conglomerados é a de possibilitar considerável redução de custos (em relação por exemplo a uma amostragem aleatória estratificada) para um mesmo tamanho amostral. O método costuma ser empregado quando não dispomos de um cadastro da população (como no caso da amostragem sistemática) e os custos de ser elaborado um cadastro para toda a população é muito elevado. Erro amostral: A diferença entre a estatística amostral e seu correspondente parâmetro. Uma distribuição de probabilidade consiste de uma lista de todos os possíveis valores das médias amostrais de um dado tamanho amostral constante selecionado da população e a probabilidade de ocorrência associada a cada média amostral. Exemplo 1 – Uma empresa tem 5 sócios. Semanalmente, os sócios relatam o número de horas de atendimento a clientes Sócio Horas 1 22 2 26 3 30 4 26 5 22 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO Dois sócios são selecionados aleatoriamente. Quantas amostras ‘distintas são possíveis? O número de amostras distintas de dois elementos tomados em 5 objetos corresponde a: 5 C2 5! 10 (2!)(3!) Sócios 1,2 1,3 1,4 1,5 2,3 2,4 2,5 3,4 3,5 4,5 Total 48 52 48 44 56 52 48 56 52 48 Média 24 26 24 22 28 26 24 28 26 24 Organize as médias amostrais em uma distribuição de freqüências. Média Amostral 22 24 26 28 freqüência 1 4 3 2 Freqüência Relativa (Probabilidade) 1/10 4/10 3/10 2/10 Calcule a média das médias amostrais e compare-a com a média da população. A média da população é: 22 26 30 26 22 25,2 5 A média das médias amostrais é: (22)(1) (24)(4) (26)(3) (28)(2) 25,2 10 29 Observe que a média das médias amostrais é igual a média populacional ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 30 6.2 Teorema do Limite Central Para uma população com média e uma variância 2 , a distribuição amostral das médias de todas as possíveis amostras de tamanho n, geradas a partir da população, será aproximadamente normalmente distribuída – com a média da distribuição amostral igual e variância igual 2 / n - assumindo que o tamanho amostral é suficientemente grande, ou seja, n 30 . Em outras palavras, se a população tem qualquer distribuição (não precisa ser necessariamente normal) com média igual a e variância igual a 2 , então a distribuição amostral dos valores médios amostrais é normalmente distribuída com a média das médias ( X ) igual a média da população ( padrão das médias amostrais igual a n X ) e o erro , desde que n 30 . Note que o erro padrão das médias amostrais mostra quão próximo da média da população a média amostral tende a ser. O erro padrão das médias amostrais é calculado por: X X n X X n é o símbolo para o erro padrão das médias amostrais é o desvio padrão da população é o tamanho da amostra Se não é conhecido e n 30 (considerada uma amostra grande), o desvio padrão da amostra, designado por s, é usado para aproximar o desvio padrão da população, .A fórmula para o erro padrão torna-se: sX s n ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 31 n onde s 2 (Xi X ) i 1 n 1 6.3 Estimativa de Ponto Estimativa de ponto é um valor (chamado um ponto) que é usado para estimar um parâmetro populacional Exemplos de estimativas de ponto são a média amostral, o desvio padrão amostral, a variância amostral, a proporção populacional, etc. Exemplo: O número de itens defeituosos produzidos por uma máquina foi registrado em cinco horas selecionadas aleatoriamente durante uma semana de trabalho de 40 horas. O número observado de defeituosos foi 12,4,7,14 e 10. Portanto, a média amostral é 9,4. Assim a estimativa de ponto para a média semanal do número de defeituosos é 9,4. 6.4 Estimativa de Intervalo Uma Estimativa de Intervalo estabelece uma faixa de valores dentro da qual um parâmetro populacional provavelmente cai. O intervalo dentro do qual um parâmetro populacional é esperado ocorrer é chamado de intervalo de confiança. Os intervalos de confiança que são extensivamente usados são os de 95 % e 99 %. Um intervalo de confiança de 95 % significa que cerca de 95 % dos intervalos construídos similarmente conterão o parâmetro que está sendo estimado. Outra interpretação do intervalo de confiança de 95 % é que 95 % das médias amostrais para um tamanho de amostra especificado cairão a uma distância máxima de 1,96 desvios padrões da média populacional. Para o intervalo de confiança de 99 %, 99 % das médias amostrais para um tamanho amostral especificado cairão a uma distância máxima de 2,58 desvios padrões da média populacional. Os intervalos de confiança para 95 % e 99 % são construídos como segue, para n 30: O IC de 95 % para a média populacional é dado por: X 1,96 s n O IC de 99 % para a média populacional é dado por: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO X 2,58 32 s n Em geral, um intervalo de confiança para a média, é calculado por: X Z s n onde Z é obtido da tabela de distribuição normal padrão. Exemplo 2 Uma universidade quer estimar o número médio de horas trabalhadas por semana por seus estudantes. Uma amostra de 49 estudantes mostrou uma média de 24 horas com um desvio padrão de 4 horas. A estimativa de ponto do número médio de horas trabalhadas por semana é 24 horas (média amostral). Qual é o intervalo de confiança de 95 % para o número médio de horas trabalhadas por semana ? Usando a fórmula anterior ( X 1,96 s 4 ) temos 24 1,96 49 n ou 22,88 a 25,12. O limite de confiança inferior é 22,88. O limite superior de confiança é 25,12. O grau de confiança (nível de confiança) utilizado é 0,95. Interprete os resultados Se nós tivéssemos tempo para selecionar aleatoriamente 100 amostras de tamanho 49 da população de alunos do campus e calcular as médias amostrais e os intervalos de confiança para cada uma destas 100 amostras, a média populacional (parâmetro) do número de horas trabalhadas estaria contida em cerca de 95 dos 100 intervalos de confiança. Cerca de 5 dos 100 intervalos de confiança não conteriam a média populacional. 6.5 Intervalo de Confiança para Uma Proporção Populacional Um intervalo de confiança para uma proporção populacional é dado por: p Z p onde: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO p 33 é a proporção amostral p é o erro padrão da proporção amostral e é dado por: p p (1 p ) n O intervalo de confiança é construído por: p (1 p ) p Z n onde: p é a proporção amostral Z é o valor da variável normal padrão para o grau de confiança adotado. n é o tamanho amostral Exemplo 3 Um planejador financeiro está estudando os planos de mudança de jovens executivos. Uma amostra de 500 jovens executivos que possuem suas próprias casas revelou que 175 planejam vendê-las e retirarem-se para o interior do País. Construa um intervalo de confiança de 98 % para o parâmetro proporção populacional de executivos que planejam mudar para o interior. Aqui n = 500, p 175 500 0,35 e Z = 2,33 (para 0,98 nível de confiança adotado ) O CI de 98 % é 0,35 2,33 (0,35) (0,65) ou 0,35 0,0497 500 Interprete a resposta 6.6 Fator de Correção de População Finita Uma população que tem um limite superior definido é chamada de finita. Em estatística, considera-se como população finita quando n 0,05 (ou seja, quando a N fração amostral é maior do que 5 %). ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 34 Para uma população finita, onde o número total de objetos é N e o tamanho da amostra é n, o seguinte ajuste é feito para os erros padrões da média amostral e da proporção amostral. Erro padrão da média amostral: X n N n N 1 Erro padrão da proporção amostral: p (1 p ) N n n N 1 p Este ajuste é chamado de Fator de Correção de População Finita (FCPF) Nota: se n N 0,05 , o fator de correção de população finita é ignorado. Exemplo 4 A universidade do exemplo 2 quer estimar o número médio de horas trabalhadas por semana pelos estudantes. Uma amostra de 49 estudantes mostrou uma média de 24 horas e um desvio padrão de 4 horas. Construa um intervalo de confiança para o número médio de horas trabalhadas se há somente 500 estudantes no campus. n 49 0,098 0,05 . Portanto, temos que usar o FCPF N 500 4 500 49 24 1,96 22,93 ; 25,11 49 500 1 Agora 6.7 Selecionando uma Amostra Há 3 fatores que determinam o tamanho de uma amostra, nenhum dos quais tendo uma relação direta com o tamanho da população. Eles são: 1. O grau de confiança adotado 2. O máximo erro permissível 3. A variabilidade da população Uma fórmula de cálculo conveniente para determinar o tamanho amostral n é: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO Zs n E 35 2 onde: E é o erro permissível Z é o valor da variável normal padrão associado ao grau de confiança adotado s é o desvio padrão da amostra piloto Exemplo 5 Um grupo de consumidores deseja estimar a média de gasto mensal em eletricidade para um domicílio familiar simples em Julho. Baseado em estudos similares o desvio padrão é estimado como sendo R$ 20,00. Deseja-se construir um intervalo de confiança de 99 % com um erro máximo admissível de R$5,00 . Qual deve ser o tamanho da amostra? 2,58 20 n 106,50 107 5 2 6.8 Tamanho Amostral para Estimativa de Proporções A fórmula para determinar o tamanho amostral no caso de estimativa de proporções é: Z n p (1 p ) E p 2 onde é a proporção estimada, baseada na experiência passada ou em uma amostra piloto Z é o valor da variável normal padrão associado ao grau de confiança adotado. E é o máximo erro permissível que o pesquisador tolera. Exemplo 6 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 36 Um clube deseja estimar a proporção de crianças que tem um cachorro. Se o clube deseja que a estimativa esteja no máximo afastada 3 % da proporção populacional, quantas crianças devem conter a amostra? Assuma um intervalo de confiança de 95 % e que o clube estimou, com base em experiência anterior, que aproximadamente 30 % das crianças têm um cachorro. 2 1,96 n 0,300,70 893,4 893 0,03 7. Teste de Hipóteses – Amostras Grandes OBJETIVOS: Definir hipóteses e Testes de Hipóteses Descrever os 5 passos do procedimento de Teste de Hipóteses Distinguir entre Teste de Hipóteses Unicaudal e Bicaudal Realizar um teste para a média populacional Realizar um teste para a diferença entre duas médias ou proporções populacionais Descrever os erros estatísticos associados aos testes de hipóteses Nota: Se nada é conhecido acerca da população, a estimação é usada para fornecer uma estimativa de ponto e de intervalo acerca da população. Se alguma informação acerca da população é proposta ou suspeitada, o Teste de Hipóteses é usado para determinar a plausibilidade desta informação. O que é uma hipótese ? Hipótese: uma sentença sobre o valor de um parâmetro populacional desenvolvida para o propósito de teste. Exemplos de hipóteses, ou sentenças, feitas acerca de um parâmetro populacional são: A renda média mensal proveniente de todas as fontes para os analistas de sistemas é de US 3625 Vinte por cento de todos os transgressores juvenis são presos e sentenciados a prisão. O que é um Teste de Hipóteses ? ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 37 Teste de Hipóteses: um procedimento, baseado na evidência amostral e na teoria da probabilidade, usado para determinar se a hipótese é uma afirmação razoável e não seria rejeitada, ou é não razoável e seria rejeitada. A seguir são propostos 5 passos para um teste de hipóteses: Passo 1: Estabeleça a Hipótese Nula e a Hipótese Alternativa Passo 2: Selecione um nível de significância Passo 3: Identifique a Estatística de teste Passo 4: Formule uma regra de decisão Passo 5: Tome uma amostra e obtenha uma decisão: Não rejeitar H0 ou rejeitar H0 e aceitar H1 Hipótese Nula H0: Uma afirmação (sentença) sobre o valor de um parâmetro populacional Hipótese Alternativa H1: Uma afirmação (sentença) que é aceita se os dados amostrais fornecem evidência de que a hipótese nula é falsa. Nível de Significância: A probabilidade de rejeitar a hipótese nula quando ela é efetivamente verdadeira, ou seja, valor de (alfa) Erro Tipo I: Rejeitar a Hipótese Nula, H0, quando ela é efetivamente verdadeira. A probabilidade do erro tipo I é igual ao nível de significância, (alfa). Erro Tipo II: Aceitar a Hipótese Nula, H0, quando é efetivamente falsa. A probabilidade do erro tipo II é igual a (beta) Tipos de Erros H0 é verdadeira H0 é falsa Alfa = erro tipo I Aceita H0 Decisão Correta Erro Tipo II Rejeita H0 Erro Tipo I Decisão Correta Beta = erro tipo II ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 38 Estatística de Teste (ou z efetivo ou valor de t): Um valor, determinado a partir da informação amostral, usado para determinar se devemos ou não rejeitar a hipótese nula. Valor Crítico (ou z crítico ou valor de t): O ponto divisor entre a região onde a hipótese nula é rejeitada e a região onde ela não é rejeitada. Este valor é obtido a partir da tabela de z (normal padrão) ou da tabela de t (t de Student). 7.1 Testes de Significância Unicaudais Um teste é unicaudal quando a hipótese alternativa, H1, estabelece uma direção tal como: H0: A renda média das mulheres é menor que ou igual a renda média dos homens. H1: A renda média das mulheres é maior que a renda média dos homens. A região de rejeição neste caso é a cauda direita (superior) da curva. Figura com distribuição normal mostrando a região de rejeição para um teste unicaudal 7.2 Testes de Significância Bicaudais Um teste é bicaudal quando não existe uma direção especificada para a hipótese alternativa H1, tal com: H0: A renda média das mulheres é igual a renda média dos homens. H1: A renda média das mulheres não é igual a renda média dos homens. A região de rejeição neste caso é dividida igualmente em duas caudas da curva. Figura com distribuição normal mostrando a região de rejeição para um teste bicaudal (distribuição amostral para a estatística z para um teste bicaudal, 0.05 de nível de significância. Testando a Média Populacional: Amostra Grande, Desvio Padrão da População é conhecido. Neste caso a estatística de teste (z efetivo) é dado por: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO z 39 X n Exemplo 1 Os processadores de uma indústria indicam o ponto (marca) que a garrafa contem 16 onças (medida inglesa de peso) do produto. O Departamento de Controle de Qualidade é responsável pelo controle da quantidade incluída na garrafa. Uma amostra de 36 garrafas é selecionada por hora e o seu conteúdo pesado. Na última hora uma amostra de 36 garrafas apresentou um peso médio de 16,12 onças com um desvio padrão de 0,5 onças. Ao nível de significância de 0,05 podemos concluir que o processo está fora de controle? Passo 1: Estabelecer a Hipótese Nula e a Hipótese Alternativa: H 0 : 16 H1 : 16 Passo 2: Estabelecer a regra de decisão: H0 é rejeitado se o z (efetivo – calculado com base nos valores amostrais) < -1,96 ou z > 1,96. Passo 3: calcule o valor da estatística de teste ( z efetivo) z [16,12 16] [0,5 1,44 36 ] Passo 4: Qual é a decisão sobre H0? H0 não é rejeitada, porque 1,44 é menor que o valor crítico de 1,96. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 40 7.3 P-value de um Teste de Hipótese P-value: Esta é a probabilidade (considerando que a hipótese nula é verdadeira) de ter um valor para a estatística de teste no mínimo tão extremo como o valor calculado (efetivo) para o teste. Se o p-value é menor que o nível de significância (alfa), H0 é rejeitada. Se o p-value é maior que o nível de siginificância (alfa), H0 não é rejeitada. 7.4 Cálculo do P-value Teste Unicaudal (para a direita ou cauda superior): p-value = P{z valor da estatística de teste calculada} Teste Unicaudal (para a esquerda ou cauda inferior): p-value = P{z valor da estatística de teste calculada} Teste Estatístico Bicaudal p-value = 2P{z valor absoluto do valor da estatística de teste calculado} Para o exemplo anterior, z = 1,44, e desde que era um teste bicaudal, então o p-value = 2P{z 1,44} 2(0,5 0,4251) 0,1498 . Desde que 0,1498 > 0,05, não é rejeitada H0. Testando para a Média Populacional: Grandes Amostras, Desvio Padrão Populacional desconhecido Aqui é desconhecido, portanto o estimamos com o desvio padrão amostral s. Quanto maior for o tamanho amostral for n 30, o z efetivo pode ser aproximado com X z s n ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 41 Exemplo 2 A cadeia de Lojas Arjo emite o seu próprio cartão de crédito. O administrador de crédito quer verificar se o saldo não pago mensal é maior do que US$ 400. O nível de significância é fixado em 0,05. Uma amostra aleatória de 172 saldos não pagos revelou uma média amostral de US$ 407 e o desvio padrão amostral de US$ 38. O admistrador de crédito pode concluir que a média populacional é maior que US$ 400, ou é razoável assumir que a diferença de US$ 7 (US$ 407 – US$ 400 é devido a chance (variação aleatória)? Etapa 1: Estabeleça a Hipótese Nula e a Hipótese Alternativa. H 0 : 400 H1 : 400 Etapa 2: Estabeleça a regra de decisão. H0 é rejeitada se o z (efetivo) > 1,645. z Etapa 3: Calcule o valor da estatística de teste. 407 400 2,42 38 172 Etapa 4: Qual é a decisão sobre H0? H0 é rejeitada. O administrador conclui que a média dos saldos nào pagos é maior do que US$ 400. Figura ilustrando a região de rejeição do exemplo 7.5 Teste de Hipóteses: Duas Médias Populacionais Assuma que os parâmetros para duas populações são: Caso I: Quando 1, 2 ,1 e 2 . 1 , 2 são conhecidos, a estatística de teste (Z efetivo) é: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO z X1 X 2 12 n1 42 22 n2 , Caso II: Quando 1 2 não são conhecidos mas os tamanhos amostrais n1 e n2 são maiores ou iguais a 30, a estatística de teste (Z efetivo) é: z X1 X 2 s12 s22 n1 n2 Exemplo 3 Na indústria X foi realizado um estudo para comparar o número médio de anos de serviço para aqueles que se aposentaram em 1975 com aqueles que se aposentaram no último ano. Os seguintes dados amostrais foram obtidos. A um nível de significância de 0,01 podemos concluir que os trabalhadores que se aposentaram no último ano tiveram mais anos de serviço? Característica Média Amostral Desvio Padrão Amostral Tamanho amostral 1975 25,6 2,9 40 Último ano 30,4 3,6 4,5 Estabeleça a Hipótese Nula e a Hipótese Alternativa Considere que a população 2 é aquela dos que se aposentaram no último ano. H0 : 2 1 H1 : 2 1 Estabeleça a regra de decisão Rejeitar H0 se o z (efetivo) > 2,33. Calcule o valor da estatística de teste (valor de z efetivo): ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO z 30,4 25,6 2 2 43 6,80 3,6 2.9 45 40 Nota: Desde que neste problema estamos testando para: H0 : 2 1 Precisamos trocar as posições das variáveis na equação do z efetivo (a seguinte equação). z X1 X 2 s12 s22 n1 n2 Z efetivo Qual é a decisão sobre a hipótese nula ? Interprete os resultados? Desde que o Z efetivo = 6,80 > Z crítico = 2,33, H0 é rejeitada. Aqueles que se aposentaram no último ano tiveram mais anos de serviço. LISTA DE EXERCÍCIOS- ESTATÍSTICA II: ASSUNTO: INTERVALO DE CONFIANÇA E TESTE DE HIPÓTES. 1-Uma amostra aleatória simples de 40 itens resultou em uma média amostral de 25. O desvio-padrão da população é = 5 a) Qual é o erro-padrão da média, x ? R. 0,79 b- Qual é a margem de erro para uma probabilidade de 95%? R. 23,45 a 26,55 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 44 2-Uma amostra aleatória simples de 50 itens resultou em uma média amostral de 32 e um desvio-padrão da amostra de 6. a)Forneça um intervalo de confiança de 90% para a média da população. R.30,60 a 33,40 b)Forneça um intervalo de confiança de 95% para a média da população. R.30,34 a 33,66 c)Forneça um intervalo de confiança de 99% para a média da população. R.29,81, a 34,19 3-Os ganhos médios semanais dos indivíduos que trabalham em vários setores foram apresentados no The New York Times 1998 Amanac. Os ganhos médios semanais para os indivíduos do setor de serviços foram US$369. Considere que esse resultado foi baseado em uma amostra de serviço de 250 indivíduos e que o desvio-padrão da amostra foi de US$50. Calcule um intervalo de confiança de 95% para os ganhos médios semanais da população para os indivíduos que trabalham no setor de serviços. R. 362,80 a 375,20 4 Em um estudo de subsídios de empréstimos para estudantes, o Departamento de Educação relatou que aqueles que tomam empréstimos da Stanford Oan com quatro anos de prazo, terão uma dívida média de US$12.168 (USA Today, 5 abril de 1995). Considere que essa quantia média de endividamento está baseada em uma amostra de 480 empréstimos de estudantes, e que na graduação o desvio-padrão da população para a quantia emprestada seja de US$2.200. a) desenvolva uma estimativa por intervalo de confiança de 90% da quantia média devida pela população R.12.003 a 12.333 b) Desenvolva uma estimativa por intervalo de confiança de 95%. da quantia média devida pela população R.11.971 a 12.365 c) Desenvolva uma estimativa por intervalo de confiança de 99% da quantia média devida pela populaçãoR.11.909 a 12.427 d) Discuta o que acontece com a amplitude do intervalo de confiança quando o nível de confiança é aumentado. Isso parece ser razoável? Explique 5 - O departamento de Habitação e de Desenvolvimento Urbano dos Estados Unidos publica dados sobre o aluguel mensal de mercado para moradia de uma quarto na área metropolitana(The Federal Register, 30 de abril de 1997). O desvio-padrão para o aluguel mensal é de aproximadamente US$80. Considere que uma amostra das áreas metropolitanas será selecionada de modo a se estimar o aluguel médio mensal da população para a moradia de um quarto. Use uma confiança de 95% a) Qual o tamanho da amostra se a margem de erro desejada é US$25? R. 40 b) Qual o tamanho da amostra se a margem de erro desejada é US$15? R.110 6 - Os dados de perfil de audiência coletadas no Web site da ESPN Sportszone mostraram que 26% dos usuários eram mulheres (USA Today, 21 de janeiro de 1998). Considere que essa porcentagem foi baseada numa amostra de 400 usuários. a) Usando uma confiança de 95%, qual a margem de erro associada com a proporção estimada de usuários que são mulheres? R. 0,0430 b) Qual o intervalo de confiança de 95% para a proporção da população dos usuários do web site da ESPN Sportszone que são mulheres? R. 0,2170 a 0,3030 7- Um levantamento de mulheres executivas realizado por Louis Harris Associates mostrou que 33% das pessoas pesquisadas avaliaram suas próprias empresas como um ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 45 exelente lugar para as executivas trabalharem (Wolrking Woman; novembro de 1994), Suponha que a Wolking Woman queria realizar um levantamento anual para monitorar essa proporção, quantas executivas deverão ser amostradas para cada uma das seguintes margens de erro? Assuma que todas as estimativas por intervalo são realizadas em um nível de confiança de 95%. a) 10% R. 85 b) 5% R. 340 c) 2% R. 2124 d) 1% R 8494 e) Em geral, o que acontece ao tamanho da amostra quando a margem de erro diminui? 8- De acordo com a National Automobile Dealers Association, o preço médio de carros usados nos Estados Unidos é US$10.192 (USA Today, 12 de abril de 1995). Um gerente de uma distribuidora de carros usados de Kansas City reviu uma amostra de 100 recentes vendas de carros usados na distribuidora. O preço médio da amostra foi de US$9.300 e o desvio-padrão da amostra foi de US$4.500. Se denota o preço médio da população para carros usados na distribuidora de Kansas City, faça um teste de hipótese Ho: 10.192 e Ha: 10.192 com uma significância de 0,05 a) Qual è a conclusão do teste de hipóteses? R.Ho é rejeitado para Z1,65 (Z=1,98, portanto Ho é rejeitado). b) Qual é o valor do p-value? R. P= 0,0239 c) Que informação do teste de hipóteses fornece para o gerente da distribuidora de Kansas City? 9 - O departamento da Análise Econômicas no Departamento de Comércio dos Estados Unidos relatou que a renda média anual de um residente da Corolina do Norte é de US$18.688 (USA Today, 24 de agosto de 1995). Um pesquisador do estado da Carolina do Sul quer testar Ho: = 18.688 e Ha: 18.688, onde é a média anual de um residente da Carolina do Norte. a) Qual é a conclusão apropriada se uma amostra de 400 residentes da Carolina do Sul apresenta uma renda média anual de US$16.860 e um desvio-padrão da amostra de US$14.624 ao nível de significância de 5% (0,05)? b) Qual é o valor do p-value para este teste? 10_ Uma empresa paga atualmente a seus operários um salário médio de R$15,00 a hora. A empresa está planejando construir uma nova fábrica e está considerando diversos locais. A disponibilidade de mão de obra a uma taxa menor que R$15,00 por hora é um grande fator de decisão do local. Para uma locação, uma amostra de 40 trabalhadores mostrou um salário médio atual de R$14,00 por hora e um desvio padrão S = R$2,40. a) Com um nível de significância de 0,01, os dados da amostra indicam que o local tem uma taxa de salário significativamente abaixo da taxa de R$15,00 por hora R. rejeita Ho c) Qual é o p value R. 0,4% 11) Um levantamento da Nilsen forneceu a estimativa de que o número médio de horas gastas diante da televisão por família é de 7,25 horas por dia. (New York Daily News, 2 de novembro de 1997) considere que o levantamento da Nilsen envolveu 200 famílias e queo ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 46 desvio padrão da amostra foi de 2,5 horas por dia. Há dez anos a número médio de horas gastos diante da TV por família da população foi relatado como sendo 6,70 horas por dia. a) Elabore um teste de hipótese para a situação b) Com um nível de significância de 0,01, qual a conclusão sobre qualquer mudança no tempo gasto diante da TV. Ho é rejeitado 12-Um novo programa de dieta afirma que os participantes perderão em média pelo menos 8 quilos durante a primeira semana do programa. Uma amostra aleatória de 40 pessoas participando do programa mostrou uma perda de peso médio de 7 quilos. O desvio-padrão da amostra foi de 3,2 quilos. a) Qual a regra de rejeição com um nível de significância = 0,05? Ho: 8, Ha: 8 b) Qual é sua conclusão sobre a afirmação feita pelo programa da dieta? R- Rejeita Ho c) Qual é o valor p-value? R. 0,0239 EXERCÍCIOS COMPLEMENTARES INTERVALO DE CONFIANÇA TESTE DE HIPÓTESES 1_ Uma população composta por 80 elementos apresenta desvio padrão de 3,2 unidades. Uma amostra de 20 elementos selecionados ao acaso, sem reposição, apresentou uma média de 40 unidades. Determine um intervalo de confiança de 85% para a media da população R. 39,10 < média < 40,90 2_ Em uma cidade há 30 supermercados que comercializam determinado produto, cujo preço de venda admite distribuição normal de probabilidades. Uma amostra aleatória de preços deste produto levantados em seis supermercados revelou os valores de u.m. por kg. 6,4 ; 7,3; 5,8; 6,5; 7,0.;6,0. Sabe-se que o desvio padrão para os preços deste produto em outra cidade consultado é de 0,5 u.m por kg. Construa um intervalo de confiança de 90% para o preço médio deste produto nestes supermercados. R. 6,2 a 6,8 3_ Procurando dimensionar a ajuda de custo para seus 50 vendedores, uma empresa acompanhou os gastos de 15 vendedores e verificou uma despesa média de 20 u.m. Se a empresa acredita que o desvio padrão para o gasto é 2 u.m., determine um intervalo de confiança de 98% para o gasto médio dos vendedores desta empresa. R. 18,98 a 21,02 4_A prefeitura de uma cidade mantém 50 creches e pretende contratar dentista para implementar um programa de ação preventiva de cárie dentária. Um levantamento em 5 creches revelou que o número médio de crianças com cáries dentária é 20. Publicações especializadas no assunto afirmam que o desvio padrão para o número de crianças com cáries dentárias é de 10% do número médio de crianças com cáries. Construa um intervalo de confiança de 95% para o número médio de crianças com cáries nas creches desta cidade. R. 18,32 a 21,68 5_Para estimar o tempo necessário para o conserto de 40 máquinas, o encarregado da manutenção de uma empresa escolheu ao acaso 5 motores e verificou que o tempo médio ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 47 de conserto é de 4 horas. Por experiência anterior, o encarregado sabe que o desvio padrão do tempo de conserto corresponde a 15% do tempo médio de conserto. a) Qual é a previsão mínima e a máxima para o tempo de conserto de um motor, ao nível de confiança de 98% b) Qual é a estimativa pontual para tempo médio de conserto das 40 máquinas. R a) 3,41 a 4,59 b) 160 horas 6_ Com a finalidade de estabelecer o custo de um novo produto, o encarregado de custos levantou os possíveis fornecedores de um dos componentes deste produto. Dos 60 fornecedores cadastrados foram sorteados e consultados 6 deles. Os preços fornecidos apresentam uma média de 4,83 u.m. A experiência do encarregado indica que o desvio padrão para o preço é de 10% deste preço(da média). Qual deve ser o intervalo de confiança de 93% para o preço médio deste componente R. 4,49 a 5,17 7_ Qual é precisão da estimação feita no exercício 6. 8_De uma população normal deve ser retirada uma amostra aleatória que avalie a média populacional com erro padrão de estimativa de duas unidades. Se o desvio padrão populacional é conhecido e vale 10, qual deve ser o tamanho da amostra, a um nível de confiança de 90% R. n = 68 9- Uma amostra aleatória de 20 elementos selecionados de uma população normal com variância 3 apresentou média 50. Teste ao nível de significância de 10% a hipótese Ho: µ = 53. R. Ho é rejeitado ao nível de 10%. 10-Uma amostra aleatória de 40 elementos selecionados de uma população normal com variância 4 apresentou média 29,5. Um analista afirma que a média populacional é 30. Teste ao nível de significância de 5% a afirmação do analista. R.Aceita Ho ao nível de 5%. 11- Uma população normalmente distribuída apresenta média histórica de 6 unidades e desvio padrão de 0,5 unidades. Uma amostra de 15 elementos selecionados ao acaso forneceu média 4 e desvio padrão 1. Teste ao nível de 5% o valor da média histórica, contra a alternativa em que a média diminuiu. R. Rejeita-se Ho ao nível de 5%. 12- De uma população normal com média história de 18 unidades, 12 elementos foram selecionados ao acaso, fornecendo média de 17 unidades e desvio padrão de 3 unidades. Teste ao nível de significância 10% a hipótese nula Ho: > 18. R. Aceita-se Ho ao nível de 10% 13- Uma população normalmente distribuída forneceu a seguinte amostra aleatória 12; 16; 15; 14; 17; 10; 9; 15; 13; 16.Um estatístico afirma que a média populacional é 15. Teste ao nível de significância de 5% a afirmação do estatístico. R. Aceita-se Ho ao nível de 5%. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 48 14- Com os dados do problema anterior teste ao nível de significância de 5% a afirmação do estatístico, considerando a hipótese alternativa Ha: < 15 R. Aceita-se Ho ao nível de 5%. 15- Uma população normal apresenta historicamente o valor médio de 60 unidades. Um analista , duvidando que este valor persista na atualidade, levantou uma amostra aleatória de 20 elementos, obtendo o valor médio de 55 unidades com desvio padrão de 2 unidades. Teste ao nível de significância de 5% a hipótese de que a média histórica é verdadeira R. Rejeita-se Ho ao nível de 5%. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 49 NÚMEROS-ÍNDICE 1- INTRODUÇÃO Os números-índice são medidas estatísticas freqüentemente usados para comparar grupos de variáveis relacionadas entre si e para obter um quadro simples e resumido das mudanças significativas ocorridas ao longo do tempo ou em diferentes lugares. Podem ser usados para muitos propósitos: índice de preços para o atacado, varejo (materiais de construção, produtos agrícolas, alimentos, serviços em geral etc, índice de volume físico, índices de custo de vida etc. São particularmente úteis para o acompanhamento da inflação, onde são usados para deflacionar séries de valores admitindo uma certa época-base. Os números-índice são expressos em termos porcentuais. Os mais usados medem, em geral, variações de preços e de quantidade ao longo do tempo e são exatamente estes índices que serão objetos de nosso estudo. 2- RELATIVOS: PREÇO, QUANTIDADE E VALOR Trata-se do número-índice mais simples, relacionando o preço ou a quantidade ou ainda o valor de um produto numa época atual (t) com uma época-base (0). Assim, para um produto: po = preço na época-base pt = preço na época atual qo = quantidade na época-base qt = quantidade na época atual vo = valor na época-base vt = valor na época atual teremos: Relativo de Preço : Relativo de Quantidade : Relativo de Valor: P0,t pt po q0,t qt qo v0,t pt .qt po .qo Exemplo: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 50 Em 2004 um empresa vendeu 500 unidades de um produto ao preço unitário de R$50,00. Em 2006, vendeu 800 unidade do mesmo produto ao preço unitário de R$70,00. Determinar os relativos de preço, quantidade e valor para o produto, tomando como base 2004. Solução: Relativo de Preço: p04,06 Relativo de Quantidade: Relativo de Valor: 70 1, 4 140% 50 q04,06 vo,t 800 1, 6 160% 500 70.800 2, 24 224% 50.500 Os resultados indicam que em 2006 houve um aumento de 40% no preço, que a quantidade aumentou em 60% e que o valor das vendas foi 124% superior ao de 2004. 3 - BASE FIXA E BASE MÓVEL Os relativos acima definidos podem ser avaliados usando uma base fixa para estudos que não exigem comparação ano a ano, mas comparações entre um determinado ano considerado significativo (ano inicial de uma mudança ou de alguma meta) e os anos subseqüentes. Para estudos em que se deseja interpretar crescimentos anuais, usa-se o número-índice de base móvel ou índices em cadeia. Assim, p0,1; p0,2 ; p0,3 ;... Base fixa: Base móvel: p0,1; p1,2 ; p2,3 ;... Note que tal procedimento é extensivo aos outros relativos. 4- NÚMEROS-ÍNDICE SINTÉTICOS Na prática, surgem problemas bem mais complexos que a comparação entre termos de uma série através dos relativos. Esses problemas ocorrem quando o fenômeno em estudo é resultante da combinação de várias séries. A variação do custo da alimentação é um exemplo, pois há diversos itens a considerar: pão, leite, carne, ovos, frutas, verduras etc. Torna-se necessário determinar para cada período um único número-índice que representa o conjunto dos preços (ou quantidades) dos itens nesse período, além de relaciona-lo com o conjunto de preços (ou quantidades) do período-base. Precisamos nestes casos construir os números-índice globais ou sintéticos. Para elaboração de um índice sintético deveremos preocupar-nos com: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 51 4.1 Seleção dos itens Normalmente não trabalhamos com a totalidade dos itens componentes do fenômeno a ser estudado. A composição de base ou regime (conjunto de bens e/ou serviços incluídos nos índices) deve ser orientada por uma técnica de amostragem, e todo cuidado deve ser tomado para que os itens de maior relevância não sejam excluídos. 4.2 Determinação das ponderações Ao analisarmos os itens componentes da base, notamos que cada um participa de maneira diferente na composição do fenômeno. Torna-se então necessária a ponderação dos diversos itens. Esta ponderação é geralmente um valor representativo de uma característica. Assim, quantidades consumidas são tomadas como pesos de preços de consumo; volumes de produção como pesos de índices de preços por atacado etc. A atualização do pesos bem como revisões de características usadas para a ponderação devem ser feitas periodicamente. 4.3 Escolha do período-base Como o número-índice visa estabelecer comparações entre épocas, a escolha de período-base ou época-base constitui um passo importante. Na realidade, não há normas fixas para a escolha. Como orientação geral, é fundamental a escolha de uma época-base que influa o menos possível na variação do índice. Para tanto, deve-se observar: a) a época-base deve ser um período normal, isto é, um período em que a característica que se estuda e a característica que serve de ponderação não sofram variações excepcionais. b) A abrangência de várias épocas, pois o valor (média dos valores) correspondente a essas épocas diminui a influência de fatores acidentais. 4.4 Escolha da fórmula A fórmula a ser escolhida depende intrinsecamente da lógica do sistema de pesos escolhido no 2º passo, ou de representatividade o valor médio ou central do conjunto, quando não são utilizados pesos. A seguir apresentaremos as principais fórmulas de índice sintéticos não-ponderados e ponderados. 3- PRINCIPAIS ÍNDICES Sejam ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO Bens 1 Preço época-base: Preço época atual: Quantidade época-base: Quantidade época atual Relativos de preços: Relativos de quantidade: po¹ pt¹ qo¹ qt¹ po¹,t qo¹,t 2 3 po² po³ pt² pt³ qo² qo³ qt² qt³ po²,t po³,t qo²,t qo³,t 4 po4 pt4 qo4 qt4 po4,t qo4,t 5 po5 pt5 qo5 qt5 po5,t qo5,t .... .... .... ..... .... .... .... 52 n pon ptn qon qtn pon,t qon,t Onde poi = preço na época-base do i-ésimo bem qoi = quantidade na época-base do i-ésimo bem pti = preço na época atual do i-ésimo bem qti = quantidade na época atual do i-ésimo bem poi,t = relativo de preço do i-ésimo bem qoi,t = relativo de quantidade do i-ésimo bem. Índice agregativo simples De preços: Ip pt i po i De quantidades: Iq q i q i t o Trata-se de um índice de fácil aplicação, que apresenta as seguintes limitações: a) Não se leva em consideração a importância relativa dos itens. Assim, por exemplo, no caso do cálculo do índice do custo de alimentação, seria atribuída ao feijão e ao “caviar” a mesma importância. b) Não há homogeneidade entre as unidades dos diversos bens. Assim, por exemplo, o feijão pode vir expresso em quilos e o azeite em litros. Exemplo: A tabela a seguir apresenta os preços médios para o varejo e as quantidades vendidas dos produtos: carne bovina, suína e ovina durante os anos de 2003, 2004 e 2005 (dados fictícios). ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 2003 2004 2005 Preço quant. Preço quant. Preço quant. 53 Produtos Carne bovina Carne suína Carne ovina 37 35 28 120 80 90 45 33 30 150 100 100 43 38 35 170 90 150 a) Calcular o índice agregativo simples de preços de 2005, tomando com base 2003 Solução: Ip p i 05 p i 03 43 38 35 1,16 116% 37 35 28 Portanto, segundo esse índice, houve um aumento de 16% no preço dos produtos de 2005 em relação a 2003. b) Calcular, segundo o índice agregativo simples de quantidade para 2005, tomando como base 2004. Solução: Iq q i 05 q i 04 170 90 150 1,17 117% 150 100 100 Portanto, houve um acréscimo de 17% na vendas de 1005 em relação a 2004. 5.2 Índices médios dos relativos Para o cálculo dos índices médios dos relativos, poderemos utilizar a média aritmética, harmônica e geométrica. MÉDIA ARITMÉTICA Dos Preços: P0 , t p 0 i ,t n ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO Das quantidades: Q0 , t q i 0 54 ,t n MÉDIA GEOMÉTRICA n G P o ,t n poi ,t Dos preços: i 1 Das quantidades: n G Q o,t n qoi ,t i 1 MÉDIA HARMÕNICA n H P 0,t Dos preços: p i t ,0 Das quantidades: H Q 0,t 1 p i 0,t n q n i t ,0 n 1 q i 0,t Exemplo: A tabela a seguir apresenta os preços médios para o varejo e as quantidades vendidas dos produtos: carne bovina, suína e ovina durante os anos de 2003, 2004 e 2005 (dados fictícios). 2003 2004 2005 Preço quant. Preço quant. Preço quant. Produtos Carne bovina Carne suína Carne ovina 37 35 28 120 80 90 45 33 30 150 100 100 43 38 35 170 90 150 a) Calcular o índice médio aritmético dos preços para 2005, tomando como base 2003 Solução: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO p i 03,05 P 03,05 n 55 43 38 35 37 35 28 1,17 117% 3 Logo, segundo esse índice, houve um acréscimo de 17% dos preços em 2005 em relação a 2003. b) Determinar índice médio aritmético da quantidades para 2004, tomando como base 2003; Q 03,04 q i 03,04 n 150 100 100 120 80 90 1, 20 120% 3 Logo, segundo esse índice, houve um acréscimo de 20% das quantidades em 2004 em relação a 2003. c) Determinar o índice médio geométrico dos preços de 2004 em relação a 2003. Solução P G 03,04 3 3 i 1 i p04 45 33 30 3 . . .100 1, 071 107,1% i p03 37 35 28 d) Qual seria a média geométrica da quantidades de 2004 em relação a 2003? Solução: G i q04 150 100 100 i 3 . . .100 1, 2019 120.19% 120 80 90 i 1 q03 3 Q03,04 3 e) Determinar o índice médio harmônico dos preços de 2005 em relação a 2003. Solução: H P 03,05 3 3 .100 1,1621 116, 21% i p03 37 35 28 i 43 38 35 i 1 p05 3 f) Qual seria a média harmônica da quantidades de 2005, sendo 2003 = 100? Solução: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO H Q 03,05 56 3 3 .100 1,3669 136, 69% i q03 120 80 90 i 170 90 150 i 1 q05 3 5.3 Índices ponderados Devido às desvantagens dos índices simples, especialmente pelo fato da nãoexistência de diferentes pesos para cada um dos componentes, examinaremos os principais índices ponderados, 5.3.1 ÍNDICE DE LASPEYRES Este índice é uma média aritmética ponderada dos relativos, sendo que a ponderação é feita utilizando-se os preços ou as quantidades da época-base. Dessa forma, o índice de preços de Laspeyres é dado por: L0 , t p .q i t i 0 p .q i 0 i 0 Quanto ao índice de quantidades de Laspeyres, é dado por: L'o , t q .p i t i 0 q .p i 0 i 0 5.3.2 ÍNDICE DE PAASCHE Este índice é uma média aritmética ponderada dos relativos, sendo que a ponderação é feita utilizando-se os preços ou quantidades da época atual. Assim, o índice de preços de Paasche é dado Por: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO P0 , t 57 p .q i t i t p .q i 0 i t Quanto ao índice de quantidade de Paasche, é expresso por: Po' , t q .p i t i t q .p i 0 i t 5.3.3 INDICE DE FISHER (FÓRMULA IDEAL) Este índice é obtido pela raiz quadrada do produto dos respectivos índices de Laspeyres e Paasche. Assim: Índice e preços: I 0 , t Lo, t.Po, t pti .qoi pti .qti . poi .qoi poi .qti Índice de quantidades: qti . poi qti . pti I , t L , .P , . qoi . poi qoi . pti ' o ' o t ' o t EXEMPLO DE APLICAÇÃO A tabela a seguir apresenta os preços médios para o varejo e as quantidades vendidas dos produtos: carne bovina, suína e ovina durante os anos de 2003, 2004 e 2005 (dados fictícios). 2003 2004 2005 Produtos Preço quant. Carne bovina Carne suína Carne ovina 37 35 28 120 80 90 Preço quant. 45 33 30 150 100 100 Preço quant. 43 38 35 170 90 150 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 58 a) Calcular o índice de preços de Laspeyres para 2005, admitindo como período base 2003. Solução: p i .q03 p i .q03 i 05 L03,05 i 03 (43).120 (38).80 (35).90 1,16 116% (37).120 (35).80 (28).90 Assim, houve um acréscimo de 16% no preços de 2005 com relação a 2003. b) Calcular o índice de quantidade de Laspeyres para 2005, admitindo a base para 2003. Solução: q i . p03 q i . p03 i 05 L'03,05 i 03 (170).37 (90).35 (150).28 1, 4 140% (120).37 (80).35 (90).28 Segundo esse índice, houve um aumento de 40% das quantidades em 2005, tomando 2003 como base. c) Determinar o índice de Paasche para o preço em 2005, tomando como base 2004. Solução: P04,05 p i .q05 p i .q05 i 05 i 04 43.(170) 38.(90) 35.(150) 1, 06 106% 45.(170) 33.(90) 30.(150) d) Qual é o índice de quantidades de Paasche para 2005, sendo 2003 a ano base? Solução: P '03,05 q i . p05 q i . p05 i 05 i 03 (170).43 (90).38 (150).35 1, 41 141% (120).43 (80).38 (90).35 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 59 e) Determinar o índice de preços de Fisher para 2005, tomando como 2003 como ano base. Solução: I 03,05 L03,05 .P03,05 p i 05 p i 03 I 03,05 i .q03 . i .q03 p p i 05 i .q05 i 03 i .q05 43.(120) 38.(80) 35.(90) 43.(170) 38.(90) 35.(150) . 37.(120) 35.(80) 28.(90) 37.(170) 35.(90) 28.(150) I 03,05 1,17 117% Portanto, segundo a fórmula ideal de Fisher, houve um aumento de 17% nos preços de 2005, tomando como base 2003. 7-Mudança de base na prática Na prática, a mudança de base de uma série de números-índice é feita dividindo-se cada índice da série original pelo número-índice correspondente à nova época básica. Tal procedimento não é correto em termos matemáticos; todavia, seu uso tem sido freqüente, com bons resultados. Exemplo: A tabela abaixo apresenta o índice de produção industrial de 1997 a 2005, sendo o ano-base 1997. Obter uma nova série de índices, adotando 2001 como base. Anos 1997 Ìndice de Produção 100 Industrial (1997=100) 1998 1999 104 97 2000 2001 2002 2003 2004 112 120 124 134 125 2005 141 Solução: O novo índice será obtido dividindo-se cada um dos valores da série por 120, que é o índice correspondente ao novo ano-base. Assim: Anos 1997 Ìndice de Produção 83 Industrial (2001=100) 1998 1999 2000 2001 2002 2003 2004 2005 87 81 93 100 103 112 104 118 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 60 8-DEFLACIONAMENTO OU INFLACIONAMENTO DE DADOS Para inflacionar ou deflacionar séries de valores, podemos usar qualquer um dos seguintes deflatores, normalmente encontrados nas revistas especializadas: IGP – Índice Geral de Preços ICV – Índice de Custo de Vida IPA – Índice de Preços ao Atacado IPC – Índice de Preços ao Consumidor IPCA – Índice de Preços de Consumo Amplo Para estudar a evolução real dos salários devemos usar o índice de custo de vida ou índice de preços ao consumidor. No caso de dados sobre as empresas, podemos utilizar o índice geral de preços ou índice de preços do atacado. Exemplo: Uma empresa possui os dados relativos a seu faturamento ao período de 2000 a 2005, apresentados na tabela abaixo. Dado o índice geral de preços (IGP) desse período, determinar: a) b) c) d) o faturamento real em termos de 2000; o faturamento real em termos de 2005; a variação porcentual do faturamento real ano a ano; a taxa média real do faturamento no período considerado. Ano Faturamento (R$milhões) IGP 00 =100 2000 50.000 2001 80.000 2002 130.000 2003 180.000 100 137 208 362 2004 220.000 2005 270.000 691 1.085 Solução: a) para deflacionarmos ou inflacionarmos os dados deveremos tomar o inverso dos índices com relação ao ano-base e multiplicar pelos valores que queremos atualizar. No nosso caso, como queremos o faturamento real em termos de 2000, vamos deflacionar os dados: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO Ano Inverso dos Índices Taxa de desvalorização da moeda x 2000 (1/100).100 1 2001 (1/137).100 2002 Valores correntes 61 Valores deflacionados x 50.000 = 50.000 0,729927 x 80.000 = 58.394 (1/208).100 0,480769 x 130.000 = 62.500 2003 (1/362.100 0,276243 x 180.000 = 49.724 2004 (1/691).100 0,144718 x 220.000 = 31.838 2005 (1/1.085).100 0,092166 x 270.000 = 24.885 Observação: poderíamos obter os valores deflacionados dividindo diretamente o valor corrente pelo índice (80.000/137).100 58.394), porém perderíamos o valor da taxa de desvalorização da moeda. Assim, temos todos os valores a preços constantes de 2000 e, portanto, podem ser comparados, o que não ocorria anteriormente, quando os valores estavam mascarados pela inflação. Verifica-se que o faturamento realmente cresceu até o ano de 2002, a partir do qual passou a decrescer continuamente. b) Para colocarmos os dados em termos do faturamento de 2005, deveremos inflacionar os dados anteriores. Assim, inicialmente deveremos fazer uma mudança de base no IGP que foi dado com 2000 = 100 transformando-o em IGP 2005 = 100. Anos 2000 2001 2002 2003 2004 IGP 00 = 100 100 137 208 362 691 1.085 IGP 05 = 100 9,217 19,171 33,364 63,687 100 12,627 2005 Em seguida, procede-se da maneira idêntica ao caso anterior: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO Ano Inverso dos Índices Taxa de valorizacão da moeda x Valores correntes Valores Inflacionados 2000 (1/9,217).100 = 10,850 x 50.000 = 542.500 2001 (1/12,627).100 = 7,920 x 80.000 = 633.600 2002 (1/19,171).100 = 5,216 x 130.000 = 678.080 2003 (1/33,364).100 = 2,997 x 180.000 = 539.460 2004 (1/63,687).100 = 1,570 x 220.000 = 345.400 2005 (1/100).100 = 1,00 x 270.000 = 270.000 62 Observação: Poderíamos obter os valores inflacionados dividindo diretamente os valores correntes pelo índice (50.000/9,217.100 542.500), porém desconheceríamos a taxa de valorização da moeda. Verifica-se então que o faturamento real a preços constantes de 2005, que nos conduz à mesma interpretação anterior, ou seja, o faturamento cresceu até o ano de 2002, a partir do qual passou a diminuir. c) A variação real do faturamento deve ser feita sobre o faturamento a preços constantes, podendo ter aqui usado tanto o encontrado no item a (2000 = 100) ou no item b (2005 = 100). Usando os resultados do item b, teremos: Anos Comparação Móvel Variação Móvel 2001 633.600/542.500 = 1,1679 ou 116,79% + 16,79% 2002 678.080/633.600 = 1,0702 ou 107,02% + 7,02% 2003 539.460/678.080 = 0,7956 ou 79,56% - 20,44% 2004 345.400/539.460 = 0,6403 ou 64,03% - 35,97% 2005 270.000/345.400 = 0,7817 ou 78,17% - 21,83% ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 63 d) Para calcularmos a taxa média real do faturamento usamos a média geométrica dos índices da comparação móvel. G 5 1,1679.1,0702.0,7956.0,6403.0,7817 G 5 0, 4977 0,8698 G = 0,8698 Logo 0,8698 – 1 = - 0,1302 diminuição de 13,02% ao ano. Podemos obter também dividindo o último valor pelo primeiros e extraindo a média geométrica do resultado, Assim: 270.000/542.500 = 0,4977 G 5 0, 4977 0,8698 Logo 0,8698 – 1 = -0,1302 diminuição de 13,02% ao ano. LISTA DE EXERCÍCIOS 1 Dada a tabela abaixo: Anos 2001 2002 P Q P Q 3 10 5 10 20 5 3,5 11 5,5 15 25 8 2003 2004 2005 P Q P 4,2 13 6 18 30 18 5,0 25 15 35 7,5 10 Q 2006 P Q P Q 5,1 15 8 23 40 30 5,5 28 17 45 9 20 Artigos A B C a) b) c) d) e) f) g) Determinar os relativos de preços para o artigo A, tomando 2001 = 100. Determinar os relativos de quantidades para o artigo B, tomando 2002 = 100. Determinar os relativos de valor para o artigo C, sendo 2001 a base. Usando base móvel, estudar as variações de preços para o artigo A. Constate a igualdade q 01,02.q02,03.q03,01 = 1 para o artigo B. Constate a igualdade p03,04.p04,03 = 1 para o artigo C Qual é o valor do índice agregativo simples de preços para 2006, sendo 2001 = base? h) Qual a porcentagem de acréscimo ocorrida em 2006, em relação a 2001, das quantidades? Utilize o índice agragativo simples de quantidades. i) Considerando 2003 como base, calcular a média aritmética dos relativos de preços para 2005. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO j) k) l) m) n) o) 64 Calcule o índice de preço de Laspeyres, sendo 2001 = 100 e 2006 a época atual. Calcule L’02,06. Avalie P03,06. Calcule P’04,06. Calcule o índice de preços de Fisher para 2006, considerando 2001 como base. Determine I’02,04 2- Sendo: JAN. 06 FEV. 06 MAR. 06 ABR. 06 Produtos P Q P Q P Q P Q X 100 10 120 20 135 20 135 25 Y 200 5 220 6 230 10 250 15 Z 60 3 65 3 65 2 65 2 a) Determinar o índice de preço Laspeyres para ABRIL, sendo JAN. 06 a base. b) Constatar que: P’Jan/06;Fev/06 L’Jan/06;Fev/06 c) Construir o índice de quantidades usando a fórmula de Fisher, sendo FEV.06 = 100, para ABRIL de 06 3- O preço de um artigo em 2002 era 32% maior que o de 2000, porém correspondia a 80% do preço de 2005. Determinar quanto o preço de 2000 era inferior ao de 2005. 4- Se o ICV (Índice de custo de vida) apresentar um acréscimo de 20%, qual será a perda do poder aquisitivo dos assalariados? 5- Uma empresa apresentou os seguintes dados relativos ao seu faturamento no período de 2000 a 2004. Ano Faturamento (Milhões R$) 2000 2001 50.000 60.000 2002 140.000 2003 200.000 2004 250.000 O índice Geral de Preços para o mesmo período indicou: Ano IGP(03 =100) 2000 407 2001 559 2002 848 2003 1.473 2004 2.811 Calcular: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO a) o faturamento real da empresa a preços de 2000; b) a taxa anual de variação do faturamento; c) a taxa média anual de variação do faturamento. 65 -7,76% REGRESSÃO LINEAR E CORRELAÇÃO 1- Introdução Um dos maiores problemas para o investigador de fenômenos humanos ou físicos é o estabelecimento de um modelo matemático que descreva e explique o fenômeno ocorrido na vida real, com boa aproximação. A busca de uma relação funcional entre as variáveis observadas que descrevem o fato é uma tarefa de muitos cientistas em qualquer área de estudos. Assim, o pediatra tem interesse em estabelecer uma relação funcional entre o peso e a altura dos bebês; o economista busca o estabelecimento de uma função que explique o comportamento das vendas, em unidades de um produto, em função do preço; o administrador precisa de uma função que descreva os custos de um produto, quando as quantidades variam; o engenheiro quer saber a relação funcional entre a resistência do concreto e a razão água/cimento; o médico tem interesse em relacionar através de uma função o volume do plasma sangüíneo e a superfície dos corpos dos pacientes; o psicólogo deseja a função que explique o QI (quociente de inteligência) etc. Seja Y uma variável que nos interessa estudar e cujo comportamento futuro desejamos prever. É fácil identificarmos uma série de variáveis Xi (x1, X2, X3, ...., Xn) que influenciam o comportamento de Y, a variável dependente do modelo. A Estatística oferece meios de chegarmos à relação função entre a variável dependente (Y) e as variáveis independentes ou explicativas (X1, X2, X3, ... , Xn) através da análise de regressão. Quanto maior o número de variáveis explicativas, mais completo será o modelo. Todavia, sua solução será também mais difícil e complexa. Em razão disso, limitaremos nossa exposições ao caso em que apenas duas variáveis intervêm no modelo; a variável dependente Y e a variável independente X. Apresentaremos a penas o estudo da função linear (ajustamento de uma reta), isto é, estudaremos o modelo: Y = b + aX Onde a e b são os parâmetros da função. Uma maneira bastante prática para auxílio na determinação da função entre as variáveis dependente e independente é a construção do gráfico denominado diagrama de dispersão. Para desenharmos o diagrama de dispersão devemos coletar uma amostra de valores X e Y: (x1, y1), (x2, y2), (x3, y3), ..., (xn, yn), marcando esses pontos num sistema de coordenadas cartesianas. Assim: ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 66 y yn y2 y3 y1 x1 x2 x3 ... xn x Diagrama de dispersão. Pela análise de nuvem de pontos assinalados, teremos melhores condições de especificar a função que relaciona as variáveis. No caso do ajustamento de uma linha reta, o diagrama de dispersão apresentará uma nuvem de pontos que nos irá sugerir uma relação linear entre X e Y. É também provável que a nuvem de pontos nos indique outros tipos de funções ( exponencial, parábola etc.). Tais ajustamentos fogem aos objetivos desse curso. 2- Ajustamento da reta Estabelecido o modelo Y = b + aX, precisamos dos valores de a e b de forma que nossa reta passe tão próximo quanto possível dos pontos assinalado no diagrama de dispersão. Isto é, queremos minimizar a discrepância total entre os pontos marcados e a reta que iremos determinar. O melhor método para a determinação dos parâmetros a e b que minimize as discrepâncias é o método dos Mínimos Quadrados. Segundo esse método, poderemos avaliar as parâmetros a e b pela aplicação da seguintes fórmulas: n a x . y n. X .Y i i 1 i n x 2 i i 1 n. X 2 b = y ax onde n = tamanho da amostra n X x i i 1 n n Y y i 1 i n ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 67 3- Exemplo de aplicação Suponhamos que num determinado período tenham sido registradas as seguintes observações relativas a preços e respectivas quantidades demandadas de certo bem, no mercado. P D 1 8 2 5 3 4 4 1 a) Esboce os pontos num sistema cartesiano e trace uma linha que melhor ajuste este pontos. b) Faça a regressão linear para determinar a reta y = Ax + B, onde n xi.yi - n. X. Y i=1 a= b = Y - AX n ( xi)² - n.(X)² i=1 Solução a) D 8 5 4 1 0 1 2 3 4 P ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 68 b) x=P 1 2 3 4 10 y=D 8 5 4 1 18 a = 34 – 4.2,5.4,5 30 – 4.2,5² x² = P² 1 4 9 16 30 x.y = P.D 8 10 12 4 34 b = 4,5 – (-11).2,5 = 10 5 = -11 5 Portanto: D = -(11/5).P + 10, é a reta que melhor ajusta a distribuição (P, D) dada. Exercícios 1- Determinar a equação de uma reta que melhor ajuste cada uma das demandas dadas pelas tabelas abaixo: a) Pi 2 3 4 5 6 b) Pi 6 8 9 10 11 Di 12 8 7 6 3 Di 18 13 12 6 3 D = -2P + 15,2 D = -3P + 36,8 2- Aproximar, pela reta de regressão linear, a distribuição de pontos a tabela abaixo que representa as quantidades oferecidas e os preços de um bem num determinado período. P 6 7 8 9 10 S 1 2 4 8 15 S = 3,4P – 21,2 Outro exemplo Sendo: Ano 2000 Produção de ferro (t) 17,5 ( em toneladas) a) Ajustar uma reta aos dados. b) Estimar a produção para 2005. Solução: 2001 2002 2003 2004 19 23,3 28,7 35 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 69 Observamos que a variável dependente é a produção de ferro (y) e que a variável independente é o tempo (t). O uso dos valores 2000, 2001, ... não é conveniente, pois acarretaria um número de cálculos muito grande. Assim, para séries temporais ou cronológicas (a variável observada no tempo), é comum a mudança da variável t para x. Assim, no exemplo, xi = ti – 2002 é uma interessante transformação. A mudança para o caso de n (número de observações) ímpar é dada por xi = ti – to, onde to é o elemento central da série. No exemplo to = 2002. Para n par, to será a média entre os elementos centrais de ordem n/2 e n/2 + 1. Isto é se n = 4, então n/2 = 2º elemento e n/2 + 1 = 3º elemento, logo to = ( 2º elemento + 3º elemento) / 2. Para obtermos os valores de xi inteiros, convém neste caso multiplicarmos (ti – to) por 2 e prosseguir naturalmente. Voltando ao exemplo, teremos: xi = (ti – 2002) -2 -1 0 1 2 0 ti 2000 2001 2002 2003 2004 Y 17,5 19,0 23,3 28,7 35,0 123,5 X.Y -35 -19 0 28,7 70 44,7 X² 4 1 0 1 4 10 a) Ajuste da reta n a x . y n. X .Y i i 1 i n x i 1 2 i n. X = (44,7 – 5.0.24,7)/(10 – 5.0²) = 4,47 2 b = y ax = 24,7 – 4,47.0 = 24,7 Logo y = 24,7 + 4,47x é a reta pedida. b) Para determinação da produção para 2005 teremos: quando ti = 2005, xi = (2005 – 2002) = 3, logo, y = 24,7 + 4,47.(3) = 24,7 + 13,41 = 38,11 toneladas é a quantidade prevista para 2005. EXERCÍCIOS 1- Os lucros de uma companhia no período de 2002 a 2006 são dados abaixo: Ano 2002 2003 2004 2005 2006 Lucro(milhões) 2,3 3,5 5,8 6,5 7,0 ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 70 a) Mudar a variável e determinar a equação da reta que melhor ajusta a tabela. b) Estimar os lucros para 2007. 2- As importações de determinada matéria-prima no período de 2001 a 2006 encontram-se na tabela abaixo: Ano 2001 2002 2003 2004 2005 2006 50 47 35 30 24 10 Quantidade (t) em ton. a) Mudar a variável t para x. b) Determinar a reta que melhor ajuste os pontos c) Fazer uma estimativa da importação para 2007. 4- CORRELAÇÃO LINEAR No tópico anterior aprendemos a determinação de uma função linear que relacionava as variáveis derivadas de uma experimentação da vida real. Aqui, nosso interesse é medir o grau de relação existente entre duas variáveis aleatórias. Assim, por exemplo, poderíamos querer o grau de relacionamento entre o peso e a altura de um grupo de pessoas; entre o cigarro e a doença do coração; entre sensibilidade para a música e vocação para a ciência; entre inteligência e beleza etc. Para avaliar o grau de correlação linear entre duas variáveis, ou seja, medir o grau de ajustamento dos valores em torno de uma reta, usaremos o coeficiente de correlação de Pearson, que é dado por: n r n n n. xi . yi ( xi ).( yi ) i 1 i 1 i 1 n n n n i 1 i 1 i 1 i 1 [n. xi2 ( xi )²].[n. yi2 ( yi )²] onde n é o número de observações. Pode-se demonstrar que o valor do coeficiente de correlação r sempre deverá estar entre –1 e +1. Geralmente multiplicamos o valor encontrado r por 100, dando a resposta em porcentagem. Observem abaixo a configuração do diagrama de dispersão para diversos valores de r. r = 1 (correlação linear perfeita – positiva) r = -1 (correlação linear perfeita – negativa). r > 0 (forte correlação positiva) – pontos próximos da reta no sentido positivo. r < 0 (forte correlação negativa) – pontos próximos da reta no sentido negativo ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 71 r > 0 (fraca correlação positiva) – pontos mais afastados da reta no sentido positivo. r < 0 (fraca correlação negativa) – pontos mais afastados da reta no sentido negativo r = 0 (ausência de correlação linear) Exemplo de aplicação: Dez alunos foram submetidos a um teste de Estatística e de Matemática, obtendo as seguintes notas: Aluno Matemática (x) Estatística (y) A 7 B 6 C 9 D 10 E 3 F 4 G 8 H 7 I 6 J 2 6 5 10 9 2 3 9 5 6 3 Determinar o coeficiente de correlação entre as notas. Solução É conveniente a construção da tabela: X 7 6 9 10 3 4 8 7 6 2 62 Y 6 5 10 9 2 3 9 5 6 3 58 X.Y 42 30 90 90 6 12 72 35 36 6 419 n r X² 49 36 81 100 9 16 64 49 36 4 444 n Y² 36 25 100 81 4 9 81 25 36 9 406 n n. xi . yi ( xi ).( yi ) i 1 i 1 i 1 n n n n i 1 i 1 i 1 i 1 [n. xi2 ( xi )²].[n. yi2 ( yi )²] r 10.419 62.58 = 0,9.... [10.444 62²].[10.406 58²] r = 94%. Este resultado indica uma forte correlação entre as notas de Matemática e Estatística para esse grupo de 10 alunos. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO EXERCÍCIOS 1- Sendo X Y 0 1 2 3 4 5 10 20 30 40 50 60 Calcular o coeficiente de correlação. 2- Calcular o coeficiente de correlação para: X Y 10 6 20 8 30 7 40 8 50 6 3- A tabela abaixo apresenta uma amostra com os pesos de 10 pais e de seus filhos mais velhos. Peso dos pais (X) 60 65 70 68 63 69 71 64 66 64 Peso dos 63 64 71 69 63 68 73 63 64 62 filhos(Y) Calcular o coeficiente da correlação entre os pesos dos pais e dos filhos, utilizando as seguintes transformações da variáveis. Z = (X – 66) e W = (Y – 67). A mudança de variável é conveniente pois abrevia o número de cálculos. ESTATÍSTICA II - Mário 72 MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO CONTEÚDO PROGRAMÁTICO: 1- DISTRIBUIÇÃO DE PROBABILIDADE 1.1 Variáveis Aleatórias 1.2 Variáveis Aleatórias Discretas 1.3 Variáveis Aleatórias Contínuas 1.4 Distribuições Discreta de Probabilidades 1.5 Valor Esperado 1.6 Variância 2.DISTRIBUIÇÃO CONTÍNUA DE PROBABILIDADE 2.1 Distribuição Uniforme de Probabilidade 2.2 Área como uma medida de Probabilidade 2.3 Distribuição Normal de Probabilidade 2.4 Curva Normal 2.5 Distribuição Normal-Padrão de Probabilidade 2.6 Calculando Probabilidade de qualquer Distribuição Normal de Probabilidade 2.7 Aproximação da Normal das Probabilidades Binomiais. 3 -DISTRIBUIÇÕES AMOSTRAIS 3.1 Amostragem Aleatória Simples 3.2 Amostragem de População Finita 3.3 Amostragem de População Infinita 3.4 Estimativa por Ponto 3.5 Introdução às Distribuições Amostrais 3.6 Distribuição Amostral da Média 3.7 Valor Esperado da Média 3.8 Desvio-Padrão da Média 3.9 Teorema do Limite Central. 4- INTERVALOS DE CONFIANÇA 4.1 Estimativa de Intervalo de confiança das médias amostrais 4.2 Estimativa de Intervalo de Confiança de uma proporção populacional 4.3 Cálculo do tamanho amostral para estimativa das médias amostrais 4.4 Cálculo do tamanho amostral para estimativa de proporções. 5- TESTE DE HIPÓTESES 5.1 Desenvolver as Hipóteses Nula e Alternativa 5.2 Teste das Hipóteses de Pesquisa ESTATÍSTICA II - Mário 73 MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 74 5.3 Erros do Tipo I e do tipo II 5.4 Testes Unicaudais e Bicaudais da Média e da Proporção de uma População 5.5 Etapas do Teste de Hipótese. 6- REGRESSÃO LINEAR E CORRELAÇÃO 6.1 Ajustamento de uma reta que relaciona duas variáveis 6.2 Avaliar o grau de correlação linear entre duas variáveis 6.3 Medir o grau de ajustamento dos valores em torno de uma reta. 7- NÚMEROS ÍNDICES 7.1 Cálculo dos relativos: preço, quantidade e valor 7.2 Base fixa e base móvel 7.3 Números-índice simétricos 7.4 Principais índices 7.4.1 Índice agregativo simples 7.4.2 Índices médio dos relativos 7.4.3 Índices ponderados 7.4.3.1 Índice de Laspeyres 7.4.3.2 Índice de Paache 7.4.3.3 Índice de Fisher (fórmula ideal) 7.5 Mudança de base 7.6 Deflacionamento ou inflacionamento de dados. REFERÊNCIAS BIBLIOGRÁFICAS: BÁSICA: SPIEGEL, Murraay R. Estatística. 3ª ed. Pearson, São Paulo, 2006. STEVENSON, William J. Estatística aplicada a administração. 1ª ed. Harbra, São Paulo, 2001. ANDERSON, David R. Estatística aplicada à administração e economia. 2ª ed. Thomson, São Paulo, 2005. VIEIRA, Sonia Vieira. Elementos de estatística. 4ª ed., São Paulo: Atlas, 2003. COMPLEMENTAR: KAZMIER, Leonard J. Estatística aplicada à administração e economia. Rio de Janeiro, McGraw Hill, 1982. NAZARETH, F. E. M. de. Curso básico de estatística. São Paulo: Ática, 1987. ESTATÍSTICA II - Mário MATERIAL DE ESTATÍSTICA II – PROF. MÁRIO ROBERTO 75 ESTATÍSTICA II Estudo de caso. 1- OBJETIVO: Aplicar e interpretar os conceitos básicos de estatística indutiva (inferencial) em situações práticas do cotidiano. 2-PROCEDIMENTOS 2.1- Elege-se uma população alvo para o estudo. 2.2- Elaborar um resumo sobre a parte teórica de variável aleatória contínua normal (padronizada), intervalos de confiança e teste de hipótese. 2.3- Destacar uma amostra da população com seus parâmetros (média e desvio padrão), em seguida fazer a estatística populacional referente os parâmetros (média de o desvio padrão) com o IC de 95%, 99%. 2.4 Destaque uma amostra da população e elabore o teste de hipótese quanto aos parâmetros: média e desvio- padrão. Por ex. Se há desconfiança em relação ao peso dos pacotes de arroz de uma determinada marca, pegue uma amostra e faz o teste de hipótese. OBS. Nem sempre uma determinada variável é viável fazer uma estatística por IC e ao mesmo tempo um teste de hipótese. Pense nisso.... 2.5- Interpretar os resultados da estatística sobre a população. ESTATÍSTICA II - Mário