Aula 1. Introdução à Inferência Estatística Capítulo 10, Bussab&Morettin โEstatística Básicaโ 7ª Edição População é o conjunto de todos os elementos ou resultados sob investigação Estatística Amostra é qualquer subconjunto da população Técnicas de amostragem Amostra / dados ๐ฅ1 , ๐ฅ2, โฆ , ๐ฅ๐ População Características Análise descritiva Conclusões sobre as características da população Inferência estatística Informações contidas nos dados População โ Amostra Exemplo 10.1: Consideramos uma pesquisa para estudar os salários dos 500 funcionários da Companhia M&B. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários. População = 500 salários correspondentes aos 500 funcionários Amostra = 36 salários de funcionários selecionados Esperamos que amostra reflita as caraterísticas principais da distribuição populacional de salários da empresa = Amostra representativa População โ Amostra Exemplo 10.3: Consideramos uma pesquisa para estudar a duração de vida útil de um novo tipo de lâmpadas, pois acredita-se que a duração desse novo tipo é maior. Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem. População = a vida útil de todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa; = a distribuição de vida útil de lâmpada fabricada por empresa Amostra = tempos de vida observada de 100 lâmpadas selecionados Esperamos que amostra reflita as caraterísticas principais da distribuição populacional de vida útil de lâmpadas produzidas pela empresa = Amostra representativa Técnicas de amostragem População Características A.A.S. Amostra / dados ๐ฅ1 , ๐ฅ2, โฆ , ๐ฅ๐ Amostragem Aleatória Simples Aleatoriamente sorteia-se um elemento da população, sendo que todos os elementos têm a mesma chance de ser escolhidos. Repete-se o procedimento até que sejam sorteadas as n unidades da amostra. AAS com/sem reposição. AAS com reposição implica a propriedade de independência entre unidades selecionadas. Isso facilita o tratamento matemático de propriedades de estimadores que vamos construir em cima de amostra. Amostra / dados ๐ฅ1 , ๐ฅ2, โฆ , ๐ฅ๐ Amostra aleatória simples ๐1, ๐2, โฆ , ๐๐ Amostra Aleatória Simples de tamanho ๐ de uma variável aleatória ๐, com dada distribuição, é o conjunto de ๐ variáveis aleatórias independentes ๐1, ๐2, โฆ , ๐๐ cada uma com a mesma distribuição de ๐. Amostra / dados ๐ฅ1 , ๐ฅ2, โฆ , ๐ฅ๐ População Características é v.a. ๐ Amostra aleatória simples ๐1, ๐2, โฆ , ๐๐ Amostra Aleatória Simples de tamanho ๐ de uma variável aleatória ๐, com dada distribuição, é o conjunto de ๐ variáveis aleatórias independentes ๐1, ๐2, โฆ , ๐๐ cada uma com a mesma distribuição de ๐. Amostra / dados ๐ฅ1 , ๐ฅ2, โฆ , ๐ฅ๐ População Características é v.a. ๐ Amostra aleatória simples ๐1, ๐2, โฆ , ๐๐ Amostra Aleatória Simples de tamanho ๐ de uma variável aleatória ๐, com dada distribuição, é o conjunto de ๐ variáveis aleatórias independentes ๐1 , ๐2 , โฆ , ๐๐ cada uma com a mesma distribuição de ๐. Em caso de população ๐ contínua, com função de densidade ๐(๐ฅ), a densidade conjunta da amostra (๐1 , ๐2 , โฆ , ๐๐ ) será dada por ๐(๐ฅ1 , ๐ฅ2 , โฆ , ๐ฅ๐ ) tal que ๐ ๐ฅ1 , ๐ฅ2 , โฆ , ๐ฅ๐ = ๐ ๐ฅ1 ๐(๐ฅ2 ) โฆ ๐(๐ฅ๐ ) Estatística Qualquer função de amostra (๐1, ๐2, โฆ , ๐๐ ) chamaremos estatística 1 ๐= ๐ ๐ ๐๐ ๐=1 ๐(1) = min ๐1 , ๐2, โฆ , ๐๐ 1 ๐2 = ๐โ1 ๐ ๐๐ โ ๐ ๐=1 ๐ = ๐(๐) โ ๐(1) ๐(๐) = max ๐1 , ๐2, โฆ , ๐๐ ๐(๐) โ ๐-gêsima maior observação da amostra 2 Amostra โamostra amostra (๐1, ๐2, โฆ , ๐๐ ) é vetor aleatório amostra (๐ฅ1 , ๐ฅ2 , โฆ , ๐ฅ๐ ) é vetor de números observados 1 1 ๐ estatística ๐ = ๐ ๐ ๐=1 ๐ é variável aleatória 1 estatística ๐ 2 = ๐โ1 é variável aleatória ๐ ๐=1 ๐ estatística ๐ฅ = ๐ฅ ๐ ๐=1 ๐ é valor observado de ๐ ๐๐ โ ๐ 2 1 estatística ๐ 2 = ๐โ1 ๐๐=1 ๐ฅ๐ โ ๐ฅ é valor observado de ๐ 2 2 distribuição populacional ๐~๐(๐ฅ) distribuição populacional ๐~๐(๐, ๐ 2 ) distribuição amostral da estatística ๐๐ = ๐๐ ๐1, ๐2, โฆ , ๐๐ ๐๐ ~๐(๐ฆ) distribuição amostral da estatística 1 ๐= ๐ ๐ ๐๐ ๐=1 ๐2 ๐ ~๐ ๐, ๐ Distribuição amostral da média Teorema. Seja ๐ uma variável aleatória com média ๐ e variância ๐ 2, e seja ๐1 , ๐2, โฆ , ๐๐ uma amostra aleatória simples (AAS) de variável ๐. Então ๐2 ๐ธ ๐ = ๐, ๐๐๐ ๐ = ๐ 1 ๐ธ ๐ =๐ธ ๐ 1 ๐๐๐ ๐ = ๐๐๐ ๐ ๐ ๐๐ ๐=1 ๐ ๐๐ ๐=1 1 = ๐ 1 = ๐ ๐ ๐=1 ๐ ๐=1 1 ๐ธ ๐๐ = ๐ ๐ ๐=1 1 ๐๐๐ ๐๐ = ๐ 1 ๐ = ๐๐ = ๐ ๐ ๐ 1 2 ๐ = ๐๐ = ๐ 2 ๐ 2 ๐=1 Distribuição amostral da média ๐โ๐ ๐(๐ โ ๐) aprox ๐= = โ ๐ 0,1 ๐ ๐/ ๐ Distribuição amostral da média Teorema. Seja ๐ uma variável aleatória normal com média ๐ e variância ๐ 2, ๐~๐(๐, ๐ 2) , e seja ๐1, ๐2, โฆ , ๐๐ uma amostra aleatória simples (AAS) de variável ๐. Então ๐2 ๐ ~๐ ๐, ๐ ๐โ๐ ๐(๐ โ ๐) ๐= = ~๐ 0,1 ๐ ๐/ ๐ distribuição populacional ๐~๐(2,1) distribuição amostral da estatística ๐ = 5 1 ๐ ~๐ 2, 5 Exemplo 10.11 Uma máquina está regulada para encher pacotes de café automaticamente segundo a distribuição normal com média de 500 gramas e desvio padrão de 10 gramas. Colhendo-se uma amostra de ๐ = 100 pacotes e pesando-os. Qual é a probabilidade de encontramos a média ๐ฅ defirindo de 500 g. de menos de 2 gramas. ๐ ๐ โ 500 < 2 = ๐ 498 < ๐ < 502 = = ๐ โ2 < ๐ < 2 โ 0.95 Distribuição amostral de proporção distribuição populacional ๐~๐ต (๐) ๐ธ ๐ =๐ ๐๐๐ ๐ = ๐(1 โ ๐) Distribuição amostral de proporção distribuição amostra ๐1, ๐2, โฆ , ๐๐ ๐๐ ~๐ต (๐) ๐ธ ๐๐ = ๐ ๐๐๐ ๐๐ = ๐(1 โ ๐) ๐โ๐ ๐(๐ โ ๐) ๐= = โ ๐ 0,1 ๐ ๐/ ๐ ๐= ๐(๐ โ ๐) ๐(1 โ ๐) โ ๐ 0,1 Exemplo 10.12 Suponha que 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de ๐ = 10 estudantes e calculamos ๐ proporção de mulheres na amostra. Qual probabilidade de que ๐ difira de ๐ em menos de 0,01? ๐(1 โ ๐) ๐ธ ๐ = ๐, ๐๐๐ ๐ = ๐ ๐ 1โ๐ ๐ โ ๐ ๐, = ๐(0.3, 0.021) ๐ ๐ ๐ โ ๐ < 0.01 = ๐ โ0.01 < ๐ โ ๐ < 0.01 โ 0.01 0.01 โ๐ โ <๐< = ๐ โ0.07 < ๐ < 0.07 = 0.056 0.021 0.021 Dimensionamento da amostra p(1๏ญ p ) ฮต๏ฝz , n segue que o tamanho amostral n, dados ๏ง e a margem de erro ๏ฅ, tem a forma Da relação 2 ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท p(1๏ญ p ), ๏จฮต๏ธ onde z é tal que ๏ง = P(-z ๏ฃ Z ๏ฃ z) e Z ~ N(0,1). Entretanto, nesta expressão, n depende de p(1-p), que é desconhecido. ๏ฎ Como calcular o valor de n? Gráfico da função p(1-p), para 0 ๏ฃ p ๏ฃ 1. Pela figura observamos que: โข a função p(1-p) é uma parábola simétrica em torno de p = 0,5; โข o máximo de p(1-p) é 0,25, alcançado quando p = 0,5. Assim, na prática, substituímos p(1-p) por seu valor máximo, 2 obtendo ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท 0,25 , ๏จฮต๏ธ que pode fornecer um valor de n maior do que o necessário. Pergunta: É possível reduzir o tamanho da amostra quando temos alguma informação a respeito de p? Por exemplo, sabemos que: โข p não é superior a 0,30, ou โข p é pelo menos 0,80, ou โข p está entre 0,30 e 0,60. Resposta: Depende do tipo de informação sobre p. Em alguns casos, podemos substituir a informação p(1-p), que aparece na expressão de n, por um valor menor que 0,25. Redução do tamanho da amostra Vimos que, se nada sabemos sobre o valor de p, no cálculo de n, substituímos p(1-p) por seu valor máximo, e calculamos 2 ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท ๏ด 0,25 . ๏จฮต๏ธ Se temos a informação de que p é no máximo 0,30 (p ๏ฃ 0,30), então o valor máximo de p(1-p) será dado por 0,3x0,7 = 0,21. Logo, reduzimos o valor de n para 2 ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท ๏ด 0,21 . ๏จฮต๏ธ Agora, se p é pelo menos 0,80 (p ๏ณ 0,80), então o máximo valor de p(1-p) é 0,8x0,2 = 0,16, e temos 2 ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท ๏ด 0,16 . ๏จฮต๏ธ Mas, se 0,30 ๏ฃ p ๏ฃ 0,60, o máximo valor de p(1-p) é 0,5x0,5=0,25 e, neste caso, não há redução, ou seja, 2 ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท ๏ด 0,25. ๏จฮต๏ธ Exemplo 3: No Exemplo 2, suponha que temos a informação de que no máximo 30% dos alunos da USP foram ao teatro no último mês. Portanto, temos que p ๏ฃ 0,30 e, como vimos, o máximo de p(1-p) neste caso é 0,21. Assim, precisamos amostrar 2 2 ๏ฆ 1,96 ๏ถ ๏ฆz๏ถ n ๏ฝ ๏ง ๏ท 0,21 ๏ฝ ๏ง ๏ท 0,21 ๏ฝ 2017 estudantes , ๏จฮต๏ธ ๏จ 0,02 ๏ธ conseguindo uma redução de 2401- 2017 = 384 estudantes. Intervalo de confiança para p Vimos que a estimativa intervalar para p tem a forma: ๏ pห ๏ญ ฮต ; pห ๏ซ ฮต ๏ , p( 1 ๏ญ p ) e z tal que ๏ง = P(-z ๏ฃ Z ๏ฃ z) na N(0,1). com ฮต ๏ฝ z n Na prática, substituímos a proporção desconhecida p pela proporção amostral pฬ, obtendo o seguinte intervalo de confiança com coeficiente de confiança ๏ง : ๏ฉ pห( 1 ๏ญ pห ) pห( 1 ๏ญ pห ) ๏น IC( p ; ฮณ ) ๏ฝ ๏ช pห ๏ญ z ; pห ๏ซ z ๏บ n n ๏ป ๏ซ