Lei dos grandes números – Extraia observações aleatórias e independentes de uma população de média À medida que o número de observações aumenta, a média amostral aproxima-se cada vez mais da média da população . Características de uma população podem ser descritas pelos parâmetros. Os parâmetros são quantidades desconhecidas, a serem estimadas via amostra. As distribuições amostrais podem ser vistas como: Distribuição de probabilidades de uma estatística amostral Indicam como variam as estatísticas devido a variações no processo de amostragem. Obtida a partir da média aritmética de uma série de amostras de tamanho n, extraída de uma população que tem média e desvio padrão s. A média da distribuição amostral de médias é igual à média populacional O desvio-padrãosda distribuição amostral de médias é dada por: n A distribuição amostral de médias é aproximadamente normal, para n grande. A estatística correspondente à equação abaixo é aproximadamente N(0,1). Z (x ) n s Obtida a partir da proporção de elementos em uma amostra que possuem certa característica de interesse. A média da distribuição amostral da proporção é igual à proporção populacional. O desvio-padrão da distribuição amostral da proporção é dado por: p(1 p) n A distribuição amostral da proporção é aproximadamente normal, para sp n grande. A estatística correspondente à equação abaixo é aproximadamente N(0,1). z pa P P(1 P) n Inferência: campo da estatística no qual são tomadas decisões sobre populações, com base na informação extraída de uma amostra. Estimativas sobre os parâmetros populacionais Estimativas pontuais Estimativas por intervalos Formulação de testes de hipóteses sobre os mesmos Objetivo do IC: estimar um parâmetro desconhecido com uma indicação da precisão da estimativa. Formato: estimativa +/- margem de erro Nível de confiança: probabilidade de que o método forneça uma resposta correta. A média amostral varia de amostra para amostra Para levar em consideração esta fato devemos construir um intervalo de confiança para a verdadeira média populacional, com base na média amostral. Tal intervalo tem uma probabilidade (nível de confiança) de estar estimando corretamente (conter) o parâmetro. O intervalo para a média, com desvio-padrão conhecido, pode ser representado pela expressão: s x Z 2 n x média amostral Z valor obtido na tabela normal 2 nível de significancia adotado s n erro padrão da distribuição amostral da média O intervalo para uma proporção pode ser representado pela expressão: pa z 2 pa (1 pa ) n pa proporção amostral Z valor obtido na tabela normal 2 nível de significancia adotado Constituem uma outra face do trabalho de inferência estatística e também fazendo uso da informação amostral. Uma hipótese estatística: afirmação sobre parâmetros populacionais. Teste de hipóteses: processo de decisão relativo a uma hipótese particular. A informação de uma amostra é utilizada para avaliar a plausibilidade da hipótese formulada Se tal informação for consistente com a hipótese tenderemos a concluir que não há evidências que favoreçam sua rejeição. O fato de utilizar apenas uma amostra não nos permite concluir com certeza sobre a veracidade ou não de uma hipótese formulada. Uma empresa produtora de detergente deseja avaliar se a máquina que enche as garrafas plásticas está adequadamente regulada, para o valor especificado de 5 litros, por garrafa. O desvio padrão do processo é da ordem de 0,5 litros. Caso a máquina esteja devidamente regulada, espera-se que o valor médio de uma amostra de garrafas concorde com um valor médio de 5 litros. Hipóteses envolvidas: H0: hipótese nula H1: hipótese alternativa A hipótese nula (H0) é a que é sempre testada. A hipótese alternativa: oposto de H0. H0 se refere a um valor especificado para um parâmetro da população. H0 geralmente contém um sinal de igualdade. H1 nunca contém sinal de igualdade, pode ser representada por: , < ou >. Formula-se então a chamada hipótese nula (H0) como sendo: H0: = 5, indicando que a máquina está regulada. No caso, suponha que a hipótese alternativa seja definida como: H1: 5. Caso a hipótese nula seja verdadeira espera-se que a amostra forneça um valor médio próximo do especificado pela mesma. Porém, devido às variações decorrentes do processo amostral, mesmo que a hipótese nula seja verdadeira, é possível que valores diferentes da mesma sejam obtidos. A metodologia dos testes de hipóteses nos vai fornecer elementos claros para melhor avaliar essas diferenças e tomar uma decisão, com base em critérios probabilísticos. Erros envolvidos: SITUAÇÃO REAL CONCLUSÃO DO TESTE Não Rejeitar H0 Rejeitar H0 H0 VERDADE H0 FALSA Certo Erro tipo II ( ) Erro tipo I ( ) Certo Um teste de hipóteses nos auxilia a responder a questão: A diferença entre o valor amostral e o parâmetro é devida apenas ao acaso? (variação amostral) Resultado amostral Significativo Não significativo Rejeição de H0 Não se rejeita H0 Variação não casual Variação casual Formulação das hipóteses nula e alternativa Escolha do nível de significância Escolha do tamanho da amostra Determinação da técnica apropriada e estatística do teste Determinação dos valores críticos (região de rejeição/regra de decisão) Coleta de dados e cálculo da estatística do teste. Decisão Expressar a decisão no contexto do problema. Formulação das hipóteses nula e alternativa H0: = 5 H1: 5 Escolha do nível de significância Escolha do tamanho da amostra =0,05 (5%) Vamos tomar uma amostra de n=25 caixas. Determinação da técnica apropriada e estatística do teste (x ) n Z s Determinação dos valores críticos (região de rejeição/regra de decisão) Se z>1,96 ou z<-1,96, rejeitamos H0. Coleta de dados e cálculo da estatística do teste. Z cal s 0,05 2,5 Decisão Supondo que a média amostral foi de 4,75 l, tem-se que: ( x 0 ) n (4,75 5) 25 Como o valor de Z=-2,5<-1,96, não existem evidências que favoreçam a hipótese nula. (rejeitamos H0) Expressar a decisão no contexto do problema. Concluímos que a máquina está mal regulada e, portanto, requer uma intervenção no processo para sanar o problema. Supondo H0 verdade, o valor-p ou nível de significância do teste, representa a probabilidade de se obter, para uma amostra n observações, um valor amostral tão ou mais discrepante que a média observada. Se tal probabilidade for muito pequena, a média amostral observada não é compatível com a hipótese H0 e a hipótese formulada tende a ser rejeitada. No exemplo em questão, o teste é bi-lateral, logo a probabilidade de que seja tão extrema é dada por: P(Z 2,5) ou P(Z 2.5) 0,0062 0,0062 0,0124 1,24%) Como tal valor-p é menor que o especificado (5%), concluímos pela não aceitação de H0, como anteriormente. Testes para a média com desvio-padrão desconhecido Testes para proporções Testes para diferenças de médias (amostras independentes) Variâncias conhecidas Variâncias desconhecidas e iguais Variâncias desconhecidas e diferentes Testes para diferenças de médias (amostras pareadas ou relacionadas) Testes para diferenças de proporções Testes tipo qui-quadrado Testes não-paramétricos Análise de variância (comparações múltiplas)