Aula 4 – Estatística- Conceitos básicos Material Elaborado por Betânia Peixoto Modificado por Guilherme Irffi e Francis Petterini Estatística – Conceitos Básicos Aprender conceitos básicos de estatística a serem utilizados na avaliação de impacto. Plano de Aula Amostra x população Definição de um experimento aleatório e de uma variável aleatória Distribuição de probabilidade Medida de tendência central: média, moda, mediana Medida de dispersão/variabilidade: variância e desvio-padrão A distribuição normal e suas propriedades Intervalo de confiança Teste de Hipótese: Formulação de Hipóteses, Tipos de Erros, Nível de Significância, Regra Prática “2 – t” Teste de diferença de médias Amostra x População O grupo completo de observações de pessoas, objetos ou coisas é denominado população. Um subconjunto de observações selecionados numa população é denominado amostra. Na maior parte das análises, trabalha-se com amostras. Por essa razão é preciso garantir que a amostra seja representativa, ou seja, que a amostra descreva de maneira adequada a população que desejamos estudar. Experimento Aleatório e Variável Aleatória Um experimento é denominado experimento aleatório se não for possível antecipar o seu resultado, apesar de conhecermos os resultados possíveis. Por exemplo: lançar um dado é um experimento aleatório. Variável Aleatória = resultado numérico do experimento. No caso do dado, a variável aleatória é a face que resultará de seu lançamento. Há seis possíveis resultados, cada um com uma probabilidade de ocorrência de 1/6 . Outro exemplo de experimento aleatório e variável aleatória ‘Encontrar um emprego dentro de um determinado período de tempo’ é um experimento aleatório, pois só saberemos se um indivíduo conseguirá encontrar um emprego em tal período de tempo após sua observação. E seu ‘resultado’ é uma variável aleatória. Neste caso, há dois possíveis resultados: encontrar ou não encontrar o emprego. A probabilidade de ocorrência de cada resultado vai depender das características do indivíduo e da economia. Distribuição de Probabilidade Quando listamos os valores possíveis de uma variável aleatória com suas possibilidades de ocorrência, o resultado é uma função de probabilidade. Probabilidade de ocorrência Ex: vr. aleatória = face resultante do lançamento do dado 1/6 0 1 2 3 4 5 6 evento Outro experimento = jogar dois dados e ter como resultado a soma dos valores observados em cada um deles: Dad oA Dad oB "1"+ dado B "2"+ dado B "3"+ dado B "4"+ dado B "5"+ dado B "6"+ dado B 1 1 2 3 4 5 6 7 2 2 3 4 5 6 7 8 3 3 4 5 6 7 8 9 4 4 5 6 7 8 9 10 5 5 6 7 8 9 10 11 6 6 7 8 9 10 11 12 36 possíveis combinações e 11 possíveis resultados: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 e 12 Evento 2 3 4 5 6 7 8 9 10 11 12 n° de ocorrências 1 2 3 4 5 6 5 4 3 2 1 prob. de ocorrência =1/36 =2/36 =3/36 =4/36 =5/36 =6/36 =5/36 =4/36 =3/36 =2/36 =1/36 Distribuição de probabilidade prob. de ocorrência 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Média Média = o ‘valor esperado’ de uma variável aleatória. É um dos parâmetros que descreve nossa amostra. Exemplo: Imagine que temos as notas obtidas pelos alunos de uma sala de aula. A média das notas da sala pode nos dar uma idéia do desempenho da sala. Média - cálculo Média = soma de todos os valores observados da variável aleatória dividido pelo número de observações: n x x i 1 n i Onde: • xi = é a nota do i-ésimo aluno. • n é o número de alunos na sala. Exemplo: Ex: imagine que todos os alunos do colégio tenham feito uma avaliação e que nós estejamos interessados em saber qual foi o desempenho médio do colégio. Para isso podemos selecionar uma amostra de alunos e calcular a média. 8 8 4 5 1 Notas obtidas 2 9 5 5 10 10 5 2 4 7 7 6 6 4 4 (8 8 4 ... 6 4 4) x ? 20 Mediana valor que ocupa a posição central dos dados ordenados; é o valor que deixa metade dos dados abaixo e metade acima dele. Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais. Ex.: mediana de 3, 4, 7, 8 e 8? Md=7 Moda é o valor mais frequente no conjunto de dados Ex.: moda de 3, 4, 7, 8 e 8? Moda = 8 Variância / Desvio-padrão Para toda variável há diferença entre o valor esperado (isto é, a média) e o valor observado. A variância mede a dispersão dos valores observados da variável aleatória em torno de seu valor esperado. Desvio-padrão é a raiz quadrada da variância. Esta será uma medida bastante importante nos nossos cálculos mais à frente. Variância / desvio-padrão - cálculo x x 2 n s 2 i 1 i (n 1) variância Onde: xi = nota do i-ésimo aluno x = nota média n = número de alunos x x 2 n s i 1 i (n 1) desvio-padrão s2 Variância / Desvio-padrão Podem ser interpretados como medidas da precisão da média. Quanto menor a variância/desvio-padrão, maior é a confiança de que o valor a ser observado será próximo da média. Qual a variância e o desvio-padrão das notas dos alunos ? Notas obtidas 8 2 9 7 8 4 5 1 5 5 5 4 10 10 2 7 6 6 4 4 (8 x ) 2 (8 x ) 2 ... (4 x ) 2 s ? 20 1 2 s s2 ? Distribuição Normal É uma das mais importantes distribuições de probabilidade. Em geral, trabalhamos com variáveis aleatórias para as quais não conhecemos sua distribuição. Comumente, assumimos que nossas variáveis aleatórias têm distribuição de probabilidade que se comporta como uma normal. Distribuição Normal É simétrica; Média = Mediana = Moda Quando “conhecemos” a distribuição de probabilidade de uma variável aleatória podemos fazer inferências. variável aleatória X distribuição normal? Grande parte dos fenômenos sociais seguem a distribuição normal. Por exemplo, vários estudos mostram que: A maioria dos QI se situam entre 90 e 100; há uma descida gradual para a calda com algumas pessoas com QI superior a 140 e pouquíssimas com QI abaixo de 60. Será que toda variável aleatória segue distribuição normal? Algumas variáveis aleatórias não seguem a distribuição normal: É conhecido que a distribuição de riqueza é extremamente assimétrica (uma pequena parcela da população recebe grande parte da renda. Formulando as hipóteses nula e alternativa Pode-se contar com expectativas teóricas ou com trabalhos empíricos anteriores – ou com ambos – para formular hipóteses. Obs.: independentemente de como são formuladas, é extremamente importante que o pesquisador estabeleça estas hipóteses antes de realizar a investigação empírica. Tipos de Erros Tipo I: probabilidade de rejeitar a hipótese nula sendo ela verdadeira. Via de regra é estabelecido pelo pesquisador, e equivale ao nível de significância. Tipo II: probabilidade de aceitar a hipótese nula sendo ela falsa. O Significado de “aceitar” ou “rejeitar” uma hipótese Com base em um teste de significância (por ex., teste t), decide-se “aceitar” a hipótese nula, então com base na evidencia da amostra, não se tem nenhuma razão para rejeitá-la. Lembre-se que, ao “aceitar” uma hipótese nula, deve-se sempre estar ciente de que uma outra hipótese nula pode ser igualmente compatível com os dados. Daí, é preferível dizer que podemos aceitar H0 ao afirmar que a aceitamos. Inferência Por trabalharmos com amostras, o que fazemos é: Com base nos resultados da amostra fazemos inferência sobre a população. Por exemplo: Se encontramos que 60% da amostra é composta por mulheres, dizemos que 60% da população também são mulheres. Se 51% da nossa amostra vota no candidato X , então dizemos que o candidato X terá 51 % dos votos da nossa população. A inferência pode conter um erro devido ao erro de amostragem. Ou seja, esta inferência pode estar errada simplesmente porque a amostra contem um erro de representação. Inferência X distribuição normal Se a variável segue a distribuição normal, então podemos calcular qual a probabilidade de obter qualquer média amostral. Para isto retomemos a curva normal Ex: Com 68% de probabilidade a média populacional pode estar entre um desvio padrão (para mais e para menos) da média amostral. Intervalo de confiança Em geral, não conhecemos a média e o desvio padrão da variável na população. O que conhecemos é a média e o desvio padrão amostral. Assim não temos como calcular o verdadeiro valor da média populacional, na qual estamos interessados ao fazer a pesquisa amostral? A resposta é não. Entretanto, com base nos resultados da amostra podemos construir o intervalo de valores dentro do qual a verdadeira média populacional pode estar. Isto considerando uma probabilidade de que a média populacional realmente cairá neste intervalo., chamado de Intervalo de Confiança. Calculo do Intervalo de confiança Se a variável segue uma distribuição normal, uma estimativa do desvio padrão populacional pode ser estimado por meio de: s N Onde: é o desvio padrão da população s é o erro padrão da amostra N é o tamanho da amostra Intervalo de confiança e a distribuição normal para amostra s 1,96* N s N x 68% 95% s N 1,96* s N Intervalo de confiança de 95% para a média amostral s x 1 , 96 * ; x 1,96* s n n Exemplo Suponha uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal de 23.800,00 reais e desvio padrão de 43978,44. Qual o intervalo de confiança a 95% ? s x 1 , 96 * 1,96* s ; x 1,96* s n n 1,96* 43978,44 8.663,20 n 99 [15.136,80 ; 32.463,20] Graficamente 95% 15.136,80 23.800,00 32.463,20 Probabilidade de um valor Se em vez de querer saber qual o intervalo de confiança da média populacional utilizando uma amostra, estejamos interessados em saber qual a probabilidade de um determinado valor ocorrer, como fazer? Utilizamos uma tabela de escores da curva normal. Esta tabela foi construída com base em quantos desvios padrões o valor que queremos se distancia da média. Assim, para utilizá-la calculamos: Xi X Z s n Exemplo Suponha que um Estado divulgou que gasta, em média, 34.000,00 reais por mês com merenda nas escolas. Duvidando da informação fizemos uma amostra de 99 escolas. Nesta amostra obtemos um gasto médio mensal menor de 23.800,00 reais e desvio padrão de 43978,44. Qual a probabilidade de 34.000,00 ser realmente a média das escolas? Montamos o seguinte teste: H0: μ=34.000,00 Contra H1: μ<34.000,00 34.000 23.800 Z 2,31 43978,44 99 Exemplo 34.000 23.800 Z 2,31 43978,44 99 Olhando na tabela encontramos um valor de 48,96. Ou seja, 48,96% das médias amostrais se situam entre 23.800,00 e 34.000,00 reais, estão abaixo deste valor. Quase toda a amostra. Fazendo 50%- *48,96% = 1,04%. Portanto, somente 1,04% da amostra está acima deste valor. Ou seja, vamos se rejeitar H0 a chance de estar errando é 1,04%, logo rejeito H0 O nível exato de significância: o valor p Definido como o mais baixo nível de significância com o qual a hipótese nula pode ser rejeitada. Também conhecido como nível de significância observado ou exato, ou a probabilidade exata de cometer um erro Tipo I. Escolhendo o nível de significância Se o erro de rejeitar a hipótese nula que de fato é verdadeira (Erro Tipo I) for dispendioso relativamente ao erro de não rejeitar a H0 que de fato é falsa (Erro tipo II), será racional estabelecer uma pequena probabilidade de cometer o primeiro tipo de erro. Se, por outro lado, o custo de cometer um Erro Tipo I for baixo relativamente ao custo de cometer um Erro Tipo II, vale a pena estabelecer como grande a probabilidade do primeiro tipo de erro (tornando assim pequena a probabilidade do segundo tipo de erro). Teste de diferença de médias Suponha agora que estamos interessados em comparar a média de uma variável aleatório com base em duas amostras diferentes. Para isto podemos fazer o teste de diferenças entre médias Como as médias são calculadas a partir de uma amostra da população, a diferença matemática observada entre elas pode ser apenas devido a um erro amostral. Portanto, uma diferença entre duas médias amostrais não representa uma verdadeira diferença entre as médias populacionais. Teste de diferenças entre médias Hipótese Nula: Não há diferença entre as Médias Populacionais H0: μ 1= μ 2 μ 1= média na população 1 μ 2= média na população 2 Hipótese experimental: há diferença entre as Médias Populacionais H1: μ 1≠ μ 2 Para testarmos esta hipótese com uma probabilidade conhecida de acerto, precisamos calcular os chamados escores Z, supondo que a distribuição da variável é normal. Z X1 X 2 dif Onde: X dif s12 s22 N1 N 2 é a média amostral dif é a diferença do erro padrão de cada média s é a variancia da amostra N é o tamanho da amostra Z de teste Uma vez encontrado o Z de teste calculado pela fórmula do slide anterior, utilizamos uma tabela de Porcentagem da Área sob a Curva Normal - Z, para obtermos a probabilidade de não rejeitarmos H0. Fazendo 100- 2 vezes a probabilidade calculada na tabela, temos a estatística conhecida como P-valor, que nos fornece a probabilidade de erro ao rejeitarmos H0. Z de teste- Exemplo Ex: Considere o teste de diferença de média entre duas amostras com o Z=0,68. Olhando na tabela encontramos a probabilidade 25,17, multiplicando por 2 temos 50,34% de acerto. O P-valor é de 49,66% (100-50,34) Isto significa que se rejeitarmos H0 estariamos errando a uma probabilidade de 49,66%. Assim, não rejeitamos H0 e dizemos que a diferença entre as médias amostrais não é significativa. Obs: estas médias podem ser matematicamente diferentes, mas esta diferença é devida a erro amostral. Passos para o teste de diferença de médias 1o passo: Obter as médias amostrais 2o passo: achar o desvio padrão de cada amostra 3o passo: Calcular o erro padrão de cada média 4o passo:Achar a diferença do erro padrão das médias 5o passo: Achar a estatística Z 6o passo: Usando a tabela obter a probabilidade de acerto 7o passo: subtrair de 100% a probabilidade de acerto para achar o P-valor. Regra prática “2-t” Se o número de graus de liberdade for 20 ou mais, e se o nível de significância, for estabelecido em 0,05, então a hipótese nula 2 0 pode ser rejeitada se o valor ^ ^ t [ 2 / ep( 2 )] for maior que 2 em valor absoluto. Comentários Finais Aula de hoje: trabalhamos conceitos de estatística que serão utilizados na avaliação econômica. Próxima aula: apresentaremos os procedimentos para realizar a avaliação de impacto quando o grupo de controle foi aleatoriamente selecionado.