Aula 4 – Estatística- Conceitos básicos
Material Elaborado por Betânia Peixoto
Modificado por Guilherme Irffi e Francis
Petterini
Estatística – Conceitos Básicos
Aprender conceitos básicos de estatística a serem utilizados na
avaliação de impacto.
Plano de Aula









Amostra x população
Definição de um experimento aleatório e de uma variável
aleatória
Distribuição de probabilidade
Medida de tendência central: média, moda, mediana
Medida de dispersão/variabilidade: variância e desvio-padrão
A distribuição normal e suas propriedades
Intervalo de confiança
Teste de Hipótese: Formulação de Hipóteses, Tipos de Erros,
Nível de Significância, Regra Prática “2 – t”
Teste de diferença de médias
Amostra x População
O grupo completo de observações de pessoas, objetos ou coisas é
denominado população.
Um subconjunto de observações selecionados numa
população é denominado amostra.
Na maior parte das análises, trabalha-se com amostras. Por essa
razão é preciso garantir que a amostra seja representativa, ou seja,
que a amostra descreva de maneira adequada a população que
desejamos estudar.
Experimento Aleatório e Variável Aleatória
Um experimento é denominado experimento aleatório se não for
possível antecipar o seu resultado, apesar de conhecermos os
resultados possíveis.
 Por exemplo: lançar um dado é um experimento aleatório.
Variável Aleatória = resultado numérico do experimento.
 No caso do dado, a variável aleatória é a face que resultará de
seu lançamento.
 Há seis possíveis resultados, cada um com uma probabilidade
de ocorrência de 1/6 .
Outro exemplo de experimento aleatório e variável aleatória

‘Encontrar um emprego dentro de um determinado período de
tempo’ é um experimento aleatório, pois só saberemos se um
indivíduo conseguirá encontrar um emprego em tal período de
tempo após sua observação.

E seu ‘resultado’ é uma variável aleatória. Neste caso, há dois
possíveis resultados: encontrar ou não encontrar o emprego. A
probabilidade de ocorrência de cada resultado vai depender das
características do indivíduo e da economia.
Distribuição de Probabilidade
Quando listamos os valores possíveis de uma variável aleatória com
suas possibilidades de ocorrência, o resultado é uma função de
probabilidade.
Probabilidade de
ocorrência
Ex: vr. aleatória =
face resultante do
lançamento do dado
1/6
0
1
2
3
4
5
6
evento
Outro experimento = jogar dois dados e ter como resultado a soma
dos valores observados em cada um deles:
Dad
oA
Dad
oB
"1"+
dado
B
"2"+
dado
B
"3"+
dado
B
"4"+
dado
B
"5"+
dado
B
"6"+ dado
B
1
1
2
3
4
5
6
7
2
2
3
4
5
6
7
8
3
3
4
5
6
7
8
9
4
4
5
6
7
8
9
10
5
5
6
7
8
9
10
11
6
6
7
8
9
10
11
12
36 possíveis combinações e 11 possíveis resultados: 2, 3, 4, 5, 6, 7, 8,
9, 10, 11 e 12
Evento
2
3
4
5
6
7
8
9
10
11
12
n° de
ocorrências
1
2
3
4
5
6
5
4
3
2
1
prob. de
ocorrência
=1/36
=2/36
=3/36
=4/36
=5/36
=6/36
=5/36
=4/36
=3/36
=2/36
=1/36
Distribuição de probabilidade
prob. de ocorrência
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Média
Média = o ‘valor esperado’ de uma variável aleatória.
É um dos parâmetros que descreve nossa amostra.
Exemplo:
 Imagine que temos as notas obtidas pelos alunos de uma sala
de aula.
 A média das notas da sala pode nos dar uma idéia do
desempenho da sala.
Média - cálculo
Média = soma de todos os valores observados da variável
aleatória dividido pelo número de observações:
n
x
x
i 1
n
i
Onde:
• xi = é a nota do i-ésimo aluno.
• n é o número de alunos na sala.
Exemplo:
Ex: imagine que todos os alunos do colégio tenham feito uma
avaliação e que nós estejamos interessados em saber qual foi o
desempenho médio do colégio.
Para isso podemos selecionar uma amostra de alunos e calcular a
média.


8
8
4
5
1
Notas obtidas
2
9
5
5
10
10
5
2
4
7
7
6
6
4
4
(8  8  4  ...  6  4  4)
x
?
20
Mediana



valor que ocupa a posição central dos dados
ordenados; é o valor que deixa metade dos
dados abaixo e metade acima dele. Se o
número de observações for par, a mediana
será a média aritmética dos dois valores
centrais.
Ex.: mediana de 3, 4, 7, 8 e 8?
Md=7
Moda

é o valor mais frequente no conjunto de
dados

Ex.: moda de 3, 4, 7, 8 e 8?
Moda = 8

Variância / Desvio-padrão



Para toda variável há diferença entre o valor esperado (isto é, a
média) e o valor observado.
A variância mede a dispersão dos valores observados da
variável aleatória em torno de seu valor esperado.
Desvio-padrão é a raiz quadrada da variância. Esta será uma
medida bastante importante nos nossos cálculos mais à frente.
Variância / desvio-padrão - cálculo
 x  x 
2
n
s 
2
i 1
i
(n  1)
variância
Onde:



xi = nota do i-ésimo aluno
x
= nota média
n = número de alunos
 x  x 
2
n
s
i 1
i
(n  1)
desvio-padrão
 s2
Variância / Desvio-padrão
 Podem ser interpretados como medidas da precisão da média.
 Quanto menor a variância/desvio-padrão, maior é a confiança de
que o valor a ser observado será próximo da média.
Qual a variância e o desvio-padrão das notas dos alunos ?
Notas obtidas
8
2
9
7
8
4
5
1
5
5
5
4
10
10
2
7
6
6
4
4
(8  x ) 2  (8  x ) 2  ...  (4  x ) 2
s 
?
20  1
2
s  s2  ?
Distribuição Normal

É uma das mais importantes distribuições de probabilidade.

Em geral, trabalhamos com variáveis aleatórias para as quais não
conhecemos sua distribuição.

Comumente, assumimos que nossas variáveis aleatórias têm
distribuição de probabilidade que se comporta como uma
normal.
Distribuição Normal
 É simétrica;
 Média = Mediana
= Moda
Quando
“conhecemos”
a
distribuição
de
probabilidade de uma variável aleatória podemos
fazer inferências.
variável aleatória X distribuição normal?
Grande parte dos fenômenos sociais seguem a distribuição normal.
Por exemplo, vários estudos mostram que:

A maioria dos QI se situam entre 90 e 100; há uma descida
gradual para a calda com algumas pessoas com QI superior a 140
e pouquíssimas com QI abaixo de 60.
Será que toda variável aleatória segue distribuição
normal?
Algumas variáveis aleatórias não seguem a distribuição normal:

É conhecido que a distribuição de riqueza é extremamente
assimétrica (uma pequena parcela da população recebe grande
parte da renda.
Formulando as hipóteses nula e alternativa

Pode-se contar com expectativas teóricas ou com trabalhos
empíricos anteriores – ou com ambos – para formular
hipóteses.

Obs.: independentemente de como são formuladas, é
extremamente importante que o pesquisador estabeleça
estas hipóteses antes de realizar a investigação empírica.
Tipos de Erros

Tipo I: probabilidade de rejeitar a hipótese nula sendo ela
verdadeira.

Via de regra é estabelecido pelo pesquisador, e equivale ao
nível de significância.

Tipo II: probabilidade de aceitar a hipótese nula sendo ela
falsa.
O Significado de “aceitar” ou “rejeitar” uma hipótese

Com base em um teste de significância (por ex., teste t),
decide-se “aceitar” a hipótese nula, então com base na
evidencia da amostra, não se tem nenhuma razão para
rejeitá-la.

Lembre-se que, ao “aceitar” uma hipótese nula, deve-se
sempre estar ciente de que uma outra hipótese nula pode
ser igualmente compatível com os dados. Daí, é preferível
dizer que podemos aceitar H0 ao afirmar que a aceitamos.
Inferência
Por trabalharmos com amostras, o que fazemos é:
Com base nos resultados da amostra fazemos inferência sobre a
população.
Por exemplo:
Se encontramos que 60% da amostra é composta por mulheres,
dizemos que 60% da população também são mulheres.
Se 51% da nossa amostra vota no candidato X , então dizemos
que o candidato X terá 51 % dos votos da nossa população.
A inferência pode conter um erro devido ao erro de amostragem.
Ou seja, esta inferência pode estar errada simplesmente porque a
amostra contem um erro de representação.
Inferência X distribuição normal
Se a variável segue a distribuição normal, então podemos calcular
qual a probabilidade de obter qualquer média amostral. Para isto
retomemos a curva normal
Ex: Com 68% de
probabilidade a média
populacional pode
estar entre um desvio
padrão (para mais e
para menos) da média
amostral.
Intervalo de confiança
Em geral, não conhecemos a média e o desvio padrão da variável
na população. O que conhecemos é a média e o desvio padrão
amostral.
Assim não temos como calcular o verdadeiro valor da média
populacional, na qual estamos interessados ao fazer a pesquisa
amostral?
A resposta é não.
Entretanto, com base nos resultados da amostra podemos
construir o intervalo de valores dentro do qual a verdadeira média
populacional pode estar. Isto considerando uma probabilidade de
que a média populacional realmente cairá neste intervalo.,
chamado de Intervalo de Confiança.
Calculo do Intervalo de confiança
Se a variável segue uma distribuição normal, uma estimativa do
desvio padrão populacional pode ser estimado por meio de:
s

N
Onde:

é o desvio padrão da população
s é o erro padrão da amostra
N é o tamanho da amostra
Intervalo de confiança e a distribuição normal para
amostra
s
1,96*
N
s
N
x
68%
95%
s
N
1,96*
s
N
Intervalo de confiança de 95% para a média amostral


s
x

1
,
96
*




 ; x  1,96*  s


n



n 
Exemplo
Suponha uma amostra de 99 escolas. Nesta amostra obtemos um
gasto médio mensal de 23.800,00 reais e desvio padrão de
43978,44. Qual o intervalo de confiança a 95% ?

 s
x

1
,
96
*




1,96*  s

 ; x  1,96*  s


n



n 
  1,96*  43978,44
  8.663,20



n
99 

[15.136,80 ;
32.463,20]
Graficamente
95%
15.136,80
23.800,00
32.463,20
Probabilidade de um valor
Se em vez de querer saber qual o intervalo de confiança da média
populacional utilizando uma amostra, estejamos interessados em
saber qual a probabilidade de um determinado valor ocorrer,
como fazer?
Utilizamos uma tabela de escores da curva normal. Esta tabela
foi construída com base em quantos desvios padrões o valor que
queremos se distancia da média. Assim, para utilizá-la calculamos:
Xi  X
Z
s
n
Exemplo
Suponha que um Estado divulgou que gasta, em média, 34.000,00
reais por mês com merenda nas escolas. Duvidando da informação
fizemos uma amostra de 99 escolas. Nesta amostra obtemos um
gasto médio mensal menor de 23.800,00 reais e desvio padrão de
43978,44. Qual a probabilidade de 34.000,00 ser realmente a média
das escolas?
Montamos o seguinte teste: H0: μ=34.000,00
Contra
H1: μ<34.000,00
34.000 23.800
Z
 2,31
43978,44
99
Exemplo
34.000 23.800
Z
 2,31
43978,44
99
Olhando na tabela encontramos um valor de 48,96. Ou seja,
48,96% das médias amostrais se situam entre 23.800,00 e
34.000,00 reais, estão abaixo deste valor. Quase toda a amostra.
Fazendo 50%- *48,96% = 1,04%. Portanto, somente 1,04% da
amostra está acima deste valor. Ou seja,
vamos se rejeitar H0 a chance de estar errando é 1,04%, logo
rejeito H0
O nível exato de significância: o valor p

Definido como o mais baixo nível de significância com o
qual a hipótese nula pode ser rejeitada.

Também conhecido como nível de significância observado
ou exato, ou a probabilidade exata de cometer um erro Tipo
I.
Escolhendo o nível de significância

Se o erro de rejeitar a hipótese nula que de fato é verdadeira
(Erro Tipo I) for dispendioso relativamente ao erro de não
rejeitar a H0 que de fato é falsa (Erro tipo II), será racional
estabelecer uma pequena probabilidade de cometer o
primeiro tipo de erro. Se, por outro lado, o custo de
cometer um Erro Tipo I for baixo relativamente ao custo
de cometer um Erro Tipo II, vale a pena estabelecer como
grande a probabilidade do primeiro tipo de erro (tornando
assim pequena a probabilidade do segundo tipo de erro).
Teste de diferença de médias
Suponha agora que estamos interessados em comparar a média de
uma variável aleatório com base em duas amostras diferentes.
Para isto podemos fazer o teste de diferenças entre médias
Como as médias são calculadas a partir de uma amostra da
população, a diferença matemática observada entre elas pode ser
apenas devido a um erro amostral.
Portanto, uma diferença entre duas médias amostrais não representa
uma verdadeira diferença entre as médias populacionais.
Teste de diferenças entre médias
Hipótese Nula: Não há diferença entre as Médias Populacionais
H0: μ 1= μ
2
μ 1= média na população 1
μ 2= média na população 2
Hipótese experimental: há diferença entre as Médias Populacionais
H1: μ 1≠ μ
2
Para testarmos esta hipótese com uma probabilidade conhecida de
acerto, precisamos calcular os chamados escores Z, supondo que a
distribuição da variável é normal.
Z
X1  X 2
 dif 
Onde: X
 dif
s12 s22

N1 N 2
é a média amostral
 dif é a diferença do erro padrão de cada média
s é a variancia da amostra
N é o tamanho da amostra
Z de teste
Uma vez encontrado o Z de teste calculado pela fórmula do slide
anterior, utilizamos uma tabela de Porcentagem da Área sob a
Curva Normal - Z, para obtermos a probabilidade de não
rejeitarmos H0.
Fazendo 100- 2 vezes a probabilidade calculada na tabela, temos a
estatística conhecida como P-valor, que nos fornece a
probabilidade de erro ao rejeitarmos H0.
Z de teste- Exemplo
Ex: Considere o teste de diferença de média entre duas amostras
com o Z=0,68.
Olhando na tabela encontramos a probabilidade 25,17, multiplicando
por 2 temos 50,34% de acerto.
O P-valor é de 49,66% (100-50,34)
Isto significa que se rejeitarmos H0 estariamos errando a uma probabilidade
de 49,66%. Assim, não rejeitamos H0 e dizemos que a diferença entre as
médias amostrais não é significativa.
Obs: estas médias podem ser matematicamente diferentes, mas esta
diferença é devida a erro amostral.
Passos para o teste de diferença de médias
1o passo: Obter as médias amostrais
2o passo: achar o desvio padrão de cada amostra
3o passo: Calcular o erro padrão de cada média
4o passo:Achar a diferença do erro padrão das médias
5o passo: Achar a estatística Z
6o passo: Usando a tabela obter a probabilidade de acerto
7o passo: subtrair de 100% a probabilidade de acerto para achar o
P-valor.
Regra prática “2-t”

Se o número de graus de liberdade for 20 ou mais, e se o
nível de significância, for estabelecido em 0,05, então a
hipótese nula  2  0 pode ser rejeitada se o valor
^
^
t  [  2 / ep(  2 )] for maior que 2 em valor absoluto.
Comentários Finais

Aula de hoje: trabalhamos conceitos de estatística que serão
utilizados na avaliação econômica.

Próxima aula: apresentaremos os procedimentos para realizar a
avaliação de impacto quando o grupo de controle foi
aleatoriamente selecionado.
Download

Aula 4 - Avaliação Econômica de Projetos Sociais