Estatística Inferencial
(cap. 7 Martins)
• Estatística descritiva – trata da organização,
sumarização e descrição dos dados
• Estatística inferencial – métodos que tornam possível
a estimação de características de uma população
baseadas nos resultados amostrais
• População é a totalidade de itens, objetos, ou
pessoas sob consideração
• Amostra é uma parte da população que é selecionada
Amostragem
Amostragem aleatória simples – todos os
elementos da população têm igual probabilidade de
compor a amostra;
Se a população é finita, a escolha de uma amostra
aleatória envolve a compilação de uma lista de
todos os elementos da população, e a realização
de sorteios para escolher os itens que irão compor
a amostra
Níveis de mensuração
As operações aritméticas e técnicas estatísticas admissíveis
dependem do nível de mensuração da variável
Nível nominal – a variável pode assumir duas ou mais categorias.
Ex.: estado civil, religião. Não é possível realizar operações
aritméticas. Estas variáveis são chamadas de variáveis
categóricas
Nível ordinal – quando as categorias mantêm uma relação de
ordem. Ex.: escolaridade
Nível intervalar – além de manter uma ordem, os intervalos de
medição são iguais. Ex.: peso, altura, volume. Permite operações
aritméticas básicas.
Nível de razão – além das características do nível intervalar, o
zero é real, é absoluto (não é arbitrário).
Medidas de posição e de
dispersão
X=
Soma dos valores de x
Número de observações
Dispersão
=
Σx
n
Amostra (a) = 20, 19, 21
Amostra (b) = 30, 20, 10
X
Xa = 20
O que interessa é o desvio em relação à média
Xb = 20
Medidas de posição e de
dispersão
Dispersão
Amostra (a) = 20, 19, 21
Amostra (b) = 30, 20, 10
X
Xa = 20
Xb = 20
O que interessa é o desvio em relação à média, mas ......
A variância amostral (S²), de uma amostra de n medidas é igual à
soma dos quadrados dos desvios dividido por (n-1)
Σ (Xi –X)²
S² =
n-1
S = √S²
O desvio padrão (S),
Regra empírica
• O intervalo X ± S contém entre 60% e 80% de todas
as observações amostrais
• O intervalo X ± 2S contém aproximadamente 95% de
todas as observações amostrais
Coeficiente de variação de
Pearson
Mede a dispersão relativa
C.V =
S
x 100
X
C.V < 15% baixa dispersão
C.V > 30% alta dispersão
Escore padronizado
É outra medida relativa de dispersão
Para uma medida Xi é dado por:
Zi =
Xi –X
S
Um escore negativo indica que Xi
está à esquerda da média e positivo à
direita
Exemplo: São dadas as médias e os desvios padrões das
avaliações de duas disciplinas:
Português
Xp = 6,5
Sp = 1,2
Matemática Xm = 5,0
Sm= 0,9
Relativamente às duas disciplinas, em qual delas obteve melhor
desempenho um aluno que tirou 7,5 em português e 6,0 em
matemática?
Utilizando escore padronizado teremos:
Zi =
Xi –X
S
7,5 – 6,5
Zp =
1,2
6,0 – 5,0
Zm =
0,9
Zm = 1,11
0,83
-3s
Xp= 6,5
Zp = 0,83
1,11
7,5
3s
Xm = 5,0 6,0
Logo, o desempenho melhor foi em matemática, apesar
da sua nota ter sido menor
Outliers
Observações que fogem das dimensões esperadas
Considerar outliers as observações cujos escores
padronizados sejam maiores do que 3, em valor
absoluto
99,74 %
-3s
m
3s
Distribuição normal padrão
Z= X-
s
m
Área = probabilidade
Z=0
Zi
Uma tabela fornece a área em função de Z
Exercício 1
As alturas dos alunos de determinada escola são normalmente
distribuídas com média 1,60 m e desvio padrão de 0,3 m.
Encontre a probabilidade de um aluno medir entre 1,50 e 1,80m
Solução
m= 1,60
s = 0,30
P (1,50 < X < 1,80) = P(Z1 < Z < Z2)
Z= X-
s
Z1
m
Z1 = - 0,33
Z=0
Z2
1,50 – 1,60
0,3
1,80 – 1,60
Z2 =
0,3
Z1 =
Z2 = 0,67
Exercício 1 - continuação
Consultando a tabela:
Área = 0,1293 p/Z1 = 0,33
Área = 0,2486 p/Z2 = 0,67
Z1
Z=0
Z2
Logo, Área total = 0,1293+ 0,2486
Área = 0,3779 ou
P (1,50 < X < 1,80) = 37,79%
Exercício 2
As alturas dos alunos de determinada escola são normalmente
distribuídas com média 1,60 m e desvio padrão de 0,3 m.
Encontre a probabilidade de um aluno medir mais de 1,75 m
Solução
Transformando
em normal
padrão
X=1,60
1,75
0
0,5
Consultando a tabela temos a área (amarela) que é 0,1915,
logo a área azul será 0,5 – 0,1915 = 0,3085
A probabilidade de um aluno com mais de 1,75m é de 30,85%
Exercício 3
As alturas dos alunos de determinada escola são normalmente
distribuídas com média 1,60 m e desvio padrão de 0,3 m.
Encontre a probabilidade de um aluno medir menos de 1,48 m
Solução
Z=
1,48 – 1,60
0,3
Z = - 0,4
1,48 1,60
-0,4
0
Consultando a tabela temos a área igual (0,5 – 0,1554) = 0,3446
A probabilidade de um aluno com menos de 1,48m é de 34,46%
Exercício 4
As alturas dos alunos de determinada escola são normalmente
distribuídas com média 1,60 m e desvio padrão de 0,3 m. Qual
deve ser a medida mínima para escolhermos 10% dos mais altos?
Solução
10% mais altos, logo
conhecemos a área e
queremos determinar
o valor de Z
0
Z
Consultando a tabela
para uma área igual a
0,40 (0,5-0,1) temos
Z=1,28
Z = (X – 1,60)/ 0,3
Logo X = (1,28x0,3) + 1,60
X = 1,98
Assim, a medida mínima para
escolhermos os 10% mais altos é 1,98m
Inferência estatística
Busca obter informações sobre a população a partir dos
elementos amostrais
População
Amostra
^q
q
Parâmetro
populacional
Estimador
Inferência
ou indução
estatística
Inferência estatística
População
m
s
Amostra
x
s
Inferência estatística
Pode ser feita por ponto ou por intervalo de confiança
Exemplo: retira-se uma amostra aleatória de 500
brasileiros e calcula-se a média de suas alturas,
encontrando-se 1,66.
Uma estimativa pontual da verdadeira altura média (μ) é
dada por X = 1,66m.
Através do intervalo de confiança poder-se-ia encontrar
um intervalo, por exemplo [1,58; 1,68] que, em 95% das
vezes incluiria μ, o verdadeiro valor da média dos
brasileiros
Intervalo de confiança
α = erro (nível de significância) 1- α = nível de confiança
α = 5%
1- α = 95%
α/2
1- α
-Z α/2
α/2
Z α/2
Intervalo de confiança
O intervalo de confiança para a média
populacional (μ) quando a variância (s²) é
conhecida
P X - Zα/2 s ≤ μ ≤ X + Zα/2 s = 1- α
√n
√n
[
]
Exemplo: a duração da vida de uma peça é tal
que s = 5 horas. Foram amostradas 100 dessas
peças obtendo-se a média de 500 horas. Desejase construir a verdadeira duração média da peça
com um nível de 95%.
Solução
Do enunciado do problema se tem:
s = 5 n = 100
X = 500 (1- α)100 = 95%
Solução Do enunciado do problema se tem:
s = 5 n = 100
X = 500 (1- α)100 = 95%
2,5%
95%
2,5%
Para se encontrar o
valor de Z α/2 entrouse na tabela com 0,475
Z α/2 = 1,96
Substituindo os valores na fórmula abaixo
-Z α/2 = -1,96
P X - Zα/2 s ≤ μ ≤ X + Zα/2 s = 1- α
√n
√n
[
]
P[ 500 – 1,96. 5/√100 ≤ μ ≤ 500 + 1,96. 5/√100] = 95%
P[ 499,02≤ μ ≤ 500,98] = 95%
Intervalo de confiança
Estimativa de intervalo
Ex.: O intervalo [ 1,60m; 1,64m] contém a altura média dos
moradores do município X, com um nível de confiança de 95% .
O risco do erro de inferência será de 5%, isto é, se tomarmos 100
amostras de tamanhos iguais, poderíamos esperar que 95 desses
intervalos iriam conter o parâmetro populacional
1
2
3
4
5
6
99
100
m
Amostragem
Amostra é um subconjunto da população que deve de
fato representar toda a população
População
N
Amostra
n
n = fração amostral
N
Amostragem
Tamanho da amostra para se estimar a média de uma
população finita
Z .s
2
n = tamanho da amostra
aleatória simples
n= d
Z = abscissa da distribuição
normal padrão
d = erro amostral, máxima diferença entre m e x
admissível
s = desvio padrão da população
Z = 1,96 para um nível de confiança de 95%
Z = 2,0 para um nível de confiança de 95,5%
Z = 2,57 para um nível de confiança de 99%
[
]
Exemplos
Suponha que a variável escolhida em um estudo seja o
peso de uma certa peça, e que a população é infinita. O
desvio padrão é de 10kg. Admitindo-se um nível de
confiança de 95,5% e um erro amostral de 1,5 kg, qual
deve ser o tamanho da amostra?
d = 1,5 kg
2
Z
=
2,0
Z .s
s = 10kg
n= d
[
[
n=
]
2 . 10
1,5
Z = 2,0 para um nível de confiança de 95,5%
2
] = 178
n = tamanho da amostra
aleatória simples
Download

Document