Estatística II
Sociologia e Sociologia e Planeamento
ISCTE
SOCIOLOGIA E SOCIOLOGIA E PLANEAMENTO
Ano Lectivo 2003/2004 (2º Semestre)
ESTATÍSTICA II
(Textos de Apoio das Aulas)
Estimação
Intervalo de Confiança Para a Média
Carlos Lourenço, Dep.º Métodos Quantitativos
([email protected])
Carlos Lourenço
ISCTE, 2004
1
Estatística II
Sociologia e Sociologia e Planeamento
Conceitos Básicos de Estatística
População (ou Universo) e Amostra
A população é um conjunto finito ou infinito (numerável ou não) dos elementos cujas
características são objecto de um estudo. A amostra é um subconjunto finito da população.
Escalas de Medida das Variáveis Estatísticas (por grau decrescente de restrição)1
1. Nominais: As variáveis são medidas em classes discretas e, à partida, não é possível
estabelecer nenhuma ordenação entre elas. (Exs.: Estado Civil, Sexo)
2. Ordinais: As variáveis são medidas em classes discretas e é possível estabelecer uma
ordenação entre elas, segundo uma relação descritível mas não quantificável. (Exs.: escalas
de Likert, as habilitações)
3. De Intervalo: As variáveis assumem valores quantitativos. No entanto, não possuem um
zero absoluto, isto é, não possuem uma medida de ausência de atributo. (Ex.: A
temperatura)
4. De Rácio: As variáveis assumem valores quantitativos cuja relação exacta é possível definir
por terem um zero absoluto.2 (Exs.: a idade, o peso, a altura, o rendimento em euros, etc.)
Dados Discretos
Podem tomar um número finito ou infinito numerável de valores (normalmente tomam apenas
valores inteiros). Posteriormente, podem ou não ser agregados em classes.
Dados Contínuos
Podem tomar um número infinito não-numerável de valores. Se podem tomar dois valores
possíveis, a e b, teoricamente podem tomar também quaisquer valores entre a e b.
Posteriormente, podem ou não ser agregados em classes.
Parâmetros
Características da população. Geralmente desconhecidos. Exemplos de Parâmetros: média ( µ ),
variância ( σ 2 ), e desvio-padrão ( σ ).
Estatísticas
Características da amostra. Variam entre as várias amostras que se podem retirar de uma mesma
população. Exemplos de Estatísticas: média amostral ( X ), variância amostral ( S 2 ), e desviopadrão amostral ( s )
Inferência Estatística (ou Estatística Indutiva)
Obter generalizações aplicáveis a indivíduos (não observados) pertencentes a um grupo – uma
população – a partir dos dados recolhidos de uma amostra.
Estimadores
São estatísticas (características amostrais) que permitem inferir sobre as características da
população (parâmetros). Todos os estimadores são estatísticas mas o inverso não se verifica.
A inferência estatística permite assim inferir sobre os parâmetros da população através de
estimadores, com um determinado grau de probabilidade. O conceito de probabilidade é, pois,
uma das ferramentas fundamentais em Estatística.
1
“Any numerical operation can be performed on any set of numbers; whether the resulting numbers are meaningful, however,
depends on the particular level of measurement being used.” Ref.: Weinberg, Sharon, and Goldberg Kenneth (1990). Statistics for
the Behavioral Sciences. Cambridge University Press.
2
Nota: o SPSS não distingue as variáveis medidas em escala de intervalo ou em escala de rácio. Classifica ambas como “SCALE”.
Carlos Lourenço
ISCTE, 2004
2
Estatística II
Sociologia e Sociologia e Planeamento
Distribuições Amostrais das Estatísticas Mais Importantes
1. INTRODUÇÃO
Assumindo que para um determinado estudo se constituiu uma amostra tendo em conta os
princípios da teoria da amostragem, isto é, a amostra é representativa e, se possível, aleatória,
podemos começar a caracterizar a amostra – calcular a média, averiguar a dispersão, a simetria,
etc – através dos dados recolhidos. Além desta caracterização podemos ainda elaborar hipóteses
de estudo e testá-las. Se cumprimos a teoria da amostragem, as conclusões retiradas para a
amostra – a caracterização e as hipóteses verificadas ou refutadas – serão generalizáveis para a
população.
Como sabemos, as características de uma população denominam-se por parâmetros, os quais
são fixos, e são geralmente desconhecidos (para simplificação, pense-se simplesmente que só
raramente trabalhamos com toda a população em estudo, e, portanto, nunca sabemos quais as
suas “verdadeiras” características). As características de uma amostra denominam-se por
estatísticas.
A exigência de que uma amostra seja probabilística ou aleatória é fundamental para que se
possam estimar (com um determinado grau de confiança) os parâmetros da população a partir
das características da amostra.
Existe ainda uma outra ideia que deve ficar clara. Os parâmetros são fixos e as estatísticas
amostrais, como é o caso da média amostral ( X ) ou da variância amostral ( s 2 ), são
variáveis, isto é, o seu valor varia de amostra para amostra.
Deverá ser fácil compreender, que se definirmos uma população para estudar – por exemplo,
todos os alunos do ISCTE matriculados no ano lectivo 2003/04 – esta população terá
parâmetros fixos. Parecerá algo trivial, mas a média de idades dos alunos do ISCTE no ano
lectivo 2003/04 é só uma e é fixa (pelo menos durante esse ano). Além disso, esta média de
idades é-nos desconhecida se não tivermos acesso à listagem de todas as idades.
Imagine-se agora que para um trabalho de grupo de uma cadeira de Sociologia, se pretendia
estudar a opinião dos alunos do ISCTE relativamente a um qualquer assunto. Cada grupo da
turma aplicaria um questionário a diferentes alunos do ISCTE. Se a idade fosse uma pergunta
obrigatória para todos os grupos incluirem nos questionários, seria de esperar que a média de
idades das diferentes amostras recolhidas por cada grupo fosse exactamente igual? A resposta
razoável é não.
Como podemos então calcular estimativas para os parâmetros populacionais através de
estatísticas que variam consoante as amostras?
Se já sabemos caracterizar as ocorrências de uma variável observada (Estatística I), e se já
sabemos que uma variável aleatória pode ser descrita através de uma função de probabilidade
e/ou de uma função de distribuição, então, porque não caracterizar também a ocorrência de cada
um dos valores possíveis que as estatísticas amostrais podem assumir?
Podemos então definir a distribuição de uma estatística em estudo, por exemplo, da média
amostral, ou da variância amostral. A essa distribuição damos o nome de distribuição
amostral.
As distribuições amostrais das estatísticas mais importantes, como a média amostral X e
a variância amostral s 2 , serão utilizadas na estimação dos parâmetros da população em
estudo.
Carlos Lourenço
ISCTE, 2004
3
Estatística II
Sociologia e Sociologia e Planeamento
2. A DISTRIBUIÇÃO AMOSTRAL DA MÉDIA (AMOSTRAL)
O Teorema do Limite Central
Este teorema diz-nos que quando temos uma amostra (aleatória simples3) suficientemente
grande, para qualquer variável X com média µ X e desvio-padrão σ X , a distribuição da sua
média amostral tende para uma distribuição normal, isto é:
o
⎛ σ ⎞
⎟⎟ .
X ∩ N ⎜⎜ µ ;
n⎠
⎝
Uma Amostra Suficientemente Grande
A partir de agora consideraremos uma “grande amostra”, uma amostra que contenha mais de 30
elementos:
n > 30 .
Distribuição Assimptótica
o
O símbolo ∩ , significa “assimptoticamente”, isto é, grosso modo, “no limite”; quando temos
o
⎛ σ ⎞
⎟⎟ , significa, simplificadamente, que a média amostral, “no limite” (numa grande
X ∩ N ⎜⎜ µ ;
n⎠
⎝
amostra), segue uma distribuição normal com média µ e desvio-padrão
σ
.
n
Graus de Liberdade
No contexto das distribuições amostrais e da estimação irá surgir o conceito de graus de
liberdade.
Por exemplo, imaginemos que queremos calcular o desvio-padrão de n valores. Já sabemos que
para o fazer precisamos, antes de tudo, de ter calculado a média desses valores4. Em estatística,
pode então dizer-se que para o cálculo do desvio-padrão para n valores, temos n-1 graus de
liberdade.
No fundo, os graus de liberdade, expressam o número de restrições a que estamos sujeitos.
3
O facto de ser uma amostra aleatória simples, no contexto deste teorema, significa que se exige que os
elementos da amostra sejam independentes e identicamente distribuídos, normalmente expresso por iid.
∑ (X
n
4
Recorde a expressão do desvio-padrão: σ =
Carlos Lourenço
− X)
2
i
i =1
n
ISCTE, 2004
4
Estatística II
Sociologia e Sociologia e Planeamento
2.1. Distribuição (amostral) da média amostral X quando o desvio-padrão σ não é
conhecido
Para uma população com uma dstribuição normal, a distribuição da média amostral quando o
desvio-padrão é desconhecido, é a seguinte:
X −µ
∩ t ( n −1)
s'
n
Note-se que esta expressão é muito idêntica à situação em que a variância da população é
conhecida. As grandes diferenças é que neste caso se usa o desvio-padrão amostral s’ (claro, o
da população é desconhecido) corrigido e a distribuição da média amostral segue uma t de
Student com n-1 graus de liberdade.
Este será o caso por nós mais usado. Excluindo os casos em que já tenham sido efectuados
estudos anteriores, nas ciências sociais o mais comum é desconhecermos os parâmetros
relativos à população, e, portanto, desconhecermos também o valor do desvio-padrão.
2.2. Distribuição (amostral) da média amostral X quando o desvio-padrão σ é conhecido
Se a população X seguir uma distribuição normal, então a média amostral segue uma
⎛ σ ⎞
⎟⎟ ,
distribuição normal: X ∩ N ⎜⎜ µ ;
n⎠
⎝
ou, standardizando,
X −µ
σ
∩ N (0;1) .
n
Carlos Lourenço
ISCTE, 2004
5
Estatística II
Sociologia e Sociologia e Planeamento
Estimação
1. Conceitos Básicos
Estimadores
São estatísticas (características amostrais) que permitem inferir sobre as características da
população (parâmetros). Todos os estimadores são estatísticas mas o inverso não se verifica.
Estimativas
Tal como vimos anteriormente, os valores das estatísticas variam de amostra para amostra, pelo
que os estimadores (que são estatísticas) também vão variar de amostra para amostra.
O valor assumido por um estimador numa amostra concreta designa-se por estimativa, o qual se
pretende que seja tão próximo quanto possível do verdadeiro, e único, valor do parâmetro da
população. Os estimadores são, portanto, variáveis aleatórias que produzem tantas estimativas
quanto o número de amostras realizáveis.
As 4 Propriedades de um “Bom” Estimador
Porque é que estamos a assumir como estimador para a média da população ( µ ), a média
amostral ( X )? Porque não a Mediana amostral ( M e ) ou a Moda amostral ( M o )? O que
sabemos é que a média amostral é um “bom” estimador para a média da população.
Um bom estimador goza das seguintes propriedades:
1. Suficiência
Diz-se que um estimador é suficiente se entra em linha de conta com toda a informação da
amostra. A média e a variância amostrais, X e s 2 , são estimadores suficientes.
2. Não Enviesamento
Um estimador é não enviesado, ou centrado, se em termos médios produz resultados próximos
do parâmetro desconhecido. A média amostral X é um estimador não enviesado para a média
da população µ . A variância amostral s 2 é um estimador enviesado para a variância da
população σ 2 , razão pela qual se usa como estimador a variância amostral corrigida, s '2 .
Note-se qual a relação entre a variância amostral e a variância amostral corrigida: s 2 =
n − 1 '2
s .
n
3. Eficiência
Entre dois estimadores centrados, o mais eficiente, será o que apresentar menor variância.
A média amostral é um estimador mais eficiente do que a mediana amostral ou do que moda
amostral para a média da população. Como vimos, o desvio padrão da média amostral é σ n ,
enquanto o desvio-padrão, por exemplo, da mediana amostral, é 1,293 ⋅ (σ
superior.
n ) , o qual é
4. Consistência
À medida que aumenta a dimensão da amostra as estimativas obtidas estarão cada vez mais
próximas do valor do parâmetro.
Carlos Lourenço
ISCTE, 2004
6
Estatística II
Sociologia e Sociologia e Planeamento
2. Métodos de Estimação
2.1. Estimação Pontual
Tal como vimos, os estimadores são variáveis aleatórias que produzem tantas estimativas
quanto o número de amostras realizáveis. Para deduzir um valor de um estimador que permita
inferir sobre o parâmetro de uma população, pode usar-se a estimação pontual, através da qual
se usam procedimentos estatísticos para chegar a esse mesmo valor.
Entre os métodos estatísticos mais usados na estimação pontual, encontra-se o Método da
Máxima Verosimilhança e o Método dos Mínimos Quadrados.
Seja qual for o método usado, os estimadores deduzidos devem gozar das propriedades
anteriormente enunciadas.
2.2. Estimação Por Intervalos
A estimação pontual produz tantas estimativas do único parâmetro populacional quantas as
amostras realizadas a partir dessa população, pelo que se torna necessário saber se uma dada
estimativa obtida com um estimador centrado, constitui ou não uma boa aproximação para o
valor desse parâmetro, isto é, torna-se necessário saber qual a sua precisão. Ora, a melhor forma
de ter uma ideia clara do grau de precisão de uma estimativa, é construir um intervalo de
confiança.
Na estimação por intervalos, em vez de se indicar um valor concreto para um parâmetro,
constrói-se um intervalo onde se encontrará esse valor. Ao construirmos este intervalo,
definimos também qual o nível de confiança ou grau de certeza que lhe queremos associar. Os
intervalos de confiança permitem assim medir a precisão de um estimador.
No fundo, queremos saber qual é a probabilidade de erro que estamos a cometer ao aceitarmos
uma estimativa pontual como sendo o verdadeiro valor de um parâmetro da população. Temos
então que associar à estimativa pontual um determinado nível de significância (ou
probabilidade de erro). Este nível de significância deve ser corrigido pela variabilidade em torno
da estimativa pontual, variabiliadade essa que pode ser estimada conhecendo a distribuição
amostral da estatística em causa. Daí que só possamos construir intervalos de confiança para
estimadores cuja distribuição seja conhecida. Como vimos, a distribuição da média amostral,
por exemplo, é conhecida.
Dois conceitos sobressaiem de imediato:
– o nivel de confiança, representado por λ (lambda), e que mede o grau de certeza associado
ao intervalo de confiança;
– o nível de significância, representado por α , e que mede a probabilidade de erro associada
ao intervalo de confiança, isto é, a probabilidade de o intervalo não conter o verdadeiro valor do
parâmetro;
– verfica-se a seguinte relação: λ = 1 − α (se quisermos um intervalo com um nível de
confiança de 95%, significa que a probabilidade de esse intervalo não conter o parâmetro é de
0,05).
Carlos Lourenço
ISCTE, 2004
7
Estatística II
Sociologia e Sociologia e Planeamento
No contexto da distribuição normal, vimos como podíamos calcular a probabilidade de um
determinado valor de uma variável aleatória se situar num determinado intervalo:
P[a ≤ X ≤ b]
e vimos que para calcular essa probabilidade usávamos a estandardização e os valores tabelados
da normal-padrão:
b−µ⎤
⎡a − µ X − µ b − µ ⎤
⎡a − µ
⎛b− µ ⎞
⎛a−µ⎞
≤
≤
= P⎢
≤Z ≤
= Φ⎜
P[a ≤ X ≤ b] = P ⎢
⎟ − Φ⎜
⎟.
⎥
⎥
σ
σ ⎦
σ ⎦
⎣ σ
⎣ σ
⎝ σ ⎠
⎝ σ ⎠
Com valores concretos para µ e σ , bastava consultar a tabela para achar as probabilidades
acumuladas, Φ( ) e obter o resultado.
Neste momento, o que queremos é descobrir, através de um estimador (uma estatística
amostral), qual o intervalo que contém o verdadeiro parâmetro da população. E queremos que
esse intervalo contenha o valor do parâmetro com uma probabilidade, por exemplo, igual a 0,95,
o que equivale a dizer que só aceitamos errar com uma probabilidade de 0,05. Note-se ainda que
a imposição dos níveis de confiança e de significância determinam o grau de precisão da
estimação a efectuar. Grosso modo, a precisão corresponde à amplitude do intervalo estimado.
Como andamos à procura de um intervalo, sabemos que a nossa probabilidade de erro tem de
ser igualmente distribuída entre os dois limites do intervalo, o superior e o inferior. Podemos
errar “para cima” ou “para baixo” da estimativa pontual, ou seja, o nosso α tem de ser
dividido em dois. Se soubermos a distribuição da estatística amostral, Z, que estamos a usar,
podemos então escrever o intervalo de confiança como sendo:
⎡
⎤
P ⎢− z α < Z < z α ⎥
⎥
2 ⎦
⎣⎢ 2
Onde − z α e z α são os valores críticos (tabelados) da distribuição associados à probabilidade
2
2
α 2 , neste caso, 0,025.
Carlos Lourenço
ISCTE, 2004
8
Estatística II
Sociologia e Sociologia e Planeamento
2.2.1. Construção de Intervalos de Confiança
Intervalo de Confiança Para a Média da População, µ
- Quando o Desvio-Padrão da População é Desconhecido
- Grandes Amostras ( n > 30 )
Estamos num contexto em que, como vimos anteriormente, é raro conhecermos o verdadeiro
valor do desvio-padrão de uma população, tendo neste caso que se usar um seu estimador – o
desvio-padrão amostral s .
Vejamos como se constrói um intervalo de confiança para a média através de um exemplo:
De uma amostra5 de 152 alunos inscritos na cadeira de Estatística II dos cursos de Sociologia e
Sociologia e Planeamento do ISCTE em 2003/04, obteve-se a média e o desvio-padrão da nota
esperada no final do semestre, respectivamente, iguais a 11,69 valores e 2,232 valores:
Statistics
Que nota espera vir a ter em Estatística II?
N
Valid
152
Missing
12
Mean
11,69
Std. Deviation
2,232
Sabendo que no ISCTE, as notas esperadas nas cadeiras seguem uma distribuição normal,
pretende-se saber qual o intervalo de confiança a 95%6 para o verdadeiro valor da média da nota
esperada na cadeira, da população (a totalidade de alunos inscritos na cadeira). Dito de outra
forma, queremos saber qual o intervalo que contém o verdadeiro valor do parâmetro (a média da
população) com uma probabilidade de 0,95.
Estamos a trabalhar com uma grande amostra: n = 152 , logo, n > 30 . Não sabemos qual o
verdadeiro valor do desvio-padrão na população e apenas dispomos de uma estimativa amostral,
de 2,232 valores. Além disso, sabemos que nestas condições (desvio-padrão desconhecido), a
distribuição da média amostral é a seguinte:
X −µ
∩ t ( n −1)
s'
n
No entanto, por aplicação directa do Limite Central, dado que estamos a trabalhar com uma
grande amostra, a distribuição da média amostral segue uma normal (a t de Student é
aproximadamente igual à normal em grandes amostras):
o
⎛
s' ⎞
⎟⎟
X ∩ N ⎜⎜ µ ;
n⎠
⎝
Ou, standardizando:
X −µ o
∩ N (0;1)
s'
n
5
Vamos supor que esta amostra foi seleccionada por um processo aleatório.
É indiferente dizer “um intervalo de confiança a 95%” ou “um intervalo com um nível de confiança de
95%”
6
Carlos Lourenço
ISCTE, 2004
9
Estatística II
Sociologia e Sociologia e Planeamento
O nível de confiança é igual a 0,95: λ = 0,95 ;
Logo, o nível de significância é igual a 0,05: α = 1 − λ = 1 − 0,95 = 0,05
Assim, o intervalo de confiança que queremos obter é o seguinte:
⎤
⎡
⎥
⎢
X −µ
P ⎢− z α <
< z α ⎥ = 0,95
s'
⎥
⎢ 2
2
⎥
⎢
n
⎦
⎣
Queremos isolar o verdadeiro valor do parâmetro (a média da população, µ ), então:
⎡
s'
s' ⎤
P⎢ X − z α ⋅
< µ < X + zα ⋅
⎥ = 0,95
n
n
⎢⎣
⎥⎦
2
2
E podemos substituir os valores que conhecemos: a média amostral, o desvio-padrão amostral
corrigido7, e a dimensão da amostra; e determinar os limites do intervalo:
⎤
2,232 ⎡
2,232
*
I 0,95 µ = ⎥11,69 − z 0,025 ⋅
;11,69 + z 0, 025 ⋅
⎢
152 ⎣
152
⎦
[
]
Simplificando:
*
I 0,95 µ = 11,69 − z 0,025 × 0,181;11,69 + z 0,025 × 0,181
[
] ]
[
Temos agora de consultar a tabela da distribuição normal-padrão para saber qual o seu valor
crítico associado à probabilidade α 2 . O valor crítico da normal-padrão é 1,960.8 Então temos:
[I ]µ = ]11,69 − 1,960 × 0,181;11,69 + 1,960 × 0,181[ = ]11,69 − 0,35;11,69 + 0,35[ = ]11,34;12,05[
*
0 , 95
7
Relembre que o SPSS calcula por defeito o desvio-padrão (standard deviation) já corrigido!
Neste ponto, confirme a aplicação do Limite Central que usámos. A distribuição t de Student é também simétrica e
tende para a distribuição normal à medida que o n aumenta. Verifique que o valor crítico 1,960 associado a 0,025 é
igual usando a tabela da t (para 151 graus de liberdade) ou a tabela da normal. O SPSS, por defeito, usa sempre a
distribuição t de Student e não a aproximação à normal.
8
Carlos Lourenço
ISCTE, 2004
10
Estatística II
Sociologia e Sociologia e Planeamento
No SPSS…
Analyze – Descriptive Statistics – Explore…
Dependent List (escolhemos a variável)
Display – Statistics (não necessitamos dos “plots”/gráficos)
Statistics…
Confidence Interval for Mean: 95% (escolher o nível de confiança desejado)
E obtém-se o seguinte output:
Case Processing Summary
Cases
Missing
N
Percent
Valid
N
Que nota espera vir a
ter em Estatística II?
Percent
152
92,7%
12
7,3%
Total
N
Percent
164
100,0%
Descriptives
Que nota espera vir a
ter em Estatística II?
Mean
95% Confidence
Interval for Mean
Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic
11,69
11,34
Std. Error
,181
12,05
11,56
11,50
4,981
2,232
1
20
19
3,00
,382
3,612
,197
,391
Como se pode verificar, os limites inferior (Lower Bound) e superior (Upper Bound) do
intervalo de confiança a 95% para a verdadeira média da nota esperada da população,
corresponde ao obtido anteriormente.
Carlos Lourenço
ISCTE, 2004
11
Estatística II
Sociologia e Sociologia e Planeamento
- Pequenas Amostras ( n ≤ 30 )
Consideremos agora a seguinte informação:
Report
Que nota espera vir a ter em Estatística II?
Turma
SA1
SA2
SA3
SPA1
Noite (SA4 e SPA2)
Total
Mean
12,24
11,31
11,54
11,12
11,97
11,69
N
25
24
13
32
58
152
Std. Deviation
2,350
2,710
1,854
1,755
2,248
2,232
Para trabalhar com uma pequena amostra, vamos seleccionar uma das 3 turmas onde
responderam menos de 31 alunos. Escolhemos, por exemplo, a turma SA1 ( n = 25 ), a qual
obteve como média e desvio-padrão da nota esperada no final do semestre, respectivamente,
12,24 valores e 2,350 valores.
Sabendo que no ISCTE, as notas esperadas nas cadeiras seguem uma distribuição normal,
pretende-se saber qual o intervalo de confiança a 95% para o verdadeiro valor da média da nota
esperada na cadeira, da população (a totalidade de alunos inscritos na turma SA1, que por
razões desconhecidas não foi à aula em que foi entregue o questionário…).
Estamos a trabalhar com uma pequena amostra. Não sabemos qual o verdadeiro valor do
desvio-padrão na população e apenas dispomos de uma estimativa amostral, de 2,350 valores.9
Além disso, sabemos que nestas condições (desvio-padrão desconhecido), a distribuição da
média amostral é a seguinte:
X −µ
∩ t ( n −1)
s'
n
Neste caso, com uma pequena amostra, não podemos aplicar o Teorema do Limite Central.
O nível de confiança é igual a 0,95: λ = 0,95 ;
Logo, o nível de significância é igual a 0,05: α = 1 − λ = 1 − 0,95 = 0,05 ; e α 2 = 0,025 .
Assim, o intervalo de confiança que queremos obter é o seguinte:
⎤
⎡
⎥
⎢
X −µ
⎥ = 0,95
P ⎢− t α
<
< tα
;( n −1) ⎥
s'
⎢ 2 ;( n −1)
2
⎥
⎢
n
⎦
⎣
9
Mais uma vez, este valor retirado do SPSS, corresponde já ao desvio-padrão corrigido.
Carlos Lourenço
ISCTE, 2004
12
Estatística II
Sociologia e Sociologia e Planeamento
Temos então os seguintes limites do intervalo:
⎡
s'
s' ⎤
⋅
⋅
; X + tα
P⎢ X − t α
⎥ = 0,95
;( n −1)
;( n −1)
n
n ⎦⎥
2
2
⎣⎢
E podemos substituir os valores que conhecemos: a média amostral, o desvio-padrão amostral
corrigido, e a dimensão da amostra; e determinar os limites do intervalo:
⎤
2,350 ⎡
2,350
*
I 0,95 µ = ⎥12,24 − t 0, 025;( 24) ⋅
;12,24 + t 0,025;( 24) ⋅
⎢
25 ⎣
25
⎦
[
]
Simplificando:
*
I 0,95 µ = 12,24 − t 0,025;( 24) × 0,470;12,24 + t 0, 025;( 24) × 0,470
[
] ]
[
Temos agora de consultar a tabela da distribuição t de Student para saber qual o seu valor crítico
associado à probabilidade α 2 , e com 24 graus de liberdade. O valor crítico da t de Student é
2,064.
Finalmente:
*
I 0,95 µ = ]12,24 − 2,064 × 0,470;12,24 + 2,064 × 0,470[ = ]11,27;13,21[
[
]
Carlos Lourenço
ISCTE, 2004
13
Estatística II
Sociologia e Sociologia e Planeamento
No SPSS…
Data – Split File (para pedirmos que o output seja separado por grupos)
Organize output by groups – Groups Based on: (escolher variável que define os grupos)
File is already sorted (se a base de dados já estiver ordenada)
Analyze – Descriptive Statistics – Explore…
Dependent List (escolhemos a variável)
Display – Statistics (não necessitamos dos “plots”/gráficos)
Statistics…
Confidence Interval for Mean: 95% (escolher o nível de confiança desejado)
E obtém-se o seguinte output:
Descriptivesa
Que nota espera vir a
ter em Estatística II?
Mean
95% Confidence
Interval for Mean
Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic
12,24
11,27
Std. Error
,470
13,21
12,04
12,00
5,523
2,350
10
18
8
3,50
1,110
1,004
,464
,902
a. Turma = SA1
Comprova-se assim o mesmo resultado obtido anteriormente.
Carlos Lourenço
ISCTE, 2004
14
Estatística II
Sociologia e Sociologia e Planeamento
A Distribuição t de Student
Suponhamos duas variáveis aleatórias independentes: X e Y.
Se X segue uma normal-padrão e Y segue uma distribuição do Qui-quadrado com n graus de
liberdade (que iremos ver mais à frente, nos Ensaios de Hipóteses), isto é,
X ∩ N (0,1)
Y ∩ χ 2 ( n)
então, a variável aleatória T, que corresponde ao rácio entre X e a raíz quadrada de Y sobre n,
segue uma distribuição t de Student com n graus de liberdade:
T=
X
∩ t ( n)
Y
n
A distribuição t de Student tende para a distribuição normal à medida que n aumenta. (comparar
as duas tabelas)
Principais Características
1. É simétrica em relação ao eixo x=0;
2. O seu aspecto gráfico depende do número de graus de liberdade, n: 10
N (0,1)
t (10)
t (5)
x=0
10
Por curiosidade, a função densidade de probabilidade da t de Student é dada por:
x
⎛ n + 1⎞
n +1
−
Γ⎜
⎟
,
x2 ⎞ 2
2 ⎠ ⎛⎜
⎝
⎟
f ( x) =
1
∩
t
(
n
)
+
n ⎟⎠
⎛n⎞⎜
nπ Γ⎜ ⎟ ⎝
⎝2⎠
onde n é o parâmetro caracterizador da distribuição.
Carlos Lourenço
ISCTE, 2004
15
Estatística II
Sociologia e Sociologia e Planeamento
Carlos Lourenço
ISCTE, 2004
16
Download

Dist. Amostrais e Estimação (IC Média)