Estatística II Sociologia e Sociologia e Planeamento ISCTE SOCIOLOGIA E SOCIOLOGIA E PLANEAMENTO Ano Lectivo 2003/2004 (2º Semestre) ESTATÍSTICA II (Textos de Apoio das Aulas) Estimação Intervalo de Confiança Para a Média Carlos Lourenço, Dep.º Métodos Quantitativos ([email protected]) Carlos Lourenço ISCTE, 2004 1 Estatística II Sociologia e Sociologia e Planeamento Conceitos Básicos de Estatística População (ou Universo) e Amostra A população é um conjunto finito ou infinito (numerável ou não) dos elementos cujas características são objecto de um estudo. A amostra é um subconjunto finito da população. Escalas de Medida das Variáveis Estatísticas (por grau decrescente de restrição)1 1. Nominais: As variáveis são medidas em classes discretas e, à partida, não é possível estabelecer nenhuma ordenação entre elas. (Exs.: Estado Civil, Sexo) 2. Ordinais: As variáveis são medidas em classes discretas e é possível estabelecer uma ordenação entre elas, segundo uma relação descritível mas não quantificável. (Exs.: escalas de Likert, as habilitações) 3. De Intervalo: As variáveis assumem valores quantitativos. No entanto, não possuem um zero absoluto, isto é, não possuem uma medida de ausência de atributo. (Ex.: A temperatura) 4. De Rácio: As variáveis assumem valores quantitativos cuja relação exacta é possível definir por terem um zero absoluto.2 (Exs.: a idade, o peso, a altura, o rendimento em euros, etc.) Dados Discretos Podem tomar um número finito ou infinito numerável de valores (normalmente tomam apenas valores inteiros). Posteriormente, podem ou não ser agregados em classes. Dados Contínuos Podem tomar um número infinito não-numerável de valores. Se podem tomar dois valores possíveis, a e b, teoricamente podem tomar também quaisquer valores entre a e b. Posteriormente, podem ou não ser agregados em classes. Parâmetros Características da população. Geralmente desconhecidos. Exemplos de Parâmetros: média ( µ ), variância ( σ 2 ), e desvio-padrão ( σ ). Estatísticas Características da amostra. Variam entre as várias amostras que se podem retirar de uma mesma população. Exemplos de Estatísticas: média amostral ( X ), variância amostral ( S 2 ), e desviopadrão amostral ( s ) Inferência Estatística (ou Estatística Indutiva) Obter generalizações aplicáveis a indivíduos (não observados) pertencentes a um grupo – uma população – a partir dos dados recolhidos de uma amostra. Estimadores São estatísticas (características amostrais) que permitem inferir sobre as características da população (parâmetros). Todos os estimadores são estatísticas mas o inverso não se verifica. A inferência estatística permite assim inferir sobre os parâmetros da população através de estimadores, com um determinado grau de probabilidade. O conceito de probabilidade é, pois, uma das ferramentas fundamentais em Estatística. 1 “Any numerical operation can be performed on any set of numbers; whether the resulting numbers are meaningful, however, depends on the particular level of measurement being used.” Ref.: Weinberg, Sharon, and Goldberg Kenneth (1990). Statistics for the Behavioral Sciences. Cambridge University Press. 2 Nota: o SPSS não distingue as variáveis medidas em escala de intervalo ou em escala de rácio. Classifica ambas como “SCALE”. Carlos Lourenço ISCTE, 2004 2 Estatística II Sociologia e Sociologia e Planeamento Distribuições Amostrais das Estatísticas Mais Importantes 1. INTRODUÇÃO Assumindo que para um determinado estudo se constituiu uma amostra tendo em conta os princípios da teoria da amostragem, isto é, a amostra é representativa e, se possível, aleatória, podemos começar a caracterizar a amostra – calcular a média, averiguar a dispersão, a simetria, etc – através dos dados recolhidos. Além desta caracterização podemos ainda elaborar hipóteses de estudo e testá-las. Se cumprimos a teoria da amostragem, as conclusões retiradas para a amostra – a caracterização e as hipóteses verificadas ou refutadas – serão generalizáveis para a população. Como sabemos, as características de uma população denominam-se por parâmetros, os quais são fixos, e são geralmente desconhecidos (para simplificação, pense-se simplesmente que só raramente trabalhamos com toda a população em estudo, e, portanto, nunca sabemos quais as suas “verdadeiras” características). As características de uma amostra denominam-se por estatísticas. A exigência de que uma amostra seja probabilística ou aleatória é fundamental para que se possam estimar (com um determinado grau de confiança) os parâmetros da população a partir das características da amostra. Existe ainda uma outra ideia que deve ficar clara. Os parâmetros são fixos e as estatísticas amostrais, como é o caso da média amostral ( X ) ou da variância amostral ( s 2 ), são variáveis, isto é, o seu valor varia de amostra para amostra. Deverá ser fácil compreender, que se definirmos uma população para estudar – por exemplo, todos os alunos do ISCTE matriculados no ano lectivo 2003/04 – esta população terá parâmetros fixos. Parecerá algo trivial, mas a média de idades dos alunos do ISCTE no ano lectivo 2003/04 é só uma e é fixa (pelo menos durante esse ano). Além disso, esta média de idades é-nos desconhecida se não tivermos acesso à listagem de todas as idades. Imagine-se agora que para um trabalho de grupo de uma cadeira de Sociologia, se pretendia estudar a opinião dos alunos do ISCTE relativamente a um qualquer assunto. Cada grupo da turma aplicaria um questionário a diferentes alunos do ISCTE. Se a idade fosse uma pergunta obrigatória para todos os grupos incluirem nos questionários, seria de esperar que a média de idades das diferentes amostras recolhidas por cada grupo fosse exactamente igual? A resposta razoável é não. Como podemos então calcular estimativas para os parâmetros populacionais através de estatísticas que variam consoante as amostras? Se já sabemos caracterizar as ocorrências de uma variável observada (Estatística I), e se já sabemos que uma variável aleatória pode ser descrita através de uma função de probabilidade e/ou de uma função de distribuição, então, porque não caracterizar também a ocorrência de cada um dos valores possíveis que as estatísticas amostrais podem assumir? Podemos então definir a distribuição de uma estatística em estudo, por exemplo, da média amostral, ou da variância amostral. A essa distribuição damos o nome de distribuição amostral. As distribuições amostrais das estatísticas mais importantes, como a média amostral X e a variância amostral s 2 , serão utilizadas na estimação dos parâmetros da população em estudo. Carlos Lourenço ISCTE, 2004 3 Estatística II Sociologia e Sociologia e Planeamento 2. A DISTRIBUIÇÃO AMOSTRAL DA MÉDIA (AMOSTRAL) O Teorema do Limite Central Este teorema diz-nos que quando temos uma amostra (aleatória simples3) suficientemente grande, para qualquer variável X com média µ X e desvio-padrão σ X , a distribuição da sua média amostral tende para uma distribuição normal, isto é: o ⎛ σ ⎞ ⎟⎟ . X ∩ N ⎜⎜ µ ; n⎠ ⎝ Uma Amostra Suficientemente Grande A partir de agora consideraremos uma “grande amostra”, uma amostra que contenha mais de 30 elementos: n > 30 . Distribuição Assimptótica o O símbolo ∩ , significa “assimptoticamente”, isto é, grosso modo, “no limite”; quando temos o ⎛ σ ⎞ ⎟⎟ , significa, simplificadamente, que a média amostral, “no limite” (numa grande X ∩ N ⎜⎜ µ ; n⎠ ⎝ amostra), segue uma distribuição normal com média µ e desvio-padrão σ . n Graus de Liberdade No contexto das distribuições amostrais e da estimação irá surgir o conceito de graus de liberdade. Por exemplo, imaginemos que queremos calcular o desvio-padrão de n valores. Já sabemos que para o fazer precisamos, antes de tudo, de ter calculado a média desses valores4. Em estatística, pode então dizer-se que para o cálculo do desvio-padrão para n valores, temos n-1 graus de liberdade. No fundo, os graus de liberdade, expressam o número de restrições a que estamos sujeitos. 3 O facto de ser uma amostra aleatória simples, no contexto deste teorema, significa que se exige que os elementos da amostra sejam independentes e identicamente distribuídos, normalmente expresso por iid. ∑ (X n 4 Recorde a expressão do desvio-padrão: σ = Carlos Lourenço − X) 2 i i =1 n ISCTE, 2004 4 Estatística II Sociologia e Sociologia e Planeamento 2.1. Distribuição (amostral) da média amostral X quando o desvio-padrão σ não é conhecido Para uma população com uma dstribuição normal, a distribuição da média amostral quando o desvio-padrão é desconhecido, é a seguinte: X −µ ∩ t ( n −1) s' n Note-se que esta expressão é muito idêntica à situação em que a variância da população é conhecida. As grandes diferenças é que neste caso se usa o desvio-padrão amostral s’ (claro, o da população é desconhecido) corrigido e a distribuição da média amostral segue uma t de Student com n-1 graus de liberdade. Este será o caso por nós mais usado. Excluindo os casos em que já tenham sido efectuados estudos anteriores, nas ciências sociais o mais comum é desconhecermos os parâmetros relativos à população, e, portanto, desconhecermos também o valor do desvio-padrão. 2.2. Distribuição (amostral) da média amostral X quando o desvio-padrão σ é conhecido Se a população X seguir uma distribuição normal, então a média amostral segue uma ⎛ σ ⎞ ⎟⎟ , distribuição normal: X ∩ N ⎜⎜ µ ; n⎠ ⎝ ou, standardizando, X −µ σ ∩ N (0;1) . n Carlos Lourenço ISCTE, 2004 5 Estatística II Sociologia e Sociologia e Planeamento Estimação 1. Conceitos Básicos Estimadores São estatísticas (características amostrais) que permitem inferir sobre as características da população (parâmetros). Todos os estimadores são estatísticas mas o inverso não se verifica. Estimativas Tal como vimos anteriormente, os valores das estatísticas variam de amostra para amostra, pelo que os estimadores (que são estatísticas) também vão variar de amostra para amostra. O valor assumido por um estimador numa amostra concreta designa-se por estimativa, o qual se pretende que seja tão próximo quanto possível do verdadeiro, e único, valor do parâmetro da população. Os estimadores são, portanto, variáveis aleatórias que produzem tantas estimativas quanto o número de amostras realizáveis. As 4 Propriedades de um “Bom” Estimador Porque é que estamos a assumir como estimador para a média da população ( µ ), a média amostral ( X )? Porque não a Mediana amostral ( M e ) ou a Moda amostral ( M o )? O que sabemos é que a média amostral é um “bom” estimador para a média da população. Um bom estimador goza das seguintes propriedades: 1. Suficiência Diz-se que um estimador é suficiente se entra em linha de conta com toda a informação da amostra. A média e a variância amostrais, X e s 2 , são estimadores suficientes. 2. Não Enviesamento Um estimador é não enviesado, ou centrado, se em termos médios produz resultados próximos do parâmetro desconhecido. A média amostral X é um estimador não enviesado para a média da população µ . A variância amostral s 2 é um estimador enviesado para a variância da população σ 2 , razão pela qual se usa como estimador a variância amostral corrigida, s '2 . Note-se qual a relação entre a variância amostral e a variância amostral corrigida: s 2 = n − 1 '2 s . n 3. Eficiência Entre dois estimadores centrados, o mais eficiente, será o que apresentar menor variância. A média amostral é um estimador mais eficiente do que a mediana amostral ou do que moda amostral para a média da população. Como vimos, o desvio padrão da média amostral é σ n , enquanto o desvio-padrão, por exemplo, da mediana amostral, é 1,293 ⋅ (σ superior. n ) , o qual é 4. Consistência À medida que aumenta a dimensão da amostra as estimativas obtidas estarão cada vez mais próximas do valor do parâmetro. Carlos Lourenço ISCTE, 2004 6 Estatística II Sociologia e Sociologia e Planeamento 2. Métodos de Estimação 2.1. Estimação Pontual Tal como vimos, os estimadores são variáveis aleatórias que produzem tantas estimativas quanto o número de amostras realizáveis. Para deduzir um valor de um estimador que permita inferir sobre o parâmetro de uma população, pode usar-se a estimação pontual, através da qual se usam procedimentos estatísticos para chegar a esse mesmo valor. Entre os métodos estatísticos mais usados na estimação pontual, encontra-se o Método da Máxima Verosimilhança e o Método dos Mínimos Quadrados. Seja qual for o método usado, os estimadores deduzidos devem gozar das propriedades anteriormente enunciadas. 2.2. Estimação Por Intervalos A estimação pontual produz tantas estimativas do único parâmetro populacional quantas as amostras realizadas a partir dessa população, pelo que se torna necessário saber se uma dada estimativa obtida com um estimador centrado, constitui ou não uma boa aproximação para o valor desse parâmetro, isto é, torna-se necessário saber qual a sua precisão. Ora, a melhor forma de ter uma ideia clara do grau de precisão de uma estimativa, é construir um intervalo de confiança. Na estimação por intervalos, em vez de se indicar um valor concreto para um parâmetro, constrói-se um intervalo onde se encontrará esse valor. Ao construirmos este intervalo, definimos também qual o nível de confiança ou grau de certeza que lhe queremos associar. Os intervalos de confiança permitem assim medir a precisão de um estimador. No fundo, queremos saber qual é a probabilidade de erro que estamos a cometer ao aceitarmos uma estimativa pontual como sendo o verdadeiro valor de um parâmetro da população. Temos então que associar à estimativa pontual um determinado nível de significância (ou probabilidade de erro). Este nível de significância deve ser corrigido pela variabilidade em torno da estimativa pontual, variabiliadade essa que pode ser estimada conhecendo a distribuição amostral da estatística em causa. Daí que só possamos construir intervalos de confiança para estimadores cuja distribuição seja conhecida. Como vimos, a distribuição da média amostral, por exemplo, é conhecida. Dois conceitos sobressaiem de imediato: – o nivel de confiança, representado por λ (lambda), e que mede o grau de certeza associado ao intervalo de confiança; – o nível de significância, representado por α , e que mede a probabilidade de erro associada ao intervalo de confiança, isto é, a probabilidade de o intervalo não conter o verdadeiro valor do parâmetro; – verfica-se a seguinte relação: λ = 1 − α (se quisermos um intervalo com um nível de confiança de 95%, significa que a probabilidade de esse intervalo não conter o parâmetro é de 0,05). Carlos Lourenço ISCTE, 2004 7 Estatística II Sociologia e Sociologia e Planeamento No contexto da distribuição normal, vimos como podíamos calcular a probabilidade de um determinado valor de uma variável aleatória se situar num determinado intervalo: P[a ≤ X ≤ b] e vimos que para calcular essa probabilidade usávamos a estandardização e os valores tabelados da normal-padrão: b−µ⎤ ⎡a − µ X − µ b − µ ⎤ ⎡a − µ ⎛b− µ ⎞ ⎛a−µ⎞ ≤ ≤ = P⎢ ≤Z ≤ = Φ⎜ P[a ≤ X ≤ b] = P ⎢ ⎟ − Φ⎜ ⎟. ⎥ ⎥ σ σ ⎦ σ ⎦ ⎣ σ ⎣ σ ⎝ σ ⎠ ⎝ σ ⎠ Com valores concretos para µ e σ , bastava consultar a tabela para achar as probabilidades acumuladas, Φ( ) e obter o resultado. Neste momento, o que queremos é descobrir, através de um estimador (uma estatística amostral), qual o intervalo que contém o verdadeiro parâmetro da população. E queremos que esse intervalo contenha o valor do parâmetro com uma probabilidade, por exemplo, igual a 0,95, o que equivale a dizer que só aceitamos errar com uma probabilidade de 0,05. Note-se ainda que a imposição dos níveis de confiança e de significância determinam o grau de precisão da estimação a efectuar. Grosso modo, a precisão corresponde à amplitude do intervalo estimado. Como andamos à procura de um intervalo, sabemos que a nossa probabilidade de erro tem de ser igualmente distribuída entre os dois limites do intervalo, o superior e o inferior. Podemos errar “para cima” ou “para baixo” da estimativa pontual, ou seja, o nosso α tem de ser dividido em dois. Se soubermos a distribuição da estatística amostral, Z, que estamos a usar, podemos então escrever o intervalo de confiança como sendo: ⎡ ⎤ P ⎢− z α < Z < z α ⎥ ⎥ 2 ⎦ ⎣⎢ 2 Onde − z α e z α são os valores críticos (tabelados) da distribuição associados à probabilidade 2 2 α 2 , neste caso, 0,025. Carlos Lourenço ISCTE, 2004 8 Estatística II Sociologia e Sociologia e Planeamento 2.2.1. Construção de Intervalos de Confiança Intervalo de Confiança Para a Média da População, µ - Quando o Desvio-Padrão da População é Desconhecido - Grandes Amostras ( n > 30 ) Estamos num contexto em que, como vimos anteriormente, é raro conhecermos o verdadeiro valor do desvio-padrão de uma população, tendo neste caso que se usar um seu estimador – o desvio-padrão amostral s . Vejamos como se constrói um intervalo de confiança para a média através de um exemplo: De uma amostra5 de 152 alunos inscritos na cadeira de Estatística II dos cursos de Sociologia e Sociologia e Planeamento do ISCTE em 2003/04, obteve-se a média e o desvio-padrão da nota esperada no final do semestre, respectivamente, iguais a 11,69 valores e 2,232 valores: Statistics Que nota espera vir a ter em Estatística II? N Valid 152 Missing 12 Mean 11,69 Std. Deviation 2,232 Sabendo que no ISCTE, as notas esperadas nas cadeiras seguem uma distribuição normal, pretende-se saber qual o intervalo de confiança a 95%6 para o verdadeiro valor da média da nota esperada na cadeira, da população (a totalidade de alunos inscritos na cadeira). Dito de outra forma, queremos saber qual o intervalo que contém o verdadeiro valor do parâmetro (a média da população) com uma probabilidade de 0,95. Estamos a trabalhar com uma grande amostra: n = 152 , logo, n > 30 . Não sabemos qual o verdadeiro valor do desvio-padrão na população e apenas dispomos de uma estimativa amostral, de 2,232 valores. Além disso, sabemos que nestas condições (desvio-padrão desconhecido), a distribuição da média amostral é a seguinte: X −µ ∩ t ( n −1) s' n No entanto, por aplicação directa do Limite Central, dado que estamos a trabalhar com uma grande amostra, a distribuição da média amostral segue uma normal (a t de Student é aproximadamente igual à normal em grandes amostras): o ⎛ s' ⎞ ⎟⎟ X ∩ N ⎜⎜ µ ; n⎠ ⎝ Ou, standardizando: X −µ o ∩ N (0;1) s' n 5 Vamos supor que esta amostra foi seleccionada por um processo aleatório. É indiferente dizer “um intervalo de confiança a 95%” ou “um intervalo com um nível de confiança de 95%” 6 Carlos Lourenço ISCTE, 2004 9 Estatística II Sociologia e Sociologia e Planeamento O nível de confiança é igual a 0,95: λ = 0,95 ; Logo, o nível de significância é igual a 0,05: α = 1 − λ = 1 − 0,95 = 0,05 Assim, o intervalo de confiança que queremos obter é o seguinte: ⎤ ⎡ ⎥ ⎢ X −µ P ⎢− z α < < z α ⎥ = 0,95 s' ⎥ ⎢ 2 2 ⎥ ⎢ n ⎦ ⎣ Queremos isolar o verdadeiro valor do parâmetro (a média da população, µ ), então: ⎡ s' s' ⎤ P⎢ X − z α ⋅ < µ < X + zα ⋅ ⎥ = 0,95 n n ⎢⎣ ⎥⎦ 2 2 E podemos substituir os valores que conhecemos: a média amostral, o desvio-padrão amostral corrigido7, e a dimensão da amostra; e determinar os limites do intervalo: ⎤ 2,232 ⎡ 2,232 * I 0,95 µ = ⎥11,69 − z 0,025 ⋅ ;11,69 + z 0, 025 ⋅ ⎢ 152 ⎣ 152 ⎦ [ ] Simplificando: * I 0,95 µ = 11,69 − z 0,025 × 0,181;11,69 + z 0,025 × 0,181 [ ] ] [ Temos agora de consultar a tabela da distribuição normal-padrão para saber qual o seu valor crítico associado à probabilidade α 2 . O valor crítico da normal-padrão é 1,960.8 Então temos: [I ]µ = ]11,69 − 1,960 × 0,181;11,69 + 1,960 × 0,181[ = ]11,69 − 0,35;11,69 + 0,35[ = ]11,34;12,05[ * 0 , 95 7 Relembre que o SPSS calcula por defeito o desvio-padrão (standard deviation) já corrigido! Neste ponto, confirme a aplicação do Limite Central que usámos. A distribuição t de Student é também simétrica e tende para a distribuição normal à medida que o n aumenta. Verifique que o valor crítico 1,960 associado a 0,025 é igual usando a tabela da t (para 151 graus de liberdade) ou a tabela da normal. O SPSS, por defeito, usa sempre a distribuição t de Student e não a aproximação à normal. 8 Carlos Lourenço ISCTE, 2004 10 Estatística II Sociologia e Sociologia e Planeamento No SPSS… Analyze – Descriptive Statistics – Explore… Dependent List (escolhemos a variável) Display – Statistics (não necessitamos dos “plots”/gráficos) Statistics… Confidence Interval for Mean: 95% (escolher o nível de confiança desejado) E obtém-se o seguinte output: Case Processing Summary Cases Missing N Percent Valid N Que nota espera vir a ter em Estatística II? Percent 152 92,7% 12 7,3% Total N Percent 164 100,0% Descriptives Que nota espera vir a ter em Estatística II? Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 11,69 11,34 Std. Error ,181 12,05 11,56 11,50 4,981 2,232 1 20 19 3,00 ,382 3,612 ,197 ,391 Como se pode verificar, os limites inferior (Lower Bound) e superior (Upper Bound) do intervalo de confiança a 95% para a verdadeira média da nota esperada da população, corresponde ao obtido anteriormente. Carlos Lourenço ISCTE, 2004 11 Estatística II Sociologia e Sociologia e Planeamento - Pequenas Amostras ( n ≤ 30 ) Consideremos agora a seguinte informação: Report Que nota espera vir a ter em Estatística II? Turma SA1 SA2 SA3 SPA1 Noite (SA4 e SPA2) Total Mean 12,24 11,31 11,54 11,12 11,97 11,69 N 25 24 13 32 58 152 Std. Deviation 2,350 2,710 1,854 1,755 2,248 2,232 Para trabalhar com uma pequena amostra, vamos seleccionar uma das 3 turmas onde responderam menos de 31 alunos. Escolhemos, por exemplo, a turma SA1 ( n = 25 ), a qual obteve como média e desvio-padrão da nota esperada no final do semestre, respectivamente, 12,24 valores e 2,350 valores. Sabendo que no ISCTE, as notas esperadas nas cadeiras seguem uma distribuição normal, pretende-se saber qual o intervalo de confiança a 95% para o verdadeiro valor da média da nota esperada na cadeira, da população (a totalidade de alunos inscritos na turma SA1, que por razões desconhecidas não foi à aula em que foi entregue o questionário…). Estamos a trabalhar com uma pequena amostra. Não sabemos qual o verdadeiro valor do desvio-padrão na população e apenas dispomos de uma estimativa amostral, de 2,350 valores.9 Além disso, sabemos que nestas condições (desvio-padrão desconhecido), a distribuição da média amostral é a seguinte: X −µ ∩ t ( n −1) s' n Neste caso, com uma pequena amostra, não podemos aplicar o Teorema do Limite Central. O nível de confiança é igual a 0,95: λ = 0,95 ; Logo, o nível de significância é igual a 0,05: α = 1 − λ = 1 − 0,95 = 0,05 ; e α 2 = 0,025 . Assim, o intervalo de confiança que queremos obter é o seguinte: ⎤ ⎡ ⎥ ⎢ X −µ ⎥ = 0,95 P ⎢− t α < < tα ;( n −1) ⎥ s' ⎢ 2 ;( n −1) 2 ⎥ ⎢ n ⎦ ⎣ 9 Mais uma vez, este valor retirado do SPSS, corresponde já ao desvio-padrão corrigido. Carlos Lourenço ISCTE, 2004 12 Estatística II Sociologia e Sociologia e Planeamento Temos então os seguintes limites do intervalo: ⎡ s' s' ⎤ ⋅ ⋅ ; X + tα P⎢ X − t α ⎥ = 0,95 ;( n −1) ;( n −1) n n ⎦⎥ 2 2 ⎣⎢ E podemos substituir os valores que conhecemos: a média amostral, o desvio-padrão amostral corrigido, e a dimensão da amostra; e determinar os limites do intervalo: ⎤ 2,350 ⎡ 2,350 * I 0,95 µ = ⎥12,24 − t 0, 025;( 24) ⋅ ;12,24 + t 0,025;( 24) ⋅ ⎢ 25 ⎣ 25 ⎦ [ ] Simplificando: * I 0,95 µ = 12,24 − t 0,025;( 24) × 0,470;12,24 + t 0, 025;( 24) × 0,470 [ ] ] [ Temos agora de consultar a tabela da distribuição t de Student para saber qual o seu valor crítico associado à probabilidade α 2 , e com 24 graus de liberdade. O valor crítico da t de Student é 2,064. Finalmente: * I 0,95 µ = ]12,24 − 2,064 × 0,470;12,24 + 2,064 × 0,470[ = ]11,27;13,21[ [ ] Carlos Lourenço ISCTE, 2004 13 Estatística II Sociologia e Sociologia e Planeamento No SPSS… Data – Split File (para pedirmos que o output seja separado por grupos) Organize output by groups – Groups Based on: (escolher variável que define os grupos) File is already sorted (se a base de dados já estiver ordenada) Analyze – Descriptive Statistics – Explore… Dependent List (escolhemos a variável) Display – Statistics (não necessitamos dos “plots”/gráficos) Statistics… Confidence Interval for Mean: 95% (escolher o nível de confiança desejado) E obtém-se o seguinte output: Descriptivesa Que nota espera vir a ter em Estatística II? Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 12,24 11,27 Std. Error ,470 13,21 12,04 12,00 5,523 2,350 10 18 8 3,50 1,110 1,004 ,464 ,902 a. Turma = SA1 Comprova-se assim o mesmo resultado obtido anteriormente. Carlos Lourenço ISCTE, 2004 14 Estatística II Sociologia e Sociologia e Planeamento A Distribuição t de Student Suponhamos duas variáveis aleatórias independentes: X e Y. Se X segue uma normal-padrão e Y segue uma distribuição do Qui-quadrado com n graus de liberdade (que iremos ver mais à frente, nos Ensaios de Hipóteses), isto é, X ∩ N (0,1) Y ∩ χ 2 ( n) então, a variável aleatória T, que corresponde ao rácio entre X e a raíz quadrada de Y sobre n, segue uma distribuição t de Student com n graus de liberdade: T= X ∩ t ( n) Y n A distribuição t de Student tende para a distribuição normal à medida que n aumenta. (comparar as duas tabelas) Principais Características 1. É simétrica em relação ao eixo x=0; 2. O seu aspecto gráfico depende do número de graus de liberdade, n: 10 N (0,1) t (10) t (5) x=0 10 Por curiosidade, a função densidade de probabilidade da t de Student é dada por: x ⎛ n + 1⎞ n +1 − Γ⎜ ⎟ , x2 ⎞ 2 2 ⎠ ⎛⎜ ⎝ ⎟ f ( x) = 1 ∩ t ( n ) + n ⎟⎠ ⎛n⎞⎜ nπ Γ⎜ ⎟ ⎝ ⎝2⎠ onde n é o parâmetro caracterizador da distribuição. Carlos Lourenço ISCTE, 2004 15 Estatística II Sociologia e Sociologia e Planeamento Carlos Lourenço ISCTE, 2004 16