Estatística Inferencial (cap. 7 Martins) • Estatística descritiva – trata da organização, sumarização e descrição dos dados • Estatística inferencial – métodos que tornam possível a estimação de características de uma população baseadas nos resultados amostrais • População é a totalidade de itens, objetos, ou pessoas sob consideração • Amostra é uma parte da população que é selecionada Amostragem Amostragem aleatória simples – todos os elementos da população têm igual probabilidade de compor a amostra; Se a população é finita, a escolha de uma amostra aleatória envolve a compilação de uma lista de todos os elementos da população, e a realização de sorteios para escolher os itens que irão compor a amostra Níveis de mensuração As operações aritméticas e técnicas estatísticas admissíveis dependem do nível de mensuração da variável Nível nominal – a variável pode assumir duas ou mais categorias. Ex.: estado civil, religião. Não é possível realizar operações aritméticas. Estas variáveis são chamadas de variáveis categóricas Nível ordinal – quando as categorias mantêm uma relação de ordem. Ex.: escolaridade Nível intervalar – além de manter uma ordem, os intervalos de medição são iguais. Ex.: peso, altura, volume. Permite operações aritméticas básicas. Nível de razão – além das características do nível intervalar, o zero é real, é absoluto (não é arbitrário). Medidas de posição e de dispersão X= Soma dos valores de x Número de observações Dispersão = Σx n Amostra (a) = 20, 19, 21 Amostra (b) = 30, 20, 10 X Xa = 20 O que interessa é o desvio em relação à média Xb = 20 Medidas de posição e de dispersão Dispersão Amostra (a) = 20, 19, 21 Amostra (b) = 30, 20, 10 X Xa = 20 Xb = 20 O que interessa é o desvio em relação à média, mas ...... A variância amostral (S²), de uma amostra de n medidas é igual à soma dos quadrados dos desvios dividido por (n-1) Σ (Xi –X)² S² = n-1 S = √S² O desvio padrão (S), Regra empírica • O intervalo X ± S contém entre 60% e 80% de todas as observações amostrais • O intervalo X ± 2S contém aproximadamente 95% de todas as observações amostrais Coeficiente de variação de Pearson Mede a dispersão relativa C.V = S x 100 X C.V < 15% baixa dispersão C.V > 30% alta dispersão Escore padronizado É outra medida relativa de dispersão Para uma medida Xi é dado por: Zi = Xi –X S Um escore negativo indica que Xi está à esquerda da média e positivo à direita Exemplo: São dadas as médias e os desvios padrões das avaliações de duas disciplinas: Português Xp = 6,5 Sp = 1,2 Matemática Xm = 5,0 Sm= 0,9 Relativamente às duas disciplinas, em qual delas obteve melhor desempenho um aluno que tirou 7,5 em português e 6,0 em matemática? Utilizando escore padronizado teremos: Zi = Xi –X S 7,5 – 6,5 Zp = 1,2 6,0 – 5,0 Zm = 0,9 Zm = 1,11 0,83 -3s Xp= 6,5 Zp = 0,83 1,11 7,5 3s Xm = 5,0 6,0 Logo, o desempenho melhor foi em matemática, apesar da sua nota ter sido menor Outliers Observações que fogem das dimensões esperadas Considerar outliers as observações cujos escores padronizados sejam maiores do que 3, em valor absoluto 99,74 % -3s m 3s Distribuição normal padrão Z= X- s m Área = probabilidade Z=0 Zi Uma tabela fornece a área em função de Z Exercício 1 As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60 m e desvio padrão de 0,3 m. Encontre a probabilidade de um aluno medir entre 1,50 e 1,80m Solução m= 1,60 s = 0,30 P (1,50 < X < 1,80) = P(Z1 < Z < Z2) Z= X- s Z1 m Z1 = - 0,33 Z=0 Z2 1,50 – 1,60 0,3 1,80 – 1,60 Z2 = 0,3 Z1 = Z2 = 0,67 Exercício 1 - continuação Consultando a tabela: Área = 0,1293 p/Z1 = 0,33 Área = 0,2486 p/Z2 = 0,67 Z1 Z=0 Z2 Logo, Área total = 0,1293+ 0,2486 Área = 0,3779 ou P (1,50 < X < 1,80) = 37,79% Exercício 2 As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60 m e desvio padrão de 0,3 m. Encontre a probabilidade de um aluno medir mais de 1,75 m Solução Transformando em normal padrão X=1,60 1,75 0 0,5 Consultando a tabela temos a área (amarela) que é 0,1915, logo a área azul será 0,5 – 0,1915 = 0,3085 A probabilidade de um aluno com mais de 1,75m é de 30,85% Exercício 3 As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60 m e desvio padrão de 0,3 m. Encontre a probabilidade de um aluno medir menos de 1,48 m Solução Z= 1,48 – 1,60 0,3 Z = - 0,4 1,48 1,60 -0,4 0 Consultando a tabela temos a área igual (0,5 – 0,1554) = 0,3446 A probabilidade de um aluno com menos de 1,48m é de 34,46% Exercício 4 As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60 m e desvio padrão de 0,3 m. Qual deve ser a medida mínima para escolhermos 10% dos mais altos? Solução 10% mais altos, logo conhecemos a área e queremos determinar o valor de Z 0 Z Consultando a tabela para uma área igual a 0,40 (0,5-0,1) temos Z=1,28 Z = (X – 1,60)/ 0,3 Logo X = (1,28x0,3) + 1,60 X = 1,98 Assim, a medida mínima para escolhermos os 10% mais altos é 1,98m Inferência estatística Busca obter informações sobre a população a partir dos elementos amostrais População Amostra ^q q Parâmetro populacional Estimador Inferência ou indução estatística Inferência estatística População m s Amostra x s Inferência estatística Pode ser feita por ponto ou por intervalo de confiança Exemplo: retira-se uma amostra aleatória de 500 brasileiros e calcula-se a média de suas alturas, encontrando-se 1,66. Uma estimativa pontual da verdadeira altura média (μ) é dada por X = 1,66m. Através do intervalo de confiança poder-se-ia encontrar um intervalo, por exemplo [1,58; 1,68] que, em 95% das vezes incluiria μ, o verdadeiro valor da média dos brasileiros Intervalo de confiança α = erro (nível de significância) 1- α = nível de confiança α = 5% 1- α = 95% α/2 1- α -Z α/2 α/2 Z α/2 Intervalo de confiança O intervalo de confiança para a média populacional (μ) quando a variância (s²) é conhecida P X - Zα/2 s ≤ μ ≤ X + Zα/2 s = 1- α √n √n [ ] Exemplo: a duração da vida de uma peça é tal que s = 5 horas. Foram amostradas 100 dessas peças obtendo-se a média de 500 horas. Desejase construir a verdadeira duração média da peça com um nível de 95%. Solução Do enunciado do problema se tem: s = 5 n = 100 X = 500 (1- α)100 = 95% Solução Do enunciado do problema se tem: s = 5 n = 100 X = 500 (1- α)100 = 95% 2,5% 95% 2,5% Para se encontrar o valor de Z α/2 entrouse na tabela com 0,475 Z α/2 = 1,96 Substituindo os valores na fórmula abaixo -Z α/2 = -1,96 P X - Zα/2 s ≤ μ ≤ X + Zα/2 s = 1- α √n √n [ ] P[ 500 – 1,96. 5/√100 ≤ μ ≤ 500 + 1,96. 5/√100] = 95% P[ 499,02≤ μ ≤ 500,98] = 95% Intervalo de confiança Estimativa de intervalo Ex.: O intervalo [ 1,60m; 1,64m] contém a altura média dos moradores do município X, com um nível de confiança de 95% . O risco do erro de inferência será de 5%, isto é, se tomarmos 100 amostras de tamanhos iguais, poderíamos esperar que 95 desses intervalos iriam conter o parâmetro populacional 1 2 3 4 5 6 99 100 m Amostragem Amostra é um subconjunto da população que deve de fato representar toda a população População N Amostra n n = fração amostral N Amostragem Tamanho da amostra para se estimar a média de uma população finita Z .s 2 n = tamanho da amostra aleatória simples n= d Z = abscissa da distribuição normal padrão d = erro amostral, máxima diferença entre m e x admissível s = desvio padrão da população Z = 1,96 para um nível de confiança de 95% Z = 2,0 para um nível de confiança de 95,5% Z = 2,57 para um nível de confiança de 99% [ ] Exemplos Suponha que a variável escolhida em um estudo seja o peso de uma certa peça, e que a população é infinita. O desvio padrão é de 10kg. Admitindo-se um nível de confiança de 95,5% e um erro amostral de 1,5 kg, qual deve ser o tamanho da amostra? d = 1,5 kg 2 Z = 2,0 Z .s s = 10kg n= d [ [ n= ] 2 . 10 1,5 Z = 2,0 para um nível de confiança de 95,5% 2 ] = 178 n = tamanho da amostra aleatória simples