Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. β’ Dispersão ou Variabilidade: É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central ( média ou mediana ) tomado como ponto de comparação. Consideremos os seguintes conjuntos de valores das variáveis: X = { 170, 170, 170, 170, 170 } Y = { 168, 169, 170 ,171 ,172 } Z = { 105, 115, 150, 220, 260 } Observamos então que os três conjuntos apresentam a mesma média aritmética = 850/5 = 170. Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa. Concluímos então que o conjunto X apresenta dispersão nula e que o conjunto Y apresenta uma dispersão menor que o conjunto Z. MEDIDAS DE DISPERSÃO ABSOLUTA Amplitude total (At) : É a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado: At = x máximo - x mínimo. Exemplo: Para os valores 80, 85, 88, 102 e 110 a amplitude total será: At = 110 - 80 = 30 Com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então At = L máximo - L mínimo. Exemplo: Classes fi 4 |--- 6 6 6 |--- 8 2 8 |--- 10 3 At = 10 - 4 = 6 Variância da população e variância da amostra: Em estatística, o conceito de variância também pode ser usado para descrever homogeneidade de um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância populacional. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (variância da amostra). ππππâππππ ππππ’ππππππππ: π 2 (π₯ β π) 1 π2 = π πéπ‘πππ ππππ£π ππππ ππππâππππ ππππ’ππππππππ: π 2 1 (π₯ ) 2 π = β π2 π ππππâππππ π΄πππ π‘πππ βΆ π 2 1 (π₯ β π) 2 π = πβ1 Méπ‘πππ ππππ£π ππππ ππππâππππ π΄πππ π‘πππ βΆ πππ π£ππ ππππãπ ππππ’ππππππππ: π = π2 π π 2 = πβ1 π₯2 π β π2 πππ π£ππ ππππãπ ππππ π‘πππ: π = π 2 Propriedades da variância e do desvio padrão: 1- somando-se ou subtraindo-se um mesmo valor a todos os termos de uma sequência numérica o desvio padrão e a variância não se alteram. 2- multiplicando-se ou dividindo-se um mesmo valor a todos os termos da sequencia numérica o desvio padrão se altera da mesma forma. 3- multiplicando-se ou dividindo-se um mesmo valor a todos os termos da sequencia numérica a variância se altera do quadrado do valor da mesma forma. Exemplo: O desvio padrão do seguinte conjunto de dados: 2 β 4 β 5 β 6 β 8 é superior a 5. Solução: 2 β 4 β 5 β 6 β 8 Em primeiro lugar vamos calcular os quadrados de todos os valores da sequencia: X2: 4 β 16 β 25 β 36 β 64 -> média = 145/5 = 29 Depois calcular a media dos valores e elevar ao quadrado: π2 2+4+5+6+8 2 ( ) 5 = = 52 =25 π 2 = 29 β 25 = 4 π= 4 =2 Logo o item esta ERRADO Exemplo: Um grupo e formado por 10 pessoas, cujas idades são: 18 19 19 20 20 20 21 22 23 24 A variância populacional é 3,24. Solução: Quando os valores das variáveis são altos usamos a propriedade da subtração: Ache a mediana( 18 19 19 20 20 20 21 22 23 24 ) = 20, assim subtraímos esse valor de todos os termos gerando uma nova sequencia: NOVA SEQUENCIA = -2,-1,-1,0,0,0,1,2,3,4 MEDIA X2 = ( 4+1+1+0+0+0+1+4+9+16) / 10 = 3,6 π2 = [(-2-1-1+0+0+0+1+2+3+4 ) / 10]2 = 0,36 VAR = 3,6 β 0,36 = 3,24 logo o item está correto Exemplo: Em uma pesquisa de preços de determinado produto, foram obtidos os valores, em reais, de uma amostra aleatória colhida em 6 estabelecimentos que o comercializam. A variância dessa amostra e (A) 1,50 (B) 1,75 (C) 2,00 (D) 2,25 (E) 2,50 Solução: β’ ROL DA SEQUENCIA : 4 , 5 , 6 , 6 , 7 , 8 β’ MEDIANA DA SEQUENCIA = 6 β’ NOVA SEQUENCIA = -2,-1,0,0,1,2 β’ MEDIA QUADRATICA = ( 4+1+0+0+1+4) / 6 = 10/6 β’ MEDIA2 = [(-2-1+0+0+1+2 ) / 6]2 = 0 β’ VAR = 10/6 β 0 = 10/6 β’ VARIANCIA AMOSTRAL = (6 / 6 β 1) X10/6 = 10/5 = 2 Amplitude Interquartil A mediana e a amplitude inter-quartis Uma outra forma de sumarizar dados é em termos dos quartis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou quartil 2) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo. A medidade de dispersão é a amplitude interquartis: Dj = Q3 - Q1, i.e. é a diferença entre o quartil superior e o inferior. Exemplo: Os quartis de uma distribuição são Q1 = 4, Q2 = 6 e Q3 = 10. Essa distribuição: (A) é simétrica. (B) é assimétrica à direita. (C) é assimétrica à esquerda. (D) tem moda maior que a média (E) tem moda igual á média Solução: Se observarmos a distancia Q2 β Q1 = 6 β 4 = 2, Já se compararmos a Q3 β Q2 = 10 β 6 = 4 Podemos perceber que a segunda é maior que a primeira. Sendo assim os 25% dos termos que ficam no fim estao mais dispersos do que os 25% do inicio. Entao podemos concluir : Gabarito letra B MEDIDA DE DISPERSÃO RELATIVA β’ Notação: CV = coeficiente de variação de Pearson ou apenas coeficiente de variação. O fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Assim, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CV: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referentes a dados de uma mesma série). π πΆπ = π Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos: Discriminação M É D I A DESVIO PADRÃO ESTATURAS 175 cm 5,0 cm PESOS 68 kg 2,0 kg Das medidas (Estatura ou Peso) a que possui maior homogeneidade é o peso. Solução: Teremos que calcular o CV da Estatura e o CV do Peso. O resultado menor será o de maior homogeneidade (menor dispersão ou variabilidade). CVestatura = ( 5 / 175 ) x 100 = 2,85 % CVpeso = ( 2 / 68 ) x 100 = 2,94 %. Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos. Logo podemos concluir que o item esta ERRADO. Distribuição Normal β’ βEm forma de Sinoβ β’ Unimodal β’ Simétrica β’ Média, mediana e moda são iguais β’ Assintótica em relação ao Eixo X β’ Amplitude Interquartil β’ é 1,33 s ou [Q3-Q1] = 4/3 s 50% f(X) Q1 ο Média, Mediana Moda Q3 X Modelo Matemático 1 f ο¨X ο© ο½ e 2 2ο°s - 1 2s 2 ο¨ ο© X ο ο 2 β’ X: valores da variável aleatória β’ F(X):função densidade probabilidade da variável aleatória X ο: média da população s: desvio padrão da população Distribuição Normal Padronizada Tabela (Parte) οZ ο½ 0 Z .00 .01 sZ ο½1 .02 0,5478 0.0 .5000 .5040 .5080 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Probabilidades 0.3 .6179 .6217 .6255 0 Z = 0,12 Uma única Tabela basta! É essa a solução Valor da V. A. Normal Z Padronizada: xοο zο½ s β’ β’ β’ β’ x = valor da V. A. Normal X s = desvio padrão da V. A. Normal X ο = média da V. A. Normal X z = valor padronizado de x (número de desvios padrão com relação à média) Para os exemplos a seguir usaremos: +β < π < ββ ο X é uma variável aleatória π β Média = 5 π β πππ π£ππ ππππππ = 10 Exemplo: padronizar 6.2 Zο½ X οο s 6.2 ο 5 ο½ ο½ 0.12 10 Z: Distribuição Normal Padronizada X: Distribuição Normal s ο½ 10 ο ο½5 sZ ο½1 6.2 X οZ ο½ 0 0.12 Z cálculo da área entre dois números P ο¨ 2.9 ο£ X ο£ 7.1ο© ο½ .1664 Zο½ X οο s 2.9 ο 5 ο½ ο½ ο.21 10 Zο½ X οο s 7.1 ο 5 ο½ ο½ .21 10 Z: Distribuição Normal Padronizada X: Distribuição Normal s ο½ 10 .0832 sZ ο½1 .0832 2.9 7.1 X ο0.21 οZ ο½ 0 0.21 Z Inverso: obter βzβ, conhecido βp = 0,5832β Z .00 .01 .02 0,5832 0.0 .5000 .5040 .5080 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 0.3 .6179 .6217 .6255 0 Z = 0,21 Recuperando X para Probabilidades Conhecidas Distribuição Normal Padronizada Distribuição Normal s ο½ 10 sZ ο½1 .1179 .3821 ο ο½5 ? X οZ ο½ 0 0.30 X ο½ ο ο« Zs ο½ 5 ο« ο¨.30ο©ο¨10ο© ο½ 8 Z RESUMO FINAL Padronização zο½ xοο s οÁrea Total = 1 οprobabilidade = Área sob a curva Normal οmédia = mediana TESTE DE HIPÓTESES β’ É uma regra de decisão utilizada para aceitar ou rejeitar uma hipótese estatística com base em elementos amostrais. β’ Hipóteses: Teremos sempre duas hipóteses, H0 (Agá-zero), que é a hipótese nula ou hipótese probanda e H1 ou HA (hipótese alternativa). β’ A hipótese nula é sempre a hipótese a ser examinada. Se a aceitarmos, implicitamente estaremos rejeitando H1 e se rejeitarmos H0, então não podemos rejeitar H1, devendo esta ser aceita. Tipos de erro: β’ Dois tipos de erro podem ser cometidos num Teste de Hipóteses: β’ Erro Tipo I (Ξ±) -> A hipótese nula é verdadeira e o pesquisador a rejeita. β’ Erro Tipo II (Ξ²)-> A hipótese nula é falsa e o pesquisador a aceita. TIPOS DE TESTE DE HIPÓTESES PARA A MÉDIA: 1) Bicaudal ou Bilateral H0: ΞΌ = ΞΌ0 H1: ΞΌ β ΞΌ0;Onde: ΞΌ é a média populacional e ΞΌ0 é o valor suposto para a média populacional. 2) Teste Unicaudal ou Unilateral à direita H0: ΞΌ β€ ΞΌ0 H1: ΞΌ > ΞΌ0 β’ 3) Teste Unicaudal ou Unilateral à esquerda β’ H0: ΞΌ β₯ ΞΌ0 β’ H1: ΞΌ < ΞΌ0 Repare que na hipótese nula sempre temos uma igualdade (=, β€ ou β₯) e na hipótese alternativa uma desigualdade (β , > ou <). Se n > 30 ou Ο for conhecido, usamos distribuição Normal; Se n β€ 30 e Ο for desconhecido, usamos distribuição tStudent; Outro detalhe importante é que a tabela da distribuição t-Student é bi-paramétrica. ππ΄π΅πΈπΏπ΄ π β ππππ·πΈππ Onde : π =πβ1 πΌ = π ππππππππππππ Para procedermos ao teste, além de conhecer o valor tabelado (ZTAB se usarmos Distribuição Normal ou tTAB se usarmos Distribuição t-Student), temos que encontrar o valor calculado (ZCALC ou tCALC), dado por: Exemplo 1 : Uma amostra de 36 elementos de uma variável X normalmente distribuída forneceu: X = 42,3 e S = 5,2. Testar, no nível de significância 0,05, a hipótese de que ΞΌ > 40. Resolução: Seguindo o roteiro, temos: 1º passo: H0: ΞΌ = 40; H1: ΞΌ > 40 (teste unilateral à direita); 2º passo: a amostra é grande (n > 30). Logo, usaremos a Tabela Normal; 3º passo: o teste é unilateral, com Ξ± = 0,05. Logo, para uma área de 0,45, teremos ZTAB=1,64; 4º passo: desenhar a curva, plotando ZTAB; 5º passo: calcular a estatística teste. Zcalc = πβπ π π = 42,3β40 5,2 36 = 2,65. 6º passo: ZCALC > ZTAB. Conclusão: ao nível de significância de 5%, REJEITO H0: ΞΌ = 40. Logo, ΞΌ > 40. EXEMPLO 2: Uma amostra de 20 elementos de uma variável X normalmente distribuída forneceu: X = 53,4 e S = 7,5. Testar, no nível de significância 0,05, a hipótese de que ΞΌ = 50. solução: Hipóteses: H0: ΞΌ = 50; H1: ΞΌ β 50 (teste bilateral); A amostra é pequena (n β€ 30) e Ο (desvio padrão populacional) é desconhecido. Logo, a distribuição a ser utilizada é a t-Student, com n = 20 β Ο = 19 e Ξ± = 0,05. Consultando a tabela, encontraremos tTab= 0930,2. Como: βtTAB < tCALC < tTAB, ao nível de significância de 5% ACEITO H0: ΞΌ = 50.