Medidas de Dispersão ou variabilidade
A média - ainda que considerada como
um número que tem a faculdade de
representar uma série de valores - não
pode, por si mesma, destacar o grau de
homogeneidade ou heterogeneidade
que existe entre os valores que
compõem o conjunto.
β€’ Dispersão ou Variabilidade:
É a maior ou menor diversificação dos valores de
uma variável em torno de um valor de tendência
central ( média ou mediana ) tomado como
ponto de comparação.
Consideremos os seguintes conjuntos de valores das variáveis:
X = { 170, 170, 170, 170, 170 }
Y = { 168, 169, 170 ,171 ,172 }
Z = { 105, 115, 150, 220, 260 }
Observamos então que os três conjuntos apresentam a mesma
média aritmética = 850/5 = 170.
Entretanto, é fácil notar que o conjunto X é mais homogêneo
que os conjuntos Y e Z, já que todos os valores são iguais à
média. O conjunto Y, por sua vez, é mais homogêneo que o
conjunto Z, pois há menor diversificação entre cada um de seus
valores e a média representativa.
Concluímos então que o conjunto X apresenta
dispersão nula e que o conjunto Y apresenta
uma dispersão menor que o conjunto Z.
MEDIDAS DE DISPERSÃO ABSOLUTA
Amplitude total (At) : É a única medida de
dispersão que não tem na média o ponto de
referência. Quando os dados não estão
agrupados a amplitude total é a diferença entre
o maior e o menor valor observado:
At = x máximo - x mínimo.
Exemplo: Para os valores 80, 85, 88, 102 e 110 a amplitude total
será: At = 110 - 80 = 30
Com intervalos de classe a amplitude total é a diferença entre o
limite superior da última classe e o limite inferior da primeira
classe. Então At = L máximo - L mínimo.
Exemplo: Classes fi
4 |--- 6 6
6 |--- 8 2
8 |--- 10 3
At = 10 - 4 = 6
Variância da população e variância da amostra:
Em estatística, o conceito de variância também
pode ser usado para descrever homogeneidade
de um conjunto de observações. Quando o
conjunto das observações é uma população, é
chamada de variância populacional. Se o
conjunto das observações é (apenas)
uma amostra estatística, chamamos-lhe de
variância amostral (variância da amostra).
π‘‰π‘Žπ‘Ÿπ‘–âπ‘›π‘π‘–π‘Ž π‘π‘œπ‘π‘’π‘™π‘Žπ‘π‘–π‘œπ‘›π‘Žπ‘™:
𝑛
2
(π‘₯
βˆ’
πœ‡)
1
𝜎2 =
𝑛
𝑀éπ‘‘π‘œπ‘‘π‘œ π‘π‘Ÿπ‘’π‘£π‘’ π‘π‘Žπ‘Ÿπ‘Ž π‘‰π‘Žπ‘Ÿπ‘–âπ‘›π‘π‘–π‘Ž π‘π‘œπ‘π‘’π‘™π‘Žπ‘π‘–π‘œπ‘›π‘Žπ‘™:
𝑛 2
1 (π‘₯ )
2
𝜎 =
βˆ’ πœ‡2
𝑛
π‘‰π‘Žπ‘Ÿπ‘–âπ‘›π‘π‘–π‘Ž π΄π‘šπ‘œπ‘ π‘‘π‘Ÿπ‘Žπ‘™ ∢
𝑛
2
1 (π‘₯ βˆ’ πœ‡)
2
𝑠 =
π‘›βˆ’1
Méπ‘‘π‘œπ‘‘π‘œ π‘π‘Ÿπ‘’π‘£π‘’ π‘π‘Žπ‘Ÿπ‘Ž π‘‰π‘Žπ‘Ÿπ‘–âπ‘›π‘π‘–π‘Ž π΄π‘šπ‘œπ‘ π‘‘π‘Ÿπ‘Žπ‘™ ∢
π‘‘π‘’π‘ π‘£π‘–π‘œ π‘π‘Žπ‘‘π‘Ÿãπ‘œ π‘π‘œπ‘π‘’π‘™π‘Žπ‘π‘–π‘œπ‘›π‘Žπ‘™:
𝜎 = 𝜎2
𝑛
𝑠 2 = π‘›βˆ’1
π‘₯2
𝑛
βˆ’ πœ‡2
π‘‘π‘’π‘ π‘£π‘–π‘œ π‘π‘Žπ‘‘π‘Ÿãπ‘œ π‘Žπ‘šπ‘œπ‘ π‘‘π‘Ÿπ‘Žπ‘™:
𝑠 = 𝑠2
Propriedades da variância e do desvio padrão:
1- somando-se ou subtraindo-se um mesmo valor a
todos os termos de uma sequência numérica o desvio
padrão e a variância não se alteram.
2- multiplicando-se ou dividindo-se um mesmo valor a
todos os termos da sequencia numérica o desvio
padrão se altera da mesma forma.
3- multiplicando-se ou dividindo-se um mesmo valor a
todos os termos da sequencia numérica a variância se
altera do quadrado do valor da mesma forma.
Exemplo:
O desvio padrão do seguinte conjunto de dados:
2 – 4 – 5 – 6 – 8 é superior a 5.
Solução: 2 – 4 – 5 – 6 – 8
Em primeiro lugar vamos calcular os quadrados de
todos os valores da sequencia:
X2: 4 – 16 – 25 – 36 – 64 -> média = 145/5 = 29
Depois calcular a media dos valores e elevar ao
quadrado:
πœ‡2
2+4+5+6+8 2
(
)
5
=
= 52 =25
𝜎 2 = 29 βˆ’ 25 = 4
𝜎=
4 =2
Logo o item esta ERRADO
Exemplo:
Um grupo e formado por 10 pessoas, cujas
idades são: 18 19 19 20 20 20 21 22 23 24
A variância populacional é 3,24.
Solução: Quando os valores das variáveis são altos
usamos a propriedade da subtração:
Ache a mediana( 18 19 19 20 20 20 21 22 23 24 ) = 20,
assim subtraímos esse valor de todos os termos
gerando uma nova sequencia:
NOVA SEQUENCIA = -2,-1,-1,0,0,0,1,2,3,4
MEDIA X2 = ( 4+1+1+0+0+0+1+4+9+16) / 10 = 3,6
πœ‡2 = [(-2-1-1+0+0+0+1+2+3+4 ) / 10]2 = 0,36
VAR = 3,6 – 0,36 = 3,24
logo o item está correto
Exemplo:
Em uma pesquisa de preços de determinado produto, foram obtidos os valores, em
reais, de uma amostra aleatória colhida em 6 estabelecimentos que o comercializam.
A variância dessa amostra e
(A) 1,50 (B) 1,75 (C) 2,00 (D) 2,25 (E) 2,50
Solução:
β€’ ROL DA SEQUENCIA : 4 , 5 , 6 , 6 , 7 , 8
β€’ MEDIANA DA SEQUENCIA = 6
β€’ NOVA SEQUENCIA = -2,-1,0,0,1,2
β€’ MEDIA QUADRATICA = ( 4+1+0+0+1+4) / 6 = 10/6
β€’ MEDIA2 = [(-2-1+0+0+1+2 ) / 6]2 = 0
β€’ VAR = 10/6 – 0 = 10/6
β€’ VARIANCIA AMOSTRAL = (6 / 6 – 1) X10/6 = 10/5 = 2
Amplitude Interquartil
A mediana e a amplitude inter-quartis
Uma outra forma de sumarizar dados é em termos
dos quartis. Essas medidas são particularmente úteis
para dados não simétricos. A mediana (ou quartil 2) é
definida como o valor que divide os dados ordenados
ao meio, i.e. metade dos dados têm valores maiores do
que a mediana, a outra metade tem valores menores
do que a mediana.
Adicionalmente, os quartis inferior e superior,
Q1 e Q3, são definidos como os valores abaixo
dos quais estão um quarto e três quartos,
respectivamente, dos dados. Estes três valores
são frequentemente usados para resumir os
dados juntamente com o mínimo e o máximo.
A medidade de dispersão é a amplitude interquartis:
Dj = Q3 - Q1,
i.e. é a diferença entre o quartil superior e o
inferior.
Exemplo:
Os quartis de uma distribuição são Q1 = 4, Q2 = 6 e
Q3 = 10. Essa distribuição:
(A) é simétrica.
(B) é assimétrica à direita.
(C) é assimétrica à esquerda.
(D) tem moda maior que a média
(E) tem moda igual á média
Solução:
Se observarmos a distancia Q2 – Q1 = 6 – 4 = 2,
Já se compararmos a Q3 – Q2 = 10 – 6 = 4
Podemos perceber que a segunda é maior que a
primeira. Sendo assim os 25% dos termos que
ficam no fim estao mais dispersos do que os
25% do inicio. Entao podemos concluir :
Gabarito letra B
MEDIDA DE DISPERSÃO RELATIVA
β€’ Notação: CV = coeficiente de variação de
Pearson ou apenas coeficiente de variação.
O fato de o desvio padrão ser expresso na
mesma unidade dos dados limita o seu
emprego quando desejamos comparar duas ou
mais séries de valores, relativamente à sua
dispersão ou variabilidade, quando expressas
em unidades diferentes.
Assim, um desvio padrão de 2 unidades pode
ser considerado pequeno para uma série de
valores cujo valor médio é 200; no entanto, se a
média for igual a 20, o mesmo não pode ser
dito.
Para contornar essas dificuldades e limitações, podemos
caracterizar a dispersão ou variabilidade dos dados em termos
relativos a seu valor médio, medida essa denominada de CV:
Coeficiente de Variação de Pearson (é a razão entre o desvio
padrão e a média referentes a dados de uma mesma série).
𝑆
𝐢𝑉 =
𝑋
Exemplo: Tomemos os resultados das estaturas
e dos pesos de um mesmo grupo de indivíduos:
Discriminação M É D I A DESVIO PADRÃO
ESTATURAS
175 cm
5,0 cm
PESOS
68 kg
2,0 kg
Das medidas (Estatura ou Peso) a que possui
maior homogeneidade é o peso.
Solução: Teremos que calcular o CV da Estatura e o
CV do Peso. O resultado menor será o de maior
homogeneidade (menor dispersão ou
variabilidade).
CVestatura = ( 5 / 175 ) x 100 = 2,85 %
CVpeso = ( 2 / 68 ) x 100 = 2,94 %.
Logo, nesse grupo de indivíduos, as estaturas
apresentam menor grau de dispersão que os
pesos.
Logo podemos concluir que o item esta
ERRADO.
Distribuição Normal
β€’ β€œEm forma de Sino”
β€’ Unimodal
β€’ Simétrica
β€’ Média, mediana e
moda são iguais
β€’ Assintótica em relação
ao Eixo X
β€’ Amplitude Interquartil
β€’ é 1,33 s ou [Q3-Q1] = 4/3 s
50%
f(X)
Q1

Média,
Mediana
Moda
Q3
X
Modelo Matemático
1
f X  ο€½
e
2
2s
-
1
2s
2


X
ο€­

2
β€’ X: valores da variável aleatória
β€’ F(X):função densidade probabilidade da variável
aleatória X
: média da população
s: desvio padrão da população
Distribuição Normal Padronizada
Tabela (Parte)
Z ο€½ 0
Z
.00
.01
sZ ο€½1
.02
0,5478
0.0 .5000 .5040 .5080
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
Probabilidades
0.3 .6179 .6217 .6255
0
Z = 0,12
Uma única Tabela basta!
É essa a solução
Valor da V. A. Normal Z Padronizada:
x
zο€½
s
β€’
β€’
β€’
β€’
x = valor da V. A. Normal X
s = desvio padrão da V. A. Normal X
 = média da V. A. Normal X
z = valor padronizado de x (número de desvios
padrão com relação à média)
Para os exemplos a seguir usaremos:
+∞ < 𝑋 < βˆ’βˆž οƒ  X é uma variável aleatória
πœ‡ β†’ Média = 5
𝜎 β†’ π‘‘π‘’π‘ π‘£π‘–π‘œ π‘π‘Žπ‘‘π‘Ÿπ‘Žπ‘œ = 10
Exemplo: padronizar 6.2
Zο€½
X 
s
6.2 ο€­ 5
ο€½
ο€½ 0.12
10
Z: Distribuição
Normal Padronizada
X: Distribuição Normal
s ο€½ 10
 ο€½5
sZ ο€½1
6.2
X
Z ο€½ 0
0.12
Z
cálculo da área entre dois números
P  2.9 ο‚£ X ο‚£ 7.1 ο€½ .1664
Zο€½
X 
s
2.9 ο€­ 5
ο€½
ο€½ ο€­.21
10
Zο€½
X 
s
7.1 ο€­ 5
ο€½
ο€½ .21
10
Z: Distribuição
Normal Padronizada
X: Distribuição Normal
s ο€½ 10
.0832
sZ ο€½1
.0832
2.9
7.1
X
ο€­0.21
Z ο€½ 0
0.21
Z
Inverso: obter β€œz”, conhecido β€œp =
0,5832”
Z
.00
.01
.02
0,5832
0.0 .5000 .5040 .5080
0.1 .5398 .5438 .5478
0.2 .5793 .5832 .5871
0.3 .6179 .6217 .6255
0
Z = 0,21
Recuperando X para Probabilidades
Conhecidas
Distribuição
Normal Padronizada
Distribuição Normal
s ο€½ 10
sZ ο€½1
.1179
.3821
 ο€½5
?
X
Z ο€½ 0
0.30
X ο€½   Zs ο€½ 5  .3010 ο€½ 8
Z
RESUMO FINAL
Padronização
zο€½
x
s
οƒ˜Área Total = 1
οƒ˜probabilidade = Área sob
a curva Normal
οƒ˜média = mediana
TESTE DE HIPÓTESES
β€’ É uma regra de decisão utilizada para aceitar
ou rejeitar uma hipótese estatística com base
em elementos amostrais.
β€’ Hipóteses: Teremos sempre duas hipóteses,
H0 (Agá-zero), que é a hipótese nula ou
hipótese probanda e H1 ou HA (hipótese
alternativa).
β€’ A hipótese nula é sempre a hipótese a ser
examinada. Se a aceitarmos, implicitamente
estaremos rejeitando H1 e se rejeitarmos H0,
então não podemos rejeitar H1, devendo esta
ser aceita.
Tipos de erro:
β€’ Dois tipos de erro podem ser cometidos num
Teste de Hipóteses:
β€’ Erro Tipo I (Ξ±) -> A hipótese nula é verdadeira
e o pesquisador a rejeita.
β€’ Erro Tipo II (Ξ²)-> A hipótese nula é falsa e o
pesquisador a aceita.
TIPOS DE TESTE DE HIPÓTESES PARA A
MÉDIA:
1) Bicaudal ou Bilateral
H0: ΞΌ = ΞΌ0
H1: ΞΌ β‰  ΞΌ0;Onde: ΞΌ é a média populacional e ΞΌ0 é o valor
suposto para a média populacional.
2) Teste Unicaudal ou Unilateral à direita
H0: ΞΌ ≀ ΞΌ0
H1: ΞΌ > ΞΌ0
β€’ 3) Teste Unicaudal ou Unilateral à esquerda
β€’ H0: ΞΌ β‰₯ ΞΌ0
β€’ H1: ΞΌ < ΞΌ0
Repare que na hipótese nula sempre temos uma
igualdade (=, ≀ ou β‰₯) e na hipótese alternativa uma
desigualdade (β‰ , > ou <).
Se n > 30 ou Οƒ for conhecido, usamos distribuição
Normal;
Se n ≀ 30 e Οƒ for desconhecido, usamos distribuição tStudent;
Outro detalhe importante é que a tabela da
distribuição t-Student é bi-paramétrica.
𝑇𝐴𝐡𝐸𝐿𝐴 𝑇 βˆ’ π‘†π‘‡π‘ˆπ·πΈπ‘π‘‡
Onde :
πœ‘ =π‘›βˆ’1
𝛼 = π‘ π‘–π‘”π‘›π‘–π‘“π‘–π‘π‘Žπ‘›π‘π‘–π‘Ž
Para procedermos ao teste, além de conhecer o
valor tabelado (ZTAB se usarmos Distribuição Normal ou tTAB
se usarmos Distribuição t-Student), temos que
encontrar o valor calculado (ZCALC ou tCALC), dado
por:
Exemplo 1 :
Uma amostra de 36 elementos de uma variável
X normalmente distribuída forneceu: X = 42,3 e
S = 5,2. Testar, no nível de significância 0,05, a
hipótese de que ΞΌ > 40.
Resolução: Seguindo o roteiro, temos:
1º passo:
H0: ΞΌ = 40;
H1: ΞΌ > 40 (teste unilateral à direita);
2º passo: a amostra é grande (n > 30). Logo, usaremos
a Tabela Normal;
3º passo: o teste é unilateral, com Ξ± = 0,05. Logo, para
uma área de 0,45, teremos ZTAB=1,64;
4º passo: desenhar a curva, plotando ZTAB;
5º passo: calcular a estatística teste.
Zcalc =
π‘‹βˆ’πœ‡
𝑆
𝑛
=
42,3βˆ’40
5,2
36
= 2,65.
6º passo: ZCALC > ZTAB. Conclusão: ao nível de significância de
5%, REJEITO H0: ΞΌ = 40. Logo, ΞΌ > 40.
EXEMPLO 2:
Uma amostra de 20 elementos de uma variável
X normalmente distribuída forneceu: X = 53,4 e
S = 7,5. Testar, no nível de significância 0,05, a
hipótese de que ΞΌ = 50.
solução:
Hipóteses:
H0: ΞΌ = 50;
H1: ΞΌ β‰  50 (teste bilateral);
A amostra é pequena (n ≀ 30) e Οƒ (desvio padrão
populacional) é desconhecido. Logo, a distribuição a
ser utilizada é a t-Student, com n = 20 β‡’ Ο• = 19 e Ξ±
= 0,05. Consultando a tabela, encontraremos
tTab= 0930,2.
Como: βˆ’tTAB < tCALC < tTAB, ao nível de significância de 5% ACEITO
H0: ΞΌ = 50.
Download

EstatΓ­stica - Parte II - Alexandre Portela