ESTATÍSTICA DESCRITIVA
1 – INTRODUÇÃO
Antes de começamos a falar de estatística descritiva, vamos primeiro a pergunta: O que é
estatística?
Podemos dizer que Estatística é a ciência que investiga os processos de obtenção,
organização e análise de dados sobre uma população, e os métodos de tirar conclusões ou fazer
predições com base nesses dados.
Este conceito tem significado mais amplo do que aquele que usualmente se dá à palavra
“estatística”, isto é, o resultado de contagens sobre ocorrência de determinados eventos e a sua
representação através de gráficos e tabelas, como por exemplo, as estatísticas de ocorrência de
chuvas numa certa época do ano, as estatísticas sobre número de desempregados, as estatísticas de
acidentes nas rodovias da Bahia no período do carnaval, as estatísticas sobre ganhadores de prêmios
de loterias, etc.
Em geral, este conceito mais popular de estatística corresponde somente à organização e
descrição dos dados relativos a um determinado experimento ou situação e não trata da análise e
interpretação desses dados. Ele está associado à parte da estatística que denominamos de Estatística
Descritiva. A Estatística Descritiva é a parte da estatística que se preocupa com a organização e
descrição de dados experimentais.
Além da Estatística Descritiva há a Estatística Indutiva ou Estatística Inferencial que
consiste, fundamentalmente, das técnicas de análises e interpretação dos dados. A partir de um
conjunto restrito de dados, chamado de amostra, organizado e descrito pela estatística descritiva, a
Estatística Indutiva procura fazer inferência ou, em outras palavras, tirar conclusões sobre a
natureza desses dados e estender essas conclusões a conjuntos maiores de dados, chamados de
populações.
A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de mesma
natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores,
organiza e descreve os dados de três formas: por meio de tabelas, de gráficos e de medidas
descritivas.
A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são
formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais rápida e viva
do fenômeno em estudo.
Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou em
comparação com outras, é necessário expressar tais tendências através de números ou estatísticas.
Estes números ou estatística são divididos em duas categorias: medidas de posição e medidas de
dispersão.
2 – CONCEITOS FUNDAMENTAIS E DEFINIÇÕES
Freqüentemente precisamos tirar conclusões válidas sobre um grande grupo de indivíduos
ou objetos. Ao invés de examinar todo o grupo (chamado de população) – o que pode ser difícil ou
mesmo impossível – pode-se cogitar em estudar apenas uma pequena parte (amostra) dessa
população.
1
População: conjunto de elementos que tem pelo menos uma característica em comum.
Amostra: subconjunto de elementos de uma população
Em se tratando de conjuntos e subconjuntos, estes podem ser:
Finito: possuem um número limitado de elementos;
Infinito: possuem um número ilimitado de elementos.
Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-los, observalos, contá-los surgindo um conjunto de respostas que receberá a denominação de variável.
Variável: é a característica que vai ser observada, medida ou contada nos elementos da população
ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento.
Podemos classificar os tipos de varáveis em:
Variável qualitativa (ou categórica): é uma variável que assume como possíveis valores,
atributos ou qualidades. Essa variável pode ser classificada em:
Variável qualitativa nominal – variável que assume como possíveis valores, atributos ou
qualidades e estes não apresentam uma ordem natural de ocorrência. Exemplo: meios de informação
utilizados pelos os alunos da disciplina probabilidade e estatística do curso de engenharia do IFBA:
televisão, livro, revistas, jornal, internet, rádio.
Variável qualitativa ordinal – variável que assume como possíveis valores, atributos ou
qualidades e estes apresentam uma ordem natural de ocorrência. Exemplo: estado civil dos
professores do IFBA: solteiro, casado, separados.
Variável quantitativa: é uma variável que assume como possíveis valores, números. Essa
variável pode ser classificada em:
Variável quantitativa nominal – variável que assume como possíveis valores, atributos ou
qualidades e estes não apresentam uma ordem natural de ocorrência. Exemplo: meios de informação
utilizados pelos os alunos da disciplina probabilidade e estatística do curso de engenharia elétrica do
IFBA: televisão, livro, revistas, jornal, internet, rádio.
Variável quantitativa discreta – variável que assume como possíveis valores números, em geral
inteiros, formando um conjunto finito ou enumerável. Exemplo: número de reprovação, na
disciplina Física I, dos alunos do curso de engenharia elétrica do IFBA: 0, 1, 2, ...
Variável quantitativa contínua – variável que assume como possíveis valores números, em
intervalo da reta real e, em geral, resultante de mensurações. Exemplo: peso (kg), dos alunos do
curso de engenharia elétrica do IFBA: 45, 48, 50, 53, 60, 65, ...
2 – TABELAS
Toda tabela deve ser simples, clara, objetiva e auto-explicativa. Uma tabela deve apresentar
a seguinte estrutura;
Titulo: aponta o fenômeno, época e local de ocorrência;
Cabeçalho: explica o conteúdo das colunas;
Corpo: mostra os dados.
Rodapé: (elementos complementares). A fonte: cita o informante. A nota: esclarece o
conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação.
2
Com o objetivo de levantar dados, para exemplificar o uso de tabelas estatísticas, gráficos
etc, será aplicado um questionário na turma do primeiro semestre do curso de engenharia elétrica do
IFBA – Campus Vitória da Conquista.
EXEMPLOS DE TABELAS: Retiradas dos resultados da avaliação dos programas de pósgraduação do triênio 2007, 2008 e 2009 (Trienal 2010) – portal da CAPES
SÉRIE CRONOLÓGICA, TEMPORAL, EVOLUTIVA OU HISTÓRICA.
É a série estatística em que os dados são observados segundo a época de ocorrência. Exemplo:
Exportação do Açúcar – 1965-1971
Ano
Vendas (em milhares de dólar)
1965
60.193
1966
80.114
1967
812.826
1968
106.879
1999
112.064
1970
126.740
1971
149.548
Fonte: Instituto do Açúcar e do Álcool.
3
“As imagens de satélites de sensoriamento remoto revelam a área cultivada com cana-de-açúcar nos
principais estados produtores da região centro-sul do Brasil na safra 2008/09. Os resultados estão
divulgados no site do Canasat e se referem à área de cana disponível para colheita na safra 2008/09
incluindo as diferentes finalidades, como indústria sucroalcooleira, produção de aguardente,
forragem, etc. Eventualmente, parte da cana inicialmente disponível para colheita pode não ser
processada na safra, devido a fatores como regime de chuvas e disponibilidade de equipamentos de
colheita e transporte, entre outros”.
Retirado http://www.unica.com.br/downloads/estatisticas/canasat_2008.pdf
As avaliações da área cultivada com cana, por meio de imagens de satélites de sensoriamento
remoto, são realizadas pelo INPE (Instituto Nacional de Pesquisas Espaciais) em cooperação com a
UNICA (União da Indústria da Cana-de-Açúcar) e o CTC (Centro de Tecnologia Canavieira) desde
2003 e os resultados destas avaliações estão disponíveis no site do projeto Canasat
(http://www.dsr.inpe.br/canasat/).
OBS: Ver mais em http://www.unica.com.br/dadosCotacao/estatistica/
SÉRIE GEOGRÁFICA OU DE LOCALIZAÇÃO
É a série estatística em que os dados são observados segundo a localização de ocorrência. Exemplo
População de algumas cidades da Bahia - 2010
Cidade
Salvador
Feira de Santana
Vitória da Conquista
Itatuna
Ilhéus
Jequié
Bareiras
População
2.480.790
542.476
295.277
202.359
176.917
151.820
130.620
Fonte: IBGE – CENSO 2010
(http://www.censo2010.ibge.gov.br/dados_divulgados/index.php?uf=29)
4
SÉRIE ESPECÍFICA
É a série estatística em que os dados são agrupados segundo a modalidade de ocorrência. Exemplo:
Número de Mestrados / Doutorados Reconhecidos – Área: Ciências Exatas e da Terra
Totais de Cursos de pósgraduação
Total
M
D
F
Área de Avaliação
Astronomia
Ciência da Computação
Física
Geociências
Matemática
Oceanografia
Probabilidade e Estatística
Química
Total: Ciências Exatas e da Terra
7
62
75
78
49
12
13
95
391
Fonte: Portal da CAPES (Atualização – 24/04/2007)
M – Mestrado Acadêmico,
D – Doutorado,
4
43
45
43
33
7
7
57
239
3
14
29
35
15
5
6
35
142
0
5
1
0
1
0
0
3
10
F – Mestrado Profissional.
DISTRIBUIÇÃO DE FREQÜÊNCIA
É a série estatística em que os dados são agrupados com suas respectivas freqüências
absolutas. Exemplo.
Nota da Primeira avaliação dos Alunos da Disciplina Probabilidade e Estatística. Período 2011-1 –
IFBA - Campus Vitória da Conquista.
Média:   5,74
Notas
8,0  7,0
7,0  6,0
6,0  5,0
5,0  4,0
4,0  3,0
Total:
Número de Alunos
2
9
1
1
4
17
Fonte: Resultado da primeira avaliação.
Nota da Primeira avaliação dos Alunos da Disciplina Mecânica Geral, Período 2007-1 –
CEFET/BA – UE Vitória da Conquista (IFBA a partir 28/12/2008).
Média:   4,73
Notas
7,0 6,0
6,0  5,0
5,0  4,0
4,0  3,0
Total:
Número de Alunos
2
2
5
2
11
Fonte: Resultado da primeira avaliação.
5
GRÁFICOS
A representação gráfica das séries estatísticas tem por finalidade representar os resultados obtidos.
Deve ser apresentada com clareza.
Gráficos em Colunas: Do relatório de divulgação dos resultados finais da avaliação Trienal 2010
dos programas de pós-graduação do triênio 2007, 2008 e 2009.
Fonte: Portal da Capes
Gráficos em setores: Do relatório de divulgação dos resultados finais da avaliação Trienal 2010 dos
programas de pós-graduação do triênio 2007, 2008 e 2009.
Fonte: Portal da Capes
6
DISTRIBUIÇÃO DE FREQÜÊNCIA
Para construir as tabelas de distribuição de freqüência, torna-se necessário um estudo
completo das distribuições de freqüência. Para os procedimentos usuais na construção dessas
tabelas são necessários os seguintes conceitos fundamentais: População, Amostra, Variável Discreta
e Variável Contínua (este conceitos estão no inicio do texto), Representação da Amostra.
A estatística tem como objeto encontrar leis de comportamento para todo o conjunto, por
meio da sinterização dos dados numéricos, sob a forma de tabelas, gráficos e medidas. Os
procedimentos para a representação das distribuições de freqüência são:
1) DADOS BRUTOS – o conjunto dos dados numéricos obtidos após a critica dos valores
coletados constitui-se nos dados brutos. Exemplo: As notas de 32 estudantes de uma turma estão
descritas a seguir:
6,0 – 0,0 – 2,0 – 6,5 – 5,0 – 3,5 – 4,0 – 7,0
8,0 – 7,0 – 8,5 – 6,0 – 4,5 – 0,0 – 6,5 – 6,0
2,0 – 5,0 – 5,5 – 5,0 – 7,0 – 1,5 – 5,0 – 5,0
4,0 – 4,5 – 4,0 – 1, 0 – 5,5 – 3, 5 - 2,5 – 4,5
Estes dados são exemplos de dados brutos.
2) ROL – É o arranjo dos dados brutos em ordem crescente ou decrescente. Assim:
0,0 – 0,0 – 1,0 – 1,5 – 2,0 – 2,0 – 2,5 – 3,5 – 3,5 – 4,0 – 4,0 – 4,0 – 4,5 – 4,5 – 4,5 – 5, 0 – 5,0 – 5,0
5,0 – 5,0 – 5,5 – 5,5 – 6,0 – 6,0 – 6,0 – 6,5 – 6,5 – 7,0 – 7,0 – 7,0 – 8,0 – 8,5. Constituem um rol.
3) Amplitude total ou “range” (R) – É a diferença entre o maior e o menos valor observado. Neste
exemplo: R = 8,5 – 0,0 = 8,5.
4) Freqüência Absoluta (Fi) – É o número de vezes que o elemento aparece na amostra ou o
número de elementos pertencente a uma classe. Neste exemplo: F(0,0)  2 ; F(5,0)  5 .
5) Distribuição de Freqüência – É o arranjo dos valores e suas respectivas freqüências. Neste
exemplo, temos:
Classes
Fi
0  1,5
3
1,5  3,0
4
3,0  4,5
5
4,5  6,0
10
6,0  7,5
8
Exemplo de distribuição de freqüência – variável contínua ( X representa a variável ,
= tamanho da amostra)
7,5  9,0
2
F  n e n
i
6) Número de Classes ( K ) – Não há uma fórmula exata para o cálculo do número de classes.
a) K  5 para n  25 e K  n , para n  25. Aproximar para o maior inteiro.
7
b) Fórmula de Sturges K  1  3, 22log n , onde n  tamanho da amostra.
7) Amplitude das Classes (h): h  R  K .
A amplitude das classes ( h ) deve ser aproximada para mais. Para o nosso exemplo notas de 32
estudantes de uma turma, temos:
R  8,5 ; K  32  5,7  K  6. Logo, h  8,5/ 6  1, 41. Portanto, h  1,5 .
8) Limites das Classes
Existem diversas maneiras de expressar os limites das classes. Por exemplo:
a) 12  14: compreende todos os valores entre 12 e 14;
b) 12  14: compreende todos os valores de 12 a 14, excluindo o 14;
c) 12  14: compreende todos os valores de 12 a 14, excluindo o 12;
d) limite aparente 12 – 14 ; limite real 11,5 – 13,5. Usaremos com mais freqüência o item b.
9) Ponto médio das classes ( xi ) – É a média aritmética entre o limite superior e o limite inferior da
classe. Assim. Se a classe por 4,5  6,0 , teremos:
xi 
6, 0  4,5
 5, 25 , como ponto médio da classe.
2
10) Freqüência absoluta acumulada ( Fac ) – É a soma das freqüências dos valores inferiores ou
igual ao valor dado. Exemplo:
Xi
Fi
Fac
21
22
23
24
25
26
3
2
2
1
4
3
15
3
5
7
8
12
15

11) Freqüência relativa ( f i ) – A freqüência relativa de um valor é dada por f i 
Fi
, ou seja, é a
n
porcentagem daquele valor na amostra.
8
Exemplo:
Xi
Fi
fi
21
22
23
24
25
26
3
2
2
1
4
3
15
3/15 = 1/5
2/15
2/15
1/15
4/15
3/15 = 1/5
1

Observe que
f
i
 1.
i
12) HISTOGRAMAS E POLÍGONOS DE FREQÜÊNCIA
Histograma e polígonos de freqüências são duas representações gráficas de distribuições de
freqüências.
i) Um histograma ou histograma de freqüência consiste em um conjunto de retângulos que tem:
a) as bases sobre o eixo horizontal (eixo dos X) com centro no ponto médio a as larguras
iguais ás amplitudes dos intervalos das classes ;
b) as áreas proporcionais às freqüências
ii) Um polígono de freqüência é um gráfico de linha em que as freqüências são locadas sobre
perpendiculares levantadas nos pontos médios. Pode-se também obtê-los, ligando-se os pontos
médios dos topos dos retângulos de um histograma.
Exemplo:
IDADE DOS PROFESSORES DA COEEL
IDADE
Fi
25  30
2
30  35
2
35  40
1
40  45
4

9
9
MEDIDAS DE POSIÇÕES
Tais medidas nos permitem orientarmos quanto à posição da distribuição no eixo do x,
possibilitando comparações de séries de dados entre si. São também chamadas de medidas de
tendência central. Vários tipos de médias podem ser definidos, sendo as mais comuns a média
aritmética, ou simplesmente média, a mediana, a moda, a média harmônica. Cada uma delas
apresenta vantagem e desvantagem, dependendo dos dados e dos fins desejados.
1. MÉDIA ARITMÉTICA
A média aritmética, ou média, de um conjunto de n números X1 , X2 ,..., Xn é representada
por X e é definida por:
n
X  X2 
X 1
n
Xn

X
i 1
i
ou X 
n
X
n
Exemplo: A média aritmética dos números 8, 3, 5, 12, 10 é:
8  3  5  12  10
 7, 6
5
, X n ocorrem com as freqüências f1 , f 2 ,
X
Se os números X1 , X 2 ,
média aritmética será:
, f n vezes, respectivamente , a
n
f X  f X   fn X n 
X 1 1 2 2
 i 1n
f1  f 2   f n
fi X i
f
i 1
i

 fX   fX
n
f
Exemplo: Se 5, 8, 6, 2 ocorrerem com as freqüências 3, 2, 4 e 1, respectivamente, a média
aritmética será
X
(3)(5)  (2)(8)  (4)(6)  (1)(2) 15  16  24  2

 5, 7
3  2  4 1
10
10
MÉDIA GERAL (OU PONDERADA)
Às vezes, associam-se os números X1 , X 2 , , X n a certos fatores de ponderação ou pesos
n1 , n2 , , nk , que dependem do significado ou importância atribuídas aos números. Nesse caso
X
n1 X 1  n2 X 2   nk X k  nX

n1  n2   nk
n
Exemplo: Se o exame final, em um curso, tem peso 3 e as provas correntes peso 1, e um estudante
tem grau 85 neste exame e 70 e 90 nas provas, seu médio é:
grau
X
(1)(70)  (1)(90)  (3)(85) 415

 83 .
11 3
5
MÉDIA GEOMÉTRICA
A média geométrica Mg de um conjunto de n números x1 , x2 ,
, xn de valores de X,
associados às freqüências absolutas F1 , F2 , Fn , respectivamente, é a raiz de ordem n do produto
desses números elevados as suas respectivas freqüências absolutas,
Mg  n x1F1  x2F2 
Em particular, se F1  F2 
 xnFn
 Fn  1 , temos
Mg  n x1  x2 
 xn
Na prática, Mg é calculado por meio de logaritmos.
log Mg 
F1 log x1  F2 log x2 
n
 Fn log xn
.
Exemplo 1: Determinar: (a) a média geométrica; (b) a média aritmética dos números 3, 5, 6, 6, 7,
10, 12. Admita-se que os números sejam exatos.
Solução:
a)
log Mg 
(log 3  log 5  log 6  log 6  log 7  log10  log12)
 0,8081
7
Mg  10 0,8081  6, 43
Mg  7 3  5  6  6  7 10 12  7 453600  6, 43
ou
b)
X
(3  5  6  6  7  10  12) 49

7
7
7
11
Observe que a média geométrica de um conjunto de números positivos desiguais é menos do que a
média aritmética.
MÉDIA HARMÔNICA
Sejam x1 , x2 , , xn , valores de X, associados às freqüências absolutas F1 , F2 ,
respectivamente. A média harmônica de X é definida por:
Mh 
Em particular, se F1  F2 
n
F1 F2
 
x1 x2

Fn
xn

Fn
n
Fi

i 1 xi
n
 Fn  1 , temos
Mh 
n
n
1
x
i 1
i
Exemplo: Calcular a média harmônica para 3, 5, 7
Mh 
3
3
3 105 315



 4, 44
1 1 1 35  21  15
71
71
 
3 5 7
105
MEDIANA
Colocados em ordem crescente (rol), mediana ( x ) é o valor que divide a amostra, ou
população, em duas partes iguais.
Cálculo da mediana – variável discreta.
A mediana de um conjunto de números, organizados em ordem de grandeza (um rol), é o
valor central ou a média aritmética dos dois valores centrais.
n
 40 elemento que é 6.
2
1
Exemplo 2: O conjunto dos números 5, 5, 7, 9, 11, 12, 15, 18 tem mediana (9  11)  10 .
2
Exemplo 1: O conjunto dos números 3, 4, 5, 6, 8, 8, 8, 10 tem mediana:
Cálculo da mediana – variável contínua.
Para os dados agrupados, a mediana, obtida por interpolação, é dada pela fórmula:
x  LMd
n
 2  f

FMd



 
h 
 



12
LMd  limite inferior da classe mediana (isto é, da classe que contém a mediana)
n  tamanho da amostra ou número de elementos
f
em que:
 soma de todas as freqüências das classes inferiores à mediana
FMd  freqüência da classe mediana
h  amplitude do intervalo da classe mediana.
Exemplo: Dada a distribuição amostral abaixo, calcular a mediana.
Classes
13
35
57
79
9  11
11  13
Fi
3
5
8
6
4
3
Solução: 10 passo – calcula-se
n
29  1
. Neste caso n  29 , temos
 150 . 20 passo: Identifica-se
2
2
0
a classe Md pela Fac, neste caso a classe mediana é a 3 ( 5  7 ). Aplica-se a fórmula
x  LMd
n
 2  f

FMd



  29  
 
 13 
h 
 2
 2  8  2 
   5  
   5   2   5  13  53  x  6, 63 .
8
8
8
8







QUARTIS
Os quartis dividem o conjunto de dados em quatro partes iguais. Logo
Q1 = 10 quartil, deixa 25 % dos elementos.
Q2 = 20 quartil, coincide com a mediana, deixa 50% dos elementos
Q3 = 30 quartil, deixa 75 % dos elementos.
Fórmulas para determinar os quartis Q1 e Q3 :
n
  f
4
Q1  LQ1  
FQ1

h

e
 3n
 
4
Q3  LQ3  
FQ3

f h

13
DECIS
São os valores que dividem a série em 10 partes iguais.
As fórmulas para calcular os decis são análogas aquelas para calcular os qurtis.
 jn


10

D j  LD j 
FD j

f h

em que:
LD j  limite inferior da classe D j , j  1, 2,3, 4,5, 6, 7,8,9.
n  tamanho da amostra
h  amplitude da classe D j
FD j  freqüência da classe D j
f
 soma das freqüências anteriores à classe D j .
PERCENTIS
São as medidas que dividem a amostra em 100 partes iguais.
O cálculo de um percentil é dado por:
 jn


100

Pj  PD j 
FPj

f h

em que:
PD j  limite inferior da classe Pj , j  1, 2,3, 4,5,
n  tamanho da amostra
,99
h  amplitude da classe Pj
FPj  freqüência da classe Pj
f
 soma das freqüências anteriores à classe Pj .
14
MODA
A moda de um conjunto de números é o valor que ocorre com maior freqüência, ou seja, é o valor
mais comum. A moda pode não existir e, mesmo que exista, pode não ser única.
Exemplo: O conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tem moda 9.
Exemplo: O conjunto 3, 5, 8, 10, 12, 15, 16 não tem moda.
Exemplo: O conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tem duas modas, 4 e 7, e é denominada bimodal.
Uma distribuição que tem apenas uma única moda é denominada unimodal.
Para uma distribuição de freqüência ou histograma a moda pode ser obtida por meio da fórmula:
Mo  L 
1
h
1   2
Fórmula de Czuber
L  limite inferior da classe modal
em que:
1  diferença entre a freqüência da classe modal e a imediatamente anterior
 2  diferença entre a freqüência da classe modal e a imediatamente posterior
h  amplitude da classe.
A moda é aproximadamente a diferença entre o triplo da mediana e o dobro da média. È muitas
vezes usada com boa aproximação quando a distribuição apresenta razoável simetria em relação à
média.
Mo  3x  2 x .
Fórmula de Pearson
Atenção: Exercícios – Série IV (Pg. 137).
MEDIDAS DE DISPERSÃO
Fenômenos que envolvem análises estatísticas caracterizam-se por suas semelhanças e
variabilidades (Toledo 1985). As medidas de dispersão auxiliam as medidas de tendência central a
descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou não, próximos uns
dos outros.
Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos seus
elementos. Existe ausência de dispersão e a medida de dispersão é igual a zero. Por outro lado,
aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande, a média
não será uma medida de tendência central representativa.
15
Faz-se necessário, portanto, ao menos uma medida de tendência central e uma medida de dispersão
para descrever um conjunto de dados.
As cinco medidas de dispersão que serão definidas a seguir são: amplitude total, desvio médio,
variância, desvio padrão e coeficiente de variação.
AMPLITUDE TOTAL
A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado.
A medida de dispersão não levar em consideração os valores intermediários perdendo a informação
de como os dados estão distribuídos e/ou concentrados.
R  xmáx  xmín
Exemplo: Para a série 12, 14, 22, 24, 27, 35, 41.
R  41 12  29.
DESVIO MÉDIO
A diferença entre cada valor observado e a média é denominado desvio e é dado por ( xi  µ) se o
conjunto de dados é populacional, ou por ( xi  x ) se os dados são amostrais.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em
relação a média, o resultado é igual a zero (propriedade da média). Isto significa que esta medida
não mede a variabilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da
diferença, considerando-as em módulo e a média destas diferenças em módulo é denominada desvio
médio:
dm 
1 N
 xi  
N i 1
ou d m 
1 n
 xi  x
n i 1
para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados
segundo uma distribuição de freqüência, tem-se:
dm 
1 N
 xi   Fi
N i 1
ou dm 
1 n
 xi  x Fi
n i 1
VARIÂNCIA
A variância que é definida por:
2 
1 N
( xi   )2

N i 1
ou S 2 
1 n
( xi  x ) 2

n  1 i 1
16
se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados
segundo uma distribuição de freqüência, tem-se:
2 
1 N
( xi   )2 Fi

N i 1
ou S 2 
1 n
( xi  x )2 Fi .

n  1 i 1
DESVIO-PADRÃO
Ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o que
dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz quadrada da variância,
definindo-se, assim, o desvio padrão:
N
n
 ( xi   )2

i 1
N
ou
 (x  x )
S
i 1
2
i
n 1
se os dados são populacionais ou amostrais e, se estiverem em distribuição de freqüências:
N

n
 ( xi   )2 Fi
i 1
N
ou
 (x  x )
S
i 1
i
n 1
2
Fi
.
Atenção: Se duas populações apresentam a mesma média, mas os desvios padrão não são iguais,
isto não significa que as populações têm o mesmo comportamento.
COEFICIENTE DE VARIAÇÃO
O coeficiente de variação é uma medida de dispersão relativa definida como a razão entre o desvio
padrão e a média:
CV 

100

ou
populacional
CV 
S
 100
x
amostral
Alguns analistas consideram:
Baixa dispersão: CV  15%
Média dispersão: 15%  CV  30%
Alta dispersão: CV  30%
17
A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados e,
conseqüentemente, se a média é uma boa medida para representar estes dados. É utilizado, também,
para comparar conjuntos com unidades de medidas distintas.
Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média está
próxima de zero. Uma média muito próxima de zero pode inflacionar o CV.
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica heterogeneidade dos
dados. Quanto maior for este valor, menos representativa será a média. Neste caso, opta-se pela
mediana ou moda, não existindo uma regra prática para a escolha de uma destas medidas. O
pesquisador, com sua experiência, é que deverá decidir por uma ou outra. Por outro lado, quanto
mais próximo de zero, mais homogêneo é o conjunto de dados e mais representativa será sua média.
MEDIDAS DE ASSIMETRIA
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma
distribuição de freqüências e/ou um histograma, busca-se, também, identificar visualmente, a forma
da distribuição dos dados que é ou não confirmada pelo coeficiente de Assimetria de Pearson (AS)
definido como:
AS 
  M0

ou
AS 
populacional
x  M0
S
amostral
Classificação da distribuição:
Simétrica: média ( x)  mediana ( x)  moda (Mo) ou
AS 0
Assimétrica positiva: média ( x)  mediana ( x)  moda (Mo) ou
AS 0 . O lado mais longo
do polígono de freqüência (cauda da distribuição) está à direita do centro.
Assimétrica negativa: média ( x)  mediana ( x)  moda (Mo) ou
AS 0 . O lado mais longo
do polígono de freqüência (cauda da distribuição) está à esquerda do centro.
18
Distribuição simétrica
Distribuição assimétrica positiva
Distribuição assimétrica negativa
19
MEDIDAS DE CURTOSE
A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta
distribuição. É definido como:
K
Q3  Q1
2( P90  P10 )
 Q3 - 30 quartil

0
 Q - 1 quartil
em que  3 0
 P90 - 90 percentil
 P10 - 100 percentil
A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização
da dispersão em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores
de um conjunto de dados em relação às medidas de tendência central em uma distribuição de
freqüências. Uma distribuição é classificada quanto ao grau de achatamento como:
Leptocúrtica: quando a distribuição apresenta uma curva de freqüência bastante fechada, com os
dados fortemente concentrados em torno de seu centro, K < 0,263.
Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, K= 0,263.
Platicúrtica: quando a distribuição apresenta uma curva de freqüência mais aberta, com os dados
fracamente concentrados em torno de seu centro, K > 0,263.
Classificação da distribuição quanto à curtose.
20
Download

Parte 5 - physika