Estatística Descritiva
SUMARIZANDO DADOS MENSURADOS

Medidas de tendência centra: média, mediana,
moda.

Separatrizes: quartis, decis percentis

Medidas de dispersão: variância, desvio padrão,
coeficiente de variação.
Média aritmética
N
X
 Xj  X
X 1  X 2  X 3  ...  Xn
.


j 1
N
N
N
Mediana
É o valor central ou a média aritmética dos dois
valores centrais.
Mediana 
N

   f 1 
c
L1   2
 fm ediana 




Em que:
L1 = limite inferior da classe mediana (isto é,
da classe que contém a mediana);
N = número de itens dos dados (isto é,
freqüência total);
(f)1 = soma de todas as freqüências das
classes inferiores à mediana;
fmediana = freqüência da classe mediana;
c = amplitude do intervalo da classe
mediana.
Moda
É o valor que ocorre com a maior freqüência, ou
seja, é o valor mais comum. A moda pode não
existir e, mesmo que exista, pode não ser única.
 1 
Moda  L1  
c.
 1  2 
Em que:
L1 = limite inferior da classe modal (isto é, a
que contém a moda);
1 = excesso da freqüência modal sobre a
da classe imediatamente inferior;
2 = excesso da freqüência modal sobre a da
classe imediatamente superior;
c = amplitude do intervalo da classe modal.
Quartis, decis e percentis
De maneira geral, os quartis,
decis e percentis e outros
valores obtidos mediante
subdivisões dos dados em
partes iguais são denominados
quantis.
Variância, desvio padrão


Xj

X

N
2
s
j 1
N
Para as distribuições normais
(a) 68,27% dos casos estão incluídos entre X
-s e X + s (isto é, um desvio padrão de
cada lado da média);
(b) 95,45% dos casos estão incluídos entre
X - 2s e X + 2s (isto é, dois desvios
padrões de cada lado da média);
(c) 99,73% dos casos estão incluídos entre X
- 3s e X + 3s (isto é, três desvios padrões
de cada lado da média).
Se a dipersão absoluta é o desvio padrão s e
média é a aritmética X, a dispersão relativa é
denominada coeficiente de variação ou de
dispersão.
s
Coeficient edeVariaçã o  V  .
X
A arte de representar dados
Mas por que usar gráficos?
Uma imagem vale mais que ...
 Ganho considerável de tempo para o
leitor
 A informação fica mais concisa
 Atrai mais a atenção

Com o quê estamos lidando?

Variáveis qualitativas ou quantitativas.
 Qualitativas
– são caracterizadas por estados, níveis
ou categorias
– ordenadas e não ordenadas
 Quantitativas
– níveis expressos numericamente
– discretas ou contínuas
Preparando os Gráficos
Diretrizes gerais, não regras
Preparando os gráficos

Requerer mínimo esforço do leitor
– Nível de esforço para ler e entender o
gráfico
– Ex: direct labeling vs. legend box
B
A
Tempo de
Resposta
Tempo de
Resposta
A
B
C
C
Número de usuários
Número de usuários
Preparando os gráficos (cont.)

Maximizar informação
– O gráfico deve ser auto-explicativo
– Eixos devem ser informativos

Usar práticas usualmente aceitas
– Exs: origem em (0,0); escala cresce da
esquerda pra direita; escalas lineares...
Preparando os gráficos (cont.)

Evitar ambigüidades
– Identificar todos os elementos do
gráfico(eixos, escala, origem, curvas
individuais...)

1
Minimizar tinta
Disponibilidade
0.1
Indisponibilidade
1
2
3
4
5
Dia da semana
1
2
3
4
5
Dia da semana
Preparando os gráficos (cont.)

Os eixos de coordenadas são mostrados e
rotulados?
 As escalas e divisões são mostradas em ambos
os eixos?
 O número de curvas é razoável?
 Todos os gráficos usam a mesma escala?
 As unidades de medida são indicadas?
 O gráfico usa as convenções de representação?
 Não existem curvas, símbolos, ou textos que
podem ser removidos sem afetar a informação?
Erros Comuns
Como falhar apresentando resultados
Erros comuns

Apresentar muitas alternativas num único
gráfico
 Apresentar muitas “imagens” num único
gráfico
 Informações “não interessantes”
 Selecionar variação de escala imprópria
Erros comuns (cont.)

Uso de símbolos ao invés de texto
(a)Símbolos
=1
(b)Palavras Chave
=3
R
1 job/seg
3 jobs/seg
Response
Time
=2
l
2 jobs/seg
Taxa de chegada
Erros comuns (cont.)

Usar gráficos de linha ao invés de
coluna
MIPS
8000 8100 8200 8300
Tipo da CPU
Levando Vantagem
“Jogando” com as imagens
Levando vantagem

Usando origens diferentes de (0,0)
para enfatizar diferenças
2610
MINE
5200
MINE
YOURS
YOURS
2600
0
Levando vantagem (cont.)

Usando duas curvas diferentes num
mesmo gráfico para enfatizar o
contraste
Vazão
Tempo de
Resposta
Número de Usuários
Levando vantagem (cont.)

Plotar quantidades aleatórias sem
indicar intervalos de confiança
(a) Com intervalo de confiança
(a) Sem intervalo de confiança
MINE
MINE
YOURS
YOURS
Levando vantagem (cont.)

Figuras modificadas em escala pela
altura
MINE
YOURS
Levando vantagem (cont.)

Escolha “errada” do tamanho das
células num histograma
12
18
10
15
8
Frequência
12
Frequência
6
9
4
6
2
3
0
[0,2]
[2,4]
[4,6]
[6,8] [8,10] [10,12]
Tempo de Resposta
0
[0,6]
[6,12]
Tempo de Resposta
Levando vantagem (cont.)

Usar escalas quebradas em gráficos
de coluna
12
12
11
10
Tempo de
Resposta 10
8
Tempo de
Resposta
6
9
4
2
0
A
B
C
Sistema
D
E
F
0
A
B
C
Sistema
D
E
F
Gráficos de Gantt

Usado para exibir a duração relativa de
qualquer número de condições booleanas.
 Cada condição é mostrada como um
conjunto de segmentos de reta
horizontais
 Os segmentos de reta são arranjados de
forma que a sobreposição das retas
representa a sobreposição das condições
Gráficos de Gantt (cont.)
60
CPU
20
Canal de I/O
30
Rede
0%
20%
20
10
40%
5
60%
15
80%
100%
Gráficos de Kiviat

Auxilia no reconhecimento de problemas
de performance
 Gráfico circular em que as métricas são
plotadas sobre retas radiais
 Parâmetros: 50% HB, 50% LB
 Devido a essa configuração, o gráfico
ideal é uma estrela!
Gráficos de Kiviat (cont.)
CPU only
busy
10%
CPU
busy
90%
CPU/Channel
overlap
80%
Channel only
busy
10%
CPU in
supervisor state
10%
CPU in
problem state
80%
CPU
wait
10%
Any Channel
busy
90%
O gráfico ideal
para um sistema
balanceado
Gráficos de Kiviat (cont.)
CPU only
busy
10%
CPU
busy
90%
CPU/Channel
overlap
80%
Channel only
busy
10%
CPU in
supervisor state
10%
CPU in
problem state
80%
CPU
wait
10%
Any Channel
busy
90%
Exemplo de um
sistema com
problemas de
balançeamento
Mas e se tudo isso não
funcionar para convencer os
decision makers?
Rejeitando uma análise





O problema precisa de mais análise
A carga do sistema precisa ser melhor
entendida
“Isso vai aumentar a complexidade e o
custo”
Isso vai violar o IEEE, ANSI, CCITT, ou
qualquer outro padrão
... ... ...
Download

Slides de Estatística Descritiva