Estatística Descritiva
Bioestatística
Dep. Biologia
Universidade dos Açores
www.uac.pt
2002 © Luís Silva
1
Distribuições de frequência
Distribuição de Frequências
(Dados Nominais)
Tabela. Frequências absolutas e relativas
Fuma
Sim
Não
Masculino
Fa
Fr
14
73,7%
5
26,3%
19
Feminino
Fa
Fr
19
65,5%
10
34,5%
29
Uma distribuição de frequências contabiliza o número de ocorrências para
cada valor tomado pela variável (frequência absoluta).
Quando em percentagem (frequências relativas), permite comparar amostras
de diferentes dimensões.
2
Distribuições de frequência
Gráfico de sectores
(Dados Nominais)
Gráfico de barras
(Dados Nominais)
Cor dos Cabelos
Número de lagoas (%)
2%
7%
preto
castanho
91%
louro
90
80
70
60
50
40
30
20
10
0
Peixes
Rã
Tritão
Aves
Vertebrados
Os dados em escala nominal podem ser resumidos em tabelas de frequências
relativas ou absolutas, ou ainda em gráficos de sectores ou de barras. As barras
estão separadas, evidenciando a natureza qualitativa dos dados.
3
Distribuições de frequência
Gráfico de Barras
(Dados Nominais)
70,0%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
Alunas
0,0%
Alunos
Biologia
Biol/ Geo
4
Nº de alunos
Distribuições de frequência
Gráfico de Barras
(Dados Ordinais)
25
20
15
10
Os
5
dados
em
escala
ordinal
m tºgrd.
grande
algum
nenhum
pouco
podem ser resumidos em tabelas
0
ou em gráficos de sectores ou de
Interesse pelo Ambiente
barras.
Interesse pelo ambiente -Alunos
Quando o número de valores
nada
que a variável pode assumir é
pouco
elevado, não é aconselhável a
utilização de gráficos e sectores,
5%
0%
algum
0%
bastante
37%
muito
pois perdem legibilidade
58%
5
Distribuições de frequência
Escala de Rácios: Dados Discretos
(Plantas de Rumex sp. em pastagens, amostras de 1 metro
quadrado)
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Número de plantas por amostra
Os dados discretos na escala de rácios devem ser representados por gráficos de
barras. As barras estão separadas, evidenciando a natureza discreta,
descontínua dos dados.
6
Distribuições de frequência
Dados Contínuos
Os dados contínuos na escala de rácios devem ser representados em histogramas.
Os dados são agrupados em classes com uma amplitude pré-definida. Nos
histogramas as barras referentes às várias classes encontra-se justapostas, dando
a ideia de continuidade. Exemplo: comprimentos de tritão de crista.
De (=)
11,000
12,000
13,000
Até (<) Freq. Abs. Freq. Rel.
12,000
0
0,000
13,000
4
0,050
14,000
11
0,138
14,000
15,000
16,000
17,000
15,000
16,000
17,000
18,000
Total
43
14
8
0
80
0,538
0,175
0,100
0,000
1,000
Percentagem de fêmeas
Distribuição de frequências para as fêmeas
60
50
40
30
20
10
0
11
12
13
14
15
16
17
18
Comprimento total (cm)
7
Distribuições de frequência
Dados Contínuos
12
12
10
10
8
8
n.º alunas
n.º alunos
(Pesos de uma turma de alunos de Bioestatística)
Histograma
6
4
6
4
2
2
0
0
45
55
65
75
85
Peso (Kg)
95
105 115
45
Alunos
55
65
75
85
95
105
115
Peso (Kg)
A utilização de frequências absolutas pode dificultar a comparação dos
gráficos, quando as amostras a comparar (neste caso alunos e alunas) não têm
a mesma dimensão.
Alunas
8
Distribuições de frequência
Freq. relativa
Dados Contínuos
(Envergadura de uma turma de alunos de Bioestatística)
Os dados contínuos também podem ser representados por
Polígonos de Frequências. Os pontos médios das classes são unidos
por segmentos de recta. Permitem uma representação simultânea
de duas amostras, que não é tão legível no caso dos histogramas
60%
50%
40%
30%
20%
10%
0%
135
145
155
165
Alunos
0,0%
Alunas
3,4%
175
185
0,0%
5,3%
5,3%
3,4%
20,7% 55,2% 13,8% 3,4%
42,1% 42,1%
195
205
215
0,0%
0,0%
5,3%
0,0%
0,0%
0,0%
Envergadura (cm)
9
Frequências acumuladas
Nº de alunos (%)
As frequências acumuladas (absolutas ou relativas) são calculadas por adição
sucessiva dos termos de uma distribuição de frequências. Indicam a frequência
das observações com valores iguais ou inferiores a xi.
Exemplo: percentagem de alunos com até 170 cm de estatura.
100
80
60
40
20
0
145
155
165
175
185
195
Estatura (cm)
10
Escala de intervalos
Distribuições circulares. Estes dados sofrem um transformação em graus. Calculase o ângulo médio e a variância angular. Depois, transformam-se esses dados na
unidade inicial. Por exemplo, transformam-se horas em graus (24h = 360º),
realizam-se os cálculos e, no final, transforma-se o ângulo médio e o desvio padrão
angular em horas. Apresentam-se em histogramas circulares.
Hora de levantar
Hora de deitar
1
23
24
2
3
22
4
21
5
25
20
6
15
5
19
7
18
8
17
9
16
10
15
14
12
13
11
11
Medidas de tendência central
As medidas de tendência central ou de posição
indicam o centro de gravidade da distribuição, a
posição da distribuição ao longo do eixo, ou um
ponto de acumulação de dados.
12
Medidas de tendência central
Média Aritmética
Média Aritmética
Mais utilizada
O caso de dados repetidos
Fórmula para o parâmetro
N
S (xi)
i=1
m = —————
N
Fórmula para o estimador
n
S (xi)
_
i=1
x = —————
n
k
S fa(xi) . xi
i=1
m = —————
N
No caso da
média,
a
fórmula para
o parâmetro
(m) e para o
_
estimador (x)
é a mesma.
k
m = S fr(xi) . xi
i=1
Onde k é o número de valores
diferentes.
13
Medidas de tendência central
Moda
O valor mais frequente num conjunto de dados.
Pode haver mais do que uma moda - distribuições
multimodais.
Definição mais geral: um ponto de relativa concentração de
dados.
Expressa menos informação do que a média.
Aplica-se a todos os tipos de dados.
14
Medidas de tendência central
Mediana
O valor central de um conjunto ordenado de dados - existem 50% das
observações abaixo e acima da mediana.
Exemplo
123345556
M = x(n+1)/2 = x 5 = 4
Exemplo
1233344456
M = x(n+1)/2 = x 5,5 = (3+4)/2=3,5
Expressa menos informação do que a média.
Não é tão afectada pelos valores extremos
Pode-se usar para dados em escala ordinal ou em escala de rácios.
15
Medidas de tendência central
Mediana
Quando há dados com o mesmo valor, pode ser impossível aplicar esta
definição de mediana.
Exemplo
12333444566
M = x(n+1)/2 = x 6 = 4, mas acima do 4 há apenas três observações.
Assim, uma definição mais geral é considerar a mediana como o ponto da
distribuição, abaixo ou acima do qual se encontram, no máximo, 50% das
observações.
16
Medidas de tendência central
Outros quantis
Quartis: divisão da distribuição em quatro partes.
Q1= X (n+1)/4
Octis: divisão da distribuição em oito partes.
Q1= X (n+1)/8
Percentis: divisão da distribuição em cem partes.
LD50, LC50: dose ou concentração letal para 50% da amostra.
GT 25, GT50, GT75: tempo de germinação para 25, 50 ou 75% da
amostra de sementes.
17
Medidas de dispersão
As medidas de dispersão fornecem informação acerca da variabilidade
dos dados, indicando se existe uma concentração dos dados em volta da
média ou se, pelo contrário, os dados se distribuem ao longo de uma
curva relativamente ampla, com valores extremos bem distanciados da
média.
18
Medidas de dispersão
Amplitude = Máximo - Mínimo
É uma medida algo grosseira que leva, em geral, a uma subestimação da amplitude
na população.
É utilizada em Taxonomia.
Aplica-se aos dados nas escalas ordinal, por intervalos e de rácios.
Surgiu a ideia de calcular a soma dos desvios das observações em relação à média
Desvio Médio =
N
S |xi-m|
i=1
= —————
N
Pouco utilizado
19
Medidas de dispersão
Surge a ideia de elevar os desvios ao quadrado:
Variância
População - parâmetro - s2
N
S (xi - m )2
i=1
s2 = —————
N
Amostra - estimador - s2
n _
S (xi - x )2
i=1
s2 = —————
n-1
20
Medidas de dispersão
Fórmula para cálculo rápido:
n
[ S xi ]2
i=n
S (xi 2) - ————
n
————————
n-1
Soma de quadrados (SS)
n
[ S xi ]2
i=n
S(xi 2) - ————
n
Graus de liberdade = n-1
Se há dados repetidos:
n
[ S fa(xi).xi ]2
i=n
S fa(xi).xi 2 - ————
n
———————————
n-1
Na variância a fórmula para calcular o
parâmetro (s2) é diferente da utilizada
para o cálculo do estimador (s2).
21
Medidas de dispersão
Desvio padrão s ou s
Raiz quadrada positiva da variância.
Tem a vantagem de se encontrar nas mesmas unidades da média, enquanto
que a variância tem as unidades da média ao quadrado.
Coeficiente de variação
Medida de variabilidade ou dispersão relativa.
_
CV = (s / x) . 100
Permite comparar espécies diferentes quanto à variabilidade.
22
Download

Estatística Descritiva