Medidas de tendência central: ...
NOTAS DE EPIDEMIOLOGIA E ESTATÍSTICA
Duquia RP, Bastos JLD
Medidas de tendência central:
onde a maior parte dos indivíduos
se encontra?
Measures of central tendency: where are
the bulk of people?
RODRIGO PEREIRA DUQUIA1
JOÃO LUIZ DORNELLES BASTOS2
1 MEDIDAS DE TENDÊNCIA CENTRAL
Conforme mencionado na primeira edição
das Notas de Epidemiologia e Estatística desta
revista, existem várias formas de se classificar as
informações coletadas em um estudo. Inicialmente, podemos dividir as variáveis em dois grandes grupos: o das variáveis quantitativas e o das
qualitativas.1-3 Quando trabalhamos com variáveis quantitativas, muitas vezes o número de
observações é grande e necessitamos de parâmetros para descrever de forma sucinta o comportamento desse conjunto de informações. Utilizamos as medidas de tendência central (MTC) para
expressar, através de um único número, em torno de que valor tende a se concentrar um conjunto de dados numéricos.1 Por exemplo, um pesquisador interessado em estudar a creatinina,
substância dosada pelo sangue que avalia a função renal de um indivíduo, em um grupo de idosos de um asilo, afere a creatinina de 20 idosos.
Posteriormente, ele registra em uma tabela (Tabela 1) a creatinina de cada indivíduo, por ordem
de entrevista, a fim de estudar o valor desse
metabólito nesse grupo de pessoas. Da forma
como está apresentado na Tabela 1, podemos
observar especificamente a creatinina de cada
idoso. Entretanto, qual o valor numérico que po1
2
deria representar esses 20 indivíduos? Dito de
outra forma, próximo de que valor encontra-se a
maioria das medidas de creatinina dos idosos
investigados?
TABELA 1 – Descrição da creatinina sérica de 20 indivíduos idosos.
Número do professor
Peso (kg)
1
2
3
4
5
6
7
8
9
10
0,6
0,8
1,0
0,8
0,9
1,0
0,7
0,5
1,1
0,5
11
12
13
14
15
16
17
18
19
20
0,8
1,1
0,8
0,9
0,8
0,9
0,7
0,6
0,8
0,7
Dermatologista. Mestre em Epidemiologia pela Universidade Federal de Pelotas.
Odontólogo. Mestre em Epidemiologia pela Universidade Federal de Pelotas.
190
Scientia Medica, Porto Alegre: PUCRS, v. 16, n. 4, out./dez. 2006
Medidas de tendência central: ...
Duquia RP, Bastos JLD
Algumas pessoas responderiam a esta questão citando a média da creatinina nesses 20 idosos. No entanto, conforme veremos posteriormente, nem sempre a média é a medida mais
adequada. Para responder a este questionamento, freqüentemente utilizamos as MTC, que
têm como objetivo descrever de forma sucinta
um conjunto de dados. Existem três principais
medidas de tendência central. São elas: média,
mediana e moda.
1.1 Média
Esta é a MTC mais utilizada e melhor compreendida. O cálculo da média (X) [leia-se X barra] é feito pelo somatório [representado aqui pela
letra grega sigma (Σ)] dos valores de todas as observações (indivíduos), dividido pelo número de
observações (n), conforme a fórmula abaixo.1-4
X =
∑X
n
Utilizando os dados da Tabela 1 para calcular a média de creatinina do grupo de 20 idosos,
verificamos que seu valor equivale a 0,8.
X=
0,6+0,8+1,0+0,8+0,9+1,0+0,7+0,5+1,1+0,5+0,8+1,1+0,8+0,9+0,8+0,9+0,7+0,6+0,8+0,7
= 0,8
20
0
1000
A
mediana
0
2 .0e-04
2.0e-04
Density
4.0e-04
De nsity
4 .0e-04 6 .0e-04
6.0e-04
8 .0e-04
.001
8.0e-04
Ao representarmos de forma gráfica (histograma) um conjunto de dados quantitativos contínuos ou numéricos, nós podemos ter duas for-
mas de distribuição: simétrica (também chamada Normal ou Gaussiana) ou assimétrica (NãoGaussiana) (Figura 1).1-3 Em uma distribuição
perfeitamente simétrica, a maioria dos dados se
encontra próximo de um determinado valor, que
pode ser expresso pela média, ou mediana, uma
vez que nesse tipo de distribuição ambas as MTC
são idênticas.1-3 Os demais dados se distribuem
igualmente afastando-se dos valores centrais,
conforme demonstrado no gráfico A da Figura 1.
Nesta figura, representamos de forma gráfica o peso de mil sacos de arroz de um determinado depósito. A média e a mediana de peso desses sacos é de 3.200g. Como podemos observar,
a maioria apresenta um peso igual ou muito próximo de 3.200g e os sacos mais pesados ou mais
leves que 3.200g se distribuem igualmente para
ambos os lados da média, fazendo com que a representação gráfica desse conjunto de dados seja
simétrica e lembre o formato de um sino.
No gráfico B da Figura 1 adicionamos 15 sacos de arroz de 10 kg aos mil sacos já existentes.
Como resultado, a forma gráfica altera-se e não
mais apresenta uma distribuição perfeitamente
simétrica (normal) como aquela do gráfico A. No
gráfico B, a média de peso dos sacos passa a ser
3.550g, enquanto que a mediana permanece sendo 3.200g. Dessa forma, verificamos que em distribuições assimétricas não podemos utilizar o
valor da média. Devemos, nestas situações, utilizar a mediana.
200 0
3 000
Peso dos sacos de arro z
4000
0
5 00 0
média e mediana
B
2000
4000
6000
Peso dos sacos de arroz
8000
10000
média
Figura 1 – À esquerda (gráfico A) temos a representação uma distribuição normal e à direita (gráfico B) a mesma representação após a inclusão de 15 sacos de arroz com 10 kg.
Scientia Medica, Porto Alegre: PUCRS, v. 16, n. 4, out./dez. 2006
191
Medidas de tendência central: ...
Duquia RP, Bastos JLD
Vantagens da média
Vantagens da mediana
1. Seu cálculo leva em consideração os valores de todos indivíduos estudados;
2. É utilizada em boa parte dos testes estatísticos para calcular diferenças em um estudo; e
3. É mais facilmente compreendida pelos leitores e pesquisadores.
1. Não sofre influência de valores extremos; e
2. A mediana é utilizada especialmente para
distribuições assimétricas, mas pode ser
utilizada para dados com distribuição simétrica também.
Desvantagens da média
1. É influenciada por valores extremos (conforme mencionado anteriormente);
2. Só deve ser utilizada quando a distribuição dos dados for simétrica (normal ou
Gaussiana)
1.2 Mediana
Esta é a segunda MTC mais utilizada. Colocando os dados em ordem crescente ou decrescente, a mediana corresponde ao valor que divide o conjunto de informações em duas partes
iguais. Para seu cálculo, devemos levar em consideração duas situações: se o número de observações é ímpar ou par.2
Quando o número de observações for ímpar,
devemos colocar os valores em ordem crescente ou
decrescente para obter a mediana. Posteriormente,
identificamos o valor que divide os dados em duas
partes iguais,1-3 tal como no Exemplo 1.
Exemplo 1
Número ímpar de observações
0,5 0,5 0,6 0,6 0,7 0,7 0,7 0,8 0,8 0,8 0,8 0,8 0,8 0,8 0,9 0,9 0,9 1,0 1,0 1,1 1,1
10 observações
10 observações
Mediana = 0,8
Quando o número de observações for par,
para calcular a mediana devemos também colocar os valores em ordem crescente ou decrescente e, após, identificar os dois valores centrais.
Somamos esses dois valores centrais e dividimos
por dois, obtendo assim o valor da mediana,1-3
conforme o Exemplo 2 abaixo.
Exemplo 2
Número par de observações
5 0,5 0,6 0,6 0,7 0,7 0,7 0,7 0,7 0,7 0,8 0,9 0,9 0,9 0,9 0,9 1,0 1,0 1,1
10 observações
10 observações
Mediana = 0,7 + 0,8 = 0,15/2 = 0,75
A mediana, neste caso, é de 0,75
192
Desvantagens da mediana
1. Suas propriedades não são bem compreendidas por muitas pessoas; e
2. Não é levada em consideração na maior
parte dos testes estatísticos.
Quando devemos utilizar média ou mediana?
A tendência de muitos pesquisadores é de utilizar a média, pois o seu cálculo é facilmente realizado e a sua interpretação compreendida pela
maioria dos leitores. Mas esses não devem ser os
únicos critérios para a escolha da medida de tendência central. Devemos lembrar que o termo
média nem sempre corresponde ao número próximo do qual se encontra a maioria dos valores
de um conjunto de dados. Por exemplo, quando
um pesquisador nos fornece a informação de que
a média do número de dias de freqüência à praia
de uma determinada cidade foi 12 no último verão, nós logo interpretamos que a maioria dos
indivíduos dessa cidade foi 12 vezes à praia no
verão em questão.
Será que essa interpretação está correta? Na
Figura 1 representamos de forma gráfica, por
meio de um histograma, o número de dias freqüentados na praia no verão de 2005 pelos adultos da cidade de Pelotas.5 Nesse estudo, foi perguntado a 3.136 adultos da cidade de Pelotas o
número de dias que os mesmos foram à praia no
verão de 2005.5 Conforme demonstrado na Figura 2, gráfico A, a maior parte das pessoas não freqüentou a praia ou o fez por apenas um dia, enquanto pouquíssimos indivíduos foram à praia
em um grande número de ocasiões. Essa heterogeneidade na freqüência à praia nos fornece uma
distribuição dos dados denominada “assimétrica” (não-gaussiana). Isto significa que a maioria dos indivíduos foi poucos dias à praia, enquanto muito poucos freqüentaram-na quase que
diariamente no mesmo período.
Ao contrário do que ocorre em distribuições
Gaussianas, em distribuições assimétricas, a média e a mediana se distanciam, fornecendo valores diferentes.1-3 Nestes casos, a média não representa o ponto onde se encontra a maioria dos valores de um conjunto de dados.
Scientia Medica, Porto Alegre: PUCRS, v. 16, n. 4, out./dez. 2006
60
60
Porcentagem
40
Porcentag em
40
20
Duquia RP, Bastos JLD
20
Medidas de tendência central: ...
0
0
Média= 12 dias
0
A
50
Quantos dias foi a praia
100
0
B Mediana= 1 dia
50
Qu antos dias foi a praia
100
Figura 2 – (A) Representação do número de dias de exposição solar na praia. (B) Valores da média e mediana do número de
dias freqüentados na praia.
No gráfico B, apresentamos o mesmo gráfico
com os respectivos valores da média e da mediana do número de dias freqüentados na praia.
Como podemos observar, a distribuição dos dados é assimétrica e, portanto, os valores da média e da mediana se distanciam. Neste caso, a
média de dias de freqüência à praia foi 12, mas
esse valor não representa o ponto onde se encontra a maioria dos valores. O ponto que representa mais adequadamente o número de dias freqüentados na praia pela maioria dos indivíduos
é o valor 1. Este é o valor que divide esse conjunto de dados em duas partes iguais, ou seja, é a
mediana.
Dessa forma, nos casos em que a distribuição
dos dados for assimétrica, devemos utilizar como
medida de tendência central preferencialmente
a mediana, pois seu valor não será influenciado
por valores extremos de distribuições assimétricas.1-3 Sempre que utilizarmos a média como
MTC para distribuições assimétricas, seu valor
será influenciado pelos valores extremos do conjunto de dados, ou seja, os valores extremos de
uma distribuição assimétrica “puxarão” o valor
da média para perto deles.
1.3 Moda
Não foi ao acaso que deixamos essa medida
por último lugar. Sua utilização é pouco freqüente e serve apenas para demonstrar qual o valor é
o mais freqüente (que mais se repete) em um conjunto de dados.1,2 Por exemplo, na Tabela 2 demonstramos um conjunto de valores com a idaScientia Medica, Porto Alegre: PUCRS, v. 16, n. 4, out./dez. 2006
de em anos de alunos de uma classe de aula.
Como podemos notar, existem mais alunos com
7 anos de idade nessa turma. Desta forma, dizemos que a moda desse conjunto de dados é 7, pois
a maioria das crianças apresenta 7 anos de idade. Devemos lembrar que sempre que uma distribuição for perfeitamente simétrica, o valor da
moda também será igual ao da média e ao da
mediana. Outra observação a ser feita é que, algumas vezes, a distribuição de um conjunto de
dados pode não ter moda. Isto ocorre caso as observações sejam todas diferentes entre si nesse
conjunto de dados.
TABELA 2 – Lista de alunos com suas respectivas
idades.
Nome dos alunos
1. João
Idade em anos
7
2. Samuel
9
3. Rodrigo
7
4. Luciano
7
5. Gustavo
10
6. Luis Artur
11
7. Luiz Henrique
7
8. Gustavo
8
9. Paulo
9
10. Gerson
7
11. Julio
7
12. Lucio
12
13. Lucas
7
14. Marcelo
9
15. Mateus
7
193
Medidas de tendência central: ...
2 CONSIDERAÇÕES FINAIS
O conhecimento das propriedades das MTC
é fundamental para descrição, interpretação e
análise de dados em pesquisa.
Frente a um artigo, devemos sempre ter o cuidado de avaliar se as MTC foram bem aplicadas,
pois, caso contrário, todas as conclusões dos autores e, conseqüentemente, as nossas poderão
estar distorcidas. O mesmo se aplica para o tipo
de teste utilizado para realizar análises estatísticas, já que o pressuposto de muitos deles é que a
distribuição da variável de interesse (desfecho)
tenha distribuição simétrica (normal). Dessa forma, muitas vezes, observando a forma da distribuição dos dados, sabemos se um determinado
teste em um artigo foi corretamente utilizado e
se seus resultados são válidos.
194
Duquia RP, Bastos JLD
REFERÊNCIAS
1 Altman DG. Practical statistics for medical research.
London: Chapman & Hall; 1997.
2 Kirkwood BR, Sterne JAC. Essential medical statistics.
Oxford: Blackwell Science; 2003.
3 Massad E, Menezes RX, Silveira PSP, Ortega NRS. Métodos quantitativos em medicina. São Paulo: Manole;
2004.
4 Pereira MG. Epidemiologia: teoria e prática. Rio de Janeiro: Guanabara Koogan; 1995.
5 Duquia RP, Menezes AMB, Reichert FF, Almeida HL.
Prevalence and associated factors with sunscreen use
in Southern Brazil: A population-based study. J Am
Acad Dermatol. 2007: in press.
Endereço para correspondência:
JOÃO LUIZ DORNELLES BASTOS
Avenida do Antão, 353 – Morro da Cruz
CEP 88025-150, Florianópolis, SC, Brasil
Telefone: (48) 3028-1345
E-mail: [email protected]
Scientia Medica, Porto Alegre: PUCRS, v. 16, n. 4, out./dez. 2006
Download

Medidas de tendência central: onde a maior parte dos indivíduos se