Representação gráfica e tabular da distribuição dos dados e Medidas resumo MAIO/2010 Paula Strassmann PGS Medical Statistics Tópicos abordados na última aula Definição e classificação de variáveis; Codificação de dados; Armazenamento dos dados (Exemplo de banco de dados); Construção de tabelas de frequências (Variáveis qualitativas). Paula Strassmann MAIO/2010 PGS Medical Statistics Tópicos abordados nessa aula Construção e interpretação de gráficos para cada tipo de variável; Definição e Cálculo das medidas de posição: Média, Mediana, Quartis e Moda; Medidas de dispersão. Paula Strassmann MAIO/2010 PGS Medical Statistics Estatística descritiva - Definição Conjunto de técnicas que resumem e descrevem os dados simplificando as informações para torná-las mais rapidamente compreensíveis. Etapa inicial da análise dos dados Tabelas Gráficos Medidas resumo MAIO/2010 Paula Strassmann PGS Medical Statistics Representação gráfica para Variáveis qualitativas (categóricas) ou quantitativas discretas GRÁFICO DE BARRAS / COLUNAS: É utilizado para apresentar variáveis categóricas ou numéricas discretas. Em geral, no eixo das abscissas encontram-se as categorias e a altura das colunas correspondem às freqüências (simples ou relativas) das categorias. MAIO/2010 Paula Strassmann PGS Medical Statistics Exemplo de gráfico de colunas para variáveis quantitativas discretas: 14 13 12 Nº de filhos 1 2 3 4 Nº de funcionários casados 9 13 7 3 10 9 8 7 6 4 3 2 0 1 MAIO/2010 2 3 4 Paula Strassmann PGS Medical Statistics Exemplo de gráfico de colunas para variáveis qualitativas: Satisfação Indivíduos Insatisfeito 50 Pouco satisfeito 75 Muito satisfeito 120 MAIO/2010 140 120 100 80 60 40 20 0 120 75 50 Insatisfeito Pouco satisfeito Muito satisfeito Paula Strassmann PGS Medical Statistics Exemplo de gráfico de barras para variáveis qualitativas: Cidade Nº de casos SÃO PAULO São Paulo 52 OSASCO Osasco 20 GUARULHOS Guarulhos 17 CARAPICUIBA Carapicuiba 16 CAIEIRAS Caieiras 10 BARUERI Barueri 8 Cotia 8 Taboão da Serra 5 Santana de Parnaíba 4 Outros 3 52 20 17 16 10 8 8 COTIA TABOÃO DA SERRA SANTANA DE PARNAIBA OUTROS* 0 5 4 3 10 20 30 40 50 60 número de casos MAIO/2010 Paula Strassmann PGS Medical Statistics Cruzamentos: Variáveis categóricas x Variáveis categóricas Sexo \ Tabagismo Masculino Feminino Total Sim 175 (81%) 50 (83%) 225 (82%) Não 40 (19%) 10 (17%) 50 (18%) Total 215 (100%) 60 (100%) 275 (100%) 200 180 175 160 140 120 Sim Não 100 80 60 40 50 40 10 20 0 Masculino MAIO/2010 Feminino Paula Strassmann PGS Medical Statistics Cruzamentos: Variáveis categóricas x Variáveis categóricas (Continuação) Sexo \ Tabagismo Masculino Feminino Total 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% MAIO/2010 Sim 175 (81%) 50 (83%) 225 (82%) Não 40 (19%) 10 (17%) 50 (18%) Total 215 (100%) 60 (100%) 275 (100%) 83% 81% Sim Não 19% Masculino 17% Feminino Paula Strassmann PGS Medical Statistics Cruzamentos: Variáveis categóricas x Variáveis categóricas (Outro exemplo) Faixa etária \ Estado civil Até 30 anos 30 a 50 anos Mais de 50 anos Total 80% Solteiro 62 23 12 97 Casado (73%) (24%) (14%) (36%) 18 57 42 117 5 17 30 52 (6%) (18%) (36%) (20%) 85 97 84 266 (100%) (100%) (100%) (100%) 59% 60% 50% 50% 36% 40% 21% 20% 10% (21%) (59%) (50%) (44%) Total 73% 70% 30% Separado / viúvo 24% 18% 14% Solteiro Casado Separado / viúvo 6% 0% MAIO/2010 Até 30 anos 30 a 50 anos Mais de 50 anos Paula Strassmann PGS Medical Statistics Cruzamentos: Variáveis categóricas x Variáveis categóricas (Outro exemplo – Continuação) 120% 100% 80% 6% 18% 21% 36% 60% 59% 40% 50% 73% Separado / viúvo Casado Solteiro 20% 24% 14% 0% Até 30 anos MAIO/2010 30 a 50 anos Mais de 50 anos Paula Strassmann PGS Medical Statistics Representação gráfica para variáveis qualitativas (categóricas) GRÁFICO DE SETORES (PIZZA): Cada “fatia” corresponde à porcentagem de ocorrências em cada categoria de resposta da variável. É indicado para variáveis qualitativas (preferencialmente nominais). Neste tipo de gráfico, todas as observações da amostra estão classificadas em uma das categorias, ou seja, a soma das porcentagens deve ser igual a 100%. MAIO/2010 Paula Strassmann PGS Medical Statistics Exemplo de gráfico de setores (pizza) para variáveis qualitativas: MAIO/2010 Paula Strassmann PGS Medical Statistics Exemplo de gráfico de setores (pizza) para variáveis qualitativas: Sexo Homens Mulheres Total (%) (75,0%) (25,0%) (100,0%) Mulheres 25% Mulheres 25% Homens 75% MAIO/2010 f 150 50 200 Homens 75% Paula Strassmann PGS Medical Statistics Representação gráfica para Variáveis quantitativas contínuas Histograma: Gráfico de barras justapostas em que no eixo horizontal está a variável de interesse, dividida em classes geralmente de mesmo tamanho. No eixo vertical, constrói-se uma barra para cada classe com altura igual à freqüência absoluta ou relativa correspondente. A barra é centrada no ponto médio da classe. Polígono de Freqüências: Construído a partir do histograma, onde se une através de segmentos de reta as ordenadas correspondentes aos pontos médios de cada classe. MAIO/2010 Paula Strassmann PGS Medical Statistics Exemplo de histograma: Dados de registro pediátrico da concentração de chumbo na urina de 140 crianças de uma determinada região. Concentração de chumbo umol/24 hrs Nº de crianças 2 30 0.4 | 0.8 7 25 0.8 |1.2 10 1.2 |1.6 16 1.6 |2.0 23 2.0 |2.4 28 2.4 |2.8 19 2.8 |3.2 16 3.2 |3.6 11 3.6 |4.0 7 4.0 |4.4 1 Total 140 Number of children 0|0.4 n=140 20 15 10 5 0 0- 0.4- 0.8- 1.2- 1.6- 2.0- 2.4- 2.8- 3.2- 3.6- 4.0- 4.4Lead concentration MAIO/2010 Paula Strassmann PGS Medical Statistics Construção do Histograma para os dados da Tabela 1 Tabela 1. Ácido úrico sérico em homens sadios (Finn et al. (1966)). Ácido úrico Freqüência Freqüência Porcentagem (mg/dl) absoluta relativa (%) MAIO/2010 3,0 | 3,5 2 0,008 0,8 3,5 | 4,0 15 0,056 5,6 4,0 | 4,5 33 0,124 12,4 4,5 | 5,0 40 0,150 15,0 5,0 | 5,5 54 0,202 20,2 5,5 | 6,0 47 0,176 17,6 6,0 | 6,5 38 0,142 14,2 6,5 | 7,0 16 0,060 6,0 7,0 | 7,5 15 0,056 5,6 7,5 | 8,0 3 0,011 1,1 8,0 | 8,5 1 0,004 0,4 8,5 | 9,0 3 0,011 1,1 Total 267 1,000 100,0 Paula Strassmann PGS Medical Statistics Histograma para os dados da Tabela 1 60 Porcentagem 50 40 30 20 10 0 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 Ácido úrico (mg/dl) MAIO/2010 Paula Strassmann PGS Medical Statistics Polígono de frequência para os dados da Tabela 1 60 Porcentagem 50 40 30 20 10 0 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 Ácido úrico (mg/dl ) MAIO/2010 Paula Strassmann PGS Medical Statistics Estatística descritiva – Análise exploratória dos dados Como resumir VARIÁVEIS NUMÉRICAS? Medidas de posição ou Medidas de tendência central Medidas de dispersão Moda Média Amplitude Mediana Variância Quartis, percentis Desvio padrão Paula Strassmann MAIO/2010 PGS Medical Statistics Medidas de posição – Moda Valor que ocorre com maior freqüência. Exemplo: As idades dos alunos de uma classe são: 19, 19, 20, 20, 20, 21, 22. Nesse caso, Moda = 20 anos; Pode existir mais de uma moda. Distribuição é bimodal, trimodal, ... Exemplo: As idades dos alunos de uma classe são: 19, 19, 19, 20, 20, 20, 21, 22. Nesse caso, Moda = 19 e 20 anos (bimodal); Pode não existir moda (não ter um valor mais freqüente). Exemplo: As idades dos alunos de uma classe são: 18, 19, 20, 21, 22. Nesse caso, Não existe Moda. MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de posição – Média É a medida de tendência central mais utilizada; Leva em conta todos os valores da variável; É afetada por valores extremos; É o “ponto de equilíbrio” da distribuição dos dados. (Dados ordenados) Média 1 (Dados ordenados) MAIO/2010 Média 2 Paula Strassmann PGS Medical Statistics Medidas de posição – Cálculo da Média n X X i 1 i n X 1 X 2 X 3 ... X n n Exemplo: Um estudante fez 5 provas e obteve notas 75, 90, 83, 77 e 92. Então sua nota média é: 75 90 83 77 92 X 83,4 5 MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de posição – Mediana Divide os dados ordenados ao meio; Medida resistente: pouco afetada por mudanças de valores discrepantes (extremos). 50% 50% (Dados ordenados) mediana MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de posição – Cálculo da Mediana Ordenam-se os dados; Seleciona-se a observação central. n ímpar: valor da observação central Dados ordenados 75 77 83 90 92 posição 1 2 3 4 5 Posição da mediana = 3 Mediana = 83 n par: média das duas observações centrais Dados ordenados 75 77 83 90 92 97 posição 1 2 3 4 5 6 Posição da mediana = 3,4 MAIO/2010 Mediana = (83 + 90)/2 = 86,5 Paula Strassmann PGS Medical Statistics Medidas de posição central São valores únicos representativos dos dados. Os mais usados são média aritmética, moda e mediana. Exemplo: Paciente 1 2 3 4 5 6 7 8 9 10 11 Idade 39 50 60 70 39 72 33 37 80 49 46 MAIO/2010 Paciente Idade 7 33 8 37 1 39 5 39 11 46 10 49 2 50 3 60 4 70 6 72 9 80 n = 11 Soma = 575 Moda = 39 anos (idade mais freqüente) Mediana = 49 anos (posição central) Média = (575/11) = 52,3 anos Paula Strassmann PGS Medical Statistics Concluindo: Média: É o “ponto de equilíbrio” da distribuição dos dados. Moda: É o valor que ocorre com mais frequência. Mediana: Divide os dados ordenados ao meio. MAIO/2010 Paula Strassmann PGS Medical Statistics Exercício 1: Com base nos dados da tabela abaixo, calcule: Nº Aluno Turma Sexo Idade Altura Peso Fuma a) Peso médio 1 A M 17 1,6 69 Sim b) Moda para Idade. 2 A F 18 1,78 68 Não c) Altura Mediana. 3 B M 24 1,65 76 Sim 4 A M 33 1,82 106 Não 5 A F 35 1,7 78 Não 6 B F 48 1,59 71 Não 7 B F 24 1,72 70 Sim 8 B M 21 1,66 80 Não 9 A M 39 1,71 89 Não 10 A M 24 1,55 68,5 Não MAIO/2010 Paula Strassmann PGS Medical Statistics Resolução do Exercício 1: a) Peso médio: Portanto, peso médio = 77,55 kg. b) Moda para a Idade: Observando todas as idades da tabela, vemos que a idade que mais aparece é 24 anos (3 alunos têm 24 anos). As demais idades aparecem uma única vez. Portanto, Moda = 24 anos. MAIO/2010 Paula Strassmann PGS Medical Statistics Resolução do Exercício 1 (Continuação): c) Altura mediana: Ordenação dos dados: 1,55; 1,59; 1,6; 1,65; 1,66; 1,7; 1,71; 1,72; 1,78; 1,82. Nesse caso, n = 10 (número par de elementos) e então a mediana é a média entre os 2 valores centrais. Posição da mediana: 5, 6. Mediana = Portanto, a altura mediana é 1,68 metros. MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de posição – Quartis Dados em ordem crescente 25% Q1 25% Q2 25% Q3 25% Dividem os dados ordenados em 4 partes iguais: 25% dos dados estão abaixo do 1º quartil (Q1) 50% dos dados estão abaixo do 2º quartil (Q2 ou mediana) 75% dos dados estão abaixo do 3º quartil (Q3) Dados Resistentes MAIO/2010 Paula Strassmann PGS Medical Statistics Box-plot 1200 * 3o quartil (Q3) Ponto discrepante 1,5 (Q3 - Q1) 1000 Valor máximo entre os não discrepantes 800 Mediana 600 1o Valor mínimo entre os não discrepantes 400 quartil (Q1) 1,5 (Q3 - Q1) 200 0 MAIO/2010 N= Paula Strassmann 60 PGS Medical Statistics Exemplo: Gráfico de Box-Plot comparando dois tratamentos Temp. (ºC) Temp. (ºC) 40,0 38,2 39,7 39,5 39,1 Temperatura (ºC) 39,0 39,5 38,0 39,0 38,0 37,5 38,5 37,5 38,5 38,4 38,3 38,0 37,4 37,3 37,5 37,0 38,2 37,0 37,0 38,0 37,9 36,5 37,8 36,0 N= 36,5 Tratamento 1 MAIO/2010 37,0 36,9 12 12 Tratamento A Tratamento B 36,8 Tratamento 2 Paula Strassmann PGS Medical Statistics Medidas de dispersão – Amplitude Distância entre os valores máximo e mínimo; Amplitude = valor máximo – valor mínimo; Ignora a distribuição dos dados; Exemplo: 7 8 9 10 amplitude = 10 – 7 = 3 MAIO/2010 7 8 9 10 amplitude = 10 – 7 = 3 Paula Strassmann PGS Medical Statistics Medidas de dispersão – Cálculo da Amplitude Exemplo 1: Duas amostras de 20 indivíduos. Amostra 1: Estatura mínima: 140 cm e Amostra 2: Estatura mínima: 150 cm e Estatura máxima: 180 cm Estatura máxima: 175 cm Em qual das duas amostras os indivíduos variam mais em relação à estatura ? MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de dispersão – Cálculo da Amplitude (Continuação) Resolução do Exemplo 1: Amostra 1: Estatura mínima: 140 cm Estatura máxima: 180 cm Amostra 2: Estatura mínima: 150 cm Estatura máxima: 175 cm Máx – mín = 180 cm – 140 cm= 40 cm Máx – mín = 175 cm – 150 cm= 25 cm Os cálculos sugerem que a Amostra 1 contém mais estaturas diferentes, pois abrange uma faixa maior de valores MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de dispersão – Cálculo da Amplitude (Continuação) Exemplo 2: Duas amostras de estatura (cm) de 6 indivíduos. Amostra 1: 150, 151, 153, 155, 158, 160 Amostra 2: 150, 155, 155, 155, 155, 160 A amplitude é a mesma nas duas amostras. Em qual das duas amostras os indivíduos variam mais em relação à estatura ? Observando os valores um a um, percebemos que a Amostra 1 varia mais. MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de dispersão (Continuação) No exemplo, vimos que amostras com a mesma média podem ter variabilidades muito diferentes. Como medir a variabilidade de um conjunto de dados? A forma mais comum de medir a variabilidade é quantificá-la pelas distâncias das observações com relação á média. MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de Dispersão – Variância amostral n 2 Var( X ) 2 ( x X ) i i 1 n 1 A variância quantifica a variabilidade ou espalhamento ao redor da média das medidas. Tende a ser um número grande e o seu valor sai dos limites dos valores observados em um conjunto de dados. Além disso, sua unidade de medida corresponde a unidade de medida da média elevada ao quadrado. MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de Dispersão – Desvio padrão amostral n DP ( X ) 2 ( x X ) i i 1 n 1 O desvio padrão, que é a raiz quadrada da variância, tem a mesma unidade de medida da média e pode ser usado para descrever a quantidade de dispersão na distribuição da freqüência. MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de Dispersão (Continuação) O desvio padrão por si só não nos diz muita coisa. Um desvio padrão de 2 unidades pode ser considerado pequeno para um conjunto de dados cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar dois ou mais conjuntos de dados, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos ao seu valor médio, medida essa denominada coeficiente de variação (CV). MAIO/2010 Paula Strassmann PGS Medical Statistics Medidas de Dispersão – Coeficiente de correlação Indica a dispersão em relação à média; É uma medida de variabilidade relativa, definida como a razão entre o desvio padrão e a média, sendo uma medida adimensional expressa em percentual. Pode ser usado para comparar a dispersão de dois conjuntos de dados, sem que eles estejam necessariamente na mesma unidade de medida. CV ( X ) MAIO/2010 S CV ( X ) X Paula Strassmann PGS Medical Statistics Coeficiente de variação – Exemplo 1 Por exemplo, em uma amostra de pacientes para determinação do clearance de creatinina, constatou-se que a média era de 72 ml/min e o desviopadrão, de 13. Como 13 representa 18% de 72, então o CV é de 18% MAIO/2010 Paula Strassmann PGS Medical Statistics Coeficiente de variação – Exemplo 2 Medidas as estaturas de 1017 indivíduos, obtivemos = 162,2 cm e s = 8,01 cm. O peso médio desses mesmos indivíduos é 58 kg, com um desvio padrão de 2,3 kg. Esses indivíduos apresentam maior variabilidade em estatura ou em peso? Coeficiente de variação para as estaturas: CV = 8,01 = 0,0494 = 4,94%; 162,2 Coeficiente de variação para o peso: CV = 2,3 = 0,0397 = 3,97%. 58,0 MAIO/2010 Paula Strassmann PGS Medical Statistics Bibliografias recomendadas PAGANO, Marcello (1945) – Princípios de bioestatística / Marcello Pagano, Kimberlee Gauvreau; tradução Luiz Sérgio de Castro Paiva; revisão técnica Lúcia Pereira Barroso. – São Paulo: Pioneira Thomson Learning, 2004. (paginas 304-317). Titulo original: Principles of bioestatistics Bussab, W.O. e Morettin, P.A. (2005) - Estatística Básica. 5ª Edição. São Paulo: Saraiva. 526p. Dawson-Saunders, Beth e Trapp, Robert G. (1994) - Basic & Clinical Biostatistics – A Lange medical book. Second Edition – Prentice-Hall Internationl Inc. 344p. Riffenburgh, Robert H. (2006) – Statistics in Medicine – Second Edition – San Diego, Caifornia – Elsevier Academic Press – 622p. Del Giglio, Auro (2008) – Conselhos para um jovem médico – 1ª Ed. – Editora Manole Ltda. – 118 p. MAIO/2010 Paula Strassmann PGS Medical Statistics PGS Medical Statistics Paula G. Strassmann [email protected] Paula Strassmann MAIO/2010 PGS Medical Statistics