Bioestatística básica AULA 2 Conteúdo: Apresentação de dados (Gráficos) Medidas de posição Medidas de dispersão Características importantes dos dados Centro: Um valor representativo ou médio, que indica onde se localiza o meio do conjunto de dados. Variação: Uma medida de quanto os valores dos dados variam. Distribuição: A natureza ou forma da distribuição dos dados (ex. uniforme, sino, assimétrica). Outliers ou valores discrepantes: valores amostrais que se localizam muito longe da grande maioria dos outros valores amostrais. Tempo: Características mudam com o tempo. dos dados que Apresentação gráfica de dados Diagrama de Barras Usado para apresentar variáveis qualitativas e quantitativas discretas. As barras do diagrama podem ser verticais ou horizontais. Variáveis qualitativas ilustrar comparações entre categorias. Variáveis quantitativas barras do diagrama verticais. discretas devem ser Diagrama de Barras Exemplos Fonte: Fonte: Ministério da Saúde (1994) Óbitos / 100.000 habitantes Taxas de mortalidade pelos cânceres mais comuns, sexo feminino. Estado de São Paulo, 1992. 14 12 10 8 6 4 2 0 mama estômago cólon/reto pulmão Tipo de Câncer Fonte: Fonte: FOSP / Fundação Seade colo/útero Diagrama de Barras Exemplos Incidência de efeitos colaterais devido ao uso de um novo agente anti-hipertensivo 30 freqüência 25 20 15 10 5 0 1 2 3 4 número de efeitos colaterais 5 Apresentação gráfica de dados Gráfico de setores Usado para qualitativas. Cada categoria corresponderá a uma divisão ou a um setor de um círculo. Geralmente utilizado quando se pretende comparar o total de cada categoria com o conjunto total. Neste tipo de gráfico, um círculo de raio qualquer vai representar 100% dos dados (360o). representar variáveis Quando usar a freqüência relativa no gráfico, colocar o N. Gráfico de Setores Exemplo Gráfico em setores da distribuição da tuberculose (Dawson, 2003, p.43) Hipânicos 16% Americanos nativos 1% Asiáticos ou habitantes das ilhas do Pacífico 11% Brancos nãohipânicos 35% Negros nãohispânicos 37% Apresentação gráfica de dados Histograma Adequado para ilustrar o comportamento de valores agrupados em classes. É um gráfico de colunas composto por vários retângulos adjacentes, representando a tabela de freqüência. As classes são colocadas no eixo horizontal e as freqüências no eixo vertical. Na construção devem ser empregadas de 5 a 20 classes. Interpretação: Centro, variação, forma e outlier. Não é apropriado para verificar se há mudanças ao longo do tempo. Histograma – Exemplo Percentual de linfócitos em pacientes com leucemia linfóide Percentual de linfócitos Freqüência 10 |- 12 5 12 |- 14 6 14 |- 16 5 16 |- 18 1 18 |- 20 2 20 |- 22 1 total 20 Histograma - Exemplo Percentual de linfócitos em pacientes com leucemia linfóide 7 freqüência 6 5 4 3 2 1 0 11 13 15 17 percentual de linfócitos 19 21 Apresentação gráfica de dados Polígono de freqüência Utilizado na representação de variáveis quantitativas contínuas. Usa segmentos de reta ligados a pontos localizados diretamente acima dos valores dos pontos médios de classe. Os segmentos são estendidos à direita e à esquerda de forma que o gráfico comece e termine no eixo horizontal. Exemplo: tabela usada para construção do histograma Polígono de freqüência Exemplo Percentual de linfócitos em pacientes com leucemia linfóide 7 freqüência 6 5 4 3 2 1 0 9 11 13 15 17 percentual de linfócitos 19 21 23 Apresentação gráfica de dados Ogiva de Galton É um gráfico de linha que representa as freqüências acumuladas. O gráfico se inicia com a fronteira inferior da primeira classe e termina com a fronteira superior da última classe. Exemplo: tabela usada para construção do histograma Ogiva de Galton Exemplo Percentual de linfócitos em pacientes com leucemia linfóide freqüência acumulada 25 20 15 10 5 0 10 12 14 16 18 percentual de linfócitos 20 22 Apresentação gráfica de dados Ramo-e-folha Representa dados separando cada valor em duas partes: o ramo (dígito mais a esquerda) e a folha (dígito mais a direita). Pode ser expandido ou condensado. Ao virar o ramo-e-folhas de lado podemos ver a distribuição dos dados. Vantagem: os dados originais podem ser recuperados. Usar de 5 a 20 classes. Ramo-e-folha – Exemplo Diâmetros abdominais de 40 indivíduos 57 63 66 70 74 81 87 94 59 63 68 71 75 83 88 95 60 63 69 72 75 85 88 101 60 64 69 72 77 86 89 107 62 66 70 73 78 86 91 119 Ramo-e-folha – Exemplo Diâmetros abdominais de 40 indivíduos Ramo (dezena) Folhas (unidades) 5 7 9 6 0 0 2 3 3 3 4 6 6 8 9 9 7 0 0 1 2 2 3 4 5 5 7 8 8 1 3 5 6 6 7 8 8 9 9 1 4 5 10 1 7 11 9 Apresentação gráfica de dados Diagrama de dispersão É a melhor maneira de visualizar o relacionamento entre duas variáveis. A representação gráfica é feita no mesmo sistema de coordenadas, em que uma das variáveis é colocada no eixo x e outra no eixo y. O gráfico de dispersão é utilizado para interpretar o relacionamento entre duas variáveis (direção, forma e intensidade do relacionamento). Diagrama de Dispersão - Exemplo Índice de massa corporal (IMC) e percentual de gordura de 10 universitárias. Brasil, 1997 Indivíduo IMC Percentual de gordura 1 21,5 29 2 20,7 25 3 21,3 26 4 19,0 23 5 21,2 25 6 18,6 23 7 16,8 18 8 20,7 28 9 30,8 46 10 18,3 22 Fonte: dados fictícios Diagrama de Dispersão - Exemplo Percetual de gordura Relação entre IMC e percentual de gordura de 10 universitárias. Brasil, 1997 50 40 30 20 10 0 0 5 10 15 20 IMC Boxplot – após MP 25 30 35 Medidas de centro Valor no centro ou no meio do conjunto de dados. Medidas: média, mediana, moda e ponto médio. Média Média amostral Média populacional n X x i 1 n i n x i 1 N i Média - exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de centro Mediana Para calcular a mediana devemos primeiro colocar os valores em ordem crescente (ou decrescente) e, em seguida, aplicar um dos dois processos abaixo: Se o número de valores é ímpar, a mediana é o número localizado exatamente no meio da lista. Se o número de valores é par, a mediana é a média dos 2 valores do meio. Mediana - exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de centro Moda (M) É o valor que ocorre mais freqüentemente. Uma distribuição pode ser unimodal, bimodal, multimodal ou amodal. Moda 5 5 5 3 1 5 1 4 3 5 1 2 2 2 3 4 5 6 6 6 7 9 1 2 3 6 7 8 9 10 Moda - exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de centro Ponto médio É o valor a meio caminho entre o maior valor e o menor valor da série. Ponto médio exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de centro Média de uma distribuição de freqüência n X xn i 1 n i i n i 1 i Média de uma distribuição de freqüência - Exemplo Percentual de linfócitos em pacientes com leucemia linfóide Percentual de linfócitos Freqüência 10 |- 12 5 12 |- 14 6 14 |- 16 5 16 |- 18 1 18 |- 20 2 20 |- 22 1 total 20 Assimetria A distribuição de dados é assimétrica quando se estende mais para um lado que para o outro. Uma distribuição de dados é simétrica se a metade esquerda do seu histograma é praticamente uma imagem espelhada de sua imagem direita. Separatrizes Separatrizes Quartil: Divide a distribuição em 4 partes iguais em um conjunto ordenado de valores. Percentil: Divide a distribuição em 100 partes iguais em um conjunto ordenado de valores. Decil: Divide a distribuição em 10 partes iguais em um conjunto ordenado de valores. Separatrizes Separatrizes Observação: Intervalo interquartil = Q3 – Q1 Intervalo semi-quartil = (Q3 – Q1) / 2 Quartil médio = (Q1 + Q3) / 2 Amplitude de percentis 10-90 = P90 – P10 Separatrizes Exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Calcule Q1, Q2, Q3, P10 e D9 Apresentação gráfica de dados Boxplot ou diagrama em caixa ou diagrama de caixa e bigode Resumo dos cinco números: mínimo, Q1, Q2, Q3 e máximo. É um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo até o valor máximo, em uma caixa com linhas traçadas em Q1, Q2 e Q3. Utilização: comparação conjuntos de dados. entre Apresentação gráfica de dados Construção de um diagrama de caixa Ache o resumo dos cinco números. Construa uma escala com valores que incluam o máximo e o mínimo dos dados. Construa uma caixa retangular estendendo-se de Q1 a Q3, e trace uma linha ns caixa no valor de Q2. Trace linhas estendendo-se da caixa até os valores mínimo e máximo. Boxplot - Exemplo Figure 1. Effect of Newly Diagnosed Helicobacter pylori Infection on Thyrotropin Levels in Patients with Multinodular Goiter Treated with Thyroxine. The box plots show levels of thyrotropin in patients who received no treatment with thyroxine, in patients receiving thyroxine treatment (median dose, 1.56 microg per kilogram per day) and in whom a low level of thyrotropin (0.05 to 0.20 mU per liter) was stably achieved, in patients with H. pylori infection (with no change in the dose of thyroxine), and in patients after the eradication of H. pylori infection (median dose, 1.70 microg per kilogram per day). Medidas de dispersão A dispersão fornece uma medida da proximidade da série de dados em torno de um valor de tendência central, tomado como comparação. Medidas para avaliar a dispersão de um conjunto de dados: Amplitude Total, Desvio Médio, Variância, Desvio Padrão e Coeficiente de Variação. Medidas de dispersão Amplitude total AT x(m áx) x(m ín) maior amplitude dispersão. Problema: somente são usados os extremos do conjunto (medida instável). total maior Elemento auxiliar na análise mostra a faixa de variação onde encontramos todos os elementos do conjunto. Amplitude - exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de dispersão Desvio médio É a média aritmética dos desvios absolutos dos elementos da série, tomados em relação a média. |d| DM N onde d xi x Desvio médio exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de dispersão Desvio padrão n (x ) i 1 n 2 i n s 2 ( x X ) i i 1 n 1 Utilização Verificação da dispersão ou espalhamento de um conjunto de dados; Permite distinguir numericamente conjuntos de dados de mesmo tamanho e mesma média, mas que são visivelmente diferentes. Medidas de dispersão Desvio padrão - Interpretação Uma pergunta que pode surgir é se um desvio padrão é grande ou pequeno; dependendo da ordem de grandeza da variável. Comparação de séries menor desvio padrão mais homogênea ou menos dispersa. Desvio padrão Exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de dispersão Desvio padrão de uma distribuição de freqüência n ni ( xi ) i 1 n População n 2 s 2 n ( x X ) i i i 1 n 1 Amostra Desvio padrão de uma distribuição de freqüência - Exemplo Percentual de linfócitos em pacientes com leucemia linfóide Percentual de linfócitos Freqüência 10 |- 12 5 12 |- 14 6 14 |- 16 5 16 |- 18 1 18 |- 20 2 20 |- 22 1 total 20 Medidas de dispersão Variância n 2 2 ( x ) i i 1 n n s2 2 ( x X ) i i 1 n 1 Medida direta da dispersão conjunto com os dados mais dispersos terá maior variância. Medida em unidade quadrada (exemplo: anos2) o que dificulta a sua interpretação. Variância - exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Medidas de dispersão Coeficiente de variação É uma medida de dispersão relativa (%) que mede a variação do desvio padrão em relação à média aritmética. s CV (%) 100 X Medidas de dispersão Coeficiente de variação 1) Qual a série mais homogênea: a série A ou a série B? 2) A série C ou a série D? 3) A série A ou a série E? Série Média Desvio padrão A (t) 80,8 t 10,0 t B (cm) 450,0 cm 10,0 cm C (oC) 32,6 oC 4,2 oC D (oC) 30,0 oC 2,6 oC E (t) 8200 t 700,0 t Coeficiente de variação - exemplo Variação de freqüência cardíaca com a respiração profunda numa amostra aleatória de 18 pacientes Identificação Variação da freqüência do indivíduo cardíaca 1 19,2 2 51,9 3 33,1 4 86,7 5 29,1 6 45,3 7 14,4 8 67,1 9 64,8 10 15,9 Banco de dados Honolulu Doenças Cardíacas – 7.683 coletados no Havai em 1969 casos Tamanho da amostra: 100 Universo: Homens doentes com idade entre 45 e 67 anos. Fator de exposição: fumante Média de Idade da população: 54,36 anos Banco de dados Honolulu Variáveis Codificadas: 1) Educatio: nível de instrução Utilizando similar brasileiro: 1 = nenhuma 2 = primeiro grau incompleto 3 = primeiro grau completo 4 = segundo grau completo 5 = curso técnico 6 = curso superior 2) Weight : peso em Kg 3) Height : altura em cm 4) Age : idade em anos Banco de dados Honolulu Variáveis Codificadas: 5) Smoking: status de fumante 0 = não 1 = sim 6) Phisical : atividade física 1 = sedentário 2 = moderada 3 = alta 7) Glucose: nivel de glicose no sangue em miligramas percentuais 8) Cholest: nível de coleterol sérico em miligramas percentuais 10) Pressure: pressão sanguinea sistólica em mmHg Banco de dados Honolulu Procedimentos - Tabelas (Planilha: quali. cont. graf.) Variáveis nível educacional, Fumo e Atividade Física – construção de tabela usando comando freqüência. Banco de dados Honolulu Procedimentos – Gráficos (Planilha: quali. cont. graf.) Variáveis Nível Educacional, Fumo e Atividade Física – construção de diagrama de barras (barras e colunas) e diagrama circular. Banco de dados Honolulu Procedimentos - Medidas Calcular média, mediana, moda, amplitude total, desvio médio, desvio padrão, variância para as variáveis massa, estatura, glicose, colesterol e pressão. Uso das funções estatísticas do EXCEL. Uso da ferramenta análise descritiva do menu Ferramentas. Banco de dados Honolulu Procedimentos - Medidas Uso das funções estatísticas do EXCEL. Inserir Função Estatística nome da função (planilha: medidas) Banco de dados Honolulu Procedimentos - Medidas Nome das funções Medida Função Média Média Moda Modo Mediana Med Quartil Quartil Percentil Percetil Amplitude total Máximo – mínimo Desvio médio Desv.médio Desvio padrão Desvpad Variância Var Banco de dados Honolulu Ferramentas Análise de dados Estatística descritiva (planilha: dados)