Estatística Descritiva Ivan Balducci Faculdade de Odontologia São José dos Campos UNESP Estatística Descritiva Resume um número grande de observações Termos que devem ser familiares: Tendência Central Dispersão Média Mediana Moda Tabela Histograma Box-Plot Desvio Padrão Coeficiente de variação Estatística Descritiva Indicadores de tendência central (grandeza dos números) Indicadores de dispersão (variabilidade dos números) Indicadores de tendência central Média Mediana Moda Média aritmética Soma das observações Número de observações Sigma = Soma de... Obs n Número de observações Tendência central: Exemplo 1 Alturas de Homens (m) 1,90 1,93 1,98 1,91 1,80 1,84 1,88 2,03 1,96 1,86 Média = Alturas n = 19,09m 10 = 1,909m A média indica uma altura representativa? 2.05 2.00 1.95 1.90 1.85 1.80 1.75 Média A média indica uma altura que é representativa do grupo. Neste caso, a média é um indicator satisfatório de tendência central. Tendência central: Exemplo 2 Tempo p/ crianças completarem um quebra-cabeças (s) 31 40 49 56 214 70 47 35 43 58 101 45 33 42 52 65 390 58 30 582 87 47 39 23 43 256 55 43 15 67 62 183 33 54 467 49 29 38 76 Média = Tempo n = 3707 s 39 = 95,05 s 600 500 A média indica um tempo representativo? A média indica um tempo que não é típico. No caso, uma criança que leva 95 s é de fato lenta. 400 300 200 100 0 Média Um pequeno número de outliers produziram efeito desproporcionado sobre a média. Mediana Um valor escolhido de tal forma que divide os dados em duas partes, com igual número de observações acima e abaixo do valor escolhido Encontrando a mediana por ordenação Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43 posição: 1 2 3 4 5 6 7 8 9 10 11 12 13 Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58 posição: 14 15 16 17 18 19 20 21 22 23 24 25 26 Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582 posição: 27 28 29 30 31 32 33 34 35 36 37 38 39 Há 19 crianças +rápidas e 19 - rápidas do que a criança indicada. A mediana é 49 s. 600 500 A mediana indica um tempo representativo? 400 300 200 100 0 A mediana indica um tempo que é razoavelmente típico. Uma criança que leva 49s não é especialmente rápida ou lenta. Mediana Efeito de extremos: valores discrepantes Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43 posição: 1 2 3 4 5 6 7 8 9 10 11 12 13 Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58 posição: 14 15 16 17 18 19 20 21 22 23 24 25 26 9000 Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582 posição: 27 28 29 30 31 32 33 34 35 36 37 38 39 Mediana é descrita como ‘Robusta’. Ela é resistente aos efeitos de alguns valores discrepantes. Cálculo da mediana com um número par de observações Valores: 2 4 6 6 7 9 12 2 0 posições: 1 2 3 4 5 6 7 8 Localize o par central. Valores são 6 e 7 Mediana = 6,5 Md = [(n/2) + ((n/2) +1)] /2 = 4º e 5º Moda Valor que ocorre com um pico de freqüência Não há fórmula para o cálculo da moda Tendência central: Exemplo 3 Número de dentes presentes em uma população de idosos 13 *** 12 11 10 9 8 7 6 5 4 3 2 1 0 *** ******** **************************** ***************************** Moda (Aprox. 9) ***************** Mediana = 8 ********** Média = 6,69 **** *** ****** *********** ********* ******************** Moda (Aprox. 1) ***** Indicadores de tendência central Média Mediana Moda O indicador padrão. OK para muitos conjuntos de dados Usada com frequência Muito rara - apenas usada com dados polimodais Indicadores de dispersão Desvio-Padrão Coeficiente de variação Peso de camundongos (g) Animais de laboratório ração 17 21 19 19 21 18 22 23 20 20 Total 200g Média 20g Animais selvagens alimentação natural 23 20 26 17 23 20 10 13 30 18 Total 200g Média 20g Peso de camundongos (g) laboratório selvagens 30 25 20 15 10 Desvio Padrão – camundongos de laboratório Pesos 17 g 21 19 19 21 18 22 23 20 20 Desvio da média -3 g +1 -1 -1 +1 -2 +2 +3 0 0 Desvio ao quadrado 9 1 1 (Soma)2 = 30 1 2 1 (Soma) = 30 = 3,33 9 4 n-1 4 3,33 = 1,83 9 0 0 30 Desvio Padrão – camundongos selvagens Pesos Desvios da média 23 g 20 26 17 23 20 10 13 30 18 +3 g 0 +6 -3 +3 0 -10 -7 +10 -2 Desvios ao quadrado 9 0 36 9 9 0 100 49 100 4 316 (Soma)2 = 316 SS = 316 = 35,11 n-1 9 35,11 = 5,93 g Desvio-Padrão Comparação Peso médio = 20 ± 1,83 g (± D.P.) camundongo de laboratório Peso médio camundongo selvagem = 20 ± 5,93 g (± D.P.) Mesma tendência central Diferente dispersão Coeficiente de variação C.V. = D.P. Média Pode ser expresso em porcentagem. C.V. (%) p/ camundongos selvagens=(5,93/20)x100=29,65% C.V. (%) p/ camundongos de laboratório=(1,83/20)x100=9,15% Tendência Central Fórmula Prós Contras Média Σx/ N * é precisa * é apenas um valor para os dados *Assimetria produzida pelos outliers * Média pode não ser realista Mediana Valores Ordenados, então (N+1)/2 Moda Maior Frequência * Não é influenciada pelos outliers * Pode ser bimodal * Não precisa estar perto da metade * Não é boa se os dados não se aglomeram ao redor da mediana * Imprecisa HISTOGRAMA Os retângulos são desenhados de modo que a área de cada retângulo seja proporcional à freqüência Histograma: conjunto de retângulos justapostos Área retângulo= base x altura = bj * fj (fj =frequência da classe) xj-1 xj X Base retângulo= xj – xj-1 = bj = amplitude da classe Se a base = 1 ...então a área = freqüência Exemplo: Notas de exame de uma classe de 80 alunos 72 71 39 63 83 32 65 52 91 60 54 70 29 73 75 65 38 65 42 49 89 28 72 63 49 40 52 61 36 40 93 70 43 59 58 81 60 39 81 73 67 58 58 39 49 38 53 79 81 90 56 56 52 49 58 69 76 52 77 74 62 59 57 37 79 83 72 60 62 48 45 75 72 68 88 68 31 60 61 46 Notas de exame de 80 alunos: Distribuição agrupada de freqüências Notas 90-99 80-89 70-79 60-69 50-59 40-49 30-39 20-29 Nº 3 7 16 17 15 11 9 2 Notas de exame de 80 alunos dispostas em um gráfico de barras 18 16 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 14 12 Nº 10 8 6 4 2 0 CLASSES (Categorias de Notas) Box Plot ou esquema dos 5 números •Mínimo •1º quartil •2º quartil (Mediana) •3º quartil •Máximo Quartis 25% Menor Valor Q1 25º Percentil 1º Quartil M Q3 Maior Valor Quartis 25% Menor Valor Q1 Q1 25º Percentil 1º Quartil 50% Mediana 50º Percentil 2º Quartil Q3 Maior Valor Quartis 25% Menor Valor Q Q11 25ºPercentil 1º Quartil 50% Mediana 50º Percentil 2º Quartil 75% Q3 75º Percentil 3º Quartil Maior Valor Faixa Faixa = Maior Valor - Menor Valor Menor Valor Q1 M Faixa Q3 Maior Valor Faixa Interquartil Faixa Interquartil = Q3 - Q1 Menor Valor Q1 M IQR Q3 Maior Valor Simetria Os valores dos dados se dispersam igualmente ao redor de um valor central Valores Simetria Os valores dos dados são Espelho-Imagem ao redor de um ponto Valores Um lado é o Espelho - Imagem do outro Simetria Os valores se dispersam igualmente ao redor de um valor central Média = Mediana Assimetria-Positiva Os valores dos dados se dispersam para a Direita Assimetria-Positiva Os valores dos dados se dispersam para a Direita Mediana < Média Média situa-se à direita da mediana Assimetria-Negativa Os valores dos dados se dispersam para a Esquerda Assimetria-Negativa Os valores dos dados se dispersam para a Esquerda Média < Mediana Média situa-se à esquerda da mediana Box Plot 100 Notas 95 90 Q3 Metade dos dados 85 80 Q1 75 70 Box Plot 100 Notas 95 90 Q3 85 M 80 Q1 75 70 Metade dos dados Box Plot 100 Máximo Notas 95 90 Q3 85 M 80 Q1 75 70 Mínimo Dispersão dos Dados Forma da Distribuição Box-Plots Esq-Assim. Q1 MedianaQ3 Simétrica Q1 MedianaQ3 Dir-Assim. Q1 MedianaQ3 Tabelas Forma não discursiva de apresentar informações, nas quais o dado numérico se destaca como informação central Números não falam por si mesmos Elementos da Tabela Título Corpo Cabeçalho Coluna indicadora Elementos da Tabela Título: explica o que a tabela contém Corpo: formado pelas linhas e colunas de dados (números) Cabeçalho: especifica o conteúdo das colunas Coluna Indicadora: especifica o conteúdo das linhas Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993. Causa Acidente Abuso Suicídio Profissional Outras Ignorada Freqüência 29601 2604 7965 3735 1959 1103 Fonte: MS/FIOCRUZ/SINITOX Título: Casos registrados... Cabeçalho: Causa Freqüência Coluna Indicadora: especificações Acidente, Abuso, Suicídio etc.. Corpo: 29601 2604 7965 3735 1959 1103 Estruturação MÍNIMO de 3 TRAÇOS HORIZONTAIS PARALELOS O 1º p/ separar o TOPO O 2º p/ separar o CABEÇALHO O 3º p/ separar o RODAPÉ (espaço inferior da tabela destinado à fonte, às notas, chamadas...) No nosso exº: Fonte: MS/FIOCRUZ?SINTOX Tabela desnecessária !!! Grupo Nº de ratos Sexo Idade Controle 20 M 20 a 30 dias Tratado 20 M 20 a 30 dias “Tanto o grupo controle como o grupo tratado foram constituídos por 20 ratos machos com idades variando entre 20 e 30 dias” Estatística descritiva dos pesos (g) adquiridos pelos camundongos selvagens e de laboratório Estatística Laboratório Selvagens n 10 10 Média 20,00 20,00 Desvio Padrão 1,83 5,93 C. V. (%) 9,15 29,65 Exemplos- Estatística Descritiva na Literatura Odontológica Avaliação Crítica da Aplicabilidade do Índice de O’LEARY em Relação aos Índices de GREENEVERMILLION e de LÖE & SILNESS Cesário Antonio DUARTE Rev Odontol Univ São Paulo v.8, n.4, p.301-307, out.dez. 1994. Índice Gengival TABELA 1. Médias e desvios padrões dos índices em seis períodos de avaliação. Períodos Média 0 1,43 Desvio Padrão 0,41 1 1,19 0,39 2 1,10 0,45 3 0,98 0,52 4 0,80 0,43 5 0,63 0,42 Investment strength as a function of time and temperature C.L. Chew, M.F. Land, C.C. Thomas, R.D. Norman Journal of Dentistry 27 (1999) 297-302 Tabela 1. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. Temperatura ambiente. Revestimento 2h 6h 12h 24h Cerafina 4,23(0,20) 6,63(0,25) 6,14(0,43) 7,55(0,35) Ceramigold 3,39(0,14) 5,31(1,19) 5,81(0,42) 8,79(0,38) Novocast 4,03(0,21) 4,08(0,24) 3,95(0,24) 4,23(0,36) Tabela 2. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. 700ºC. Revestimento 2h 6h 12h 24h Cerafina 16,24(1,76) 17,75(1,08) 16,80(1,81) 14,99(1,86) Ceramigold 14,18(1,64) 15,35(1,01) 12,20(0,50) 10,13(0,56) Novocast 4,9(0,42) 5,17(0,18) 5,29(0,25) 4,24(0,51) Tabela 3. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. 872ºC. Revestimento 2h 6h 12h 24h Cerafina 22,39(1,78) 21,09(2,42) 20,15(1,98) 22,26(1,67) Ceramigold 14,58(0,56) 13,60(1,11) 12,69(1,22) 11,23(1,05) Tendência Central Média Mediana Moda Dispersão Desvio Padrão Faixa Faixa Inter-quartil Tabela Histograma Box-Plot