Análise Descritiva ou Análise Exploratória de Dados Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura de algum padrão ou comportamento relevante que esteja presente no conjunto de dados. Os dados podem ser organizados: • Em tabelas quando é importante a apresentação dos valores • Em gráficos ou mapas apresentação de distribuições, tendências ou relacionamentos entre variáveis • Resumidos com o uso de estatísticas. Análise Exploratória de Dados Variável: é uma característica de interesse que se pode medir e que apresenta distintos valores Cada medida, ítem de formulário ou pergunta corresponde a uma variável que se deseja conhecer. Por exemplo: idade, sexo, pressão arterial são variáveis que podem ser medidas ou observadas. Sexo: M ou F / 0 ou 1 / 1 ou 3 Idade: qq valor fracionário a partir de 0. Fisio 2001 REC --1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 INICIAIS -------PAMS ACPP LTK JAC LSS PAGAC KNL VPR WFC PFS RRS ARP AAN PCCN ALM SM RCF TAG AHM ASC MRBC ARP MRL JACG PLS CCD VP PMAP VRC TSR PVMHB TUP IAM SEXO IDADE BAIRRORESI ESCOLA2OGR ALTURA BRACO ---- ----- ------------------------- ---------- ------ ----F 19 JACAREPAGUA PRIV 168 24.5 F 21 JACAREPAGUA PUB 160 28.0 F 19 PIEDADE PRIV 173 28.0 F 22 PIEDADE PUB 174 32.0 F 19 MEIER PRIV 158 24.0 M 20 TIJUCA PRIV 177 29.0 F 20 TIJUCA PRIV 162 22.5 F 19 ENGENHO NOVO PRIV 168 27.0 F 21 WONA/BELFORD ROXO PUB 170 33.0 F 19 ILHA DO GOVERNADOR PRIV 161 26.5 F 19 CENTENARIO/DUQUE CAXIAS PRIV 175 26.0 F 19 VILA DA PENHA PUB 169 26.0 F 24 BAIRRO DE FATIMA/NITEROI PRIV 166 25.0 F 21 ICARAI/NITEROI PRIV 171 25.0 F 22 PARAISO/SAO GONCALO PUB 164 23.5 F 18 COPACABANA PRIV 170 25.5 F 19 CATETE PRIV 168 24.0 F 19 ICARAI/NITEROI PRIV 163 26.5 F 21 FLAMENGO PUB 168 21.0 F 18 CAMPO GRANDE PRIV 155 26.0 F 18 TIJUCA PRIV 166 25.0 F 17 JARDIM AMERICA PRIV 160 27.5 F 17 VILA ISABEL PRIV 163 26.0 M 21 ILHA DO GOVERNADOR PRIV 170 30.0 M 20 BOTAFOGO PRIV 182 32.5 F 19 DEL CASTILHO PRIV 160 25.5 F 21 OLARIA PUB 172 24.5 F 17 MEIER PRIV 165 23.5 F 19 BRAS DE PINA PUB 165 24.0 F 20 TIJUCA PRIV 162 30.0 M 18 LARANJEIRAS PRIV 174 30.0 M 19 ILHA DO GOVERNADOR PRIV 170 30.5 F 19 . PRIV 164 27.0 SEXO | Freq Percent ------+---------------F | 28 84.8% M | 5 15.2% ------+---------------Total | 33 100.0% ESCOLA2OGR | Freq Percent Cum. -----------+---------------------PRIV | 25 75.8% 75.8% PUB | 8 24.2% 100.0% -----------+---------------------Total | 33 100.0% M 15% 80 % 60 40 20 0 F 85% Privada Pública Tipo de escola ALTURA | Freq Percent Cum. -------+---------------------155 | 1 3.0% 3.0% 158 | 1 3.0% 6.1% 160 | 3 9.1% 15.2% 161 | 1 3.0% 18.2% 162 | 2 6.1% 24.2% 163 | 2 6.1% 30.3% 164 | 2 6.1% 36.4% 165 | 2 6.1% 42.4% 166 | 2 6.1% 48.5% 168 | 4 12.1% 60.6% 169 | 1 3.0% 63.6% 170 | 4 12.1% 75.8% 171 | 1 3.0% 78.8% 172 | 1 3.0% 81.8% 173 | 1 3.0% 84.8% 174 | 2 6.1% 90.9% 175 | 1 3.0% 93.9% 177 | 1 3.0% 97.0% 182 | 1 3.0% 100.0% -------+---------------------Total | 33 100.0% Dificuldade de análise esta tabela não resumiu muito a informação § § Variável quantitativa contínua § Distribuição de freqüências § Freqüência acumulada pode ser utilizada § 30% dos alunos têm 1,63m ou menos § a metade possui 1,66m ou menos; a outra metade, isso ou mais § mais 25% mais altos têm 1,70m ou § 3% têm 1,77m ou mais. Análise Exploratória de Dados Variáveis Categóricas Numéricas • Sexo • Idade • Raça • Peso • Estado Civil • Distância • Gravidade de doença • Salário Análise Exploratória de Dados Tipos de Variáveis Variáveis Categóricas Variáveis Numéricas Nominais Ordinais Contínuas Discretas •Sexo •Gravidade (L/M/S) •Altura(cm) •No de filhos •Religião •Classe social (A/M/B) •Raça •Incapacidade (I/lD/D) •Temperatura (oC) •No de gânglios •ASA Análise Exploratória de Dados As técnicas estatísticas diferem em função do tipo de variável que está sendo analisada. As variáveis podem ser “medidas” em quatro escalas básicas: nominal, ordinal, intervalar e de razão. Existem dois grandes grupos de variáveis: as categóricas ou qualitativas e as numéricas ou quantitativas. Basicamente, as variáveis categóricas são medidas nas escalas nominal e ordinal, enquanto que as variáveis quantitativas são mensuradas nas escalas intervalar e de razão. Escalas nominal e ordinal As variáveis nominais são representadas por categorias que não mantêm necessariamente relação entre elas. Não é possível realização de operações aritméticas, como soma ou produto, sendo possível basicamente a contagem das observações em cada categoria. Exemplo: sexo, raça, diagnóstico Na escala ordinal as categorias podem ser representadas por nomes, símbolos ou números, porém há ordenação de uma categoria em relação à outra. A distância entre uma categoria e a outra não pode ser medida numericamente. Além da operação de contagem, permitem operações que envolvam ordenação (maior/menor). Exemplo: gravidade da doença Escalas intervalar e de razão Na escala intervalar o valor nulo não corresponde à ausência da característica medida. A escala possui um zero arbitrário. Exemplo: temperatura - o 0ºC não corresponde `a ausência de temperatura, mas ao 0º da escala Celsius. A escala de razão é uma escala intervalar, onde o zero corresponde à ausência da característica medida. Nesta escala, é válido afirmarmos que uma pessoa com 70Kg possui duas vezes o peso de uma criança com 35 Kg. Exemplo: massa corporal, idade, tempo, pressão arterial ou temperatura Kelvin. Variáveis quantitativas Discretas valores inteiros. Ex: número de leitos, números de casos, número de procedimentos. Contínuas valores podem ser números fracionários e a variável pode apresentar qualquer valor pertencente ao conjunto dos números reais, só dependendo da precisão da medida. Ex: pressão arterial, peso. • Geralmente, as variáveis contínuas são resultado de medição e as discretas, de contagens. Análise Univariada • Um dos primeiros passos para análise de um conjunto de dados consiste na exploração da informação existente em cada variável separadamente, através da síntese de cada variável análise univariada. • Tabelas •Gráficos •Mapas •Medidas de resumo ou Estatísticas Apresentação tabular A apresentação tabular se faz mediante tabelas ou quadros (apresentam as bordas laterais fechando o conteúdo tabulado). Qualquer tipo de variável pode ser tabulada, porém há uma diferenciação na construção de tabelas dos diferentes tipos de variáveis. Normas para elaboração de tabelas Toda tabela deve ser auto-explicativa Normas do IBGE para apresentação de tabelas As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita nem à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunas no corpo da tabela. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente, conforme a ordem de aparecimento. Os totais e subtotais são destacados (negrito, itálico, caracteres afastados etc). O título deve conter a descrição básica do conteúdo, local e época em que foram coletados os dados. Deverá ser mantida uniformidade quanto ao número de casas decimais. Tabulação de variáveis nominais Distribuição de sexo dos recém-nascidos SEXO Freqüência absoluta Freqüência relativa Freqüência percentual Masculino 207 0,4539 45,39 Feminino 249 0,5461 54,61 Total 456 1,0000 100,00 Gráficos de variáveis nominais Gráfico de setores, pizza, torta Sexo dos RN M 45% F 55% Gráfico de colunas Gráfico de barras 60 cesárea 40 % Tipo de parto normal pélvico 20 fórcipe 0 50 100 150 0 200 250 300 Nº de Gestantes M F Elementos de percepção visual Setores: % Somam 100% 6 5 4 3 2 1 0 1 2 3 4 5 Tabulação de variáveis: Ordinais Quantitativas Discretas com poucos valores Assemelha-se à construção de tabelas de variáveis categóricas nominais Respeitar a ordem natural das categorias. Permite acrescentar outro tipo de informação bastante útil freqüência percentual acumulada. Recém-nascidos, segundo o grau de anóxia Grau de Anóxia N FP FP acumulada Sem Anóxia 94 22,12 22,12 Moderada 157 36,94 59,06 Severa 174 40,94 100,00 Total 425 100,00 Tabulação de variáveis: Ordinais Quantitativas Discretas com poucos valores Assemelha-se à construção categóricas nominais de tabelas de variáveis Respeitar a ordem natural das categorias. Permite acrescentar outro tipo de informação bastante útil freqüência percentual acumulada. Recém-nascidos, segundo o grau de anóxia Grau de anóxia Nenhuma Leve Moderada Severa Total N % 55 84 152 174 465 11,82 18,06 36,69 37,42 100,00 F% acumulada 11,82 29,88 62,57 100,00 Tabulação de variáveis: Ordinais Quantitativas Discretas com poucos valores Número de consultas de pré-natal realizadas durante a gestação dos recém-nascidos. Consultas de pré-natal N FP FP acumulada 0 106 33,12 33,12 1 15 4,69 37,81 2 34 10,62 48,44 3 4 50 47 15,62 14,69 64,06 78,75 5 23 7,19 85,94 6 32 10,00 95,94 7 8 9 1 2,81 0,31 98,75 99,06 9 0 0,00 99,06 10 3 0,94 100,00 320 100,00 Total Gráfico de variáveis ordinais ou quantitativas discretas com poucos valores Grau de anóxia sem anóxi a 22% sever a 41 % moder ada No. de recém-nascidos 37% 120 100 80 60 40 20 0 0 1 2 3 4 5 6 No. de consultas 7 8 9 10 Tabulação de variáveis quantitativas •Criação de intervalos de valores (classes). •Permite acrescentar freqüência percentual acumulada. Distribuição dos pesos dos prematuros pmi ni fpi Fpi Classes de pesos 400 ├─ 600 500 9 1,94 1,94 600 ├─ 800 700 47 10,10 12,04 800 ├─ 1000 900 73 15,70 27,74 1000 ├─ 1200 1100 104 22,37 50,11 1200 ├─ 1400 1300 121 26,02 76,13 1400 ├─ 1600 1500 111 23,87 100,00 Total 465 100,00 Gráficos de variáveis quantitativas Histograma Recém-nascidos (%) 30 25 20 15 10 5 0 600 800 1000 peso (g) 1200 1400 1600 Gráficos de variáveis quantitativas Polígono (%) 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 300 500 700 900 1100 1300 1500 1700 Peso (g) Gráficos de variáveis quantitativas Polígono Diferentes formatos de histogramas simétrico truncado assimétrico à esquerda multimodal assimétrico à direita Histogramas com classes de tamanhos diferentes 25% 20% % 15% 10% 5% 0% 0 1 5 10 13 15 20 25 30 35 40 45 50 55 60 99 Idade (anos) Pac/ano (%) 5.0% 4.0% 3.0% 2.0% 1.0% 0.0% 0 10 20 30 40 50 60 Idade (anos) 70 80 90 Medidas de resumo ou estatísticas Síntese numérica: medidas de resumo • Além das tabelas de freqüências, as variáveis podem ser resumidas em medidas que informam o “centro dos dados” e a variabilidade dos mesmos em relação a este “centro”. Medidas de Posição ou de Tendência Central - média, mediana, moda Medidas de Dispersão ou de Variabilidade – amplitude, distância interquartílica, desvio médio, variância, desvio padrão e coeficiente de variação. Faixa de renda pessoas % da PEA % acumulado <1* 25.901.841 37,2 37,2 1a2 14.204.236 20,4 57,7 2a3 8.425.061 12,1 69,8 3a5 8.425.061 12,1 81,9 5 a 10 7.032.489 10,1 92,0 10 a 20 3.202.915 4,6 96,6 20 ou + 1.531.829 2,2 98,8 835.543 1,2 100,0 Total da PEA 69.558.975 100 *inclui os sem rendimento 10.513.919 15,1 Faixa de renda (PEA 1991) 40,0 35,0 30,0 25,0 % sem declaração Média estimada = 3,3 s.m. 20,0 15,0 10,0 5,0 0,0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 salários mínimos Medidas de tendência central Média Aritmética X= x1 x 2 ... x n n n xi = i 1 n 0 1 2 3 4 5 6 7 8 9 10 x Mediana Valor xi (metros): 1,20 1,22 1,23 1,25 1,26 1,27 1,28 1,29 1,30 1,80 X=1,31 Ordem: 1º 2º 3º 4º 5º 6º 7º 8º 9º x n x n 1 2 2 m d 2 Medidas de tendência central A média aritmética é muito sensível à presença de valores extremos enquanto que a mediana não. Podese dizer que a mediana é mais robusta que a média. Em distribuições simétricas, a média e a mediana possuem valores iguais. simétrico Média=mediana assimétrico à esquerda Média < mediana assimétrico à direita Média > mediana Medidas de posição Percentis - medidas que dividem um conjunto de dados em diversas partes são úteis na apresentação da distribuição de seus valores, principalmente se o conjunto de dados é não simétrico. Os percentis dividem um conjunto de dados em cem partes de igual tamanho A mediana representa o percentil 50. Quartis – 1o. e 3o. Quartis (25% e 75%) Quintis - 20% , 40%, 60% e 80%. Gráficos de variáveis quantitativas Box plot Comprimento do RN 50 Observações Extremas 45 40 Q3 + 1,5 DQ = 39 + 6 = 45 Q3 = 3° Quartil = 39 Q2 = 2° Quartil = 38 35 30 Q1 = 1° Quartil = 35 Mínimo DQ = 4 300 312 1036 817 302 246 593 634 957 911 812 1056 741 833 692 743 1253 871 513 200 1171 1247 851 92 122 151 329 50 1093 859 276 298 625 316 365 839 996 125 295 745 1233 300 1227 435 45 100 300 1171 1247 851 0 N= 563 704 1 2 92 1036 302 817 151 957 634 298 625 316 365 812 911 741 839 295 996 125 745 1233 300 435 1227 743 575 39 402 731 71 840 1248 1086 256 347 528 24 1164 964 1015 436 1027 137 884 293 680 335 558 1252 693 1235 69 364 200 122 246 1093 50 593 329 859 276 SEXO 100 1106 1000 523 SIST2 SIST2 312 0 N= OB27 909 358 0 1 0.0 percentil 80 percentil 20 Med. Distrito Federal Mato Grosso Rio Grande do Sul Paraná Rio de Janeiro Minas Gerais Sergipe Pernambuco Rio grande do Norte Piauí Tocantins Pará Amazonas Rondônia Salários Mínim os Gráfico 1 - Distribuição da renda em relação à mediana e aos percentis 80 e 20 6.5 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 Medidas de dispersão Amplitude Desvio médio Variância Desvio padrão Coeficiente de variação Distância interquartílica Dispersão ou variabilidade Medidas de dispersão Notas 0 1 2 3 4 5 6 7 8 9 1 0 Aluno A: 5 - 5 - 5 - 5 Aluno B: 4 - 4 - 6 - 6 Aluno C: 3 - 5 - 7 - -- Aluno D: 0 - 5 - 5 - 10 Aluno E: 0 - 0 - 10 - 10 Amplitude A amplitude total (At) é apenas uma indicação aproximada da dispersão ou variabilidade. É definida como a diferença entre o maior e o menor valor do conjunto de dados . At = valor máximo – valor mínimo Ex: 5, 5, 5, 5 At=0 4, 4, 6, 6 At=2 0, 5, 5, 10 At=10 • Fácil de calcular, mas leva em conta apenas dois valores, desprezando a informação das outras observações do conjunto muito sensível à presença de valores extremos. • É comum apresentar-se a medida de tendência central acompanhada do valor mínimo e máximo entre parênteses e não a amplitude. Desvio médio Nota (E) xi desvio di = xi-x desvio absoluto desvio quadrático dai = |xi-x| dqi = (xi-x)2 x1 = 0 d1=0-5 = -5 5 25 x2 = 0 d2=0-5 = -5 5 25 x3 = 10 d3=10-5 = 5 5 25 x4 = 10 Total x=20/4=5 d4=10-5 = 5 d i = (xi-x) = 0 5 da i = |xi-x| = 20 dma i = |xi-x| = 5 n 25 (xi-x)2 =100 dmq i = (xi-x)2 = 25 n Variância n V ( x) ( xi _ x) 2 x i 2 i 1 n 1 ( xi ) 2 n n 1 Exemplo: Notas do aluno C: 4, 4, 6, 6 (4 5) 2 (4 5) 2 (6 5) 2 (6 5) 2 4 V B ( x) 1,33 4 1 3 VA = 0 VB = 1,33 VC = 2 VD = 16,67 VE = 33,33 Desvio padrão Variância Desvio Padrão S2 = (xi-x)2/n-1 S = (xi-x)2/n-1 Sendo a variância uma medida que expressa um desvio quadrático médio, a unidade dela é o quadrado da unidade dos dados, e isto pode causar algumas dificuldades de interpretação. Para contornar esta situação, costuma-se usar a raiz quadrada da variância, o que é denominado de desvio padrão. O desvio padrão é mais adequado porque tem a mesma unidade dos dados. A 1 3 5 6 7 93 94 95 96 100 B 1 44 46 47 48 52 53 54 55 100 C 1 9 23 39 46 54 67 76 85 100 A 1 3 5 6 7 93 94 95 96 100 B 1 44 46 47 48 52 53 54 55 100 C 1 9 23 39 46 54 67 76 85 100 500 50 50 45,66 91,31 500 50 50 22,41 44,81 500 50 50 31,07 62,14 somatório média mediana desvio padrão CV 0 A B C 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Coeficiente de variação O desvio padrão, isoladamente, tem interpretação limitada sobre a variabilidade de um conjunto de dados. Medida de dispersão é nula sabe-se imediatamente que o conjunto de dados é composto por valores iguai. Quando deseja-se comparar uma variável entre grupos que apresentam valores com ordens de grandeza distintas. Supondo a comparação de renda entre um grupo de indivíduos desprivilegiado economicamente, com média de renda de 1 salário mínimo e desvio padrão de 1 salário mínimo, com outro grupo privilegiado economicamente, cuja média de renda é de 30 salários mínimos e mesmo desvio padrão do primeiro grupo. Grupo A Renda (salários mínimos) média (desvio padrão) 1 (1) Grupo B 30 (1) Supondo uma outra situação onde deseja-se comparar duas variáveis diferentes para um grupo de indivíduos CV ( x) s ( x) _ x x 100 Faixas de referência Faixa de normalidade, valores de referência ou faixa de referência Variabilidade de determinada característica em uma população. Auxilia na caracterização do que é típico em uma determinada população. Empregado nos resultados de exames de laboratório Não quer dizer que estar fora da faixa de referência seja ser “doente”. Podemos usar média e desvio-padrão / percentis. Faixas de referência Média ± 2 x desvio-padrão 95% Percentil 2,5 e percentil 97,5 140 180 220 concentração de colesterol Análise Bivariada Uma vez analisada e caracterizada cada variável do conjunto de dados, pode-se prosseguir a análise exploratória estudando a relação entre variáveis. É importante a análise da variável desfecho (resposta ou dependente), por exemplo, em relação aos fatores de risco e confundimentos. Esta é uma etapa importante, onde são levantadas hipóteses a serem testadas posteriormente com os métodos estatísticos específicos. Tabelas de freqüência de dupla entrada apresentação das informações de uma variável distribuídas pelas categorias de uma segunda variável Duas variáveis categóricas Óbito neonatal, segundo realização ou não de pré-natal PréNatal Nascido Vivo Óbito Total N % N % N % Sim 155 54,2 131 45,8 286 73,1 Não 30 28,6 75 71,4 105 26,9 (%) 80 70 60 50 40 30 20 10 0 pré-natal Nascido vivo Total 185 47,3 206 52,7 391 100,0 sem pré-natal Óbito Duas variáveis categóricas Duas variáveis categóricas Obeso* Não Não 871 % linha 78.7% % coluna 91.4% Sim 82 % linha 51.3% % coluna 8.6% Total 953 75.2% * Obeso=sim: IMC 30 kg/m2 Sim 236 21.3% 75.2% 78 48.8% 24.8% 314 24.8% Total 1107 90 87.4% 160 80 78.7 70 60 12.6% 1267 100.0% 51.3 48.8 50 % Hipertensão 40 30 21.3 20 10 0 Não Sim Obeso Normotenso Hipertenso Série histórica entre grupos Relação entre variável quantitativa discreta e categórica - análises de séries históricas, segundo grupos ou categorias, etapa importante na análise exploratória de séries de dados no tempo. No de casos de Aids em homens e mulheres de 1984 a 1996 no Brasil 16000 Nº de casos 12000 8000 4000 0 84 85 86 87 88 89 90 91 92 93 94 95 96 Homem Mulher Anos Variáveis quantitativa e categórica Relação entre variável categórica e variável quantitativa contínua - apresentação tabular, onde a variável quantitativa contínua é apresentada em intervalos (classes) e as freqüências absolutas e percentuais são apresentadas, segundo cada código da variável categórica. 1600 60 50 40 30 20 10 0 1400 1200 1000 800 600 masc fem PESO % Categorias de peso, segundo o sexo dos recém-nascidos Sexo 400 200 N= baixissimo muito baixo baixo SEXO 207 249 1 2 Variáveis quantitativa e categórica Outra maneira de apresentar variáveis quantitativas contínuas segundo diferentes códigos de uma variável categórica é através da utilização de medidas resumo, para cada categoria. Esta fase é fundamental no levantamento de hipóteses para posterior teste estatístico Categorias de peso, segundo o sexo dos recém-nascidos Sexo Peso em g Média Desvio Padrão Masculino 1162,4 271,3 Feminino 1135,4 257,6 Duas variáveis quantitativas Relação entre variáveis quantitativas Diagrama de espalhamento ou scatter plot Relação entre peso e comprimento dos recém-nascidos. 1600 1400 1200 1000 800 PESO 600 400 20 COMPRIM 30 40 50 Duas variáveis quantitativas Diagrama de espalhamento ou scatter plot Relação entre IMC e pressão arterial sistólica – adultos I.Gov. 300 200 SIST2 100 0 10 BMI 20 30 40 50 Coeficiente de correlação de Pearson r x y xy n 2 2 ( x ) ( y ) x2 y 2 n n Mapas de pontos Polígono ou estrela