Revista2Vol89Portugues_Layout 1 05/05/14 18:32 Página 285 EPIDEMIOLOGIA E BIOESTATÍSTICA APLICADAS À DERMATOLOGIA 285 ▲ Apresentando dados em tabelas e gráficos* Rodrigo Pereira Duquia1 David Alejandro González-Chica2 João Luiz Bastos2 Jeovany Martínez-Mesa3 Renan Rangel Bonamigo1 DOI: http://dx.doi.org/10.1590/abd1806-4841.20143388 Resumo: O presente texto objetiva fornecer orientações básicas sobre a apresentação tabular e gráfica de dados epidemiológicos em Dermatologia. Apesar de simples, a confecção de tabelas e gráficos deve seguir normas elementares, que facilitem a compreensão da natureza dos dados analisados e sua efetiva comunicação científica. O artigo aborda também outros conceitos básicos em epidemiologia, tais como variável, observação e dado, os quais são úteis tanto na troca de informações entre pesquisadores quanto no planejamento e na construção de um projeto de pesquisa. Palavras-chave: Epidemiologia; Epidemiologia descritiva; Tabelas INTRODUÇÃO Dentre as etapas fundamentais da pesquisa epidemiológica, destaca-se a identificação dos tipos de dados com os quais o pesquisador está trabalhando, bem como sua descrição clara e sintética por meio de gráficos e tabelas. A identificação do tipo de dado possui impacto sobre diferentes etapas da pesquisa, que vão desde o planejamento até a análise e a produção/divulgação de seus resultados. Por exemplo, a opção por trabalhar com um determinado tipo de dado tem repercussões que incluem desde o tempo que se levará para coletar as informações desejadas (ao longo do trabalho de campo) até a seleção dos testes estatísticos mais adequados para sua análise. Por sua vez, quando da análise e da produção/divulgação dos resultados, a elaboração de tabelas e gráficos constitui ferramenta essencial para organizar, de forma clara e resumida, as informações coletadas. A construção adequada de tabelas permite a apresentação, em poucas linhas e com expressivo apelo visual, de informações de dezenas ou milhares de indivíduos, tornando os resultados mais facilmente compreensíveis e, portanto, mais atrativos aos usuários da informação produzida. Desta forma, é muito importante que os autores de artigos científicos dominem a técnica para confecção de tabelas ou gráficos. Os requisitos básicos são o reconhecimento prévio das características dos dados e a capacidade de identificar qual tipo de tabela ou gráfico é mais pertinente para a situação em tela. CONCEITOS BÁSICOS Antes da avaliação sobre os tipos de dados que permearão um estudo de natureza epidemiológica, convém discorrer sobre alguns conceitos (aqui denominados dados, variáveis e observações) fundamentais, entre eles: Dados – quando uma pesquisa é iniciada, coletamos informações através de perguntas, observações sistemáticas, exames laboratoriais ou de imagem, durante o trabalho de campo. Todas estas informações coletadas são os dados da pesquisa. Por exemplo, podemos determinar a cor de pele de um indivíduo conforme a classificação de Fitzpatrick1 ou podemos quantificar o número de vezes que uma pessoa aplica fotoprotetor na pele durante o verão.2 A todas estas informações, que obtemos para nossa pesquisa, chamamos genericamente de “dados”. O conjunto dos dados individuais permite que uma análise estatística seja realizada. Se a qualidade dos dados for boa, ou seja, se a forma como as informações foram coletadas foi adequada, as próximas etapas da construção de um banco de dados, que permitirá a análise e a apresentação dos resultados, poderão ser conduzidas de forma correta. Observações – são mensurações realizadas em um ou mais indivíduos, tendo-se como referência uma ou mais variáveis. Por exemplo, se estamos trabalhando com a variável “sexo” em uma amostra de 20 indivíduos e conhecemos a quantidade exata de homens e mulheres nesta amostra (10 em cada grupo), dizemos Recebido em 02.12.2013. Aprovado pelo Conselho Editorial e aceito para publicação em 02.02.2014. * Trabalho realizado pelo Serviço de Dermatologia da Universidade Federal de Ciências da Saúde de Porto Alegre (UFCSPA), Departamento de Saúde Pública e Departamento de Nutrição da UFSC. Suporte Financeiro: Nenhum. Conflito Interesses: Nenhum. 1 2 3 Universidade Federal de Ciências da Saúde de Porto Alegre (UFCSPA) – Porto Alegre (RS), Brasil. Universidade Federal de Santa Catarina (UFSC) – Florianópolis (SC) Brasil. Latin American Cooperative Oncology Group (LACOG) – Porto Alegre (RS) Brasil. ©2014 by Anais Brasileiros de Dermatologia An Bras Dermatol. 2014;89(2):285-90. Revista2Vol89Portugues_Layout 1 05/05/14 18:32 Página 286 286 Duquia RP, Bastos JL, Bonamigo RR, González-Chica DA, Martinez-Mesa J que esta variável possui 20 observações, sendo 10 delas do sexo masculino e 10 do sexo feminino. Variáveis – são constituídas por dados. Por exemplo, um indivíduo pode ser do sexo masculino ou feminino. Neste caso, temos 10 observações de cada sexo, mas a variável como um todo, à qual nos referimos, é “sexo”. Outro exemplo de variável é a “idade” em anos completos, em que as observações são os valores 1 ano, 2 anos, 3 anos e assim por diante. Em outras palavras, variáveis são características ou atributos passíveis de mensuração, que podem assumir diferentes valores, tais como o sexo, o tipo de pele, a cor dos olhos, a idade dos indivíduos investigados, os resultados laboratoriais ou a presença de lesão/doença. Especificamente, as variáveis são divididas em dois grandes grupos: (a) o grupo das variáveis categóricas ou qualitativas, que se subdividem em dicotômicas, nominais e ordinais; e (b) o grupo das variáveis numéricas ou quantitativas, subdivididas em contínuas e discretas. Variáveis categóricas a) Dicotômicas (também chamadas de binárias): são as variáveis que apresentam apenas duas categorias, ou seja, apenas duas opções de resposta. Como exemplos típicos, temos a variável sexo (masculino e feminino) e a variável sobre já ter tido câncer de pele (sim ou não). b) Ordinais: são aquelas que apresentam três ou mais categorias que dispõem de uma ordem entre elas (seja ordem ascendente ou descendente). Por exemplo, a classificação do tipo de pele, conforme Fitzpatrick , nos tipos I, II, III, IV e V. 1 c) Nominais: são variáveis que apresentam três ou mais categorias e estas não apresentam ordem alguma entre elas. Exemplo: tipo de sangue A, B, AB, O ou cor dos olhos marrom, azul, verde. ricas para se adequar à finalidade da pesquisa e/ou facilitar a análise e/ou a interpretação dos resultados. Ainda assim, cabe salientar que as variáveis medidas em escala numérica (discreta ou contínua) são mais ricas em informação e devem ser preferidas nas análises estatísticas. Na figura 1, apresenta-se um diagrama para facilitar o entendimento, a identificação e a classificação das variáveis destacadas acima. APRESENTAÇÃO GRÁFICA E TABULAR DE DADOS Em primeiro lugar, convém salientar que cada tabela ou gráfico deve ser autoexplicativo, ou seja, deve conter informações suficientes que permitam sua compreensão, sem a necessidade de leitura do texto que faz referência ao mesmo. Apresentação de dados de variáveis categóricas Para analisarmos o comportamento de uma variável, devemos organizar os dados conforme a ocorrência dos diferentes resultados em cada categoria. Para as variáveis categóricas, a distribuição de frequências pode ser apresentada sob a forma de tabelas ou de gráficos, entre eles o gráfico de barras e o de pizza ou de setores. A expressão distribuição de frequências possui um significado específico, referindo-se à forma como as observações de uma determinada variável comportam-se em termos de suas frequências absolutas, relativas ou acumuladas. Para sintetizarmos as informações contidas em uma variável categórica por meio de uma tabela, devemos apenas contar o número de observações em cada categoria da variável, obtendo assim suas frequências Variável Categórica Variáveis numéricas a) Discretas: são observações quantificadas em números inteiros. Como exemplo, temos a idade dos indivíduos, quando avaliada em anos completos de vida, (1 ano, 2 anos, 3 anos, 4 anos etc.) e a quantidade de vezes em que um conjunto de pacientes foi ao dermatologista em um ano. b) Contínuas: são variáveis medidas em uma escala contínua, isto é, aquelas que apresentam tantas casas decimais quantas forem passíveis de registro pelo instrumento de medida utilizado. Por exemplo: pressão sanguínea, peso ao nascer e altura, ou mesmo idade, quando aferida em escala contínua. É importante destacar que, dependendo dos objetivos do estudo, os dados podem ser coletados como variáveis discretas ou contínuas e, posteriormente, podem ser transformados em variáveis categóAn Bras Dermatol. 2014;89(2):285-90. Numérica Quantas categorias? Três ou mais Duas Presenta somente valores inteiros? Existe alguma ordem implicita entre as categorias? Dicotiomica Sim Não Sim Não Ordinal Nominal Discreta Contínua FIGURA 1: Tipos de variáveis Revista2Vol89Portugues_Layout 1 05/05/14 18:32 Página 287 Apresentando dados em tabelas e gráficos 287 absolutas. Entretanto, além das frequências absolutas, cabe apresentar seus respectivos valores percentuais, também chamados de frequências relativas. Por exemplo, a tabela 1 expressa em valores absolutos e relativos a frequência de cicatriz de acne em jovens de 18 anos, participantes de um estudo de base populacional, realizado na cidade de Pelotas (RS), em 2010.3 As mesmas informações da tabela 1 podem ser apresentadas por meio do gráfico de barras ou do de pizza. Estes podem ser confeccionados considerando a frequência absoluta ou relativa das categorias. As figuras 2 e 3 ilustram as mesmas informações apresentadas na tabela 1, sob a forma de um gráfico de barras e de um gráfico de pizza, respectivamente. Observe que, independentemente da forma de apresentação, o número total de observações precisa ser mencionado, seja no título ou como parte da tabela ou figura. Além disso, sempre devem ser incluídas legendas apropriadas, que permitam uma correta identificação de cada TABELA 1: Frequências absoluta e relativa de cicatriz de acne em adolescentes com 18 anos de idade (n = 2.414). Pelotas, Brasil, 2010 Prevalência Frequência de acne absoluta (n) Frequência relativa (%) Não 1.855 76.84 Sim 559 23.16 Total 2.414 100.00 Sim Sim Não Não 0 500 1000 1500 2000 FIGURA 2: Frequência absoluta de cicatriz de acne em adolescentes com 18 anos de idade (n = 2.414). Pelotas, Brasil, 2010 23.16% Sim Não 76.84% FIGURA 3: Frequência relativa de cicatriz de acne em adolescentes com 18 anos de idade (n = 2.414). Pelotas, Brasil, 2010 uma das categorias das variáveis, incluindo o tipo de informação que está sendo apresentado (frequências absoluta e/ou relativa). Apresentação de dados de variáveis numéricas A distribuição de frequências de variáveis numéricas pode ser visualizada em uma tabela, em um gráfico do tipo histograma ou do tipo polígono de frequências. Para variáveis discretas, é possível apresentar o número de observações de acordo com os diferentes valores encontrados, tal como ilustrado na Tabela 2. Neste tipo de tabela, podemos apresentar diversas informações sobre os dados coletados. Na tabela 2, apresentamos a distribuição da escolaridade de jovens de 18 anos de idade da cidade de Pelotas (RS). Nesta tabela, apresentamos as frequências absoluta, relativa e relativa acumulada. As frequências absoluta e relativa, neste caso, correspondem ao número absoluto e ao percentual de indivíduos, de acordo com a sua distribuição, conforme o número de anos completos de estudo. Pode-se observar que há 450 adolescentes com oito anos de estudo, o que corresponde a 20,46% dos indivíduos avaliados. Outro tipo de informação que podemos disponibilizar é a frequência relativa acumulada. Neste caso, observamos que 50,57% dos indivíduos avaliados neste estudo têm até oito anos de estudo. Observe que, apesar de trabalharmos com os mesmos dados, cada forma de apresentação (absoluta, relativa ou cumulativa) nos fornece informações diferentes e que podem ser úteis na compreensão desta distribuição de frequências. Quando desejamos avaliar a distribuição de frequência de variáveis contínuas na forma tabular ou gráfica, necessitamos dispor, primeiramente, dos dados desta variável em categorias. Preferencialmente, criam-se categorias do mesmo tamanho (ou com a mesma amplitude), quando optamos pela apresentação da variável sob a forma tabular ou gráfica. Mas, além desta recomendação geral, convém seguir outras orientações básicas para a criação de categorias a partir de variáveis numéricas contínuas, entre elas: (1) Subtrair o maior do menor valor da variável em questão; (2) Dividir o resultado desta subtração pelo número de categorias que se deseja criar (normalmente, criam-se entre três e dez categorias) e (3) Definir os intervalos das categorias a partir deste último resultado. Por exemplo, se dispomos de uma distribuição de frequência de alturas (em metros) de um conjunto de indivíduos e desejamos examiná-la sob a forma de categorias, o primeiro passo é identificar o indivíduo mais alto e o mais baixo da distribuição. Suponhamos que o mais alto meça 1,85m e o mais baixo, 1,55m. A diferença entre estes valores é de 0,3m. Conhecendo esta diferença, é possível dividi-la pelo número de An Bras Dermatol. 2014;89(2):285-90. Revista2Vol89Portugues_Layout 1 05/05/14 18:32 Página 288 288 Duquia RP, Bastos JL, Bonamigo RR, González-Chica DA, Martinez-Mesa J TABELA 2: Escolaridade entre adolescentes com 18 anos de idade (n = 2.199). Pelotas, Brasil, 2010 Escolaridade Frequência absoluta Frequência relativa (n) (%) 0 1 0.05 0.05 1 2 0.09 0.14 2 2 0.09 0.23 3 11 0.50 0.73 4 100 4,55 5,28 5 156 7,09 12,37 6 169 7,69 20,05 7 221 10,05 30,10 8 450 20,46 50,57 9 251 11,41 61,98 10 320 14,55 76,53 11 479 21,78 98,32 12 31 1,41 99,73 (em anos de estudo) Frequência relativa acumulada (%) 13 6 0,27 100,00 Total 2.199 100,00 - TABELA 3: Distribuição do peso em jovens com 18 anos de idade (n = 2.194). Pelotas, Brasil, 2010 Peso aos 18 anos de idade (em kg) Frequência absoluta(n) 40.5 a 59.9 554 25,25 60,0 a 65,8 543 24,75 65,9 a 74,6 551 25,11 74,7 a 147,8 546 24,89 Total 2.194 100,00 Distribuição do peso aos 18 anos de idade 40 Percentual 30 20 10 0 0 Frequência relativa (%) 20 40 60 80 100 120 140 Peso aos 18 anos de idade FIGURA 4: Distribuição do peso aos 18 anos de idade em jovens da cidade de Pelotas (n = 2.194). Pelotas, Brasil, 2010 An Bras Dermatol. 2014;89(2):285-90. categorias que se deseja criar como, por exemplo, cinco. Desse modo, 0,3m dividido por cinco equivale a 0,06m, o que significa que minhas categorias terão exatamente esta amplitude, sendo representadas numericamente pelas seguintes faixas de valores: 1ª categoria – 1,55m a 1,60m; 2ª categoria – 1,61m a 1,66m; 3ª categoria – 1,67m a 1,72m; 4ª categoria – 1,73m a 1,78m; 5ª categoria – 1,79m a 1,85m. A tabela 3 ilustra os valores de peso em kg aos 18 anos (variável numérica contínua) coletados em um estudo com jovens da cidade de Pelotas (RS).4,5 Com a variável peso categorizada em faixas de 20 kg, apresentamos um histograma na figura 4. Em se tratando de variáveis numéricas contínuas, pode-se optar por apresentar seus dados no formato de tabelas ou gráficos. Revista2Vol89Portugues_Layout 1 05/05/14 18:32 Página 289 Apresentando dados em tabelas e gráficos 289 Quando se deseja avaliar a relação entre duas variáveis numéricas ou entre uma numérica e outra categórica, pode-se fazer uso do diagrama de pontos, também conhecido como diagrama de dispersão. Neste diagrama, cada par de valores é representado por um símbolo ou um ponto, em que sua posição horizontal é determinada pelo valor da primeira variável e a posição vertical é determinada pelo valor da segunda. Por convenção, os eixos vertical e horizontal devem corresponder ao desfecho e à exposição, respectivamente. A figura 5 demonstra a relação entre peso e altura em jovens com 18 anos de idade de Pelotas (RS) no ano de 2010.3, 4 Interpreta-se o diagrama da figura 5 da seguinte forma: o aumento na altura dos indivíduos está acompanhado por um determinado acréscimo em seu peso. REGRAS BÁSICAS PARA A CONFECÇÃO DE TABELAS E GRÁFICOS Idealmente, toda tabela deve: • Ser autoexplicativa; • Exibir valores com o mesmo número de casas decimais em todas as suas células (padronização); • Conter título informando o que está sendo apresentado, onde, o número de observações “N” e quando os dados foram coletados; Relação entre peso e altura 150 120 Peso Apresentando a relação entre duas variáveis As formas de apresentação de dados expostas até aqui têm como objetivo ilustrar a distribuição de uma determinada variável, seja ela categórica ou numérica. Outra possibilidade é a apresentação da relação entre duas variáveis de interesse, sejam elas categóricas ou numéricas. Quando trabalhamos com variáveis categóricas, podemos observar a relação entre elas através de uma tabela de contingência. Tabelas de contingência são tabelas que têm como finalidade analisar a associação entre duas ou mais variáveis. Geralmente, as linhas desta tabela são reservadas à variável de exposição (variável independente) e as colunas, à variável de desfecho (variável dependente). Por exemplo, se formos estudar o efeito da exposição solar (variável exposição) sobre o desenvolvimento do câncer de pele (variável desfecho), podemos colocar a variável exposição solar nas linhas e a variável desfecho, neste caso o câncer de pele, nas colunas de uma tabela de contingência. Para facilitar a compreensão da tabela, podemos incluir os valores totais das linhas e colunas. Os totais devem obedecer à somatória das linhas e/ou das colunas, conforme desejado, enquanto os valores relativos devem estar de acordo com a exposição, isto é, devem totalizar em 100% nas linhas. É justamente esta disposição dos valores percentuais que permitirá comparar grupos de risco ou exposição entre si, de modo a observar se os indivíduos expostos a determinado fator de risco apresentam ou não maior frequência do agravo à saúde de interesse. Assim, a tabela 4 demonstra que, na amostra estudada, 75,0%, 9,0% e 0,3% dos indivíduos que trabalharam expostos ao sol por 20 anos ou mais, por menos de 20 anos e aqueles que nunca trabalharam expostos ao sol, respectivamente, tiveram câncer de pele não melanoma. Outra forma de interpretação desta tabela é 25,0%, 91,0% e 99,7% dos indivíduos que trabalharam expostos ao sol por 20 anos ou mais, por menos de 20 anos e aqueles que nunca trabalharam expostos ao sol não tiveram câncer de pele não melanoma. Esta forma de apresentação é uma das mais utilizadas na literatura e facilita a leitura da tabela. 90 60 30 0 100 110 120 130 140 150 160 170 180 190 200 210 220 Altura FIGURA 5: Diagrama de pontos para a relação entre peso (kg) e altura (cm) em jovens de 18 anos de idade da cidade de Pelotas (n = 2.194). Pelotas, Brasil, 2010 TABELA 4: Exposição solar durante o trabalho e câncer de pele não melanoma (dados fictícios) Trabalho exposto ao sol Câncer de pele não melanoma Sim N Total Não % N % N % 20 anos ou mais 30 75,0 10 25,0 40 100,0 <20 anos 9 9,0 90 91,0 99 100,0 Nunca trabalhou exposto 1 0,3 300 99,7 301 100,0 Total 40 9,0 400 91,0 440 100,0 An Bras Dermatol. 2014;89(2):285-90. Revista2Vol89Portugues_Layout 1 05/05/14 18:32 Página 290 290 Duquia RP, Bastos JL, Bonamigo RR, González-Chica DA, Martinez-Mesa J 1.24 1.22 Pré operatório 1.4 Pós operatório 1.2 Pré operatório Pós operatório 1.2 1 1.18 1.16 0.8 1.14 0.6 1.12 0.4 1.1 1.08 0.2 Tratamento Placebo 0 Tratamento Placebo FIGURA 6: Figura demonstrando como a confecção de gráficos, cujo eixo Y não se inicia no valor zero, tende a superestimar as diferenças analisadas. À esquerda, há um gráfico, cujo eixo Y não se inicia no valor zero; à direita, uma reprodução com os mesmos dados, mas tendo-se o gráfico com o eixo Y iniciando-se no valor zero • Possuir estrutura formada por três linhas horizontais, em que duas delimitam o cabeçalho e uma faz o fechamento em sua parte inferior; • Não possuir linhas verticais em suas extremidades laterais; • Apresentar alguma explicação adicional no rodapé, quando necessário; • Ser inserida em um documento somente após ter sido mencionada no texto; e • Ser numerada por algarismos arábicos. • • • • Da mesma forma que as tabelas, os gráficos devem: Conter título abaixo da figura com todas as informações pertinentes; Ser referenciados no texto como figuras; Identificar os eixos pelas variáveis analisadas; Expor no rodapé a fonte que forneceu os dados, caso necessário; • Demonstrar a escala que está sendo utilizada; e • Ser autoexplicativos. O eixo vertical dos gráficos deve sempre iniciar no valor zero. Um tipo de distorção que ocorre frequentemente é o eixo vertical iniciar em valores superiores a zero. Sempre que isso ocorrer, superestimamse as diferenças encontradas, conforme pode ser observado na figura 6. CONCLUSÃO Entender como se classificam os tipos de variáveis e como apresentá-las em tabelas ou gráficos constitui etapa fundamental na pesquisa epidemiológica em todas as áreas, inclusive na Dermatologia. O domínio do assunto colabora para a síntese dos resultados e evita o uso errôneo e/ou excessivo de tabelas e figuras em artigos científicos. ❑ REFERÊNCIAS 1. 2. 3. 4. 5. Walker SL, Hawk JLM, Young AR. Acute and chronic effects. In: Freedberg IM, Eisen AZ, Wolff K, Austen KF, Goldsmith LA, Katz SI, editors. Fitzpatrick's Dermatology in General Medicine 8th ed. p. 1275-81. Duquia RP, Baptista Menezes AM, Reichert FF, de Almeida HL Jr. Prevalence and associated factors with sunscreen use in Southern Brazil: A population-based study. J Am Acad Dermatol. 2007;57:73-80. Duquia RP, de Almeida HL Jr, Breunig JA, Souzat PR, Göellner CD. Most common patterns of acne in male adolescents: a population-based study. Int J Dermatol. 2013;52:550-3. Breunig Jde A, de Almeida HL, Jr., Duquia RP, Souza PR, Staub HL. Scalp seborrheic dermatitis: prevalence and associated factors in male adolescents. Int J Dermatol. 2012;51:46-9. Almeida H, Jr., Cecconi J, Duquia RP, Souza PR, Breunig J. Sensitivity and specificity of self-reported acne in 18-year-old adolescent males. Int J Dermatol. 2013;52:946-8. ENDEREÇO PARA CORRESPONDÊNCIA: Rodrigo Pereira Duquia R. Independência, 172 - sala 902 90035-070 - Independência - RS Brasil E-mail: [email protected] Como citar este artigo: Duquia RP, Bastos JL, Bonamigo RR, González-Chica DA, Martinez-Mesa J. Apresentando dados em tabelas e gráficos. An Bras Dermatol. 2014;89(2):285-90. An Bras Dermatol. 2014;89(2):285-90.