A estatística nas investigações cientificas em saúde: usos e abusos Ronir Raggio Luiz Instituto de Estudos em Saúde Coletiva (IESC/UFRJ) Faculdade de Medicina da UFRJ Usos e abusos na área da saúde USOS: inúmeros, como importantíssima e fundamental “ferramenta”, além de contribuir muito motivando desenvolvimentos teóricos ABUSOS: alguns, como a interpretação da significância estatística; ou aqueles relacionados aos modelos estatísticos múltiplos (interpretação, diagnóstico, amostras pequenas); ou ainda a simples “diferença” desvio-padrão e erro-padrão Mas qual ferramenta representa melhor a estatística nas investigações em saúde: colher de pedreiro ou martelo de juiz? Símbolos associação de ideias e interpretações Colher de pedreiro ideia de “construção” Martelo do juiz (malhete) ideia de “decisão” Tomada de decisão ERRO O papel da estatística Na clínica Decisão “clínica” diagnóstico e tratamento individual Nas investigações em saúde dados populacionais conhecimento incerteza conceito de risco Tomada de decisão ERRO O papel da estatística Decisão e erro na estatística teste de hipóteses Mas nas investigações em saúde, estamos mais interessados em conhecer parâmetros que caracterizem as condições de saúde de uma população ou estimem efeitos causais Validade e precisão Intervalos de confiança Revendo Validade e Precisão Intervalo de confiança (imprecisão) Erro (viés ou imprecisão?) Estimativa Parâmetro Vieses, confundimento, interação... Retomando: mas por que a supervalorização dos testes de hipóteses? Estudos experimentais vs. observacionais Mais sobre a supervalorização dos testes de hipóteses Os “caminhos” das investigações 1. 2. Caminho ideal: Questão + planejamento metodológico + análise dos dados resultado Caminho mais usual: Dados disponíveis + questão + análise estatística resultado O que mais importa, então? Resultado vs. Questão+método Revendo os testes de hipóteses estatísticas retomando a ideia de decisão/erro H0 = hipótese nula (ou de nulidade) e H1 = hipótese alternativa Significância estatística – p-valor – erro tipo I Analogias possíveis ou razoáveis: 1) Julgamento (H0=inocente vs H1=culpado) 2) Teste diagnóstico (H0=saudável vs H1=doente) Exemplo do “julgamento”: Significância estatística vs. causalidade T 1 = 00:00 às 08:00hs T 2 = 08:00 às 16:00hs T 3 = 16:00 às 24:00hs 40 Óbitos 30 20 10 0 88 89 90 91 92 93 94 95 96 97 Ano Óbitos por ano e turno, em um hospital federal de Massachusetts/EUA 1988 a 1997 Nas investigações em saúde, onde comumente a intenção é estabelecer relações causais, o que significa então um resultado estatisticamente significativo? Mas lembrar: Tamanho do “efeito” Tamanho da amostra Variabilidade E o erro tipo II (beta): interessa? ERROS ASSOCIADOS A UM TESTE DE HIPÓTESE Erro tipo I (a) e erro tipo II (b) Decisão tomada Verdade H0 H1 H0 ok b H1 a ok Exemplo simples, mas “simbólico” de um teste estatístico Como “testar” se um dado é honesto? H0: dado é honesto vs. H1: dado é viciado Suponha 60 lançamentos do dado (n=60) – iid Resultado esperado vs. observado Face 1 2 3 4 5 6 Total Esperado Observado 1 Observado 2 sob H0 10 12 6 10 9 7 10 10 4 10 11 8 10 11 5 10 7 30 60 60 60 P-valor grande ou pequeno? Se o resultado é o “observado 2” (ou seja, 30 vezes o número 6) duas explicações alternativas Acaso (qual a probabilidade?) 2. Dado não é honesto 1. Voltando às investigações em saúde Frequentemente a “pergunta” envolve estudar a associação entre variáveis, com interesse em relações de causa e efeito. Por exemplo, determinada droga tem eficácia (ou efetividade ou eficiência)? Primeira pergunta: O resultado é válido? E as unidades de análise não são replicações idênticas... Então, mais um explicação alternativa àquelas duas anteriores 1) vieses (informação e seleção) e 2) confundimento. (E validade de especificação?) Lembrar, ainda, de interação (modificação de efeito) Questões teóricas e práticas relacionadas que sempre devem ser consideradas: Desenhos de estudo e medidas de efeito Bases de dados já disponíveis Aleatoriedade (randomização e amostra aleatória) Mensuração (qualidade das medidas) E ainda: Relevância prática ou “clínica” Ilustração de confundimento: exposição vs. desfecho X EpiInfo Version 6 + Disease ┌────────┬────────┐ +│ 20 │ 30 │ ├────────┼────────┤ -│ 10 │ 40 │ └────────┴────────┘ E 30 70 x p o s u r e Statcalc 50 50 November 1993 Analysis of Single Table Odds ratio = 2.67 (1.00 <OR< 7.21) Cornfield 95% confidence limits for OR Relative risk = 2.00 (1.04 <RR< 3.83) Taylor Series 95% confidence limits for RR Ignore relative risk if case control study. 100 Chi-Squares P-values ─────────── ──────── Uncorrected : 4.76 0.0290963 ◄─── Mantel-Haenszel: 4.71 0.0299130 ◄─── Yates corrected: 3.86 0.0495346 ◄─── F2 More Strata; <Enter> No More Strata; F10 Quit + Disease Analysis of Sigle Table ┌────────┬────────┐ Odds ratio = 1.00 (0.11 <OR< 7.35*) +│ 2 │ 18 │ 20 Cornfield 95% confidence limits for OR ├────────┼────────┤ *Cornfield not accurate. Exact limits preferred. -│ 4 │ 36 │ 40 Relative risk = 1.00 (0.20 <RR< 5.00) └────────┴────────┘ Taylor Series 95% confidence limits for RR E 6 54 60 Ignore relative risk if case control study. x p Chi-Squares P-values o ─────────── ──────── s Uncorrected : 0.00 1.0000000 u---------------------------------------------------------------------------------+ Disease Odds ratio = 1.00 (0.18 <OR< 5.33*) ┌────────┬────────┐ Cornfield 95% confidence limits for OR +│ 18 │ 12 │ 30 *Cornfield not accurate. Exact limits preferred. ├────────┼────────┤ Relative risk = 1.00 (0.56 <RR< 1.79) -│ 6 │ 4 │ 10 Taylor Series 95% confidence limits for RR └────────┴────────┘ Ignore relative risk if case control study. E 24 16 40 x Chi-Squares P-values p ─────────── ──────── o Uncorrected : 0.00 1.0000000 s---------------------------------------------------------------------------------***** Stratified Analysis ***** Summary of 2 Tables Crude odds ratio for all strata = 2.67 Mantel-Haenszel Weighted Odds Ratio = 1.00 Crude RR for all strata = 2.00 Mantel-Haenszel Weighted Relative Risk of Disease, given Exposure = 1.00 Resumindo Três alternativas para interpretar um teste estatisticamente significativo (p-valor pequeno): 1) H1 é a verdade e o teste foi capaz de detectá-la. 2) H0 é a verdade, mas por mero ACASO os dados apontaram uma decisão em favor de H1 (p-valor); 3) H0 é a verdade, mas existe algum VIÉS no estudo que gerou uma decisão em favor de H1. Finalizando Estatística nas investigações em saúde, especialmente a partir de teste de hipóteses: Colher de pedreiro ou martelo do juiz? Minha resposta: é uma importante ferramenta (colher de pedreiro) que auxilia, e muito, na “construção” do conhecimento em saúde e de avaliações de ações, mas é muito limitada para “decisões”, especialmente aquelas individuais Na apresentação dos resultados dê preferência aos intervalos de confiança já que estes não só contém indiretamente a informação que se pode extrair da significância estatística do estudo (caso isso interesse), como também apresentam a magnitude do efeito do que se está estudando, permitindo portanto uma avaliação dos “erros” das investigações de forma mais prática.