VALIDADE E CONFIABILIDADE DE TESTES DIAGNÓSTICOS VARIAÇÃO BIOLÓGICA DAS POPULAÇÕES HUMANAS Teste - distinção entre indivíduos com resultados normais e anormais – distribuição das características nas populações humanas. Figura – resultados do teste de tuberculina – grande grupo com 0 mm (sem enduração) e outro em torno de 20 mm – curva bimodal. Separação dos indivíduos: - sem experiência anterior com tuberculose (sem enduração) – à esquerda - com experiência anterior com a tuberculose (em torno de 20 mm) – à direita - maioria pode ser distinguida – alguns no centro “zona cinza” que podem pertencer a qualquer uma das curvas. Característica com distribuição bimodal – fácil separar a maioria em dois grupos – doentes e saudáveis, por exemplo. Maioria das características – distribuição unimodal (Figura) – nenhum nível óbvio distingue os hipertensos dos normotensos. Distribuições unimodais ou bimodais – fácil distinguir os valores extermos normais e anormais – incerteza em casos que estão na “zona cinza” nos dois tipos de curvas. CONFIABILIDADE E VALIDADE Confiabilidade (reprodutibilidade ou precisão) – consistência de resultados quando a medição ou exame se repete – exemplo: dois microscopistas lêem, independentemente um do outro, as mesmas lâminas de malária e chegam ao mesmo diagnóstico – nível máximo de confiabilidade – ambos podem estar errados. Validade (ou acurácia) – grau em que o exame é apropriado para medir o verdadeiro valor daquilo que é medido, observado ou interpretado – exemplo: ECG é um teste de maior validade, comparado à auscultação cardíaca com estetoscópio para detecção de alterações cardiovasculares da doença de Chagas. RELAÇÃO ENTRE CONFIABILIDADE E VALIDADE a) Alta precisão e alta acurácia Precisão c) Baixa precisão e alta acurácia Precisão Acurácia valor verdadeiro b) Alta precisão e baixa acurácia Precisão Acurácia valor verdadeiro Acurácia valor verdadeiro d) Baixa precisão e baixa acurácia Precisão Acurácia valor verdadeiro Generalização para os testes diagnósticos: - teste de baixa confiabilidade – baixa validade – de pouca utilidade - teste de alta confiabilidade – não assegura alta validade – exame pode ser reproduzível (resultados idênticos ou próximos quando repetidos), mas não ser capaz de discriminar corretamente as diversas situações – todos exames podem estar errados. Confiabilidade e validade – necessárias para avaliar a qualidade de um exame diagnóstico e a informação produzida. CONFIABILIDADE DE UM TESTE DIAGNÓSTICO Definição - consistência ou concordância de resultados quando a mensuração ou o exame se repete, em condições idênticas. Fatores que contribuem para a variação entre os resultados do teste: - variação intrasujeito (nos elementos individuais) - variação interobservador (entre aqueles que estão lendo os resultados do teste) VARIAÇÃO INTRASUJEITO - valores obtidos na medição de muitas característica humanas – variam no tempo e em função das condições sob as quais os testes são conduzidos - importante considerar as condições em que o teste foi realizado, incluindo a hora do dia. VARIAÇÃO INTEROBSERVADOR Variação entre observadores – dois ou mais examinadores podem não produzir os mesmos resultados. Exemplo: pesquisa pioneira sobre diagnóstico radiológicos publicada em 1947 (Birkelo et al. 1947) – cinco radiologistas examinaram, isoladamente, centenas de radiografias para diagnóstico de tuberculose – 137 com pelo menos um diagnóstico positivo com avaliação de concordância: - os cinco concordaram em apenas 27 radiografias, quatro em 17, três em 17 e dois em 23 - em 47 radiografias, um diagnosticou tuberculose e os outros quatro apontaram resultado negativo - examinadas novamente por um dos radiologistas – encontrou 59 casos de tuberculose na primeira avaliação e 78 na segunda – cinco positivas passaram a ser negativas. Discordâncias – encontradas em todas as avaliações realizadas. Consciência do problema – nível de confiabilidade como preocupação constante dos profissionais de saúde – deve ser medido, suas conseqüências sobre os resultados das investigações devem ser avaliadas e providências devem ser tomadas para mantê-lo no mais alto grau possível. ESTIMATIVAS DA CONFIABILIDADE Variáveis expressas em categorias Concordância total – exemplo: dois radiologistas foram instruídos para categorizarem radiografias em anormais, duvidosas ou normais para tuberculose (Tabela). Radiologista 2 Radiologista 1 Total Anormal Duvidosa Normal Anormal 33 5 14 52 Duvidosa 9 27 8 44 Normal 13 7 159 179 Total 55 39 181 275 Concordância total = (33 + 27 + 159) * 100 / 275 = 80% Maioria das pessoas testadas possui resultados negativos – provável concordância entre observadores. Concordância – pode ser alta apenas em função do grande número de achados negativos nos quais os observadores concordam – desconsiderar os rotulados como negativos pelos dois observadores. Radiologista 1 Radiologista 2 Total Anormal Normal Anormal 33 14 47 Normal 13 159 172 Total 46 173 219 Concordância total = (33 + 159) *100 / 219 = 87% Concordância (sem negativos para ambos) = 33 * 100 / (33 + 13 + 14) = 55% ESTATÍSTICA KAPPA Se dois observadores usarem critérios completamente diferentes para denominar os sujeitos como positivos ou negativos – pode-se esperar um concordância somente devida ao acaso. Resposta à pergunta – Em que extensão a concordância entre dois observadores excede o nível de concordância devido ao acaso? (Conc. observada ) (Conc. esperada somente pelo acaso) Kappa 100% (Conc. esperada somente pelo acaso) EXEMPLO DE CÁLCULO DO KAPPA Tabela – Classificação de 100 casos com sorologia positiva para dengue em dengue clássico ou dengue hemorrágico por dois clínicos com base na aplicação da prova do laço. Classificação Clínico A Total Clínico B Clássico Hemorrágico Clássico 50 20 70 (70%) Hemorrágico 10 20 30 (70%) 60 (60%) 40 (40%) 100 (100%) Total Porcentagem de concordância entre os dois clínicos = (50 + 20) * 100 / 100 = 70% Questão: se os dois clínicos utilizassem critérios diferentes – quanto de concordância seria obtida somente devida ao acaso? Classificação Clínico A Total Clínico B Clássico Hemorrágico Clássico 70*60% = 42 70 – 42 = 28 70 Hemorrágico 30*60% = 18 30 – 18 = 12 30 60 (60%) 40 (40%) 100 Total Porcentagem de concordância devida ao acaso = (42 + 12) * 100 / 100= 54% Kappa = (70% - 54%) / (100% - 54%) = 0,35 Fórmula para cálculo da porcentagem de concordância devida ao acaso Classificação Clínico A Total Clínico B Clássico Hemorrágico Clássico 50 (a) 20 (b) 70 (70%) Hemorrágico 10 (c) 20 (d) 30 (70%) 60 (60%) 40 (40%) 100 (100%) Total [( a b)( a c) (c d )(b d ) 70 60 30 40 Pe 0,54 (54%) 2 2 (a b c d ) 100 KAPPA Informa a proporção de concordância além da esperada pelo acaso. A medida vale 0 quando a concordância é igual ao que seria esperado pelo acaso e 1 quando há um perfeita concordância. Para valores intermediários Landis e Koch (1997) propuseram as seguintes interpretações: Kappa Concordância Menor que 0 Ruim 0,00 – 0,20 Fraca 0,21 – 0,40 Sofrível 0,41 – 0,60 Regular 0,61 – 0,80 Boa 0,81 – 0,99 Ótima Fonte: Landis JR, Koch GG 1997. The measurement of observer agreement for categorical data. Biometrics 33: 159-174. CUIDADOS NA INTERPRETAÇÃO DE KAPPA 1. Tipo de evento e outros fatores Nível de confiabilidade -depende do tipo de evento - de numerosos fatores relacionados ao examinador, ao procedimento em teste e ao ambiente onde as observações são feitas. Alterações – fazer variar a concordância entre duas mensurações. Elevação da confiabilidade: - definição clara do evento - regras inequívocas de mensuração - esquemas de classificação apropriados (todos casos com local onde ser colocado, sem ambigüidade) CUIDADOS NA INTERPRETAÇÃO DE KAPPA 2. Prevalência Afeta o resultado – baixas prevalências associadas a baixos níveis de confiabilidade – kappa depende da concordância devida ao acaso. É possível encontrar baixos níveis de confiabilidade devido à baixa prevalência e não a erros substanciais relacionados ao procedimento diagnóstico empregado. Informar a prevalência junto com o nível de confiabilidade. Comparar os resultados de testes em populações onde o evento tem a mesma prevalência. CUIDADOS NA INTERPRETAÇÃO DE KAPPA 3. Independência da avaliação Avaliações independentes umas das outras. Examinador ao repetir exame – deve ignorar os resultados prévios. Em muitas situações, um exame afeta o subseqüente – exames não podem ser muito próximos: - inquéritos recordatórios sobre consumo de alimentos em uma investigação de surto de diarréia. - anamneses repetidas em um indivíduo sobre o mesmo assunto ESTIMATIVAS DA CONFIABILIDADE Variáveis expressas de forma contínua Desvio padrão Informa sobre o nível de confiabilidade. Quanto menor – mais próximos estão os resultados uns dos outros. Coeficiente de variação - CV Desvio padrão dividido pela média. Facilita comparações – resultado não tem unidade e é expresso em porcentagem. Quanto menor o CV melhor o nível de confiabilidade REFERÊNCIAS CONSULTADAS Gordis L. Epidemiologia. 2º Edição. Rio de Janeiro: Revinter, 2004. Pereira MG. Epidemiologia. Teoria e prática. Rio de Janeiro: Guanabara Koogan, 1995. REFERÊNCIAS CITADAS, MAS NÃO CONSULTADAS Birkelo CC, Chamberlain WE, Phelps OS et al. Tuberculosis case finding: the effectiveness of various roentgenographic and photographic methods. Journal of the American Medical Association 1947; 133:359-366. (Pereira 1995).