VALIDADE E CONFIABILIDADE
DE
TESTES DIAGNÓSTICOS
VARIAÇÃO BIOLÓGICA DAS POPULAÇÕES HUMANAS
Teste - distinção entre indivíduos com resultados normais e anormais
– distribuição das características nas populações humanas.
Figura – resultados do teste de tuberculina – grande grupo com 0 mm
(sem enduração) e outro em torno de 20 mm – curva bimodal.
Separação dos indivíduos:
- sem experiência anterior com tuberculose (sem enduração) – à
esquerda
- com experiência anterior com a tuberculose (em torno de 20 mm)
– à direita
- maioria pode ser distinguida – alguns no centro “zona cinza” que
podem pertencer a qualquer uma das curvas.
Característica com distribuição bimodal – fácil separar a maioria
em dois grupos – doentes e saudáveis, por exemplo.
Maioria das características – distribuição unimodal (Figura) –
nenhum nível óbvio distingue os hipertensos dos normotensos.
Distribuições unimodais ou bimodais – fácil distinguir os valores
extermos normais e anormais – incerteza em casos que estão na “zona
cinza” nos dois tipos de curvas.
CONFIABILIDADE E VALIDADE
Confiabilidade (reprodutibilidade ou precisão) – consistência de
resultados quando a medição ou exame se repete – exemplo: dois
microscopistas lêem, independentemente um do outro, as mesmas
lâminas de malária e chegam ao mesmo diagnóstico – nível máximo
de confiabilidade – ambos podem estar errados.
Validade (ou acurácia) – grau em que o exame é apropriado para
medir o verdadeiro valor daquilo que é medido, observado ou
interpretado – exemplo: ECG é um teste de maior validade, comparado
à auscultação cardíaca com estetoscópio para detecção de alterações
cardiovasculares da doença de Chagas.
RELAÇÃO ENTRE CONFIABILIDADE E VALIDADE
a) Alta precisão e alta acurácia
Precisão
c) Baixa precisão e alta acurácia
Precisão
Acurácia
valor verdadeiro
b) Alta precisão e baixa acurácia
Precisão
Acurácia
valor verdadeiro
Acurácia
valor verdadeiro
d) Baixa precisão e baixa acurácia
Precisão
Acurácia
valor verdadeiro
Generalização para os testes diagnósticos:
- teste de baixa confiabilidade – baixa validade – de pouca utilidade
- teste de alta confiabilidade – não assegura alta validade – exame
pode ser reproduzível (resultados idênticos ou próximos quando
repetidos), mas não ser capaz de discriminar corretamente as
diversas situações – todos exames podem estar errados.
Confiabilidade e validade – necessárias para avaliar a qualidade
de um exame diagnóstico e a informação produzida.
CONFIABILIDADE DE UM TESTE DIAGNÓSTICO
Definição - consistência ou concordância de resultados quando
a mensuração ou o exame se repete, em condições idênticas.
Fatores que contribuem para a variação entre os resultados
do teste:
- variação intrasujeito (nos elementos individuais)
- variação interobservador (entre aqueles que estão lendo os
resultados do teste)
VARIAÇÃO INTRASUJEITO
- valores obtidos na medição de muitas característica humanas –
variam no tempo e em função das condições sob as quais os
testes são conduzidos
- importante considerar as condições em que o teste foi realizado,
incluindo a hora do dia.
VARIAÇÃO INTEROBSERVADOR
Variação entre observadores – dois ou mais examinadores
podem não produzir os mesmos resultados.
Exemplo: pesquisa pioneira sobre diagnóstico radiológicos
publicada em 1947 (Birkelo et al. 1947) – cinco radiologistas
examinaram, isoladamente, centenas de radiografias para
diagnóstico de tuberculose – 137 com pelo menos um diagnóstico
positivo com avaliação de concordância:
- os cinco concordaram em apenas 27 radiografias, quatro em 17,
três em 17 e dois em 23
- em 47 radiografias, um diagnosticou tuberculose e os outros
quatro apontaram resultado negativo
- examinadas novamente por um dos radiologistas – encontrou 59
casos de tuberculose na primeira avaliação e 78 na segunda –
cinco positivas passaram a ser negativas.
Discordâncias – encontradas em todas as avaliações
realizadas.
Consciência do problema – nível de confiabilidade como
preocupação constante dos profissionais de saúde – deve
ser medido, suas conseqüências sobre os resultados das
investigações devem ser avaliadas e providências devem
ser tomadas para mantê-lo no mais alto grau possível.
ESTIMATIVAS DA CONFIABILIDADE
Variáveis expressas em categorias
Concordância total – exemplo: dois radiologistas foram
instruídos para categorizarem radiografias em anormais,
duvidosas ou normais para tuberculose (Tabela).
Radiologista 2
Radiologista 1
Total
Anormal
Duvidosa
Normal
Anormal
33
5
14
52
Duvidosa
9
27
8
44
Normal
13
7
159
179
Total
55
39
181
275
Concordância total = (33 + 27 + 159) * 100 / 275 = 80%
Maioria das pessoas testadas possui resultados negativos –
provável concordância entre observadores.
Concordância – pode ser alta apenas em função do grande número
de achados negativos nos quais os observadores concordam –
desconsiderar os rotulados como negativos pelos dois observadores.
Radiologista 1
Radiologista 2
Total
Anormal
Normal
Anormal
33
14
47
Normal
13
159
172
Total
46
173
219
Concordância total
= (33 + 159) *100 / 219 = 87%
Concordância (sem negativos para ambos)
= 33 * 100 / (33 + 13 + 14) = 55%
ESTATÍSTICA KAPPA
Se dois observadores usarem critérios completamente diferentes
para denominar os sujeitos como positivos ou negativos – pode-se
esperar um concordância somente devida ao acaso.
Resposta à pergunta – Em que extensão a concordância entre dois
observadores excede o nível de concordância devido ao acaso?
(Conc. observada )  (Conc. esperada somente pelo acaso)
Kappa 
100%  (Conc. esperada somente pelo acaso)
EXEMPLO DE CÁLCULO DO KAPPA
Tabela – Classificação de 100 casos com sorologia positiva para
dengue em dengue clássico ou dengue hemorrágico por dois clínicos
com base na aplicação da prova do laço.
Classificação
Clínico A
Total
Clínico B
Clássico
Hemorrágico
Clássico
50
20
70 (70%)
Hemorrágico
10
20
30 (70%)
60 (60%)
40 (40%)
100 (100%)
Total
Porcentagem de concordância entre os dois clínicos
= (50 + 20) * 100 / 100 = 70%
Questão: se os dois clínicos utilizassem critérios diferentes –
quanto de concordância seria obtida somente devida ao acaso?
Classificação
Clínico A
Total
Clínico B
Clássico
Hemorrágico
Clássico
70*60% = 42
70 – 42 = 28
70
Hemorrágico
30*60% = 18
30 – 18 = 12
30
60 (60%)
40 (40%)
100
Total
Porcentagem de concordância devida ao acaso
= (42 + 12) * 100 / 100= 54%
Kappa = (70% - 54%) / (100% - 54%) = 0,35
Fórmula para cálculo da porcentagem de concordância devida ao
acaso
Classificação
Clínico A
Total
Clínico B
Clássico
Hemorrágico
Clássico
50 (a)
20 (b)
70 (70%)
Hemorrágico
10 (c)
20 (d)
30 (70%)
60 (60%)
40 (40%)
100 (100%)
Total
[( a  b)( a  c)  (c  d )(b  d ) 70  60  30  40
Pe 

 0,54  (54%)
2
2
(a  b  c  d )
100
KAPPA
Informa a proporção de concordância além da esperada pelo acaso.
A medida vale 0 quando a concordância é igual ao que seria esperado
pelo acaso e 1 quando há um perfeita concordância.
Para valores intermediários Landis e Koch (1997) propuseram as
seguintes interpretações:
Kappa
Concordância
Menor que 0
Ruim
0,00 – 0,20
Fraca
0,21 – 0,40
Sofrível
0,41 – 0,60
Regular
0,61 – 0,80
Boa
0,81 – 0,99
Ótima
Fonte: Landis JR, Koch GG 1997. The measurement of observer agreement for categorical
data. Biometrics 33: 159-174.
CUIDADOS NA INTERPRETAÇÃO DE KAPPA
1. Tipo de evento e outros fatores
Nível de confiabilidade
-depende do tipo de evento
- de numerosos fatores relacionados ao examinador, ao procedimento
em teste e ao ambiente onde as observações são feitas.
Alterações – fazer variar a concordância entre duas mensurações.
Elevação da confiabilidade:
- definição clara do evento
- regras inequívocas de mensuração
- esquemas de classificação apropriados (todos casos com local onde
ser colocado, sem ambigüidade)
CUIDADOS NA INTERPRETAÇÃO DE KAPPA
2. Prevalência
Afeta o resultado – baixas prevalências associadas a baixos níveis
de confiabilidade – kappa depende da concordância devida ao
acaso.
É possível encontrar baixos níveis de confiabilidade devido à baixa
prevalência e não a erros substanciais relacionados ao
procedimento diagnóstico empregado.
Informar a prevalência junto com o nível de confiabilidade.
Comparar os resultados de testes em populações onde o evento
tem a mesma prevalência.
CUIDADOS NA INTERPRETAÇÃO DE KAPPA
3. Independência da avaliação
Avaliações independentes umas das outras.
Examinador ao repetir exame – deve ignorar os resultados prévios.
Em muitas situações, um exame afeta o subseqüente – exames não
podem ser muito próximos:
- inquéritos recordatórios sobre consumo de alimentos em uma
investigação de surto de diarréia.
- anamneses repetidas em um indivíduo sobre o mesmo assunto
ESTIMATIVAS DA CONFIABILIDADE
Variáveis expressas de forma contínua
Desvio padrão
Informa sobre o nível de confiabilidade.
Quanto menor – mais próximos estão os resultados uns dos outros.
Coeficiente de variação - CV
Desvio padrão dividido pela média.
Facilita comparações – resultado não tem unidade e é expresso em
porcentagem.
Quanto menor o CV melhor o nível de confiabilidade
REFERÊNCIAS CONSULTADAS
Gordis L. Epidemiologia. 2º Edição. Rio de Janeiro: Revinter, 2004.
Pereira MG. Epidemiologia. Teoria e prática. Rio de Janeiro:
Guanabara Koogan, 1995.
REFERÊNCIAS CITADAS, MAS NÃO CONSULTADAS
Birkelo CC, Chamberlain WE, Phelps OS et al. Tuberculosis case
finding: the effectiveness of various roentgenographic and
photographic methods. Journal of the American Medical Association
1947; 133:359-366. (Pereira 1995).