Arq Bras Cardiol
volume 74, (nº 4), 2000
Guimarães
cols.
Artigo
Origein
al
Confiabilidade da interpretação da cinecoronariografia
Confiabilidade da Interpretação da Cinecoronariografia pelo
Método Visual Simples
Jorge Augusto Nunes Guimarães, Edgar Guimarães Victor, Maria do Rosário de Britto Leite,
José Maria Pereira Gomes, Edgar Victor Filho, Jesus Reyes Liveras
Recife, PE
Objetivo - Avaliar a reprodutibilidade inter e intra-observador da interpretação da cinecoronariografia pelo método visual simples (MVS) no contexto da prática clínica.
Métodos - Cinco cardiologistas intervencionistas
interpretaram 11 segmentos coronarianos em 8 cinefilmes,
em duas etapas separadas por um período mínimo de dois
meses. Os valores percentuais de obstrução foram classificados em: classificação A, quatro graus de lesão (ausente: 0%; discreto: 1%-50%; moderado: 51%-69%; acentuado: ≥70%) e classificação B, dois graus de lesão (nãosignificante: <70%; significante: ≥70%). O nível de concordância foi medido pelo índice de kappa (k).
Resultados - A concordância inter-observador, baseada na média de k (km), foi de nível regular, na classificação A (1 a etapa: k=0,36 a k=0,63, k m=0,49; 2a etapa:
k=0,39 a k=0,68, km=0,52) e de nível bom na classificação B (1 a etapa: k=0,55 a k=0,73, k m=0,63; 2a etapa:
k=0,37 a k=0,82, km=0,61). Os índices da concordância
intra-observador variaram entre k=0,57 e k=0,95, na
classificação A e de k=0,62 a k=1, na classificação B.
Conclusão - A interpretação da cinecoronariografia
pelo MVS obteve altos níveis de concordância intra-observador. A reprodutibilidade entre observadores só alcançou um bom nível com o critério dicotômico habitualmente considerado para limiares isquêmicos. Estes resultados
demonstram ser, o método, confiável para identificar pacientes com lesões clinicamente significantes e candidatos
a procedimentos de revascularização miocárdica.
Palavras-chave:
cinecoronariografia, variabilidade de testes diagnósticos, estatística de kappa
Hospital das Clínicas da UFPE e Real Hospital Português - Recife
Correspondência: Jorge Augusto Nunes Guimarães – Rua Alfredo Fernandes, 136/
401 – 52060-320 – Recife, PE. e-mail: [email protected]
Recebido para publicação em 14/5/99
Aceito em 14/7/99
Os resultados obtidos com qualquer procedimento
que exija mensuração, seja na prática clínica ou na investigação científica, exibem algum grau de variação de suas
medidas. Na investigação científica, um dos conceitos que
avalia as variações de medidas é a confiabilidade (reprodutibilidade, precisão), definida como a capacidade de concordância dos resultados ao se repetir o procedimento ao
longo do tempo ou quando o mesmo fenômeno é medido
por vários indivíduos ao mesmo tempo 1,2. Ela pode ser avaliada pelo grau de concordância na análise de diferentes
examinadores (concordância inter-observador), ou pela
consistência entre as repetidas análises de um mesmo examinador (concordância intra-observador) 1.
No âmbito da cardiologia, por permanecer como o principal método para se diagnosticar a doença aterosclerótica
coronariana e definir estratégias terapêuticas 3, a cinecoronariografia é alvo de questões relevantes sobre sua reprodutibilidade e acurácia. A observação de uma lesão obstrutiva e a estimativa de sua magnitude dependem, inicialmente
e em grande parte, da opinião de um único profissional que
analisa o resultado de um procedimento por ele realizado.
Este envolvimento pode induzir a subestimação de alguns
fatores dependentes do operador, que limitam a credibilidade do resultado obtido 4.
Os estudos sobre confiabilidade na interpretação visual simples da cinecoronariografia surgiram na metade da
década de 70 e são relativamente escassos. Diferenças metodológicas quanto aos tipos de dados e índices usados
para medir a confiabilidade dificultam uma efetiva comparação entre eles 5-9. Apesar disso, ficou evidente a ampla variabilidade de seus resultados, especialmente quando as
variáveis estudadas eram expressas em valores percentuais
de obstrução. Não obstante alguns autores terem demonstrado alternativas que aumentavam a precisão da estimativa
visual 10-12, a aplicação da análise digital quantitativa tornou-se padrão na literatura científica 13-18. A utilização deste
método na prática clínica, contudo, não é automática. Como
método diagnóstico, a principal informação derivada da
cinecoronariografia, entre as várias possíveis, é sobre a
Arq Bras Cardiol, volume 74 (nº 4), 291-299, 2000
291
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
presença ou não de doença aterosclerótica obstrutiva capaz
de provocar isquemia miocárdica. Os estudos experimentais
de Gould e cols. 19-21, identificando limiares isquêmicos através da correlação entre o grau de obstrução luminal coronariano e as alterações da reserva de fluxo coronariano,
influenciaram a tendência de se menosprezar a precisão ao
quantificar-se lesões abaixo de 50% 4,22,23 e de descrevê-las
em categorias ordenadas pela magnitude desta obstrução,
como lesões discretas, moderadas e acentuadas. Além disso, vários estudos revelam importantes limitações para a
aplicação rotineira da análise digital quantitativa nos procedimentos diagnósticos 4,23-27.
Em nosso meio, apesar de já contarmos com equipamentos de cineangiocardiografia dotados com sistemas de análise digital, a grande maioria dos exames continua a ser interpretada da forma visual tradicional, pelo mesmo especialista que a realizou. Desta forma, notamos uma incongruência
entre as evidências científicas sobre a confiabilidade do método e a prática clínica. Por outro lado, a confiabilidade da
maneira como o método é, rotineiramente, aplicado para fins
diagnósticos não foi adequadamente avaliada.
Este estudo se propõe a avaliar a reprodutibilidade da
interpretação da cinecoronariografia pelo método visual
simples, efetuada por médicos especialistas em cardiologia
intervencionista, com um modelo que estime a concordância
inter e intra-observador no contexto da rotina diagnóstica
contemporânea.
Métodos
Cinco cardiologistas foram selecionados como observadores, por escolha deliberada de um dos autores (JANG) ,
entre os 17 especialistas em procedimentos diagnósticos por
cateterismo cardíaco que atuam em nove hospitais públicos e
privados, na cidade do Recife. O mesmo autor selecionou, do
seu arquivo pessoal, 23 cinecoronariografias sem antecedentes de revascularização miocárdica, tendo como únicos
pré-requisitos: apresentar comprometimento multiarterial da
doença aterosclerótica coronariana, em qualquer grau, e ter
qualidade técnica adequada quanto à opacificação das artérias e às projeções suficientes para clara identificação dos
vários segmentos arteriais.
Todos os exames foram executados pela técnica de
Judkins 28, com cateteres com diâmetros de 6F, em um aparelho de cineangiocardiografia Philips®, Poly Diagnost U.P.I.,
com intensificador de imagem com campo de 6,5pol, no Real
Hospital Português de Beneficência em Pernambuco. As
imagens foram registradas em cinefilmes de 35mm (Kodak®,
CFT), a 30 quadros/segundo. Foram escolhidos oito cinefilmes, buscando um amplo espectro de magnitude de lesões em todos os segmentos a serem estudados.
As artérias coronarianas foram divididas em 11 segmentos para a análise dos cinefilmes, de acordo com o quadro I.
Os cinco observadores foram codificados e mantidos
anonimamente, ao longo do estudo. Receberam um formulário contendo uma tabela cujas linhas eram reservadas ao
registro dos oito cinefilmes e com colunas para cada um dos
292
Arq Bras Cardiol
volume 74, (nº 4), 2000
Quadro I - Segmentos das artérias coronarianas selecionadas
para análise
1)
2)
TCE:
Tronco da coronária esquerda
DAPROX: Metade proximal da artéria descendente anterior
(inclui óstio)
3) DADIST: Metade distal da artéria descendente anterior
4) DG:
Principal ramo diagonal (ou mediano) quanto a
extensão e calibre
5) CXPROX: Segmento proximal da artéria circunflexa (inclui óstio)
6) CXAV:
Segmento átrio-ventricular da artéria circunflexa
7) MG:
Principal ramo marginal da artéria circunflexa quanto
a extensão e calibre
8) CDPROX: Metade proximal da coronária direita (inclui óstio)
9) CDDIST: Metade distal da coronária direita (inclui bifurcação)
10) DPOST:
Ramo descendente posterior da coronária direita
11) VP:
Ramo ventricular posterior da coronária direita
11 segmentos referidos no quadro I. Não houve qualquer
informação clínica sobre os casos e os registros de identificação dos cinefilmes estavam vedados.
As análises foram realizadas no Real Hospital Português em um projetor de cinefilmes TAGARNO® 35CX, de
modo individual e independente, sem limite de tempo. Cada
observador anotou, para cada segmento, um único valor
percentual de obstrução da luz arterial (0 a 100). Nos casos
em que havia mais de uma lesão no mesmo segmento, foi
anotada a de maior valor. Com o objetivo de se evitar a estafa visual e minimizar a tendência natural de se dedicar mais
atenção aos primeiros cinefilmes, prejudicando a interpretação dos últimos, as análises foram feitas em dois tempos
com a interpretação de quatro cinefilmes em cada um. A ordem de observação dos cinefilmes foi aleatória.
Cada observador reavaliou os oito cinefilmes após um
período mínimo de dois meses a partir de sua última análise
da 1a etapa, seguindo o mesmo protocolo acima descrito.
Nenhum teve conhecimento dos valores anotados pelos
outros em qualquer etapa ou de seus próprios valores, no
momento da 2a etapa.
Aos observadores foi enfatizado que evitassem tão somente categorizar as lesões ou assinalá-las entre margens de
valores. Nos casos, afinal, em que não conseguissem estabelecer o valor percentual de uma dada lesão, foi-lhes permitido
anotar, no espaço apropriado, o sinal (?) seguido da indicação
da interpretação do observador sobre o grau de obstrução
como sendo discreto (D), moderado (M) ou acentuado (A).
Para a análise comparativa, duas planilhas foram elaboradas, uma para cada modo de classificação das lesões de
acordo com o grau de obstrução (quadro II).
A análise da distribuição da freqüência das lesões assinaladas por cada observador foi realizada pelo teste de
Friedman 29, para a classificação A, com quatro variáveis
categóricas e pelo teste de Cochran 30, para a classificação
B, com variáveis binárias.
O pareamento dos cinco observadores permitiu a formação de 10 pares de combinações, cujas tabelas de contingência serviram para a análise estatística em cada classificação de grau de lesão, nas duas etapas do estudo. A taxa geral de concordância, definida como a proporção de concor-
Arq Bras Cardiol
volume 74, (nº 4), 2000
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
Quadro II - Classificações das lesões de acordo com o grau de obstrução nos segmentos coronarianos selecionados
Segmento
TCE*
Demais
Classificação A
Classificação B
Ausência
Discreto
Moderado
Acentuada
Significante
(A)
Não
significante
(N)
(Z)
(D)
(M)
0%
0%
1%-50%
1%-50%
51%-69%
≥50%
≥70%
<50%
<70%
≥50%
≥70%
(S)
*TCE- Tronco da coronária esquerda.
dância entre os observadores em relação ao total da amostra, foi calculada para cada classificação, em ambas as etapas. O critério estabelecido para medir as concordâncias inter e intra-observador foi a estatística de kappa (k), definida
como a proporção de concordância além da esperada pelo
acaso e expressa pela fórmula 30,31:
(p - p )
k= o e
(1 - pe)
po: proporção de concordâncias observadas
pe: proporção de concordâncias esperadas
Este cálculo considera todas as discrepâncias igualmente. Quando as categorias são ordenadas e com número
maior que dois, graus de discrepância entre categorias contíguas ou mais distantes podem ter relevâncias clínicas diferentes. Para corrigir a avaliação destas discrepâncias, o índice de kappa ponderado 31 foi utilizado para medir a concordância entre as quatro categorias de grau de lesão definidas
na classificação A.
Os critérios para a interpretação dos valores do kappa
estão descritos no quadro III.
O nível de significância estatística das diferenças entre
os índices de kappa dos pares de observadores e entre os
valores de cada observador nas duas classificações, foi
analisado pelo teste T pareado, com α=0,05.
A elaboração das planilhas e os cálculos estatísticos
foram executados com o auxílio dos programas de computador Microsoft® Excel - versão 8,0, Epi Info - 6,02 e SPSS for
Windows - 6,0.
Resultados
Cada observador interpretou, individualmente, 11 seg-
mentos coronarianos nos oito cinefilmes, em duas ocasiões
independentes, perfazendo um total de 440 observações em
cada etapa do estudo. Apenas em 8 (0,9%) segmentos das
880 avaliações do estudo, as observações não foram assinaladas pelo valor percentual da obstrução.
As distribuições das freqüências dos valores assinalados, de acordo com o grau de obstrução definido na classificação A, na 1a etapa do estudo, estão descritas na tabela I.
Os observadores 1, 2, 3 e 5 consideraram que a maioria dos
segmentos se encontrava sem lesões obstrutivas (grau Z),
com incidências entre 62,5% e 73,9%, enquanto para o observador 4, a maioria dos segmentos tinha lesões discretas
(grau D, 60,2%). Todos os cinco observadores consideraram que as lesões moderadas (grau M) foram as menos freqüentes, com incidência variando entre 0% (observador 2)
e 4,6% (observadores 4 e 5). As lesões acentuadas (grau A)
foram assinaladas entre 8% (observador 1) e 17% (observador 5). A análise desta distribuição de freqüência entre os
cinco observadores demonstrou que as diferenças foram
estatisticamente significativas (teste de Friedman, p<0,00-
Quadro III - Interpretação dos valores de kappa*
kappa
Nível de concordância
0
0 < k ≤ 0,20
0,21 < k ≤ 0,40
0,41 < k ≤ 0,60
0,61 < k ≤ 0,80
0,81 < k ≤ 0,99
1
Igual ao acaso
Fraco
Sofrível
Regular
Bom
Ótimo
Perfeito
* De acordo com a ref. 2.
Tabela I - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação A para grau de lesão (Z - ausente = 0%;
D- discreto= 1%-50%; M- moderado= 51%-69%; A- acentuada ≥70%), na 1a etapa do estudo
Grau
Z
D
M
A
Total
1
2
Observadores
3
4
5
X±DP
64 (72,7) *
16 (18,2)
1 (1,1)
7 (8)
88 (100)
65 (73,9)
14 (15,9)
0
9 (10,2)
88 (100)
55 (62,5)
19 (21,6)
3 (3,4)
11 (12,5)
88 (100)
22 (25)
53 (60,2)
4 (4,6)
9 (10,2)
88 (100)
62 (70,5)
7 (7,9)
4 (4,6)
15 (17)
88 (100)
53,6±18,1
21,8±18,0
2,4±1,8
10,2±3,0
Teste de Friedman, p<0,0001; * n (%); X±DP- média±desvio-padrão.
293
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
Arq Bras Cardiol
volume 74, (nº 4), 2000
Tabela II - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação A para grau de lesão (Z- ausente= 0%;
D- discreto= 1%-50%; M- moderado= 51%-69%; A- acentuado 70%), na 2a etapa do estudo
Grau
Z
D
M
A
Total
1
2
Observadores
3
4
5
X±DP
41 (46,6) *
34 (38,6)
3 (3,4)
10 (11,4)
88 (100)
60 (68,2)
17 (19,3)
1 (1,1)
10 (11,4)
88 (100)
57 (64,8)
18 (20,4)
3 (3,4)
10 (11,4)
88 (100)
25 (28,4)
49 (55,7)
5 (5,7)
9 (10,2)
88 (100)
59 (67,1)
4 (4,5)
5 (5,7)
20 (22,7)
88 (100)
48,4±15,2
24,4±17,4
3,4±1,7
11,8±4,6
Teste de Friedman, p=0,00015; * n (%); X±DP- média±desvio-padrão.
01). Na 2a etapa do estudo (tab. II), a freqüência média dos
segmentos considerados como grau Z diminuiu, devido à
menor proporção assinalada pelos observadores 1, 2, 3 e 5
(respectivamente: 46,6%; 68,2%; 64,8%; e 67,1%). Novamente, o observador 4 interpretou que a maioria dos segmentos apresentava lesões grau D (55,7%) e todos os observadores consideraram que as lesões grau M ocorreram
com menor freqüência, com incidência variando entre 1,1%
(observador 2) e 5,7% (observadores 4 e 5). As lesões grau
A foram assinaladas entre 10,2% (observador 4) e 22,7%
(observador 5). A análise destas diferenças também foi estatisticamente significativa (teste de Friedman, p=0,00015).
As distribuições das freqüências das lesões assinaladas pelos cinco observadores de acordo com a classificação B, na 1a etapa do estudo, estão descritas na tabela III.
Os observadores 1, 2, 3 e 4 apontaram uma incidência entre
8% e 12,5% de lesões significantes (grau S) enquanto o observador 5 as assinalou em 17% dos casos. A análise destas
diferenças foi estatisticamente significativa (teste de Cochran, p=0,03). Na 2a etapa do estudo (tab. IV), este padrão se
repetiu com uma diferença mais acentuada entre os resultados dos observadores 1, 2, 3 e 4 (grau A de 10,2% a 11,4%) e
o do observador 5 (grau A= 22,7%). Estas diferenças foram
altamente significativas (teste de Cochran, p=0,0008).
Concordância inter-observador - Os índices de kappa
ponderado (kw) entre as 10 combinações de pares de observadores, calculados para medir a concordância quanto ao grau
de lesão de acordo com a classificação A nas duas etapas do
estudo e as respectivas taxas gerais de concordância, estão
descritos na tabela V. Na 1a etapa, a taxa geral de concordância das 10 combinações possíveis entre os cinco observadores variou entre 38% (observador 4 vs observador 5) e 81%
(observador 1 vs observador 2). Os índices de kappa ponderado variaram entre kw=0,36 (observador 4 vs observador 5) e
kw=0,63 (observador 1 vs observador 2). Na 2a etapa, a taxa
geral de concordância variou entre 42% (observador 4 vs
observador 5) e 78% (observador 2 vs observador 3). Os índices de kappa ponderado variaram entre kw=0,39 (observador
3 vs observador 5) e kw=0,68 (observador 1 vs observador 4).
As diferenças entre os índices de kappa das 10 combinações,
em ambas etapas, não foram estatisticamente significativas
(teste T pareado, p=0,62).
Os índices de kappa (k) entre as 10 combinações de pares de observadores, calculados para medir a concordância
Tabela III - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação B para grau de lesão (N- nãosignificante <70%; S- significante ≥70%), na 1a etapa do estudo
Grau
N
S
Total
1
2
Observadores
3
4
5
X±DP
81 (92) *
7 (8)
88 (100)
79 (89,8)
9 (10,2)
88 (100)
77 (87,5)
11 (12,5)
88 (100)
79 (89,8)
9 (10,2)
88 (100)
73 (83)
15 (17)
88 (100)
77,8±3,0
10,2±3,0
Teste Q de Cochran, p=0,003; * n (%); X±DP- média±desvio-padrão.
Tabela IV - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação B para grau de lesão (N- nãosignificante <70%; S- significante ≥70%), na 2a etapa do estudo
Grau
N
S
Total
1
2
Observadores
3
4
5
78 (88,6) *
10 (11,4)
88 (100)
78 (88,6)
10 (11,4)
88 (100)
78 (88,6)
10 (11,4)
88 (100)
79 (89,8)
9 (10,2)
88 (100)
68 (77,3)
20 (22,7)
88 (100)
Teste Q de Cochran, p=0,0008; * n (%); X±DP- média±desvio-padrão.
294
X±DP
76,2±4,6
11,8±4,6
Arq Bras Cardiol
volume 74, (nº 4), 2000
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
Tabela V - Taxa geral de concordância (TGC) e índices de kappa
ponderado de acordo com a classificação “A” de grau de lesão,
por pares de observadores, nas duas etapas do estudo
Pares de OBS
1-2
1-3
1-4
1-5
2-3
2-4
2-5
3-4
3-5
4-5
Média
1a Etapa
TGC(%)
kappa
81
70
43
70
74
44
80
45
73
38
62
2a Etapa
TGC(%)
kappa
0,63
0,54
0,37
0,48
0,55
0,39
0,61
0,40
0,60
0,36
0,49
72
66
70
57
78
52
70
47
66
42
62
0,59
0,59
0,68
0,45
0,66
0,45
0,51
0,42
0,39
0,41
0,52
Teste T pareado, kappa 1a etapa vs 2a etapa, p=0,62.
Tabela VI - Taxa geral de concordância (TGC) e índices de kappa
de acordo com a classificação “B” de grau de lesão, por pares de
observadores, nas duas etapas do estudo
Pares de OBS
1-2
1-3
1-4
1-5
2-3
2-4
2-5
3-4
3-5
4-5
Média
1a Etapa
TGC(%)
kappa
95
93
95
91
91
93
91
91
91
91
92
0,73
0,63
0,73
0,59
0,55
0,63
0,62
0,55
0,64
0,62
0,63
2a Etapa
TGC(%)
kappa
92
95
97
84
92
93
88
94
82
85
90
0,62
0,77
0,82
0,45
0,62
0,66
0,58
0,71
0,37
0,48
0,61
as médias dos índices de kappa ponderado (kwm) foram
kwm=0,49 e kwm=0,52, respectivamente nas primeira e segunda
etapas. Aplicando-se os critérios definidos no quadro III, o
nível de concordância entre os observadores, ao interpretarem sobre a ausência ou três possíveis categorias de grau de
lesão (discreto, moderado ou acentuado), foi caracterizado
como regular em ambas as etapas. Em relação à classificação
B, as médias dos índices de kappa (km) foram km=0,63 e
km=0,61, respectivamente nas primeira e segunda etapas. Portanto, a concordância entre os observadores, ao avaliarem
sobre a presença ou não de lesão clinicamente significante,
alcançou um nível bom em ambas as etapas.
As amplitudes de variação dos índices de kappa dos
10 pares de observadores em ambas as classificações, nas
duas etapas do estudo, estão representadas na figura 1.
Observa-se que, na classificação A, a variação foi semelhante nas duas etapas, diferentemente do padrão observado na
classificação B, que foi notadamente mais ampla na 2a etapa.
O desempenho de cada observador nos resultados
obtidos sobre a presença ou não de lesão significante (classificação B) foi, então, analisado a partir dos índices de
kappa dos pares de observadores em que o observador estava incluído. Cada observador participou em quatro pares
de combinações e as médias dos índices de kappa (km) de
cada um deles em relação aos demais, nas duas etapas do
estudo, estão descritas na figura 2. Na 1a etapa, estas médias variaram de km=0,59 (observador 3) a km=0,67 (observador
1). Na 2a etapa, as médias variaram entre km=0,47 (observador 5) e km=0,67 (observadores 1 e 4). A análise destes da-
Teste T pareado, kappa 1a etapa vs 2a etapa, p=0,65.
quanto ao grau de lesão de acordo com a classificação B nas
duas etapas do estudo e as respectivas taxas gerais de concordância, estão descritas na tabela VI. Na 1a etapa, a taxa
geral de concordância das 10 combinações variou entre
91% (observador 1 vs observador 5; observador 2 vs observadores 3 e 5; observador 3 vs observadores 4 e 5; observador 4 vs observador 5) e 95% (observador 1 vs observadores 2 e 4). Os índices de kappa variaram entre k=0,55 (observador 3 vs observadores 2 e 4) e k=0,73 (observador 1 vs observadores 2 e 4). Na 2a etapa, a taxa geral de concordância
variou entre 82% (observador 3 vs observador 5) e 97% (observador 1 vs observador 4). Os índices de kappa variaram
entre k=0,37 (observador 3 vs observador 5) e k=0,82 (observador 1 vs observador 4). Do mesmo modo que em relação à classificação A, as diferenças entre os índices de
kappa das 10 combinações, nas duas etapas, não foram estatisticamente significativas (teste T pareado, p=0,65).
Com o objetivo de se estimar um índice geral da concordância entre todos os observadores, em cada classificação,
considerou-se a média das 10 análises combinatórias dos índices de kappa, em cada etapa. Em relação à classificação A,
0
0,2
0,4
0,6
0,8
1
Fig. 1 - Amplitude de variação dos índices de kappa entre as 10 combinações de pares
de observadores quanto às classificações de grau de lesão A e B, nas duas etapas do
estudo.
Fig. 2 - Médias dos índices de kappa de cada observador em relação aos demais, quanto à classificação B de grau de obstrução, nas duas etapas do estudo.
295
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
Tabela VII - Índices de kappa entre as avaliações de um mesmo
observador, nas duas etapas do estudo, em relação às
classificações A e B de grau de lesão
Classificação
Observador
1
0,57
0,67
A
B
2
0,76
0,89
3
0,61
0,62
4
0,95
1
5
0,62
0,68
Teste T pareado, classificação “A” vs classificação “B”, p=0,03.
dos confirma o caráter homogêneo da interpretação dos
observadores na 1a etapa e identifica que um dos observadores (observador 5) foi responsável pela maior amplitude
entre os índices de kappa, verificada na 2a etapa do estudo.
Concordância intra-observador - Os índices de kappa
calculados para medir a reprodutibilidade das avaliações de
um mesmo observador nas duas etapas do estudo estão
demonstrados na tabela VII. Em relação à classificação A, os
resultados variaram entre kw=0,57 (observador 1) e kw=0,95
(observador 4). Quanto à classificação B, os resultados variaram entre k=0,62 (observador 3) e k=1 (observador 4). A
análise das diferenças entre os valores obtidos por cada
observador, nas duas classificações, demonstrou que o nível de concordância intra-observador foi significativamente maior ao opinarem sobre a presença ou não de lesões clinicamente significantes que quando as avaliaram de acordo
com um número maior de categorias de grau de obstrução
(teste T pareado, p=0,03).
Quanto à classificação A, os observadores 2, 3 e 5 alcançaram níveis de concordância bom e o observador 4 nível ótimo, enquanto o observador 1 obteve nível regular. Em relação à classificação B, os observadores 3 e 5 mantiveram-se
em nível bom, enquanto os demais melhoraram os níveis de
reprodutibilidade de suas próprias avaliações (observador 1:
bom; observador 2: ótimo; observador 4: perfeito).
Com o objetivo de analisar se o padrão de concordância intra-observador influenciou na concordância inter-observador em relação à identificação de lesões clinicamente
significantes (classificação B), foram agrupados para cada
observador: o índice de kappa da concordância intra-observador e as suas médias dos índices de kappa em relação aos
demais da concordância inter-observador nas duas etapas
Tabela VIII - Índices de kappa de cada observador em relação às
suas interpretações nas duas etapas do estudo (INTRA) e médias
dos índices de kappa de cada observador em relação aos demais
nas primeira e segunda etapas do estudo (INTER) quanto à
presença ou não de lesão significante (classificação B)
Observador
Intra
Inter
a
1
2
3
4
5
296
0,67
0,89
0,62
1
0,68
1 Etapa
2a Etapa
0,67
0,63
0,59
0,63
0,62
0,67
0,62
0,62
0,67
0,47
Arq Bras Cardiol
volume 74, (nº 4), 2000
do estudo (tab. VIII). Nota-se que o nível de concordância
inter-observador foi relativamente homogêneo nas duas
etapas do estudo, com exceção do obtido pelo observador 5
na 2a etapa. Os índices que mediram a concordância intraobservador variaram de maneira mais ampla, entre os níveis
bom e perfeito. A observação destes dados indica que não
houve relação entre o nível de consistência intra-observador e o nível de concordância inter-observador. O observador 4, que alcançou a reprodutibilidade máxima de suas
interpretações nas duas etapas do estudo, obteve média
semelhante aos demais quanto à concordância inter-observador. Por outro lado, o observador 5, apesar de ter média
abaixo dos demais na 2a etapa, teve um bom nível de reprodutibilidade de suas próprias interpretações, semelhante ao nível alcançado pelos observadores 1 e 3.
Discussão
Entre os dois conceitos relacionados às variações de
medidas em métodos diagnósticos, acurácia ou validade e
precisão ou confiabilidade, nós nos propusemos a avaliar a
confiabilidade da interpretação visual simples da cinecoronariografia.
Poucos estudos foram desenhados para analisar especificamente esta questão 5-8,32,33. Igualmente a outros que,
independentemente de seus principais objetivos, também
avaliaram a precisão da cinecoronariografia 9,11,22,34, os diferentes protocolos, quanto ao modo de obtenção dos dados
e aos métodos de se estimar a variabilidade, dificultam a obtenção de um padrão comum que sirva de estimativa da precisão do método. Sob o impacto do surgimento da angioplastia coronariana, vários estudos foram publicados com o
objetivo de aumentar a confiabilidade na interpretação da cinecoronariografia 10-13,15-18. O desenvolvimento tecnológico
permitiu o aperfeiçoamento dos métodos de análise digital
quantitativa com a conseqüente evolução de seus índices
de reprodutibilidade 14,27,35,36. A quantificação digital obtém
uma curva normal de distribuição de suas medidas, diferentemente da obtida pelo método visual 22,37. Atualmente, mesmo com as limitações apontadas na literatura médica 4,23-26, é
consensual a exigência de quantificação digital na pesquisa
científica baseada na interpretação angiográfica da aterosclerose coronariana.
A utilização da cinecoronariografia como exame complementar de diagnóstico, contudo, tem um contexto diferente. Na prática clínica, sua principal informação é sobre a
presença ou não de doença obstrutiva capaz de provocar
isquemia miocárdica, havendo uma tendência a se menosprezar lesões abaixo de 50% 4. Segundo Fleming e cols. 22, os
observadores tendem a agrupar (categorizar) as lesões,
pelo método visual, mesmo quando o objetivo é quantificar
o valor percentual da obstrução. Em seu estudo, este fato
resultou em maior variabilidade nas lesões interpretadas
como discretas (<50%) e em uma tendência a subestimá-las,
quando comparadas à análise digital quantitativa. Conclusão semelhante também foi relatada por Gurley e cols. 23.
O que deve ser comparado e como coletar? - O valor
Arq Bras Cardiol
volume 74, (nº 4), 2000
percentual de obstrução, por ser uma variável contínua, permite que sejam calculados índices de variabilidade baseados no desvio-padrão de suas médias. Alguns autores sugerem que o erro-padrão do valor percentual estimado de
uma dada lesão poderia servir como parâmetro numérico da
variação do método, descrevendo índices de variabilidade
de 28% a 36% 7,11,32. No entanto, ao analisarmos os resultados de Derouen e cols. 7, por exemplo, cujos desvios-padrão dos segmentos analisados variaram de 0% a 51,3%, a
generalização, a partir da média obtida (18%), revela uma
utilidade prática discutível.
Este estudo foi planejado para avaliar o método da maneira como ele é executado na rotina em nosso meio, privilegiando a comparação com base em variáveis categóricas e
adotando, como principais referências, os valores mais difundidos destes limiares isquêmicos - lesão obstrutiva
≥50% no tronco da coronária esquerda e ≥70% nas demais
artérias. De fato, a simples observação, nas tabelas I e II,
dos altos valores dos desvios-padrão das freqüências assinaladas para os graus Z e D comparados aos valores inferiores das freqüências assinaladas para os graus M e A, indica
que os observadores variaram mais ao quantificarem lesões
clinicamente insignificantes (≤50% de obstrução), confirmando os resultados comentados.
Estudos sobre variabilidade em cinecoronariografia que
avaliaram tempo de atividade ou experiência dos observadores, ou não demonstraram diferenças significativas relacionados a estes critérios 11,22, ou encontraram correlação positiva apenas com a manutenção de atividade regular na área 5.
Os cinco observadores escolhidos compõem 29,4% do total
de profissionais qualificados pela Sociedade Brasileira de
Hemodinâmica e Cardiologia Intervencionista que atuam,
regularmente, nos vários serviços da cidade do Recife.
O protocolo adotou um modelo semelhante à prática
diária. Os cinefilmes foram selecionados sem restrições importantes e os observadores os manusearam livremente.
Com os critérios definidos na classificação A, com quatro
variáveis categóricas, buscamos estabelecer o nível de
concordância quanto à avaliação mais detalhada do grau de
obstrução. O principal foco do estudo foi a análise da concordância na classificação B, no sentido de avaliar a confiabilidade do método de interpretação visual da cinecoronariografia quanto aos critérios dicotômicos que servem de
paradigma atual para definição sobre a necessidade de revascularização miocárdica.
Qual índice de confiabilidade é o mais adequado? - A
utilização de diferentes índices para medir a concordância é
uma importante limitação para a comparação entre os estudos. A forma mais simples de avaliar a concordância entre
variáveis categóricas, a taxa geral de concordância, foi adotada por alguns autores 5,6,9, a despeito das importantes restrições sobre o significado de seus resultados. A taxa geral
de concordância não identifica a proporção em que o acaso
foi responsável pela concordância, é influenciada pela proporção de achados positivos e não pode ser comparada às
taxas originadas em outros estudos 31,38. No presente estudo, estas taxas foram apresentadas, apenas, com objetivos
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
descritivos, não sendo utilizadas para medir a concordância
entre os observadores. De fato, valores como os obtidos, por
exemplo, na classificação B (tab. VI), com taxa geral de concordância entre 91% e 95%, na 1a etapa e entre 82% e 97%, na
segunda, não permitem interpretações claras sobre a qualidade do nível de concordância entre os observadores.
O índice de kappa é um coeficiente que exclui a casualidade ao calcular a concordância entre observações pareadas e possibilita a qualificação do grau de concordância e a
comparação com índices de outros estudos 2,31. A principal
crítica à sua aplicação neste estudo seria a impossibilidade
de se estimar a concordância do conjunto de observadores,
já que se trata de um índice que mede a concordância entre
pares de observadores. Com o objetivo de se obter uma idéia
geral da concordância de todos os observadores, adotamos
o princípio da média dos índices, instrumento aplicado por
outros autores em estudos citados na literatura médica 7,34.
A ponderação do índice de kappa foi realizada neste
estudo, pois ela é recomendada para minimizar as discrepâncias entre os níveis de discordância, em situações em
que mais de duas variáveis são consideradas 30,31. A maneira de ponderar os índices na classificação A, todavia, não
corrige as distorções quanto à relevância clínica destas discordâncias. Discordâncias entre grau moderado ou acentuada, para uma dada lesão, têm maior significado quanto às
implicações terapêuticas e prognósticas, do que discordâncias entre grau moderado e discreto. Apenas uma intervenção arbitrária na aplicação dos pesos poderia corrigir estas
discrepâncias, mas isso afetaria a possibilidade de comparação dos resultados deste estudo com os de outros.
Concordância inter-observador - Detre e cols. 5, considerando como critério de lesão significante a obstrução
≥50%, aplicaram índices derivados do desvio-padrão dos
achados positivos e concluíram que o nível de concordância, entre os observadores, situava-se na metade da faixa
entre a concordância perfeita e a pelo acaso. Correlacionando com a função do kappa, um índice de 0,50 seria considerado como uma concordância de nível regular. O mesmo nível regular (k=0,55, média) foi relatado por Derouen e cols. 7,
cujo critério foi semelhante ao adotado por nós na classificação B (lesão significante ≥70%).
Embora projetado para comparar o método visual com
o uso do caliper, o estudo relatado por Holder e cols. 34 produziu resultados passíveis de comparação com os nossos.
Utilizando médias de índices de kappa ponderado, a concordância entre os cinco observadores ao classificarem as lesões em três categorias foi de nível bom (k=0,62). A média
dos kappa de cada observador, em relação aos demais, foi
similar para todos os observadores.
O centro de coordenação do CASS publicou estudo
sobre reprodutibilidade que apontou um nível regular de
concordância sobre o número de lesões significantes por
cinefilme (k=0,57) 8. Embora o critério sobre lesões significantes tenha sido semelhante ao adotado em nosso estudo, este
índice refletiu, na verdade, a concordância entre as interpretações de um dos quatorze centros clínicos participantes com
as de um dos quatro centros de controle de qualidade.
297
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
Em nosso estudo, a replicação das análises dos cinco
observadores permitiu que o nível de concordância interobservador fosse estabelecido tanto entre os 10 pares de observadores, em cada etapa, como, também, entre os mesmos
pares nas duas etapas. Os resultados demonstram que, para
se identificar graus mais detalhados de obstrução coronariana (classificação A), o método visual simples de interpretação da cinecoronariografia permite um nível apenas
regular de reprodutibilidade entre diferentes observadores,
alcançando um nível bom quando se estima se há ou não obstruções capazes de provocar isquemia (classificação B).
Concordância intra-observador - No estudo de Detre
e cols. 5, a concordância intra-observador foi avaliada pela
taxa geral de concordância e variou entre 72% e 91%. Já
Holder e cols. 34, aplicando índices de kappa ponderado,
descreveram níveis de consistência intra-observador de regular a bom (k=0,57 a k=0,79).
Em nosso estudo, os observadores foram mais consistentes em suas próprias avaliações quando o critério foi
dicotômico (classificação B). Os resultados demonstraram
que todos os observadores reproduziram suas interpretações com um nível mínimo considerado bom quanto à presença ou não de lesão significante. Efetivamente, conforme
descrito na tabela VII, um observador obteve um nível ótimo
(observador 2: k=0,89) e outro atingiu concordância máxima
(observador 4: k=1). Esta diferença qualitativa, na reprodutibilidade intra-observador, não correspondeu ao padrão
mais homogêneo apresentado pelos observadores quanto
à concordância entre eles (tab. VIII). No outro extremo, o índice inferior do observador 5 em relação aos demais, na 2a etapa,
não o impediu de alcançar um bom nível de reprodutibilidade
de suas próprias avaliações. Estas observações demonstram
que não houve relação entre o nível de consistência intra-observador e o nível de concordância inter-observador.
Considerações finais - Na literatura médica, a angiografia digital quantitativa tornou-se padrão para a interpretação angiográfica das artérias coronarianas. Na prática clí-
Arq Bras Cardiol
volume 74, (nº 4), 2000
nica, contudo, sua aplicação rotineira tem importantes limitações e não elimina a subjetividade do operador em várias
etapas da execução do exame e da seleção de imagens e
segmentos a serem interpretados. A tendência de se categorizar as lesões de acordo com o grau de obstrução e definir
condutas a partir de critérios dicotômicos, torna irrelevante o
nível de precisão na estimativa de lesões abaixo dos limites
considerados como capazes de provocar isquemia miocárdica.
Este estudo demonstrou que, ao interpretar cinecoronariografias pelo método visual simples, baseado na estatística de kappa, a reprodutibilidade entre especialistas na execução do método somente alcançou um nível bom quando
o critério adotado foi o rotineiramente utilizado para se cogitar a indicação de algum tratamento de revascularização
miocárdica (lesões clinicamente significantes ou não-significantes). Ao opinarem sobre graus de obstrução classicamente considerados na prática clínica (ausência de obstruções, lesões discretas, moderadas ou acentuadas), o nível
de confiabilidade entre os observadores foi apenas regular.
Como esperado, já que é mais plausível que cada indivíduo
concorde mais facilmente consigo mesmo que com outros, o
nível de concordância intra-observador foi superior ao interobservador, em cada um dos critérios adotados, mas não encontramos relação entre o grau de precisão entre os observadores e o nível de consistência de suas próprias opiniões.
No âmbito da clínica, portanto, onde o principal objetivo é diagnosticar e definir o grau da doença aterosclerótica
coronariana visando estabelecer a conduta terapêutica,
este estudo demonstrou que o método visual simples, ainda
o mais utilizado na prática clínica, satisfaz os requisitos
quanto à confiabilidade de seus resultados.
Agradecimentos
Aos Profs. Eulálio Cabral e José Natal Figueiroa pelo
auxílio na análise dos resultados e à Profa. Dra. Sandra Neiva
Coelho pela paciência e crítica competente em todo o processo de elaboração e execução deste trabalho.
Referências
1.
2.
3.
4.
5.
6.
7.
Dawson-Saunders B, Trapp RG. Summarizing Data. In: Dawson-Saunders B,
Trapp RG, eds. Basic & Clinical Biostatatistics. 2nd ed. Norwalk: Appleton &
Lange, 1994: 41-63.
Pereira MG. Aferição dos Eventos. In: Pereira MG, ed. Epidemiologia - Teoria e
Prática. Rio de Janeiro: Guanabara Koogan, 1995: 358-76.
Bittl JA, Levin DC. Coronary Arteriography. In: Braunwald E, ed. Heart Disease:
A Textbook of Cardiovascular Medicine. 5th ed. Philadelphia: WB Saunders Co.,
1997: 240-72.
Stadius ML, Alderman EL. Coronary artery revascularization: Critical need for,
and consequences of, objective angiographic assessment of lesion severity. Circulation 1990; 82: 2231-4.
Detre KM, Wright E, Murphy ML, Takaro T. Observer agreement in evaluating
coronary angiograms. Circulation 1975; 52: 979-86.
Zir LM, Miller SW, Disnmore RE, Gilbert JP, Harthorne JW. Interobserver variability in coronary angiography. Circulation 1976; 53: 627-32.
Derouen TA, Murray JA, Owen W. Variability in the analysis of coronary angiograms. Circulation 1977; 55: 324-8.
298
8.
9.
10.
11.
12.
13.
Fisher LD, Judkins MP, Lesperance J, et al. Reproducibility of coronary arteriographic reading in the Coronary Artery Surgery Study (CASS). Cathet Cardiovasc Diagn 1982; 8: 565-75.
Trask N, Califf RM, Conley MJ, et al. Accuracy and interobserver variability of coronary cineangiography: a comparison with postmortem evaluation. J Am Coll
Cardiol 1984; 3: 1145-54.
Meier B, Gruentzig AR, Goebel N, Pyle R, Von Gosslar W, Schlumpf F. Assessment of stenoses in coronary angioplasty: inter- and intraobserver variability.
Int J Cardiol 1983; 3: 159-69.
Beauman GJ, Vogel RA. Accuracy of individual and panel visual interpretations
of coronary arteriograms: Implications for clinical decisions. J Am Coll Cardiol
1990;16: 108-13.
Danchin N, Juilliere Y, Foley D, Serruys PW. Visual versus quantitative assessment of the severity of coronary artery stenoses: can the angiographer’s eye be
reeducated? Am Heart J 1993; 126: 594-600.
Katrisis D, Lythall DA, Anderson MH, Cooper IC, Webb-Peploe MM. Assessment of coronary angioplasty by an automated digital angiographic method. Am
Heart J 1988; 116: 1181-7.
Arq Bras Cardiol
volume 74, (nº 4), 2000
14. Selzer RH, Hagerty C, Azen SP, et al. Precision and reproducibility of quantitative
coronary angiography with application to controled clinical trials: a sampling
study. J Clin Invest 1989; 83: 520-6,.
15. Goldberg RK, Kleiman NS, Minor ST, Abukhalil J, Raizner AE. Comparison of
quantitative coronary angiography to visual estimates of lesion severity pre and
post PTCA. Am Heart J 1990; 119: 178-84.
16. Kalbfleisch SJ, McGillem MJ, Pinto IMF, Kavanaugh KM, Deboe SF, Mancini
GBJ. Comparison of automated quantitative coronary angiography with caliper
measurements of percent diameter stenosis. Am J Cardiol 1990; 65: 1181-4.
17. Kimball BP, Bui S, Cohen EA, Cheung PK, Lima V. Systematic bias in the reporting of angioplasty outcomes: accuracy of visual estimates of absolute lumen diameters. Can J Cardiol 1994; 10: 815-20.
18. Desmet W, Willems J, Van Lierde J, Piessens J. Discrepancy between visual estimation and computer-assisted measurement of lesion severity before and after coronary angioplasty. Cathet Cardiovasc Diagn 1994; 31: 192-8.
19. Gould KL, Lipscomb K, Hamilton GW. Physiologic basis for assessing critical
coronary stenosis. Am J Cardiol 1974; 33: 87-94.
20. Gould KL, Lipscomb K. Effects of coronary stenoses on coronary flow reserve
and resistance. Am J Cardiol 1974; 34: 48-55.
21. Gould KL. Quantification of coronary artery stenosis in vivo. Circ Res 1985; 47:
341-53.
22. Fleming RM, Kirkeeide RL, Smalling RW, Gould KL. Patterns in visual interpretation of coronary arteriograms as detected by quantitative coronary arteriography. J Am Coll Cardiol 1991; 18: 945-51.
23. Gurley JC, Nissen SE, Booth DC, et al. Comparison of simultaneously performed
digital and film-based angiography in assessment of coronary artery disease. Circulation 1988; 78: 1411-20.
24. Gurley JC, Nissen SE, Booth DC, Demaria NA. Influence of operator- and patientdependent variables on the suitability of automated quantitative coronary arteriography for routine clinical use. J Am Coll Cardiol 1992; 19: 1237-43.
25. Herrington DM, Siebes M, Walford GD. Sources of error in quantitative coronary angiography. Cathet Cardiovasc Diagn 1993; 29: 314-21.
26. Herrington DM, Siebes M, Sokol DK, Siu CO, Walford GD. Variability in mea-
Guimarães e cols.
Confiabilidade da interpretação da cinecoronariografia
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
sures of coronary lumen dimensions using quantitative coronary angiography.
J Am Coll Cardiol 1993; 22: 1068-74.
Jost S, Deckers J, Nikutta P, et al. Influence of the selection of angiographic projections
on the results of coronary angiographic follow-up trials. International nifedipine trial
on antiatherosclerotic therapy investigators. Am Heart J 1995; 130: 433-9.
Baim DS, Grossman W. Coronary angiography. In: Baim DS, Grossman W, eds.
Cardiac Catheterization, Angiography, and Intervention. 4th ed. Philadelphia:
Lea & Febiger, 1991: 185-214.
Altman DG. Relation between several variables. In: Altman DG, ed. Practical Statistics for Medical Research. London: Chapman & Hall, 1995: 325-64.
Armitage P, Berry G. Further Analysis of Categorical Data. In: Armitage P, Berry
G, eds. Statistical Methods in Medical Research, 3rd ed. Oxford: Blackwell Scientific Publications, 1994: 402-447.
Altman DG. Some Common problems in medical research. In: Altman DG, ed. Practical Statistics for Medical Research. London: Chapman & Hall, 1995: 396-439.
Sanmarco ME, Brooks SH, Blankenhorn DH. Reproducibility of a consensus panel in the interpretation of coronary angiograms. Am Heart J 1978; 96: 430-7.
Kussmaul III WG, Popp RL, Norcini J. Accuracy and reproducibility of visual coronary
stenosis using information from multiple observers. Clin Cardiol 1992; 15: 154-62.
Holder DA, Johnson AL, Stolberg HO, et al. Inability of caliper measurement to
enhance observer agreement in the interpretation of coronary cineangiograms.
Can J Cardiol 1985; 1: 24-9.
Serruys PW, Reiber JHC, Wijns W, et al. Assessment of percutaneous transluminal coronary angioplasty by quantitative coronary arteriography: diameter versus densitometric area measurements. Am J Cardiol 1984; 54: 482-8.
Reiber JH, Van Eldik-Helleman P, Visser-Akkerman N, Kooijman CJ, Serruys
PW. Variabilities in measurement of coronary arterial dimensions resulting from
variations in cineframe selection. Cathet Cardiovasc Diagn 1988; 14: 221-8.
Bertrand ME, Lablanche JM, Bauters C, Leroy F, Mac Fadden E. Discordant results of visual and quantitative estimates of stenosis severity before and after coronary angioplasty. Cathet Cardiovasc Diagn 1993; 28: 1-6.
Koran LM. The reliability of clinical methods, data and judgements (First part). N
Eng J Med 1975; 293: 642-6.
299
Download

Confiabilidade da Interpretação da Cinecoronariografia pelo