Arq Bras Cardiol volume 74, (nº 4), 2000 Guimarães cols. Artigo Origein al Confiabilidade da interpretação da cinecoronariografia Confiabilidade da Interpretação da Cinecoronariografia pelo Método Visual Simples Jorge Augusto Nunes Guimarães, Edgar Guimarães Victor, Maria do Rosário de Britto Leite, José Maria Pereira Gomes, Edgar Victor Filho, Jesus Reyes Liveras Recife, PE Objetivo - Avaliar a reprodutibilidade inter e intra-observador da interpretação da cinecoronariografia pelo método visual simples (MVS) no contexto da prática clínica. Métodos - Cinco cardiologistas intervencionistas interpretaram 11 segmentos coronarianos em 8 cinefilmes, em duas etapas separadas por um período mínimo de dois meses. Os valores percentuais de obstrução foram classificados em: classificação A, quatro graus de lesão (ausente: 0%; discreto: 1%-50%; moderado: 51%-69%; acentuado: ≥70%) e classificação B, dois graus de lesão (nãosignificante: <70%; significante: ≥70%). O nível de concordância foi medido pelo índice de kappa (k). Resultados - A concordância inter-observador, baseada na média de k (km), foi de nível regular, na classificação A (1 a etapa: k=0,36 a k=0,63, k m=0,49; 2a etapa: k=0,39 a k=0,68, km=0,52) e de nível bom na classificação B (1 a etapa: k=0,55 a k=0,73, k m=0,63; 2a etapa: k=0,37 a k=0,82, km=0,61). Os índices da concordância intra-observador variaram entre k=0,57 e k=0,95, na classificação A e de k=0,62 a k=1, na classificação B. Conclusão - A interpretação da cinecoronariografia pelo MVS obteve altos níveis de concordância intra-observador. A reprodutibilidade entre observadores só alcançou um bom nível com o critério dicotômico habitualmente considerado para limiares isquêmicos. Estes resultados demonstram ser, o método, confiável para identificar pacientes com lesões clinicamente significantes e candidatos a procedimentos de revascularização miocárdica. Palavras-chave: cinecoronariografia, variabilidade de testes diagnósticos, estatística de kappa Hospital das Clínicas da UFPE e Real Hospital Português - Recife Correspondência: Jorge Augusto Nunes Guimarães – Rua Alfredo Fernandes, 136/ 401 – 52060-320 – Recife, PE. e-mail: [email protected] Recebido para publicação em 14/5/99 Aceito em 14/7/99 Os resultados obtidos com qualquer procedimento que exija mensuração, seja na prática clínica ou na investigação científica, exibem algum grau de variação de suas medidas. Na investigação científica, um dos conceitos que avalia as variações de medidas é a confiabilidade (reprodutibilidade, precisão), definida como a capacidade de concordância dos resultados ao se repetir o procedimento ao longo do tempo ou quando o mesmo fenômeno é medido por vários indivíduos ao mesmo tempo 1,2. Ela pode ser avaliada pelo grau de concordância na análise de diferentes examinadores (concordância inter-observador), ou pela consistência entre as repetidas análises de um mesmo examinador (concordância intra-observador) 1. No âmbito da cardiologia, por permanecer como o principal método para se diagnosticar a doença aterosclerótica coronariana e definir estratégias terapêuticas 3, a cinecoronariografia é alvo de questões relevantes sobre sua reprodutibilidade e acurácia. A observação de uma lesão obstrutiva e a estimativa de sua magnitude dependem, inicialmente e em grande parte, da opinião de um único profissional que analisa o resultado de um procedimento por ele realizado. Este envolvimento pode induzir a subestimação de alguns fatores dependentes do operador, que limitam a credibilidade do resultado obtido 4. Os estudos sobre confiabilidade na interpretação visual simples da cinecoronariografia surgiram na metade da década de 70 e são relativamente escassos. Diferenças metodológicas quanto aos tipos de dados e índices usados para medir a confiabilidade dificultam uma efetiva comparação entre eles 5-9. Apesar disso, ficou evidente a ampla variabilidade de seus resultados, especialmente quando as variáveis estudadas eram expressas em valores percentuais de obstrução. Não obstante alguns autores terem demonstrado alternativas que aumentavam a precisão da estimativa visual 10-12, a aplicação da análise digital quantitativa tornou-se padrão na literatura científica 13-18. A utilização deste método na prática clínica, contudo, não é automática. Como método diagnóstico, a principal informação derivada da cinecoronariografia, entre as várias possíveis, é sobre a Arq Bras Cardiol, volume 74 (nº 4), 291-299, 2000 291 Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia presença ou não de doença aterosclerótica obstrutiva capaz de provocar isquemia miocárdica. Os estudos experimentais de Gould e cols. 19-21, identificando limiares isquêmicos através da correlação entre o grau de obstrução luminal coronariano e as alterações da reserva de fluxo coronariano, influenciaram a tendência de se menosprezar a precisão ao quantificar-se lesões abaixo de 50% 4,22,23 e de descrevê-las em categorias ordenadas pela magnitude desta obstrução, como lesões discretas, moderadas e acentuadas. Além disso, vários estudos revelam importantes limitações para a aplicação rotineira da análise digital quantitativa nos procedimentos diagnósticos 4,23-27. Em nosso meio, apesar de já contarmos com equipamentos de cineangiocardiografia dotados com sistemas de análise digital, a grande maioria dos exames continua a ser interpretada da forma visual tradicional, pelo mesmo especialista que a realizou. Desta forma, notamos uma incongruência entre as evidências científicas sobre a confiabilidade do método e a prática clínica. Por outro lado, a confiabilidade da maneira como o método é, rotineiramente, aplicado para fins diagnósticos não foi adequadamente avaliada. Este estudo se propõe a avaliar a reprodutibilidade da interpretação da cinecoronariografia pelo método visual simples, efetuada por médicos especialistas em cardiologia intervencionista, com um modelo que estime a concordância inter e intra-observador no contexto da rotina diagnóstica contemporânea. Métodos Cinco cardiologistas foram selecionados como observadores, por escolha deliberada de um dos autores (JANG) , entre os 17 especialistas em procedimentos diagnósticos por cateterismo cardíaco que atuam em nove hospitais públicos e privados, na cidade do Recife. O mesmo autor selecionou, do seu arquivo pessoal, 23 cinecoronariografias sem antecedentes de revascularização miocárdica, tendo como únicos pré-requisitos: apresentar comprometimento multiarterial da doença aterosclerótica coronariana, em qualquer grau, e ter qualidade técnica adequada quanto à opacificação das artérias e às projeções suficientes para clara identificação dos vários segmentos arteriais. Todos os exames foram executados pela técnica de Judkins 28, com cateteres com diâmetros de 6F, em um aparelho de cineangiocardiografia Philips®, Poly Diagnost U.P.I., com intensificador de imagem com campo de 6,5pol, no Real Hospital Português de Beneficência em Pernambuco. As imagens foram registradas em cinefilmes de 35mm (Kodak®, CFT), a 30 quadros/segundo. Foram escolhidos oito cinefilmes, buscando um amplo espectro de magnitude de lesões em todos os segmentos a serem estudados. As artérias coronarianas foram divididas em 11 segmentos para a análise dos cinefilmes, de acordo com o quadro I. Os cinco observadores foram codificados e mantidos anonimamente, ao longo do estudo. Receberam um formulário contendo uma tabela cujas linhas eram reservadas ao registro dos oito cinefilmes e com colunas para cada um dos 292 Arq Bras Cardiol volume 74, (nº 4), 2000 Quadro I - Segmentos das artérias coronarianas selecionadas para análise 1) 2) TCE: Tronco da coronária esquerda DAPROX: Metade proximal da artéria descendente anterior (inclui óstio) 3) DADIST: Metade distal da artéria descendente anterior 4) DG: Principal ramo diagonal (ou mediano) quanto a extensão e calibre 5) CXPROX: Segmento proximal da artéria circunflexa (inclui óstio) 6) CXAV: Segmento átrio-ventricular da artéria circunflexa 7) MG: Principal ramo marginal da artéria circunflexa quanto a extensão e calibre 8) CDPROX: Metade proximal da coronária direita (inclui óstio) 9) CDDIST: Metade distal da coronária direita (inclui bifurcação) 10) DPOST: Ramo descendente posterior da coronária direita 11) VP: Ramo ventricular posterior da coronária direita 11 segmentos referidos no quadro I. Não houve qualquer informação clínica sobre os casos e os registros de identificação dos cinefilmes estavam vedados. As análises foram realizadas no Real Hospital Português em um projetor de cinefilmes TAGARNO® 35CX, de modo individual e independente, sem limite de tempo. Cada observador anotou, para cada segmento, um único valor percentual de obstrução da luz arterial (0 a 100). Nos casos em que havia mais de uma lesão no mesmo segmento, foi anotada a de maior valor. Com o objetivo de se evitar a estafa visual e minimizar a tendência natural de se dedicar mais atenção aos primeiros cinefilmes, prejudicando a interpretação dos últimos, as análises foram feitas em dois tempos com a interpretação de quatro cinefilmes em cada um. A ordem de observação dos cinefilmes foi aleatória. Cada observador reavaliou os oito cinefilmes após um período mínimo de dois meses a partir de sua última análise da 1a etapa, seguindo o mesmo protocolo acima descrito. Nenhum teve conhecimento dos valores anotados pelos outros em qualquer etapa ou de seus próprios valores, no momento da 2a etapa. Aos observadores foi enfatizado que evitassem tão somente categorizar as lesões ou assinalá-las entre margens de valores. Nos casos, afinal, em que não conseguissem estabelecer o valor percentual de uma dada lesão, foi-lhes permitido anotar, no espaço apropriado, o sinal (?) seguido da indicação da interpretação do observador sobre o grau de obstrução como sendo discreto (D), moderado (M) ou acentuado (A). Para a análise comparativa, duas planilhas foram elaboradas, uma para cada modo de classificação das lesões de acordo com o grau de obstrução (quadro II). A análise da distribuição da freqüência das lesões assinaladas por cada observador foi realizada pelo teste de Friedman 29, para a classificação A, com quatro variáveis categóricas e pelo teste de Cochran 30, para a classificação B, com variáveis binárias. O pareamento dos cinco observadores permitiu a formação de 10 pares de combinações, cujas tabelas de contingência serviram para a análise estatística em cada classificação de grau de lesão, nas duas etapas do estudo. A taxa geral de concordância, definida como a proporção de concor- Arq Bras Cardiol volume 74, (nº 4), 2000 Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia Quadro II - Classificações das lesões de acordo com o grau de obstrução nos segmentos coronarianos selecionados Segmento TCE* Demais Classificação A Classificação B Ausência Discreto Moderado Acentuada Significante (A) Não significante (N) (Z) (D) (M) 0% 0% 1%-50% 1%-50% 51%-69% ≥50% ≥70% <50% <70% ≥50% ≥70% (S) *TCE- Tronco da coronária esquerda. dância entre os observadores em relação ao total da amostra, foi calculada para cada classificação, em ambas as etapas. O critério estabelecido para medir as concordâncias inter e intra-observador foi a estatística de kappa (k), definida como a proporção de concordância além da esperada pelo acaso e expressa pela fórmula 30,31: (p - p ) k= o e (1 - pe) po: proporção de concordâncias observadas pe: proporção de concordâncias esperadas Este cálculo considera todas as discrepâncias igualmente. Quando as categorias são ordenadas e com número maior que dois, graus de discrepância entre categorias contíguas ou mais distantes podem ter relevâncias clínicas diferentes. Para corrigir a avaliação destas discrepâncias, o índice de kappa ponderado 31 foi utilizado para medir a concordância entre as quatro categorias de grau de lesão definidas na classificação A. Os critérios para a interpretação dos valores do kappa estão descritos no quadro III. O nível de significância estatística das diferenças entre os índices de kappa dos pares de observadores e entre os valores de cada observador nas duas classificações, foi analisado pelo teste T pareado, com α=0,05. A elaboração das planilhas e os cálculos estatísticos foram executados com o auxílio dos programas de computador Microsoft® Excel - versão 8,0, Epi Info - 6,02 e SPSS for Windows - 6,0. Resultados Cada observador interpretou, individualmente, 11 seg- mentos coronarianos nos oito cinefilmes, em duas ocasiões independentes, perfazendo um total de 440 observações em cada etapa do estudo. Apenas em 8 (0,9%) segmentos das 880 avaliações do estudo, as observações não foram assinaladas pelo valor percentual da obstrução. As distribuições das freqüências dos valores assinalados, de acordo com o grau de obstrução definido na classificação A, na 1a etapa do estudo, estão descritas na tabela I. Os observadores 1, 2, 3 e 5 consideraram que a maioria dos segmentos se encontrava sem lesões obstrutivas (grau Z), com incidências entre 62,5% e 73,9%, enquanto para o observador 4, a maioria dos segmentos tinha lesões discretas (grau D, 60,2%). Todos os cinco observadores consideraram que as lesões moderadas (grau M) foram as menos freqüentes, com incidência variando entre 0% (observador 2) e 4,6% (observadores 4 e 5). As lesões acentuadas (grau A) foram assinaladas entre 8% (observador 1) e 17% (observador 5). A análise desta distribuição de freqüência entre os cinco observadores demonstrou que as diferenças foram estatisticamente significativas (teste de Friedman, p<0,00- Quadro III - Interpretação dos valores de kappa* kappa Nível de concordância 0 0 < k ≤ 0,20 0,21 < k ≤ 0,40 0,41 < k ≤ 0,60 0,61 < k ≤ 0,80 0,81 < k ≤ 0,99 1 Igual ao acaso Fraco Sofrível Regular Bom Ótimo Perfeito * De acordo com a ref. 2. Tabela I - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação A para grau de lesão (Z - ausente = 0%; D- discreto= 1%-50%; M- moderado= 51%-69%; A- acentuada ≥70%), na 1a etapa do estudo Grau Z D M A Total 1 2 Observadores 3 4 5 X±DP 64 (72,7) * 16 (18,2) 1 (1,1) 7 (8) 88 (100) 65 (73,9) 14 (15,9) 0 9 (10,2) 88 (100) 55 (62,5) 19 (21,6) 3 (3,4) 11 (12,5) 88 (100) 22 (25) 53 (60,2) 4 (4,6) 9 (10,2) 88 (100) 62 (70,5) 7 (7,9) 4 (4,6) 15 (17) 88 (100) 53,6±18,1 21,8±18,0 2,4±1,8 10,2±3,0 Teste de Friedman, p<0,0001; * n (%); X±DP- média±desvio-padrão. 293 Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia Arq Bras Cardiol volume 74, (nº 4), 2000 Tabela II - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação A para grau de lesão (Z- ausente= 0%; D- discreto= 1%-50%; M- moderado= 51%-69%; A- acentuado 70%), na 2a etapa do estudo Grau Z D M A Total 1 2 Observadores 3 4 5 X±DP 41 (46,6) * 34 (38,6) 3 (3,4) 10 (11,4) 88 (100) 60 (68,2) 17 (19,3) 1 (1,1) 10 (11,4) 88 (100) 57 (64,8) 18 (20,4) 3 (3,4) 10 (11,4) 88 (100) 25 (28,4) 49 (55,7) 5 (5,7) 9 (10,2) 88 (100) 59 (67,1) 4 (4,5) 5 (5,7) 20 (22,7) 88 (100) 48,4±15,2 24,4±17,4 3,4±1,7 11,8±4,6 Teste de Friedman, p=0,00015; * n (%); X±DP- média±desvio-padrão. 01). Na 2a etapa do estudo (tab. II), a freqüência média dos segmentos considerados como grau Z diminuiu, devido à menor proporção assinalada pelos observadores 1, 2, 3 e 5 (respectivamente: 46,6%; 68,2%; 64,8%; e 67,1%). Novamente, o observador 4 interpretou que a maioria dos segmentos apresentava lesões grau D (55,7%) e todos os observadores consideraram que as lesões grau M ocorreram com menor freqüência, com incidência variando entre 1,1% (observador 2) e 5,7% (observadores 4 e 5). As lesões grau A foram assinaladas entre 10,2% (observador 4) e 22,7% (observador 5). A análise destas diferenças também foi estatisticamente significativa (teste de Friedman, p=0,00015). As distribuições das freqüências das lesões assinaladas pelos cinco observadores de acordo com a classificação B, na 1a etapa do estudo, estão descritas na tabela III. Os observadores 1, 2, 3 e 4 apontaram uma incidência entre 8% e 12,5% de lesões significantes (grau S) enquanto o observador 5 as assinalou em 17% dos casos. A análise destas diferenças foi estatisticamente significativa (teste de Cochran, p=0,03). Na 2a etapa do estudo (tab. IV), este padrão se repetiu com uma diferença mais acentuada entre os resultados dos observadores 1, 2, 3 e 4 (grau A de 10,2% a 11,4%) e o do observador 5 (grau A= 22,7%). Estas diferenças foram altamente significativas (teste de Cochran, p=0,0008). Concordância inter-observador - Os índices de kappa ponderado (kw) entre as 10 combinações de pares de observadores, calculados para medir a concordância quanto ao grau de lesão de acordo com a classificação A nas duas etapas do estudo e as respectivas taxas gerais de concordância, estão descritos na tabela V. Na 1a etapa, a taxa geral de concordância das 10 combinações possíveis entre os cinco observadores variou entre 38% (observador 4 vs observador 5) e 81% (observador 1 vs observador 2). Os índices de kappa ponderado variaram entre kw=0,36 (observador 4 vs observador 5) e kw=0,63 (observador 1 vs observador 2). Na 2a etapa, a taxa geral de concordância variou entre 42% (observador 4 vs observador 5) e 78% (observador 2 vs observador 3). Os índices de kappa ponderado variaram entre kw=0,39 (observador 3 vs observador 5) e kw=0,68 (observador 1 vs observador 4). As diferenças entre os índices de kappa das 10 combinações, em ambas etapas, não foram estatisticamente significativas (teste T pareado, p=0,62). Os índices de kappa (k) entre as 10 combinações de pares de observadores, calculados para medir a concordância Tabela III - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação B para grau de lesão (N- nãosignificante <70%; S- significante ≥70%), na 1a etapa do estudo Grau N S Total 1 2 Observadores 3 4 5 X±DP 81 (92) * 7 (8) 88 (100) 79 (89,8) 9 (10,2) 88 (100) 77 (87,5) 11 (12,5) 88 (100) 79 (89,8) 9 (10,2) 88 (100) 73 (83) 15 (17) 88 (100) 77,8±3,0 10,2±3,0 Teste Q de Cochran, p=0,003; * n (%); X±DP- média±desvio-padrão. Tabela IV - Freqüência dos valores de lesão assinalados pelos cinco observadores de acordo com a classificação B para grau de lesão (N- nãosignificante <70%; S- significante ≥70%), na 2a etapa do estudo Grau N S Total 1 2 Observadores 3 4 5 78 (88,6) * 10 (11,4) 88 (100) 78 (88,6) 10 (11,4) 88 (100) 78 (88,6) 10 (11,4) 88 (100) 79 (89,8) 9 (10,2) 88 (100) 68 (77,3) 20 (22,7) 88 (100) Teste Q de Cochran, p=0,0008; * n (%); X±DP- média±desvio-padrão. 294 X±DP 76,2±4,6 11,8±4,6 Arq Bras Cardiol volume 74, (nº 4), 2000 Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia Tabela V - Taxa geral de concordância (TGC) e índices de kappa ponderado de acordo com a classificação “A” de grau de lesão, por pares de observadores, nas duas etapas do estudo Pares de OBS 1-2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5 Média 1a Etapa TGC(%) kappa 81 70 43 70 74 44 80 45 73 38 62 2a Etapa TGC(%) kappa 0,63 0,54 0,37 0,48 0,55 0,39 0,61 0,40 0,60 0,36 0,49 72 66 70 57 78 52 70 47 66 42 62 0,59 0,59 0,68 0,45 0,66 0,45 0,51 0,42 0,39 0,41 0,52 Teste T pareado, kappa 1a etapa vs 2a etapa, p=0,62. Tabela VI - Taxa geral de concordância (TGC) e índices de kappa de acordo com a classificação “B” de grau de lesão, por pares de observadores, nas duas etapas do estudo Pares de OBS 1-2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5 Média 1a Etapa TGC(%) kappa 95 93 95 91 91 93 91 91 91 91 92 0,73 0,63 0,73 0,59 0,55 0,63 0,62 0,55 0,64 0,62 0,63 2a Etapa TGC(%) kappa 92 95 97 84 92 93 88 94 82 85 90 0,62 0,77 0,82 0,45 0,62 0,66 0,58 0,71 0,37 0,48 0,61 as médias dos índices de kappa ponderado (kwm) foram kwm=0,49 e kwm=0,52, respectivamente nas primeira e segunda etapas. Aplicando-se os critérios definidos no quadro III, o nível de concordância entre os observadores, ao interpretarem sobre a ausência ou três possíveis categorias de grau de lesão (discreto, moderado ou acentuado), foi caracterizado como regular em ambas as etapas. Em relação à classificação B, as médias dos índices de kappa (km) foram km=0,63 e km=0,61, respectivamente nas primeira e segunda etapas. Portanto, a concordância entre os observadores, ao avaliarem sobre a presença ou não de lesão clinicamente significante, alcançou um nível bom em ambas as etapas. As amplitudes de variação dos índices de kappa dos 10 pares de observadores em ambas as classificações, nas duas etapas do estudo, estão representadas na figura 1. Observa-se que, na classificação A, a variação foi semelhante nas duas etapas, diferentemente do padrão observado na classificação B, que foi notadamente mais ampla na 2a etapa. O desempenho de cada observador nos resultados obtidos sobre a presença ou não de lesão significante (classificação B) foi, então, analisado a partir dos índices de kappa dos pares de observadores em que o observador estava incluído. Cada observador participou em quatro pares de combinações e as médias dos índices de kappa (km) de cada um deles em relação aos demais, nas duas etapas do estudo, estão descritas na figura 2. Na 1a etapa, estas médias variaram de km=0,59 (observador 3) a km=0,67 (observador 1). Na 2a etapa, as médias variaram entre km=0,47 (observador 5) e km=0,67 (observadores 1 e 4). A análise destes da- Teste T pareado, kappa 1a etapa vs 2a etapa, p=0,65. quanto ao grau de lesão de acordo com a classificação B nas duas etapas do estudo e as respectivas taxas gerais de concordância, estão descritas na tabela VI. Na 1a etapa, a taxa geral de concordância das 10 combinações variou entre 91% (observador 1 vs observador 5; observador 2 vs observadores 3 e 5; observador 3 vs observadores 4 e 5; observador 4 vs observador 5) e 95% (observador 1 vs observadores 2 e 4). Os índices de kappa variaram entre k=0,55 (observador 3 vs observadores 2 e 4) e k=0,73 (observador 1 vs observadores 2 e 4). Na 2a etapa, a taxa geral de concordância variou entre 82% (observador 3 vs observador 5) e 97% (observador 1 vs observador 4). Os índices de kappa variaram entre k=0,37 (observador 3 vs observador 5) e k=0,82 (observador 1 vs observador 4). Do mesmo modo que em relação à classificação A, as diferenças entre os índices de kappa das 10 combinações, nas duas etapas, não foram estatisticamente significativas (teste T pareado, p=0,65). Com o objetivo de se estimar um índice geral da concordância entre todos os observadores, em cada classificação, considerou-se a média das 10 análises combinatórias dos índices de kappa, em cada etapa. Em relação à classificação A, 0 0,2 0,4 0,6 0,8 1 Fig. 1 - Amplitude de variação dos índices de kappa entre as 10 combinações de pares de observadores quanto às classificações de grau de lesão A e B, nas duas etapas do estudo. Fig. 2 - Médias dos índices de kappa de cada observador em relação aos demais, quanto à classificação B de grau de obstrução, nas duas etapas do estudo. 295 Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia Tabela VII - Índices de kappa entre as avaliações de um mesmo observador, nas duas etapas do estudo, em relação às classificações A e B de grau de lesão Classificação Observador 1 0,57 0,67 A B 2 0,76 0,89 3 0,61 0,62 4 0,95 1 5 0,62 0,68 Teste T pareado, classificação “A” vs classificação “B”, p=0,03. dos confirma o caráter homogêneo da interpretação dos observadores na 1a etapa e identifica que um dos observadores (observador 5) foi responsável pela maior amplitude entre os índices de kappa, verificada na 2a etapa do estudo. Concordância intra-observador - Os índices de kappa calculados para medir a reprodutibilidade das avaliações de um mesmo observador nas duas etapas do estudo estão demonstrados na tabela VII. Em relação à classificação A, os resultados variaram entre kw=0,57 (observador 1) e kw=0,95 (observador 4). Quanto à classificação B, os resultados variaram entre k=0,62 (observador 3) e k=1 (observador 4). A análise das diferenças entre os valores obtidos por cada observador, nas duas classificações, demonstrou que o nível de concordância intra-observador foi significativamente maior ao opinarem sobre a presença ou não de lesões clinicamente significantes que quando as avaliaram de acordo com um número maior de categorias de grau de obstrução (teste T pareado, p=0,03). Quanto à classificação A, os observadores 2, 3 e 5 alcançaram níveis de concordância bom e o observador 4 nível ótimo, enquanto o observador 1 obteve nível regular. Em relação à classificação B, os observadores 3 e 5 mantiveram-se em nível bom, enquanto os demais melhoraram os níveis de reprodutibilidade de suas próprias avaliações (observador 1: bom; observador 2: ótimo; observador 4: perfeito). Com o objetivo de analisar se o padrão de concordância intra-observador influenciou na concordância inter-observador em relação à identificação de lesões clinicamente significantes (classificação B), foram agrupados para cada observador: o índice de kappa da concordância intra-observador e as suas médias dos índices de kappa em relação aos demais da concordância inter-observador nas duas etapas Tabela VIII - Índices de kappa de cada observador em relação às suas interpretações nas duas etapas do estudo (INTRA) e médias dos índices de kappa de cada observador em relação aos demais nas primeira e segunda etapas do estudo (INTER) quanto à presença ou não de lesão significante (classificação B) Observador Intra Inter a 1 2 3 4 5 296 0,67 0,89 0,62 1 0,68 1 Etapa 2a Etapa 0,67 0,63 0,59 0,63 0,62 0,67 0,62 0,62 0,67 0,47 Arq Bras Cardiol volume 74, (nº 4), 2000 do estudo (tab. VIII). Nota-se que o nível de concordância inter-observador foi relativamente homogêneo nas duas etapas do estudo, com exceção do obtido pelo observador 5 na 2a etapa. Os índices que mediram a concordância intraobservador variaram de maneira mais ampla, entre os níveis bom e perfeito. A observação destes dados indica que não houve relação entre o nível de consistência intra-observador e o nível de concordância inter-observador. O observador 4, que alcançou a reprodutibilidade máxima de suas interpretações nas duas etapas do estudo, obteve média semelhante aos demais quanto à concordância inter-observador. Por outro lado, o observador 5, apesar de ter média abaixo dos demais na 2a etapa, teve um bom nível de reprodutibilidade de suas próprias interpretações, semelhante ao nível alcançado pelos observadores 1 e 3. Discussão Entre os dois conceitos relacionados às variações de medidas em métodos diagnósticos, acurácia ou validade e precisão ou confiabilidade, nós nos propusemos a avaliar a confiabilidade da interpretação visual simples da cinecoronariografia. Poucos estudos foram desenhados para analisar especificamente esta questão 5-8,32,33. Igualmente a outros que, independentemente de seus principais objetivos, também avaliaram a precisão da cinecoronariografia 9,11,22,34, os diferentes protocolos, quanto ao modo de obtenção dos dados e aos métodos de se estimar a variabilidade, dificultam a obtenção de um padrão comum que sirva de estimativa da precisão do método. Sob o impacto do surgimento da angioplastia coronariana, vários estudos foram publicados com o objetivo de aumentar a confiabilidade na interpretação da cinecoronariografia 10-13,15-18. O desenvolvimento tecnológico permitiu o aperfeiçoamento dos métodos de análise digital quantitativa com a conseqüente evolução de seus índices de reprodutibilidade 14,27,35,36. A quantificação digital obtém uma curva normal de distribuição de suas medidas, diferentemente da obtida pelo método visual 22,37. Atualmente, mesmo com as limitações apontadas na literatura médica 4,23-26, é consensual a exigência de quantificação digital na pesquisa científica baseada na interpretação angiográfica da aterosclerose coronariana. A utilização da cinecoronariografia como exame complementar de diagnóstico, contudo, tem um contexto diferente. Na prática clínica, sua principal informação é sobre a presença ou não de doença obstrutiva capaz de provocar isquemia miocárdica, havendo uma tendência a se menosprezar lesões abaixo de 50% 4. Segundo Fleming e cols. 22, os observadores tendem a agrupar (categorizar) as lesões, pelo método visual, mesmo quando o objetivo é quantificar o valor percentual da obstrução. Em seu estudo, este fato resultou em maior variabilidade nas lesões interpretadas como discretas (<50%) e em uma tendência a subestimá-las, quando comparadas à análise digital quantitativa. Conclusão semelhante também foi relatada por Gurley e cols. 23. O que deve ser comparado e como coletar? - O valor Arq Bras Cardiol volume 74, (nº 4), 2000 percentual de obstrução, por ser uma variável contínua, permite que sejam calculados índices de variabilidade baseados no desvio-padrão de suas médias. Alguns autores sugerem que o erro-padrão do valor percentual estimado de uma dada lesão poderia servir como parâmetro numérico da variação do método, descrevendo índices de variabilidade de 28% a 36% 7,11,32. No entanto, ao analisarmos os resultados de Derouen e cols. 7, por exemplo, cujos desvios-padrão dos segmentos analisados variaram de 0% a 51,3%, a generalização, a partir da média obtida (18%), revela uma utilidade prática discutível. Este estudo foi planejado para avaliar o método da maneira como ele é executado na rotina em nosso meio, privilegiando a comparação com base em variáveis categóricas e adotando, como principais referências, os valores mais difundidos destes limiares isquêmicos - lesão obstrutiva ≥50% no tronco da coronária esquerda e ≥70% nas demais artérias. De fato, a simples observação, nas tabelas I e II, dos altos valores dos desvios-padrão das freqüências assinaladas para os graus Z e D comparados aos valores inferiores das freqüências assinaladas para os graus M e A, indica que os observadores variaram mais ao quantificarem lesões clinicamente insignificantes (≤50% de obstrução), confirmando os resultados comentados. Estudos sobre variabilidade em cinecoronariografia que avaliaram tempo de atividade ou experiência dos observadores, ou não demonstraram diferenças significativas relacionados a estes critérios 11,22, ou encontraram correlação positiva apenas com a manutenção de atividade regular na área 5. Os cinco observadores escolhidos compõem 29,4% do total de profissionais qualificados pela Sociedade Brasileira de Hemodinâmica e Cardiologia Intervencionista que atuam, regularmente, nos vários serviços da cidade do Recife. O protocolo adotou um modelo semelhante à prática diária. Os cinefilmes foram selecionados sem restrições importantes e os observadores os manusearam livremente. Com os critérios definidos na classificação A, com quatro variáveis categóricas, buscamos estabelecer o nível de concordância quanto à avaliação mais detalhada do grau de obstrução. O principal foco do estudo foi a análise da concordância na classificação B, no sentido de avaliar a confiabilidade do método de interpretação visual da cinecoronariografia quanto aos critérios dicotômicos que servem de paradigma atual para definição sobre a necessidade de revascularização miocárdica. Qual índice de confiabilidade é o mais adequado? - A utilização de diferentes índices para medir a concordância é uma importante limitação para a comparação entre os estudos. A forma mais simples de avaliar a concordância entre variáveis categóricas, a taxa geral de concordância, foi adotada por alguns autores 5,6,9, a despeito das importantes restrições sobre o significado de seus resultados. A taxa geral de concordância não identifica a proporção em que o acaso foi responsável pela concordância, é influenciada pela proporção de achados positivos e não pode ser comparada às taxas originadas em outros estudos 31,38. No presente estudo, estas taxas foram apresentadas, apenas, com objetivos Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia descritivos, não sendo utilizadas para medir a concordância entre os observadores. De fato, valores como os obtidos, por exemplo, na classificação B (tab. VI), com taxa geral de concordância entre 91% e 95%, na 1a etapa e entre 82% e 97%, na segunda, não permitem interpretações claras sobre a qualidade do nível de concordância entre os observadores. O índice de kappa é um coeficiente que exclui a casualidade ao calcular a concordância entre observações pareadas e possibilita a qualificação do grau de concordância e a comparação com índices de outros estudos 2,31. A principal crítica à sua aplicação neste estudo seria a impossibilidade de se estimar a concordância do conjunto de observadores, já que se trata de um índice que mede a concordância entre pares de observadores. Com o objetivo de se obter uma idéia geral da concordância de todos os observadores, adotamos o princípio da média dos índices, instrumento aplicado por outros autores em estudos citados na literatura médica 7,34. A ponderação do índice de kappa foi realizada neste estudo, pois ela é recomendada para minimizar as discrepâncias entre os níveis de discordância, em situações em que mais de duas variáveis são consideradas 30,31. A maneira de ponderar os índices na classificação A, todavia, não corrige as distorções quanto à relevância clínica destas discordâncias. Discordâncias entre grau moderado ou acentuada, para uma dada lesão, têm maior significado quanto às implicações terapêuticas e prognósticas, do que discordâncias entre grau moderado e discreto. Apenas uma intervenção arbitrária na aplicação dos pesos poderia corrigir estas discrepâncias, mas isso afetaria a possibilidade de comparação dos resultados deste estudo com os de outros. Concordância inter-observador - Detre e cols. 5, considerando como critério de lesão significante a obstrução ≥50%, aplicaram índices derivados do desvio-padrão dos achados positivos e concluíram que o nível de concordância, entre os observadores, situava-se na metade da faixa entre a concordância perfeita e a pelo acaso. Correlacionando com a função do kappa, um índice de 0,50 seria considerado como uma concordância de nível regular. O mesmo nível regular (k=0,55, média) foi relatado por Derouen e cols. 7, cujo critério foi semelhante ao adotado por nós na classificação B (lesão significante ≥70%). Embora projetado para comparar o método visual com o uso do caliper, o estudo relatado por Holder e cols. 34 produziu resultados passíveis de comparação com os nossos. Utilizando médias de índices de kappa ponderado, a concordância entre os cinco observadores ao classificarem as lesões em três categorias foi de nível bom (k=0,62). A média dos kappa de cada observador, em relação aos demais, foi similar para todos os observadores. O centro de coordenação do CASS publicou estudo sobre reprodutibilidade que apontou um nível regular de concordância sobre o número de lesões significantes por cinefilme (k=0,57) 8. Embora o critério sobre lesões significantes tenha sido semelhante ao adotado em nosso estudo, este índice refletiu, na verdade, a concordância entre as interpretações de um dos quatorze centros clínicos participantes com as de um dos quatro centros de controle de qualidade. 297 Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia Em nosso estudo, a replicação das análises dos cinco observadores permitiu que o nível de concordância interobservador fosse estabelecido tanto entre os 10 pares de observadores, em cada etapa, como, também, entre os mesmos pares nas duas etapas. Os resultados demonstram que, para se identificar graus mais detalhados de obstrução coronariana (classificação A), o método visual simples de interpretação da cinecoronariografia permite um nível apenas regular de reprodutibilidade entre diferentes observadores, alcançando um nível bom quando se estima se há ou não obstruções capazes de provocar isquemia (classificação B). Concordância intra-observador - No estudo de Detre e cols. 5, a concordância intra-observador foi avaliada pela taxa geral de concordância e variou entre 72% e 91%. Já Holder e cols. 34, aplicando índices de kappa ponderado, descreveram níveis de consistência intra-observador de regular a bom (k=0,57 a k=0,79). Em nosso estudo, os observadores foram mais consistentes em suas próprias avaliações quando o critério foi dicotômico (classificação B). Os resultados demonstraram que todos os observadores reproduziram suas interpretações com um nível mínimo considerado bom quanto à presença ou não de lesão significante. Efetivamente, conforme descrito na tabela VII, um observador obteve um nível ótimo (observador 2: k=0,89) e outro atingiu concordância máxima (observador 4: k=1). Esta diferença qualitativa, na reprodutibilidade intra-observador, não correspondeu ao padrão mais homogêneo apresentado pelos observadores quanto à concordância entre eles (tab. VIII). No outro extremo, o índice inferior do observador 5 em relação aos demais, na 2a etapa, não o impediu de alcançar um bom nível de reprodutibilidade de suas próprias avaliações. Estas observações demonstram que não houve relação entre o nível de consistência intra-observador e o nível de concordância inter-observador. Considerações finais - Na literatura médica, a angiografia digital quantitativa tornou-se padrão para a interpretação angiográfica das artérias coronarianas. Na prática clí- Arq Bras Cardiol volume 74, (nº 4), 2000 nica, contudo, sua aplicação rotineira tem importantes limitações e não elimina a subjetividade do operador em várias etapas da execução do exame e da seleção de imagens e segmentos a serem interpretados. A tendência de se categorizar as lesões de acordo com o grau de obstrução e definir condutas a partir de critérios dicotômicos, torna irrelevante o nível de precisão na estimativa de lesões abaixo dos limites considerados como capazes de provocar isquemia miocárdica. Este estudo demonstrou que, ao interpretar cinecoronariografias pelo método visual simples, baseado na estatística de kappa, a reprodutibilidade entre especialistas na execução do método somente alcançou um nível bom quando o critério adotado foi o rotineiramente utilizado para se cogitar a indicação de algum tratamento de revascularização miocárdica (lesões clinicamente significantes ou não-significantes). Ao opinarem sobre graus de obstrução classicamente considerados na prática clínica (ausência de obstruções, lesões discretas, moderadas ou acentuadas), o nível de confiabilidade entre os observadores foi apenas regular. Como esperado, já que é mais plausível que cada indivíduo concorde mais facilmente consigo mesmo que com outros, o nível de concordância intra-observador foi superior ao interobservador, em cada um dos critérios adotados, mas não encontramos relação entre o grau de precisão entre os observadores e o nível de consistência de suas próprias opiniões. No âmbito da clínica, portanto, onde o principal objetivo é diagnosticar e definir o grau da doença aterosclerótica coronariana visando estabelecer a conduta terapêutica, este estudo demonstrou que o método visual simples, ainda o mais utilizado na prática clínica, satisfaz os requisitos quanto à confiabilidade de seus resultados. Agradecimentos Aos Profs. Eulálio Cabral e José Natal Figueiroa pelo auxílio na análise dos resultados e à Profa. Dra. Sandra Neiva Coelho pela paciência e crítica competente em todo o processo de elaboração e execução deste trabalho. Referências 1. 2. 3. 4. 5. 6. 7. Dawson-Saunders B, Trapp RG. Summarizing Data. In: Dawson-Saunders B, Trapp RG, eds. Basic & Clinical Biostatatistics. 2nd ed. Norwalk: Appleton & Lange, 1994: 41-63. Pereira MG. Aferição dos Eventos. In: Pereira MG, ed. Epidemiologia - Teoria e Prática. Rio de Janeiro: Guanabara Koogan, 1995: 358-76. Bittl JA, Levin DC. Coronary Arteriography. In: Braunwald E, ed. Heart Disease: A Textbook of Cardiovascular Medicine. 5th ed. Philadelphia: WB Saunders Co., 1997: 240-72. Stadius ML, Alderman EL. Coronary artery revascularization: Critical need for, and consequences of, objective angiographic assessment of lesion severity. Circulation 1990; 82: 2231-4. Detre KM, Wright E, Murphy ML, Takaro T. Observer agreement in evaluating coronary angiograms. Circulation 1975; 52: 979-86. Zir LM, Miller SW, Disnmore RE, Gilbert JP, Harthorne JW. Interobserver variability in coronary angiography. Circulation 1976; 53: 627-32. Derouen TA, Murray JA, Owen W. Variability in the analysis of coronary angiograms. Circulation 1977; 55: 324-8. 298 8. 9. 10. 11. 12. 13. Fisher LD, Judkins MP, Lesperance J, et al. Reproducibility of coronary arteriographic reading in the Coronary Artery Surgery Study (CASS). Cathet Cardiovasc Diagn 1982; 8: 565-75. Trask N, Califf RM, Conley MJ, et al. Accuracy and interobserver variability of coronary cineangiography: a comparison with postmortem evaluation. J Am Coll Cardiol 1984; 3: 1145-54. Meier B, Gruentzig AR, Goebel N, Pyle R, Von Gosslar W, Schlumpf F. Assessment of stenoses in coronary angioplasty: inter- and intraobserver variability. Int J Cardiol 1983; 3: 159-69. Beauman GJ, Vogel RA. Accuracy of individual and panel visual interpretations of coronary arteriograms: Implications for clinical decisions. J Am Coll Cardiol 1990;16: 108-13. Danchin N, Juilliere Y, Foley D, Serruys PW. Visual versus quantitative assessment of the severity of coronary artery stenoses: can the angiographer’s eye be reeducated? Am Heart J 1993; 126: 594-600. Katrisis D, Lythall DA, Anderson MH, Cooper IC, Webb-Peploe MM. Assessment of coronary angioplasty by an automated digital angiographic method. Am Heart J 1988; 116: 1181-7. Arq Bras Cardiol volume 74, (nº 4), 2000 14. Selzer RH, Hagerty C, Azen SP, et al. Precision and reproducibility of quantitative coronary angiography with application to controled clinical trials: a sampling study. J Clin Invest 1989; 83: 520-6,. 15. Goldberg RK, Kleiman NS, Minor ST, Abukhalil J, Raizner AE. Comparison of quantitative coronary angiography to visual estimates of lesion severity pre and post PTCA. Am Heart J 1990; 119: 178-84. 16. Kalbfleisch SJ, McGillem MJ, Pinto IMF, Kavanaugh KM, Deboe SF, Mancini GBJ. Comparison of automated quantitative coronary angiography with caliper measurements of percent diameter stenosis. Am J Cardiol 1990; 65: 1181-4. 17. Kimball BP, Bui S, Cohen EA, Cheung PK, Lima V. Systematic bias in the reporting of angioplasty outcomes: accuracy of visual estimates of absolute lumen diameters. Can J Cardiol 1994; 10: 815-20. 18. Desmet W, Willems J, Van Lierde J, Piessens J. Discrepancy between visual estimation and computer-assisted measurement of lesion severity before and after coronary angioplasty. Cathet Cardiovasc Diagn 1994; 31: 192-8. 19. Gould KL, Lipscomb K, Hamilton GW. Physiologic basis for assessing critical coronary stenosis. Am J Cardiol 1974; 33: 87-94. 20. Gould KL, Lipscomb K. Effects of coronary stenoses on coronary flow reserve and resistance. Am J Cardiol 1974; 34: 48-55. 21. Gould KL. Quantification of coronary artery stenosis in vivo. Circ Res 1985; 47: 341-53. 22. Fleming RM, Kirkeeide RL, Smalling RW, Gould KL. Patterns in visual interpretation of coronary arteriograms as detected by quantitative coronary arteriography. J Am Coll Cardiol 1991; 18: 945-51. 23. Gurley JC, Nissen SE, Booth DC, et al. Comparison of simultaneously performed digital and film-based angiography in assessment of coronary artery disease. Circulation 1988; 78: 1411-20. 24. Gurley JC, Nissen SE, Booth DC, Demaria NA. Influence of operator- and patientdependent variables on the suitability of automated quantitative coronary arteriography for routine clinical use. J Am Coll Cardiol 1992; 19: 1237-43. 25. Herrington DM, Siebes M, Walford GD. Sources of error in quantitative coronary angiography. Cathet Cardiovasc Diagn 1993; 29: 314-21. 26. Herrington DM, Siebes M, Sokol DK, Siu CO, Walford GD. Variability in mea- Guimarães e cols. Confiabilidade da interpretação da cinecoronariografia 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. sures of coronary lumen dimensions using quantitative coronary angiography. J Am Coll Cardiol 1993; 22: 1068-74. Jost S, Deckers J, Nikutta P, et al. Influence of the selection of angiographic projections on the results of coronary angiographic follow-up trials. International nifedipine trial on antiatherosclerotic therapy investigators. Am Heart J 1995; 130: 433-9. Baim DS, Grossman W. Coronary angiography. In: Baim DS, Grossman W, eds. Cardiac Catheterization, Angiography, and Intervention. 4th ed. Philadelphia: Lea & Febiger, 1991: 185-214. Altman DG. Relation between several variables. In: Altman DG, ed. Practical Statistics for Medical Research. London: Chapman & Hall, 1995: 325-64. Armitage P, Berry G. Further Analysis of Categorical Data. In: Armitage P, Berry G, eds. Statistical Methods in Medical Research, 3rd ed. Oxford: Blackwell Scientific Publications, 1994: 402-447. Altman DG. Some Common problems in medical research. In: Altman DG, ed. Practical Statistics for Medical Research. London: Chapman & Hall, 1995: 396-439. Sanmarco ME, Brooks SH, Blankenhorn DH. Reproducibility of a consensus panel in the interpretation of coronary angiograms. Am Heart J 1978; 96: 430-7. Kussmaul III WG, Popp RL, Norcini J. Accuracy and reproducibility of visual coronary stenosis using information from multiple observers. Clin Cardiol 1992; 15: 154-62. Holder DA, Johnson AL, Stolberg HO, et al. Inability of caliper measurement to enhance observer agreement in the interpretation of coronary cineangiograms. Can J Cardiol 1985; 1: 24-9. Serruys PW, Reiber JHC, Wijns W, et al. Assessment of percutaneous transluminal coronary angioplasty by quantitative coronary arteriography: diameter versus densitometric area measurements. Am J Cardiol 1984; 54: 482-8. Reiber JH, Van Eldik-Helleman P, Visser-Akkerman N, Kooijman CJ, Serruys PW. Variabilities in measurement of coronary arterial dimensions resulting from variations in cineframe selection. Cathet Cardiovasc Diagn 1988; 14: 221-8. Bertrand ME, Lablanche JM, Bauters C, Leroy F, Mac Fadden E. Discordant results of visual and quantitative estimates of stenosis severity before and after coronary angioplasty. Cathet Cardiovasc Diagn 1993; 28: 1-6. Koran LM. The reliability of clinical methods, data and judgements (First part). N Eng J Med 1975; 293: 642-6. 299