Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações Arminda Lucia Siqueira1 1 Introdução Dimensionamento de amostras, importante elemento no planejamento de ensaios clínicos controlados, frequentemente é determinado por fórmulas fechadas, aproximadas ou não. Às vezes, processos iterativos são necessários, exigindo programação possivelmente trabalhosa, ou ainda as soluções podem ser obtidas por simulações. Embora fórmulas fechadas sejam práticas e convenientes, suas acurácias variam e podem às vezes ser questionadas. Assim, soluções alternativas podem ser preferidas. Para o caso de resposta binária, o cálculo do tamanho da amostra depende de muitos fatores, como a medida a ser usada (diferença de proporções, razão de chances (odds ratio ou OR), teste (Wald, escore, razão de verossimilhanças, Fisher), tipo de solução (exata, assintótica, com correção de continuidade) e método estatístico (clássico ou Bayesiano). Este trabalho é sobre o dimensionamento para ensaios de não inferioridade em que o planejamento é de grupos paralelos e a resposta é binária. Ilustramos a metodologia com exemplo de uma situação real e com resultados de um estudo de simulação. 2 Material e métodos Considere-se um estudo planejado em dois grupos em paralelo tal que os indivíduos foram aleatorizados em novo tratamento (π) ou no controle ativo (πΆ). Sejam ππ e ππΆ as probabilidades de sucessos, respectivamente nos grupos π e πΆ, que têm tamanhos ππ e ππΆ . A comparação entre os dois tratamentos pode ser feita pela diferença entre as proporções de sucesso dos dois grupos (ππ β ππΆ ), pela razão entre elas (ππ /ππΆ ), ou ainda pela medida odds ratio, cuja definição é ππ 1βπ π / ππΆ 1βπ πΆ , ou equivalentemente pelo logaritmo de odds ratio, π = log{[ππ (1 β ππΆ )]/[(ππΆ (1 β ππ )]}. Para comparar os dois tratamentos em termos de odds ratio, testamos as hipóteses π»0 : π = π0 versus π»1 : π > π0 , sendo π0 um valor não negativo chamado de margem de não inferioridade. Alternativamente as hipóteses podem ser expressas como π»0 : πΏ = 0 versus π»1 : πΏ > 0, com πΏ = π β π0 (Siqueira et al., 2008). 1 Departamento de Estatística/ UFMG. e-mail: [email protected] 1 Na literatura existem vários trabalhos sobre tamanho de amostras para estudos de não inferioridade no contexto estudado (proporções, grupos paralelos). Julious (2010) apresenta fórmulas para o caso de diferença de proporções com três métodos: usando respostas antecipadas ou as respostas sob as hipóteses nulas e alternativas e ainda levando em conta a correção de continuidade. Ainda para a comparação de dois tratamentos baseada em diferença de proporções e para grupos paralelos, Julious & Owen (2010) destacam o método Bayesiano. Para a comparação baseada na medida odds ratio utilizando o teste de Wald, o número de indivíduos necessários no grupo controle é dado por ππΆ = π§πΌ +π§ π½ 2 π1 βπ0 1 ππ 1π 1βπ 1π +π 1 πΆ 1βπ πΆ Wang ππ‘ ππ. , 2002 . Na fórmula apresentada, π0 e π1 são os valores de πππ(ππ ) sob π»0 e ππ₯π π1 π πΆ , π1 β1 π πΆ π»1 , π = ππ /ππΆ é a razão dos tamanhos dos dois grupos, π1π = 1+ ππ₯π πΌ e 1βπ½ são o nível de significância e o poder do teste da comparação dos grupos, respectivamente, e π§πΌ e π§π½ são os correspondentes percentis da normal padrão. Dimensionamento de amostras usando métodos exatos para provar não inferioridade quando a resposta é binária foi proposto, por exemplo por Dunnett & Gent (1977) e o método foi revisitado por Chan (2003). Wellek (2010) apresenta o tradicional teste exato de Fisher para ensaios de não inferioridade em termos da medida odds ratio e fornece um programa Fortran para calcular o tamanho da amostra. 3 Resultados e discussão Para ilustrar a metodologia, adaptamos um exemplo apresentado por Rousson & Seifert (2008) comparando os resultados do tamanho de amostra quando utilizamos o teste de Wald e o teste exato de Fisher para a medida odds ratio. Evidenciamos também o impacto da escolha da margem de não inferioridade e da incerteza do conhecimento de parâmetros envolvidos nos cálculos (no caso, ππΆ ). Apresentamos também os resultados de um pequeno estudo de simulação de Monte Carlo usando a mesma medida odds ratio. 3.1 Exemplo: ensaio de não inferioridade para tratamento de vaginose bacteriana Trata-se do planejamento de ensaio de não inferioridade que tinha como objetivo comparar o efeito de novo medicamento para tratar vaginose bacteriana, a mais prevalente causa de vaginite, com o efeito do uso de clindamicina creme vaginal, o medicamento de 2 referência. Para mulheres não grávidas, a literatura relata percentual de cura variando de 80% a 85% após completar o tratamento com o medicamento de referência. A Tabela 1 apresenta o número de pacientes por grupo para valores de ππΆ variando de 80% a 85% com incremento de um ponto percentual, comparando dois testes. Tabela 1: Número de pacientes por grupo (ππ = ππΆ ) do ensaio de não inferioridade para tratamento de vaginose bacteriana Comparação de dois métodos: teste de Wald com fórmula e teste exato de Fisher ππ 1 = 1,5 ππ 1 = 1,0 Margem de não inferioridade (ππ 0 ) Teste de Wald Exato de Fisher Teste de Wald Exato de Fisher Teste de Wald Exato de Fisher Teste de Wald Exato de Fisher Teste de Wald Exato de Fisher Teste de Wald Exato de Fisher 0,7 0,7 0,5 0,5 0,3 0,3 0,7 0,7 0,5 0,5 0,3 0,3 80% 770 776 205 209 68 73 195 194 94 95 44 43 Possíveis valores de ππΆ 81% 82% 83% 84% 801 835 873 917 807 842 881 925 213 222 232 244 218 227 238 250 71 74 77 81 76 79 83 88 204 213 224 236 202 212 222 234 98 103 108 114 99 104 109 115 46 48 51 53 49 51 54 56 85% 967 975 257 264 85 93 250 248 121 122 56 60 Nota: nível de significância: 2,5%; poder do teste: 80%; ππ 1 : odds ratio sob π»1 . À medida que ππΆ e a margem de não inferioridade aumentam, há necessidade de mais pacientes. Por outro lado, os tamanhos das amostras para ππ 1 = 1,5 são inferiores aos correspondentes se ππ 1 = 1. Em geral, à medida que o valor de ππ 1 aumenta, o tamanho da amostra diminui, mantendo os outros elementos envolvidos nos cálculos constantes. Para ππ 1 = 1,0, todos os tamanhos de amostra obtidos pelo teste exato de Fisher são maiores do que o de Wald (a diferença varia de 4 a 8) e para ππ 1 = 1,5, às vezes esse comportamento se repete ou se inverte, mas a diferença é sempre bem pequena (varia de 1 a 4). 3.2 Estudo de simulação A determinação do tamanho de amostra a partir de simulações foi baseada nos testes de Wald e da razão de verossimilhanças com a medida odds ratio. O nível de significância nominal foi de 2,5% e o poder dos testes foi fixado em 90%. Assumiu-se igual alocação de 3 indivíduos aos tratamentos, isto é, ππ = ππΆ . Os cálculos de cada poder empírico foram baseados em 1.000.000 simulações. A Tabela 2 apresenta resultados para casos selecionados. Tabela 2: Tamanho de amostra para ensaios de não inferioridade usando a medida odds ratio ππ 0 0,8 0,5 ππ 1 1,5 2,0 2,5 1,5 2,0 2,5 ππ 384 205 149 126 90 75 ππΆ = 0,8 F ππ 379 379 197 197 139 138 127 125 88 87 71 70 ππ 378 196 137 126 87 70 ο ππΆ = 0,5 ππ 218 107 73 72 47 37 πΉ 217 105 70 72 47 36 ππ 216 104 70 71 46 35 ππ 216 104 69 71 46 35 Nota: nível de significância: 2,5%; poder do teste: 90%; ππ 0 : odds ratio sob π»0 ; ππ 1 : odds ratio sob π»1 ; ππ : teste de Wald por fórmula; πΉ: teste exato de Fisher; ππ : teste de Wald por simulação; ππ : teste da razão de verossimilhanças por simulação. Os resultados das simulações a partir do teste da razão de verossimilhanças (ππ ) são muito semelhantes aos do teste exato de Fisher (πΉ). A fórmula baseada no teste de Wald (ππ ) parece fornecer bons resultados, quando comparado aos obtidos na simulação, tanto para o próprio teste de Wald (ππ ) quanto para o teste de razão de verossimilhanças (ππ ). À medida que ππ 1 aumenta, os tamanhos de amostras diminuem e o inverso vale para o valor da margem de não inferioridade (ππ 0 ). Os valores de ππ tendem a ser ligeiramente maiores que πΉ. Os valores (mínimo e máximo) da diferença (ππ β πΉ) são (1 e 10) e (-1 e 4), respectivamente para ππ 0 igual a 0,8 e 0,5. A diferença (ππ β ππ ) vai de 2 a 12 e de zero a 5, respectivamente para ππ 0 igual a 0,8 e 0,5, respectivamente. 4 Conclusões e considerações finais O cálculo do tamanho de amostras é atualmente exigência dos protocolos de ensaios clínicos controlados. Há várias opções para o dimensionamento de ensaios de não inferioridade no caso de grupos paralelos e quando a resposta é binária. Quando os grupos são comparados em termos de diferença de proporções, o tamanho da amostra é tipicamente bem menor do que o obtido quando a medida escolhida é odds ratio. Por exemplo, no ensaio da seção 3 sobre tratamento de vaginose bacteriana, usando a medida odds ratio, com margem de não inferioridade de 0,5 e ππΆ = 0,80, o tamanho de amostra obtido foi ππΆ = ππ = 205. Se a comparação dos tratamentos fosse feita em termos de diferença de proporções, seriam necessários apenas 142 pacientes em cada grupo, ou seja, 4 haveria redução de 126 pacientes. Apesar dessa aparente vantagem, cresce o interesse pela utilização da medida odds ratio. De fato, existem vantagens discutidas na literatura (Tu, 1998) e, por exemplo, aparece de forma natural na interpretação de modelos de regressão logística, tão usados na área da saúde. Para o contexto estudado, tamanhos de amostras calculados por vários métodos, usando fórmulas fechadas, processos iterativos e simulações podem ser programados e/ou obtidos por programas específicos, tal como Pass® (Power Analysis and Sample Size Software). 5 Referências [1] CHAN, I. S. F. Proving non-inferiority or equivalence of two treatments with dichotomous endpoints using exact methods. Statistical Methods in Medical Research. Sage. v. 12, p. 37-58, 2003. [2] DUNNETT, C. W.; GENT, M. Significance testing to establishing equivalence between treatments, with special reference to data in the form of 2x2 tables. Biometrics. Blackwell Publishing. v. 33, p. 593-602, 1977. [3] JULIOUS, S. A. Sample Sizes for Clinical Trials. Boca Raton: Chapman and Hall/CRC. 2010. 299 p. [4] JULIOUS, S. A.; OWEN R. J. A comparison of methods for sample size estimation for non-inferiority studies with binary outcomes. Statistical Methods in Medical Research. Sage. v. 20, n. 6, p. 595-612, 2010. [5] TU, D. On the use of ratio or odds ratio of cure rates in therapeutic equivalence clinical trials with binary endpoints. Journal of Biopharmaceutical Statistics. Taylor & Francis. v. 8, p. 263-282, 1998. [6] WANG, H.; CHOW S. C.; LI, G. On sample size calculation based on odds ratio in clinical trials. Journal of Biopharmaceutical Statistics. Taylor & Francis. v. 12, p. 471-483, 2002. [7] ROUSSON, V.; SEIFERT, B. A mixed approach for proving non-inferiority in clinical trials with binary endpoints. Biometrical Journal. John Wiley. v. 50, n. 2, p. 190-204, 2008. [8] SIQUEIRA, A. L.; WHITEHEAD, A.; TODD, S. Active-control trials with binary data: a comparison of methods for testing superiority or non-inferiority using odds ratio. Statistics in Medicine. John Wiley. v. 27, p. 353-370, 2008. [9] WELLEK, S. Testing Statistical Hypotheses of Equivalence and Noninferiority. Second Edition, Boca Raton: Chapman and Hall/CRC. 2010. 431 p. Agradecimentos: à Fapemig pelo apoio ao projeto de pesquisa intitulado βMetodologia Estatística para o planejamento e a análise dos resultados de estudos especiais na área da saúdeβ, Demanda Universal da Fapemig, Processo APQ-01865-11, no qual o presente trabalho está inserido. 5