Mantendo e Aperfeiçoando o QALY S19 Mantendo e Aperfeiçoando o QALY 1 2 3 Autores: Joseph Lipscomb, PhD, Michael Drummond, PhD, Dennis Fryback, PhD, Marthe 4 5 Gold, MD, MPH, Dennis Revicki, PhD 1 Department of Health Policy and Management, Rollins School of Public Health, Emory University, Atlanta, GA, EUA; University of York,York, RU; 3University of Wisconsin, Madison,WI, EUA; 4City University of New York Medical School, Cidade de New York, NY, EUA; 5United BioSource Corp, Bethesda, MD, EUA 2 Tradução validada por: Margareth Da Eira, MD, MSc, PhD, Infectologist, Instituto de Infectologia Emílio Ribas, São Paulo, Brazil Tassia Decimoni, AxiaBio Consulting, São Paulo, Brazil A citação para este relatório é: Lipscomb J, Drummond M, Fryback DG, et al. Retaining and enhancing the QALY. Value Health 2009;12(Suppl.):S18-26. Palavras-chave: anos de vida ajustados pela qualidade, qualidade de vida relacionada à saúde, análise de custo-utilidade, avaliação de desfechos (cuidados à saúde), estado de saúde Introdução e Visão Geral Para análises econômicas epolíticas que requerem uma medida sumária de desfechos de saúde que integre quantidade de vida e impactos na qualidade de vida, o ‘ano de vida ajustado pela qualidade’ (QualityAdjusted Life-Year – QALY) tem sido amplamente reconhecido e endossado [1-3]. O Painel sobre Custo-efetividade em Saúde e Medicina dos EUA (US Panel on Cost-Effectiveness in Health and Medicine), recomendou o QALY para análises de “caso referência” [2]. O Instituto Nacional de Saúde e Excelência Clínica (National Institute for Health and Clinical Excellence – NICE) do Reino Unido, regularmente usa QALYs em seus pareceres sobre tecnologia [3]. Agências regulatórias e de compras em várias outras nações europeias, no Canadá e na Austrália, reconhecem igualmente o uso dos QALYs nas análises para saber se os produtos e intervenções médicas oferecem bom valor para o dinheiro [4]. O entusiasmo com que os analistas acadêmicos e as organizações representativas de pesquisa adotam o QALY nas avaliações econômicas é evidente a partir de uma rápida revisão nos principais periódicos de avaliação de políticas de saúde ou na lista de apresentações recentes de qualquer Reunião Anual Internacional da ISPOR [5]. Como um ponto de referência para grande parte da discussão a seguir, inicialmente é útil definir o que chamamos de QALY convencional: onde st é a probabilidade de um indivíduo vir a ocupar um estado de saúde Hs, no momento t; V(Hst) é a medida do valor (ou preferência) atribuída ao indivíduo ocupando o estado Hs no momento t; (1 + r)t-1 é um fator de desconto aplicado para trazer V(Hst) a termos de valores presentes, com r sendo a taxa de desconto selecionada refletindo a preferência no tempo para os desfechos de saúde; S é o número de estados de saúde distintos que podem ser ocupados; T é o horizonte de tempo relevante para a tomada de decisão; e QALYconv é subscrito para indicar que esta é a (ou alguma variação da) formulação “convencional” do QALY. Note que quando QALYs são usados para informar decisões em nível de grupo (frequentemente, nívelsocial), os V(.) tipicamente pretendem refletir os níveis de preferência médios (usualmente medianos) dos indivíduos que compreendem o grupo. Comoveremos, a maioria dos debates sobre QALY – e a maioria das oportunidades para aperfeiçoar esta medida sumária de desfechos – estão centralizados ou na formação de conceitos e construção dos estados de saúde (o Hst), ou na valorização destes estados (V), ou ainda na adequação do QALYconv como um guia para tomada de decisão, quando questões éticas, de distribuição ou outras não fatoradas dentro desta formulação são julgadas convincentes. Certamente, existem importantes desafios na triagem e análise dos dados clínicos e epidemiológicos requeridos para estimar estatisticamente os parâmetros st, mas o foco deste artigo está na definição e avaliação dos estados de saúde, e problemas de distribuição (algumas vezes, referidos como a parte “Q” do QALY). O QALY assim formulado é um dos dois ingredientes que definem as análises de custo-utilidade de intervenções em saúde, onde a meta é identificar a intervenção que gere ganhos incrementais nos QALYs pelo menor custo econômico (ou, de forma equivalente, o maior ganho incremental nos QALYs por dólar Mantendo e Aperfeiçoando o QALY S20 gasto) [1]. Além disso, variáveis do componente Hst do QALYconv estão agora sendo usadas seletivamente para monitorar o estado de saúde da população em nível nacional [6,7] e, até mesmo, dentro de algumas comunidades [8]. Mas deveria esta ‘moeda do reino’ser considerada verdadeiramente como o padrão ouro? Na verdade, várias preocupações relacionadas têm sido expressas ao longo do tempo sobre o QALY ter sua própria moeda corrente. Preocupação #1: Ainda Resta Considerável Diversidade de Pontos de Vista da Comunidade de Pesquisa em Relação a Várias Questões-Chave, Técnicas e Metodológicas Relativas ao QALYconv Tais questões, que devem ser abordadas em qualquer aplicação do QALY, incluem: 1) seleção de domínios específicos, ou dimensões, para a saúde vista como um conceito multidimensional; 2) seleção de itens específicosda pesquisa, que dão significado operacional a cada domínio; 3) abordagens psicométricas para avaliar preferências individuais por estados de saúde; e 4) estratégias de modelagem estatística para obter os pesos de valor requeridos para calcular os escores do QALY. Na equação QALYconv, as questões 1 e 2dizem respeito, essencialmente, à especificação do Hst, e as questões 3 e 4 relacionam-se à determinação do V(.), e como eles “trabalham juntos” para mapear um determinado padrão de estados de saúde para o indivíduo, dentro do escore QALY. Diferenças na forma como as questões 1-4 são tratadas na prática, podem ser vistas nos principais sistemas de mensuração da Qualidade de Vida Relacionada à Saúde (Health-Related Quality of Life – HRQoL) baseados na preferência, frequentemente usados na construção do QALY. Estes sistemas de mensuração incluem os Índices de Utilidades de Saúde – Mark 2 (Health Utilities Index Mark 2 – HUI2) e Mark 3 (HUI3) [9], o EuroQol EQ-5D [10], a Escala de Qualidade do Bem-estar (Quality of Well-Being Index – QWB) [11], o SF-6D [12] e a Escala de Limitações de Saúde e Atividades (Health and Activities Limitations index – HALex) [13]. Como Fryback et al. mostram [7], estes seis sistemas produzem “tendências similares mas não idênticas” na HRQoL para idosos nos EUA. Consequentemente, se tais sistemas forem aplicados simultaneamente em determinada avaliação econômica, produzirão diferentes escores QALY, podendo levar a diferentes conclusões sobre a custo-utilidade da intervenção de interesse. Na prática, está provado ser mais fácil recomendar o uso do QALY como abordagem geral útil para avaliar os custos em saúde das intervenções, do que especificar qual variante QALY deve ser adotada como padrão. Preocupação #2: O Modelo Convencional do QALY Desconsidera Certas Questões Importantes, e Ignora Outras Indiscutivelmente, tais críticas se classificam em três categorias gerais, amplamente relacionadas a questões de avaliação do estado de saúde. Primeiro, mesmo os defensores do QALY convencional reconhecem que há hipóteses simplificadoras construídas dentro do QALYconv que, no mínimo, mereceriam um exame detalhado [14]. Segundo, argumentou-se que o QALYconv falha em incorporar certa equidade e preocupaçõesde distribuição, que são importantes na tomada de decisão em grupo [por exemplo, numa análise de custo-utilidade (Cost-Utility Analysis – CUA)] [15,16]. Terceiro, tanto o modelo convencional do QALY, como suas variações, assumem que o componente valor do modelo deveria basear-se na preferência, embora algumas vezes diferindo sobre quais preferências devem ser capturadas e como. Em contraste, Dolan e Kahneman [17] e Hausman [18] desafiam (embora por razões diferentes) a alegação de que tais avaliações de estado de saúde deveriam ser baseadas nas preferências declaradas do indivíduo. Estas questões serão discutidas resumidamente, no final deste artigo. Preocupação #3: Questões Conceituais e Metodológicas Podem Estar Interferindo com a Percepção dos QALYs (ena Análise de Custo-efetividade de forma mais ampla) nos Contextos de Tomada de Decisão para os quais se Destinam a Servir O QALYdesempenhou, e continua a desempenhar, um papel importante nas decisões regulatórias e de compra, em diversas jurisdições fora dos Estados Unidos. Além disso, o Escritório de Gestão e Orçamento (Office of Management and Budget – OMB) dos EUAagora exige que as agências federais suplementem suas análises de custo-benefício com análises de custo-efetividade (Cost-Effectiveness Analyses – CEAs) usando uma variação generalizada do QALY (o ano de vida ajustado pela saúde), para “decisões economicamente significativas de saúde e segurança” [19]. Mas, em geral, custo-efetividade e QALYs não têm sido amplamente adotados na tomada de decisão de cuidados à saúde nos EUA (ver Mantendo e Aperfeiçoando o QALY S21 Neumann [20]). Digno de nota, a Administração de Alimentos e Fármacos (Food and Drug Administration – FDA) dos EUA não encorajou as variações baseadas em preferência das medidas de desfechos relatados pelo pacienteno âmbito dos pedidos de aprovação de fármacos [21]. Os Centros de Serviços para o Medicare & Medicaid dos EUA (US Centers for Medicare & Medicaid Services) ainda não aplicam formalmente as CEAs, em suas decisões de cobertura ou reembolso [22]. Embora as CEAs baseadas no QALY possam fornecer um “sutil apoio nos discursospolíticos” [20], não está claro o quanto desta relutância, especialmente nos Estados Unidos, é atribuível a dúvidas metodológicas e quanto dela é atribuível às dificuldades políticas e históricas persistentes, associadas ao racionamento explícito dos cuidados à saúde. Face aos antigos desafios que cercam o modelo convencional do QALY, alguns podem concluir que é hora de retirar a ênfase dada ao mesmo, ou até abandonar, esta medida sumária em favor de abordagens alternativas para avaliar o impacto das intervenções de saúde. Nós acreditamos que isto seria insensato, por razões discutidasadiante. Isto não quer dizer que o QALY convencional deveria ser adotadosem críticas, como algum padrão ouro estático e incontestável.Ao contrário, acreditamos que a pesquisa e experimentação em curso para melhorar os QALYs – e a avaliação de desfechos em saúde em geral – devem apoiar-se numa compreensão firme das forças e limitações das atuais abordagens. A mais proeminente – e destacada – dessas abordagens atuais é o QALY convencional. A construção do QALYconv mostrou ser um veículo aproveitável para quantificar mortalidade e morbidade conjuntamente ao longo do tempo em ambos os níveis, individual e populacional. Ao longo das últimas três décadas, houve um grande investimento de recursos públicos e privados para desenvolver, aplicar, e também avaliar o desempenho de medidas da HRQoL baseadas na preferência, incluindo os seis sistemas de mensuração mencionados acima. Numa avaliação abrangente do desempenho do EuroQol EQ-5D, QWB e HUI 2/3 nas suas aplicações no câncer, Feeny [23] concluiu que todos os três sistemas têm gerado evidência convincente de confiabilidade, validade do conceito, possibilidade de interpretação, responsividade e exequibilidade. Nos Estados Unidos, um registro de análises publicadas de custoutilidade, financiadopelo governo federal, continua a acompanhar o progresso ao longo do tempo no grau em que os estudos respeitam as recomendações do Painel sobre Custo-efetividade em Saúde e Medicina dos EUA (US Panel on Cost-Effectiveness in Health and Medicine) [24]. Um Comitê do Instituto de Medicina (Institute of Medicine Committee), encarregado de fornecer orientação ao OMB sobre a medição do benefício em saúde para decisões regulatórias, aprovou a maneira com que definimos o QALY convencional como sendo “a melhor medida atual para padronizar cálculos de anos de vida ajustados à saúde, devido ao seu uso muito difundido, flexibilidade e relativa simplicidade” [20]. Medidas de HRQoL que podem suportar a aplicação de modelos QALY específicos são agora parte de vários conjuntos de dados nacionais no Canadá [6], Estados Unidos [7] e vários outros países [25]. Além disso, há evidências emergentes de que o público em geral está cada vez mais disposto a considerar a inclusão de custo-efetividade na tomada de decisão de cuidados à saúde. Um estudo recente de Bryan et al. [26], sugere que entre uma amostra de tomadores de decisão provenientes de seguradoras públicas e privadas, planos de saúde e grupos empregadores na Califórnia, existe uma profunda compreensão da necessidade de estabelecer prioridades nas decisões de cobertura. Os participantes desse grupo de discussão expressaram suas preocupações sobre um possível viés (bias) nos estudos patrocinados pela indústria, e preocupados sobre um possível litígio das organizações que estão à frente do uso de CEAs para a tomada de decisão. Ainda, 90% dos debatedores acreditavam que as CEAs e QALYs seriam relevantes para as decisões de cobertura e, também, que o Medicare deveria assumir a liderança no sentido de mover esta agendaadiante. No curso de centenas de aplicações publicadas do modelo convencional do QALY, muito aprendeu-se sobre as forças e limitações empíricas e metodológicas desta abordagem, para a avaliação baseada em preferência. Abandonar o modelo QALY nesta conjuntura é, também, afastar o vínculo com centenas de estudos publicados e inúmeras investigações em curso – e, dessa maneira, tornar difícil, senão impossível, nossa habilidade de julgar a extensão em que as medições alternativas de saúde “melhoram em face” ao QALYconv. Da mesma maneira, a capacidade de realizar comparações históricas entre avaliações econômicas ou estimativas populacionais de saúde seria seriamente comprometida. Um caminho mais produtivo seria adotar um programa de pesquisa que tome o modelo convencional do QALY como um ponto de partida, para esforços no sentido de abordar as preocupações apontadas acima. Mantendo e Aperfeiçoando o QALY S22 Nas seçõesa seguir, refinamos esta discussão para identificar um número de tópicos que merecem um exame mais prolongado. Em relação ao próprio QALY, existem três aspectos gerais: definição e descrição do estado de saúde, avaliação de estados de saúde e abordagens para aperfeiçoar o QALY, no sentido de incorporar também outras informações sobre o patrimônio social e considerações distributivas.Sem dúvida, também existem algumas alternativas importantes à abordagem baseada no QALY para avaliar desfechos em saúde, mas cada uma delas apresenta seus próprios desafios metodológicos e práticos. Assim sendo, concluímos que existe uma necessidade de mais pesquisa sobre “efetividade comparativa” – uma outra maneira de dizer aqui, pesquisa que compare criticamente abordagens alternativas para medição e avaliação de desfechos de saúde, na dinâmica da tomada de decisão. Definição e Descrição de Estado de Saúde Como se desenvolveram e evoluíram ao longo do tempo, os principais sistemas de classificação do status de saúde citados acima têm desempenhado um papel útil na avaliação econômica de intervenções de cuidados à saúde e na avaliação da saúde da população. Estes sistemas de mensuração são o “engenho” por trás das medidas de efetividade baseadas na preferência, em muitas (embora não signifique em todas) análises de custo-utilidade publicadas nos últimos anos. O fato de os sistemas terem sido usados para calcular escores QALY tradicionais em numerosas avaliações econômicas ao longo de um amplo espectro de doenças e intervenções, não significa, obviamente, que novas melhorias nas escalas não devem serprocuradas.De fato, como Brauer et al. [24] documentam, a maioria dos estudos publicados utilizando pesos de utilidade, ao longo do período de 1976 a 2001, não utilizaram um dos sistemas genéricos de medição em saúde, mas, ao invés disso, fiaram-se em pesos de preferência gerados exclusivamente para o estudo em questão. Ainda no cômputo geral, estes sistemas de medição em saúde continuam a passar por um tipo de teste de mercado no qual muitos analistas (e algunspolíticos ) se dispõem a confiar neles para avaliações econômicas dos setores público e privado. Além disso, os itens de instrumento de vários destes sistemas de medição foram incorporados nas principais pesquisas nacionais de saúde pública, proporcionando assim um meio de obter medidas baseadas em preferência para a saúde da população, ao longo do tempo. Exemplos de destaque incluem: 1. Pesquisa do Painel de Despesas Médicas dos EUA (US Medical Expenditure Panel Survey) [27], que no passado incluiu ambos, o EuroQol EQ-5D e o SF-12. Atualmente, somente os itens SF-12 sãosolicitados, mas recentemente análises forneceram modelos preditivos para mapeamento das respostas SF-12 nos escores de preferência EQ-5D [28-30]. 2. Ambas, a Pesquisa Conjunta Canadá-EUA de Saúde (Joint Canada–US Survey of Health) [31] e a Pesquisa de Saúde da População Nacional Canadense (Canadian National Population Health Survey) [32], que incluem o HUI3. 3. Pesquisa para Desfechos de Saúde dos Centros de Serviços para o Medicare & Medicaid dos EUA (US Centers for Medicare & Medicaid Health Services Outcomes Survey) [33], que vinha utilizando os SF-36v1 e agora está adotando o Assuntos Veteranos SF-12 (Veterans Affairs SF-12), que pode dar suporte à derivação de escores SF-6D (baseados na preferência), bem como ser potencialmente mapeado para o EQ-5D. 4. No Reino Unido, ao longo dos últimos 15 anos oumais, agências governamentais têm periodicamente conduzido pesquisas populacionais que incluem o EQ-5D para informar tomada de decisão, embora pesquisadores individuais tenham também realizado estudos no nível nacional, avaliando o status de saúde da população, por exemplo, a aplicação Kind do EQ-5D [34]. 5. Nos Estados Unidos, um projeto com apoio federal para gerar pesos de preferência para o EQ-5D baseados nos EUA, tem levado a uma série de estudos baseados na população, comparando os escores de preferência resultantes com aqueles obtidos a partir do EQ-5D com pesos baseados no Reino Unido e com escores provenientes do HUI2 e HUI3 [35]. 6. Fryback e colaboradores[7] publicaram escores representativos da preferência dos EUA por seis sistemas de medição de saúde [EQ-5D, SF-36, HUI2, HUI3, QWB (versão auto-administrada) e o Mantendo e Aperfeiçoando o QALY S23 HALex], como parte do Estudo Nacional de Medição de Saúde (National Health Measurement Study) desenvolvido com suporte federal. 7. A Rede do Sistema de Informação de Medição de Resultados Relatados pelo Paciente (Patient Reported Outcome Measurement Information System – PROMIS) incluiu o índice EQ-5D neste grande projetodestinado a desenvolver bancos de itens para avaliar a dor, fadiga, capacidade funcional, angústia emocional e função social. Modelos preditivos foram recentemente desenvolvidos usando os itens globais PROMIS e do domínio bancos de de itens, para estimativa de escores de preferência em saúde [36]. Na medida em que estes “sistemas descritivos” do estado de saúde são radicalmente alterados ou abandonados em busca de um QALY ou outra medida de avaliação integralmente reconceituada, nossa capacidade em ligar as análises passadas, atuais e futuras fica comprometida e, possivelmente, destruída. Por outro lado, se mudanças incrementais forem feitas nestes sistemas com a devida atenção a tais ligações, nós manteremos a capacidade de comparar os achados ao longo do tempo. Existem aspectos da definição e descrição do estado de saúde que merecem mais atenção por parte dos pesquisadores? As seguintes questões continuam a provocar discussão: Os principais sistemas de medição do estado de saúde têm estruturas de domínio notavelmente diferentes, algumas das quais parecem estar “ficando na mesma”, embora não exatamente do mesmo modo. Isto, provavelmente, tem implicações negativas para a comparabilidade de cálculos de status de saúde (e QALY) através dos sistemas de medição. Para ilustrar, os domínios dos quatro sistemas de medição conhecidos são identificados (por seus desenvolvedores), como segue: EQ-5D (Mobilidade, Autocuidado, Atividades Usuais, Dor/Desconforto, Ansiedade/Depressão); HUI3 (Visão, Audição, Fala, Locomoção, Destreza, Emoção, Cognição, Dor); QWB (Mobilidade, Atividade Física, Atividade Social, um conjunto de ‘Complexos Sintoma-Problema’); e SF-6D (Funcionamento Físico, Limitações funcionais, Funcionamento Social, Dor, Saúde Mental, Vitalidade). Fryback et al. [7] confirmam que quando estes sistemas de medição são aplicados à mesma população, eles produzem estimativas significativamente diferentes do status de saúde. Dessa maneira, os sistemas não produzirão, em geral, as mesmas estimativas QALY, nem as mesmas razões de custoutilidade, quando aplicados a uma determinada amostra. Por outro lado, a variedade de opções fornece ao analista a oportunidade de adaptar a escolha do instrumento para o problema de saúde particular que está sendo analisado.De fato, é difícil tornar convincentes julgamentos a priori acerca do que constitui o conjunto “correto” (ou seja, necessário e suficiente) dos domínios de saúde na ausência de algum tipo de critério externo, tal como o desejo de equiparar a estrutura de domínio do instrumento com as dimensões de saúde mais provavelmente afetadas pela intervenção. Tais julgamentos também, provavelmente, dependerão do escopo e natureza da aplicação, por exemplo, se o foco é sobre intervenções para uma doença específica, ou sobre múltiplas intervenções entre várias doenças. Em contraste, existem técnicas psicométricas bem definidas para julgar e melhorar o conteúdo de itens ao longo de cada domínio selecionado – uma boa coisa, abordada no próximo tópico. Existe uma tendência de instrumentos de status de saúde sofrerem ‘efeitos de teto e chão’ e terem, em geral, um conteúdo de itens que é “esparso demais” para fornecer cobertura adequada ao longo do continuum completo de desfechos associados a cada domínio de saúde. Na medida em que tais problemas existem, eles têm implicações diretas sobre os escores QALY. Esta questão do conteúdo de itens adequados tem sido reconhecida por desenvolvedores de diversos instrumentos. Por exemplo, a evolução do SF-36v1 para o SF-36v2 envolveu uma série de mudanças [37], incluindo o enriquecimento do conteúdo de itens em alguns lugares (inserindo uma opção de resposta de cinco alternativas, em vez de uma escolha dicotômica para sete itens nas duas escalasfuncionais) e a simplificação do conteúdo de itens em outros lugares [mudando de um conjunto de categorias de resposta de seis itens, para um de cinco itens no que se refere às escalas de Saúde Mental e Vitalidade (Mental Health and Vitality scales)]. O HUI3 foi desenvolvido para resolver determinadas preocupações com o HUI2, com ambos, os itens e as dimensões, sendo alterados para melhorar a aplicabilidade tanto em estudos de nível clínico, como de nível populacional, aumentando a Mantendo e Aperfeiçoando o QALY S24 independência estrutural dos domínios (o que melhora a eficácia dos algoritmos de pontuação) [38]. Numa aplicação de ambas as variações do instrumento para diabetes, Maddigan et al. [39] encontraram que o HUI3 fornece um intervalo maior de pontuações do status de saúde possíveis e discrimina melhor entre os indivíduos de acordo com o grau de comprometimento clinicamente relatado. Mais recentemente, Pickard et al. [40] forneceram um notável exemplo de como utilizar as modernas técnicas psicométricas para avaliar se mudanças incrementais na estrutura de um instrumento de status de saúde melhoram as propriedades de medição do instrumento. Especificamente, eles examinaram o impacto de mudar o EQ-5D do formato de escala padrão de três níveis, para um formato de cinco níveis, para cada um dos cinco domínios do instrumento. Aplicando modelagem Rasch – uma variante da modelagem pela ‘teoria da resposta ao item’ (Item Response Theory – IRT) – para amostras dos Países Baixos e EUA, Pickard et al. foram capazes de identificar os níveis de item nos instrumentos 5-L (cinco níveis) e 3-L (três níveis), que são estatisticamente equivalentes (assegurando assim, a ligação entre os dois instrumentos) e também confirmar que o instrumento 5-L amplia a cobertura do continuum de saúde de cada domínio. As mudanças incrementais bem sucedidas do SF-36, HUI e EQ-5D (ainda em progresso) sugerem fortemente que o componente de medição do status de saúde do QALYconv pode evoluir por caminhos que melhoram as propriedades científicas dos instrumentos, embora mantendo a habilidade de ligar os instrumentos originais mais antigos às versões mais recentes dos mesmos. Da mesma maneira, esta ligação usando IRT ou outras técnicas, permite que as medições antigas e novas sejam colocadas na mesma métrica de medição. Um caminho particularmente promissor para buscar essa melhora é a modelagemTRI. A aplicação feita por Pickard et al. [40] fornece esclarecimentos sobre o que pode ser obtido, expondo-se os itens candidatos a um dado domínio de saúde a rigoroso exame psicométrico usando-se abordagens modernas de medição. Para cada escala, no conjunto multidimensional de escalas compreendendo o sistema de medição em saúde, é possível testar conjuntamente os efeitos de teto e chão, ou determinar se os itens são suficientes em número e em conteúdo para “cobrir” adequadamente o continuum do domínio subjacente, ou ainda determinar se a própria escala é (suficientemente) unidimensional, como implicitamente declarado nestes sistemas de medição. Conceitualmente, as escalas específicas de domínio para cada um dos atuais sistemas de medição poderiam ser submetidas a tal verificação. No futuro, tais análises baseadas em TRI podem também fornecer um caminho para criação de conjuntos de itens novos e mais fortes, para cada domínio de saúdeproposto, assim como está sendo feito agora para a avaliação do status de saúde não baseada na preferência, dentro do projeto patrocinado pelo NIH (National Institutes of Health ou Institutos Nacionais de Saúde, dos EUA) para desenvolver o PROMIS [41]. Uma vez que o conteúdo do item, para todos e cada um dos domínios tenha sido calibrado, se poderia proceder para obter valores de preferência representativos para os itens, as escalas e, finalmente, o índice de saúde composto, usando-se abordagens padrões de avaliação da preferência. Revicki et al. [36] desenvolveram uma equação de predição que pode usar ou itens globais do PROMIS, ou bancos de domínio selecionados para estimativa dos escores do índice EQ-5D. Uma aplicação recente da modelagemTRI, para conciliar escores de status de saúde por entre instrumentos baseados na preferência, é discutida na próxima seção. Avaliação dos Estados de Saúde Cada um dos principais sistemas de medição do estado de saúde tem um processo de pontuação que serve para mapear suas caracterizações multidimensionais particulares do status de saúde, em escores sumários de escala, essencialmente o V(Hst) na equação QALYconv. Mas os processos de pontuação diferem entre os sistemas de mediçãoem aspectos potencialmente importantes. Além disso, certos aspectos da metodologia de avaliação do estado de saúde comuns a todos os sistemas, têm sido desafiados, como foi observado na primeira seção. Na nossaopinião, estas questões de avaliação do estado de saúde podem ser maiseficazmente abordadas, tendo o QALY convencional como ponto de partida para novas investigações. Investigações exploratórias podem ser conduzidas ou para 1) compreender e lidar melhor com as diferenças entre os atuais sistemas de estado de saúde; ou 2) buscar melhorias incrementais – ou talvez mais que incrementais – no QALY, mantendo contudo a capacidade de vincular a grande literatura sobre aplicações QALYconv. Dessa maneira, ganhamos valiosa perspectiva a respeito do impacto de quaisquer mudanças nos procedimentos de Mantendo e Aperfeiçoando o QALY S25 avaliação QALY, sobre questões tão importantes como razões de custo-utilidade e avaliações do status de saúde da população. Reconhecendo e Manejando Diferenças dentro do Modelo QALY Convencional Questões de avaliação relacionadas a V(Hst) dentro do modelo QALY convencional que merecem mais investigações pertencem tanto à medição e agregação dos pesos dentro de qualquer sistema de estado de saúde, como também à verificação e possível reconciliação de diferenças nos escores sumários entre todos os sistemas de estado de saúde. Nós falaremos destas questões em rápida sucessão agora, reconhecendo que cada uma poderia merecer seu próprio artigo para discussão. Métodos alternativos para extrair preferências. Valores para o QWB foram obtidos através de procedimentos de classificação em escala [11]; para o EQ-5D foram obtidos via abordagem por permuta com o tempo (Time-Trade-Off – TTO) [10]; para o HUI2/3 usando-se, alternativamente, ambos os procedimentos, a aposta padronizada (Standard Gamble – SG) e a escala visual analógica (Visual Analog Scale – VAS) [9]; e para o SF-6D usando-se o SG [12]. A perspectiva de tempo usada nas questões de medição da preferência varia significativamente; por exemplo, pediu-se a respondentes do QWB que imaginassem cada estado de saúde candidato tendo duração de 1 dia, enquanto que respondentes do QE5D (em ambas as amostras, do Reino Unido e dos EUA) estavam trabalhando dentro de um período de tempo de 10 anos, ao avaliar o estado através da técnica TTO. Todos os sistemas de medição baseiam seus pesos de preferência em amostras de respondentes obtidas da comunidade geral (ao contrário, digamos, de subpopulações com doenças específicas ou incapacidades); mas tanto as comunidades específicas, como as épocas para coleta de dados variam significativamente [1,9 – 12]. Abordagens alternativas para derivar um escore agregado para um estado de saúde (multidimensional). No HUI2/3, o escore agregado (momento exato) do status de saúde, para um indivíduo com uma posição atribuída ao longo de cada uma das dimensões de saúde do sistema, é derivado através de modelagem pela Teoria de Utilidade Multiatributo (Multi-Attribute Utility Theory – MAUT) usando-se, alternativamente, tanto a forma funcional multiplicativa, como a multilinear. Para o EQ-5D (se usado nas amostras do Reino Unido ou dos EUA), o QWB e o SF-6D, escores agregados são derivados através de modelagem econométrica: escores do estado de saúde providos por amostra são regredidos contra níveis de estado de saúde (atributos), para desenvolver modelos para predição do escore composto, associado a qualquer combinação observada de níveis de estado de saúde. Petrillo e Cairns [42] fornecem um resumo útil de questões metodológicas provenientes de diferentes abordagens, para derivar escores agregados de preferência em saúde. Estados piores que a morte. De forma importante, os principais sistemas diferem em relação ao reconhecimento e atribuição de valores a estados julgados como sendo piores que a morte (ou mais precisamente, piores que estar morto). Tanto o EQ-5D, como o HUI2/3 são construídos para permitir tais estados de saúde avaliados negativamente (com a morte ainda fixada em 0), enquanto que nem o QWB, nem o SF-6D (e nem o HALex) fazem isto. Claramente, algumas difíceis questões filosóficas e mesmo morais aparecem aqui. O ponto mais imediato é que os principais sistemas de medição podem chegar a conclusões muito diferentes, a partir de uma perspectivasocial, sobre o status de saúde de indivíduos que permanecem sob condições especialmente sérias ou lúgubres. Estas diferenças entre os sistemas no que se refere aos procedimentos de avaliação, combinadas com as diferenças que existem entre os sistemas na definição e construção do estado de saúde e que foram referidas nas seções anteriores, significa que os sistemas geralmente atribuem diferentes sumários escalares (diferentes valores de QALYconv) numa dada aplicação, seja ela uma CUA ou uma avaliação do status de saúde da população. Existem, pelo menos, três respostaspara estas questões. Em primeiro lugar, pode-se aplaudir a multiplicidade de abordagens de instrumentação e avaliação por ela trazer múltiplos pontos de luz sobre o problema realmente difícil do ajustar anos de vida pela qualidade. Há também apossibilidade, em princípio disponível, de conduzir análises de sensibilidade para determinar se a substituição de um sistema de medição por outro, impactaria significativamente a CUA ou o cálculo de saúde da população. Alguns exemplos recentes (dentre muitos que poderiam ser citados) incluem os estudos de Franks et al. [43] sobre o impacto da escolha do sistema de medição sobre os cálculos incrementais de custo-efetividade para um determinado problema de saúde e, também, entre distintos Mantendo e Aperfeiçoando o QALY S26 problemas; de Fryback et al. [7], exemplificando como o status de saúde calculado da população varia entre sistemas de medição; de Janssen et al. [44], comparando o EQ-5D e os HUI2/3 com base nas medidas teóricas das informações de desempenho na mesma amostra; e os de Stevens et al. [45], investigando diferenças na validade preditiva do HUI2, dependendo de se os escores de nível de saúde são agregados por meio da MAUT ou por modelagem de regressão. Segundo, pode-se tentar conciliar diferentes escores partindo-se de um sistema de medição para outro, ou (mais expansivamente) a partir de cada sistema de medição para todos os demais. Em essência, isto envolve mapear o V(Hst) de um sistema (por exemplo, o SF-6D) em outro sistema (por exemplo, o EQ5D). Na medida em que isto possa ser feito de forma bem sucedida, a multiplicidade dos escores QALY emergindo dos vários sistemas de medição pode ser “reconciliada” e colocada na mesma métrica, ou pelo menos, diretamente comparada em amostras idênticas de respondentes. O intercruzamento pode provar ser uma resposta muito prática e construtiva, para a realidade vigente de múltiplos sistemas de medição do status de saúde que competem entre si, e alguns artigos recentes e apresentações em conferência sugerem como isto poderia ocorrer. No intercruzamento dos escores, parece haver pelo menos duas vias gerais de ataque. A abordagem mais direta é trabalhar dentro de uma ou mais “amostras de treinamento” para desenvolver uma relação de mapeamento estatístico (através de análise correlacional ou de regressão) entre os escores de status de saúde para todos e quaisquer pares de instrumentos concorrentesO ideal seria verificar a validade preditiva destes modelos estatísticos em amostras de validação. Usando dados provenientes de seu Estudo Nacional de Medição em Saúde (National Health Measurement Study), Fryback et al. [46] demonstraram a viabilidade desta abordagem, produzindo modelos preditivos para dar suporte a comparações por pares de cinco índices baseados na preferência: EQ-5D, HUI2, HUI3, QWB-SA e SF-6D. Note também que trabalhos publicados estabelecendo relações preditivas entre os escores SF-12 e EQ-5D [28 – 30] poderiam dar apoio a análise similar de intercruzamento (em duas etapas), porque os escores SF-6D podem ser imputados diretamente a partir do SF-12. A segunda abordagem promissora para intercruzamento, desenvolvida e apresentada inicialmente por Fryback et al. [46], usa modelagem IRT hierárquica, envolvendo conjuntamente todos os cinco índices para estabelecer ligações estatísticas que facilitem o intercruzamento pareado dos instrumentos de escore. Em essência, um escore de um indivíduo em algum índice (digamos o HUI3), pode ser mapeado para o continuum IRT subjacente, para escores multidimensionais de status de saúde (ϴ, na terminologia IRT comum), e um escore previsto em algum outro índice de interesse (digamos o SF-6D), correspondente àquele valor particular de ϴ, pode ser inferido diretamente. Uma terceira resposta geral para a multiplicidade de instrumentos de status de saúde que dá apoio ao QALYconv, é iniciar alguma forma de processo de consenso para identificar, entre os sistemas candidatos de medição do status de saúde, uma medida do status de saúde que seja “caso de referência” (dando suporte a um caso de referência QALY). Isto poderia se dar dentro do espírito da abordagem adotada pelo Painel sobre Custo-efetividade em Saúde e Medicina dos EUA (US Panel on Cost-Effectiveness in Health and Medicine), para estabelecer um conjunto de padrões de práticas metodológicas na CEA visando promover melhoria na qualidade técnica e comparabilidade dos estudos [2]. Está além do escopo deste artigo considerar os benefícios, custos e a viabilidade de tal estratégia. Mas quaisquer deliberações devem ser informadas por meio de uma avaliação abrangente e imparcial dos sistemas de medição, com critérios de avaliação antecipadamente bem especificados. Possíveis critérios, que foram aplicados de forma bem sucedida na avaliação de medições de HRQoL não baseadas em preferência, seja no câncer ou outras doenças, incluem aqueles publicados pelo Truste Desfechos Médicos (Medical Outcomes Trust) [47,48]. Explorando Questões Adicionais na Avaliação dos Estados de Saúde Grande parte da discussão e crítica ao modelo QALY tradicional tem enfocado questões, amplamente construídas, de avaliação do estado de saúde, e destacaremos duas destas questões a seguir. Em primeiro lugar, até mesmo os defensores do QALY convencional reconhecem a existência de certas hipóteses operacionais de simplificação construídas no QALYconv que, no mínimo, requerem uma análise adicional. Por exemplo, assume-se que o valor associado com estar no estado de saúde s’ por 2 anos, seja duas vezes maior que o valor de estar no estado s’ por 1 ano ( algumas vezeschamado de ‘efeito de quantidade constante’) – exceto pela aplicação de um fator exponencial de desconto para trazer estes cálculos de valor ao momento presente. Uma proeminente e muito debatida resposta formal a tais preocupações sobre se as preferências em nível individual estão sendo devidamente refletidas no cálculo Mantendo e Aperfeiçoando o QALY S27 do QALY convencional, é a abordagem equivalente em anos saudáveis (veja Mehrez e Gafni [14]). Recentemente, Salamon e Murray [49] desenvolveram e aplicaram uma abordagem multimétodo para analisar e comparar conjuntamente as principais abordagens de extração da preferência [SG, TTO, VAS e a permuta de pessoa (Person Trade-Off – PTO)], em termos de sua habilidade para fornecer pesos do estado de saúde ao mesmo tempo em que são responsáveis por influencias como atitude de risco, preferência no tempo e questões distributivas. Em geral, evidências empíricas adicionais são necessárias, se as preferências individuais sobre perfis de saúde são bem aproximadas pela ‘soma da preferência temporal ajustada’ das preferências por componentes do estado de saúde, conforme postulado no QALYconv. A despeito dos desafios técnicos e cognitivos em tais avaliações holísticas dos desfechos de saúde, existem compensações potencialmente importantes. Tais análises experimentais poderiam trazer luz sobre a razoabilidade das hipóteses sobre preferências ao longo do tempo e estados de saúde construídas no QALYconv; por exemplo, o efeito quantidade constante citado previamente, que implica em ser a utilidade marginal da ocupação do estado de saúde uma constante e, ao mesmo tempo, independente do tempo de permanência. Para assegurar que avaliações holísticas de tais perfis possam ser comparadas com avaliações baseadas no QALYconv, os estados de saúde que compreendem os blocos de construção de cada perfil poderiam ser extraídos dos estados, conforme definido em um dos atuais sistemas de estado de saúde (por exemplo, do HUI, EQ-5D, QWB). Comparações válidas das abordagens holísticas e QALYconv requerem que as mesmas sejam aplicadas a perfis com o mesmo período global de tempo. Para ver como tal comparação pode ser realizada na prática , utilizando-se estados de saúde a partir do QWB, veja Lipscomb [50]. Uma segunda crítica geral é que todas as abordagens discutidas até o momento assumem que o componente valor do modelo deveria ser baseado em preferência, embora diferindo sobre que preferências seriam capturadas, e como. Praticantes do modelo QALY convencional geralmente argumentam que V(Hst) deve basear-se na comunidade, refletindo as preferências ex ante (prospectivas) de uma amostra representativa da população geral. Para “equivalentes de vida jovem salvos” (SAVedyoung-life-Equivalents – SAVEs), Nord argumentou que as preferências deveriam ser derivadas de indivíduos que experimentaram os estados de saúde em questão (e não simplesmente de amostras randômicas da comunidade). No entanto, Dolan e Kahneman [16], e Hausman [17] desafiaram a alegação de que tais avaliações no nível individual deveriam ser baseadas na preferência. Dolan e Kahneman argumentaram que se capturadas numa perspectiva ex ante ou ex post (retrospectiva), as preferências individuais tenderiam a fornecer estimativas tendenciosas do valor que o indivíduo atribui ao estado de saúde, no momento em que está experimentando esse estado. A partir da perspectiva deles, a tarefa analítica apropriada é capturar o valor desses momentos, não como são contemplados ou lembrados, mas como são experimentados (dessa maneira, sua ênfase na “utilidade de experiência” em vez da “utilidade de decisão”). Hausman, por outro lado, rejeita qualquer destas abordagens para avaliar a saúde em termos de sua contribuição ao “bem estar”. Em vez disso, ele advoga o desenvolvimento de estratégias para alocação de recursos de saúde que otimizem a oportunidade de que os indivíduos busquem vidas produtivas e compensadoras. Em essência, a saúde é vista como intermediária à capacidade do indivíduo de buscar projetos importantes na vida, enquanto que o modelo QALY, essencialmente, serve para capturar o bem estar relacionado à saúde do indivíduo. Para estas e outras críticas importantes ao QALY convencional, o desafio claro e atual é desenvolver modelos operacionais alternativos que possam, por fim, informar a tomada de decisão social de uma forma mais útil econvincente, que aquela do modelo convencional. Ao mesmo tempo, o trabalho sobre estas questões deve propiciar uma maneira que permita aos modelos QALY modificados resultantes – qualquer que seja a forma que assumam – estar novamente ligados ao modelo QALY convencional. Isto facilitaria para as subsequentes análises de sensibilidadeidentificar como tais mudanças no processo de avaliação do estado de saúde poderiam influenciar a decisão de medidas de saúde para CEA, no sentido de monitorização do estado de saúde da população e, também, para outras aplicações práticas. Dessa maneira, nos posicionamos a estimar que diferença pode fazer uma alteração no QALY. Abordando Equidade e Considerações Distributivas Mantendo e Aperfeiçoando o QALY S28 Existe um amplo consenso de que equidade e considerações distributivas têm importância (ou deveriam ter) nas decisões de alocação de recursos de saúde e que o modelo QALY convencional não incorpora explicitamente tais considerações nas CEAs ou em outras formas de avaliação econômica.No entanto, existem diferentes visões sobre a melhor maneira de abordar analiticamente esta questão, com pelo menos duas possíveis trajetórias a percorrer. Uma abordagem é modificar o esquema de pesagem da preferência utilizado no modelo QALY, de forma que os pesos de valor – em vez de refletir valores médios comunitários para os estados de saúde – tenham permissão de variar, segundo as características dos indivíduos que poderiam ocupar os estados. Assim sendo, V(HSst) no modelo QALY convencional passaria agora a ser escrito como V(Hstx), onde x representa certas características do indivíduo. Especificamente, Nord discordou da hipótese QALYconv de que o valor social de um desfecho em saúde para um dado indivíduo seja proporcional ao tamanho do ganho de valor para esse indivíduo (ou seja, QALYconv) – independentemente da severidade da condição inicial do indivíduo, sua idade ou outros fatores. Em resposta, ele defende que o método PTO como uma maneira de obter pesos de valor que levem em conta estas considerações, gerando SAVEs como uma alternativa ‘moeda do reino’ [15,51]. Ubel et al. [16] discutem abordagens para basear a medição da custo-efetividade em valores sociais diretamente solicitados, e não nos QALYs. Uma abordagem alternativa é incorporar preocupações de lealdade no processo de decisão de alocação de recursos em uma estrutura hierárquica: aumentos (ourestrições) de patrimônio são aplicados ao modelo QALY convencional em uma segunda, e claramente definível etapa, em vez de estarem embutidos nos pesos de preferência do modelo. Isto proporciona a oportunidade de determinar o impacto na eficiência (ou seja, a quantidade total de QALYs produzidas) e na equidade (a distribuição dos QALYs por entre a população relevante), atendendo uma determinada decisão de alocação de recursos. Isto também permite avaliar as permutas de eficiência-equidade associadas com a busca de regras de equidade específicas e operacionalmente definidas, ou apenas a distribuição. Inserções para a priorização de considerações de equidade poderiam ser obtidas através de processos deliberativos baseados na comunidade, conforme descrito no final desta seção. Acreditamos que há muito mérito nesta segunda abordagem geral, porque ela pode ser vista como uma extensão natural ou aumento do modelo QALY convencional. Coloca-se a avaliação dos ganhos decapital, bem como o cálculo das possíveis perdas de eficiência (QALY puro), associadas à mudança do QALYconv para alguma formulação alternativa que acomode preocupações distributivas. Assim, o custo de oportunidade (na renúncia à melhoria agregada de saúde) de buscar maior equidade pode ser avaliado. Como poderia tal abordagem hierárquica construída diretamente sobre o modelo QALY convencionalser buscada analiticamente? Existem, pelo menos, duas estratégias amplas. Atribuição de Peso à Equidade Entre as várias contribuições nesta área está o trabalho recente de Bleichrodt et al. [52] para desenvolver modelos QALY “dependentes da classe”, que permitam a aplicação de pesos de equidade a cada possível perfil QALY que possa ser experimentado pelos N membros assumidos da sociedade. Tal perfil, aqui, é um vetor ordenado de cima para baixo dos escores QALYconv para estes N indivíduos, condicional às intervenções e outras hipóteses. Assim sendo, os desfechos relacionados à saúde previstos a partir de quaisquer das duas intervençõesconcorrentes seriam comparados a partir de uma perspectivasocial, em termos de QALYs ponderados para a equidade. Casos especiais e potenciais variações desta formulação incluem “utilitarismo QALY” (o que temos quando o modelo QALY convencional é aplicado numa CEA padrão); uma função Rawlsian de bem estar social, que atribui todo peso de equidade ao indivíduo no pior estado; e a abordagem dos “fair innings” de Williams para definição de prioridade. Wagstaff propôs medir o grau de aversão da sociedade às desigualdades de saúde através de um parâmetro estimado que indicasse uma taxa com a qual a sociedade estaria disposta a deixar o QALYconv para atingir certos ganhos de equidade [53]. Em resposta às alegações de alguns, de que os modelos de maximização do QALY convencional discriminariam os incapacitados e cronicamente doentes, Johannesson [54] discutiu uma formulação alternativa na qual a mudança relativa nos QALYs, em vez de uma mudança absoluta, seria maximizada na condução de uma CEA. O parâmetro de “mudança relativa” para um grupo de pacientes de qualquer idade e sexo, seria calculado como os QALYs médios esperados para a população daquela idade e sexo, Mantendo e Aperfeiçoando o QALY S29 divididos pelos QALY médios esperados para esse grupo de pacientesno início do estudo. Dois grupos de pacientes com o mesmo parâmetro de mudança relativa teriam igual peso de equidade numa CEA, independentemente das mudanças absolutas esperadas nos QALYs, a partir das intervenções. Note também que Nord et al. [51] usam uma abordagem multiestágio envolvendo pesos de equidade (especificamente, pesos refletindo a gravidade relativa da doença e o potencial relativo para melhora na saúde) obtidos a partir da população geral, pela técnica PTO. Mas os pesos de valor atribuídos aos estados de saúde nesta formulação de “análise custo-valor” (veja também [15]) têm, necessariamente, de vir por meio de avaliações de permuta com o tempo dos indivíduos que experimentaram esses estados, e não da população geral. Assim sendo, e talvezpelo modelo, não existe uma ligação clara de retorno ao modelo QALY convencional. Modelagem de Otimização Forçada É bem conhecido que qualquer CEA pode ser reformulada como um problema de programação matemática que se resolve pelo conjunto de intervenções que maximize a melhoria no status de saúde, de maneira sujeita à limitação no orçamento. Quando a função objetiva é especificada nos termos de QALYconv, nós acabamos com um problema de programação linear ou íntegra que corresponde, precisamente, ao modelo padrão de custo-utilidade. O que também tem sido periodicamente reconhecido ao longo dos anos, é que é possível trazer restrições adicionais ao conjunto de programação para refletir a equidade e considerações distributivas. Por exemplo: Se a subpopulação B tem um escore esperado de QALY no início do estudo de menos que X, atribui-se a intervenção Y para B independentemente do ganho esperado em QALYs. De fato, tem-se a flexibilidade paraimpor literalmente qualquer conjunto de regras de equidade que possa ser traduzido na linguagem algébrica de um modelo de restrição (E pode-se afirmar que, se uma regra de equidade não pode ser declarada de forma inequívoca em termos algébricos, talvez a própria regra seja ambígua). Os estudos que examinaram as implicações desta abordagem de programação na construção de considerações fidedignas na estrutura analítica para a CEA incluem Epstein et al. [55], Stinnett e Paltiel [56] e Chen e Bush [57]. Em todas essas aplicações, o QALY convencional é essencialmente preservado, de forma que se possacalcular rapidamente a diferença entre a máxima melhora atingível do QALY quando restrições de capital não são aplicadas, e o máximo que se pode atingir corresponde à limitações específicas. Esta parece ser uma maneira alternativa e comparativamente prática para derivar o limiar equidade-eficiência proposto por Wagstaff [53]. Finalmente, uma abordagem menos estereotipada e mais interativa para identificar considerações de equidade poderia ser atingida através de processos deliberativos baseados na comunidade, nos quais as implicações de razões de CUA simples poderiam ser examinadasem relação a sua fidelidade às preferências consensuais dos membros do público. Tais processos agrupariam indivíduos (por exemplo, cidadãos em geral , ou talvez representantes designados pela comunidade) para trabalhar com facilitadores que apresentariam o programa relevante de saúde e os dados dedesfechos, incentivariam o diálogo e orientariam os indivíduos em direção à(s) recomendação(ões) que, em princípio, poderiam ser ou qualitativas ou quantitativas em sua natureza. Um exemplo proeminente de tal atividade em nível nacional é o Conselho de Cidadãos NICE do Reino Unido (UK NICE Citizens Council), um grupo de 30 membros compreendendo uma ampla faixa do público. As deliberações do Conselho, com foco em fatores que poderiam influenciar a distribuição de QALYs dentro do Serviço Nacional de Saúde, são utilizadas para informar as decisões dos comitês de avaliações do NICE [58,59]. Observações de Conclusão O tema central deste artigo – manter, e aperfeiçoar, o modelo QALY convencional – pode ser visto como meio para um conjunto maior de finalidades. Estas incluem melhorar a nossa capacidade para medir e avaliar a saúde dos indivíduos e populações, e avaliar o impacto na saúde de intervençõesconcorrentes. Nós discutimos em detalhes, os elementos de uma agenda de pesquisa para aumentar a fundamentação e a utilidade científica da abordagem QALY melhorando: 1) os sistemas descritivos do estado de saúde; 2) os métodos de avaliação; e 3) a capacidade de contribuição para preocupações de equidade e distributivas. Assim procedendo, existem importantes razões científicas e políticas para tratar o modelo QALY convencional como um ponto de partida para o desenvolvimento e teste de modelos alternativos baseados na preferência – sejam as mudanças propostas ao QALYconv, incrementais ou mais substanciais. Assim Mantendo e Aperfeiçoando o QALY S30 fazendo, aproveita-se o que foi aprendido ao longo de muitos anos de estudos e pesquisa sobre a ciência e a arte de medir e avaliar os desfechos de saúde. Este procedimento também serve para manter a continuidade e promover a comparabilidade no rastreamento de tendências na saúde da população e nas CEAs para identificar intervenções que oferecem bom valorfinanceiro. Claramente, existem abordagens alternativas para avaliar desfechos em saúde e os benefícios de saúde das intervenções, incluindo a análise de custo-benefício baseada nas estimativas da disposição a pagar (Willingness-To-Pay – WTP) e experimentos de escolha discreta (Discrete Choice Experiments – DCE) usando análise conjunta para estabelecer uma classificação de intervenções. Como a pesquisa e experimentação continuam nessas áreas, os investigadores estão não apenas lutando com seus próprios desafios metodológicos e empíricos, mas também podem (ou deveriam) querer ter pontos de referência para comparações. O modelo QALY convencional é um ponto de referência natural, permitindo que se determine se em um determinado problema de alocação de recursos, uma análise de custo-benefício baseada na WTP, uma avaliação por DCE e uma CEA baseada em QALY forneceriam recomendações muito similares ou muito diferentes. Por múltiplas razões, deveríamos manter o QALY, aperfeiçoá-lo e trabalhar mais amplamente para melhorar a fundamentação e utilidade científica das abordagens baseadas na preferência, para medição em saúde. Fonte de apoio financeiro: O financiamento para a Oficina de Desenvolvimento de Consenso da ISPOR “Construindo uma Via Pragmática: Desenvolvendo o QALY” tornou-se possível, em parte, pelo fundo 1R13 HS016841-01 da Agência para Pesquisa e Qualidade em Cuidados à Saúde (Agency for Healthcare Research and Quality). As visões expressas nos materiais escritos ou publicações da oficina, e pelos palestrantes ou moderadores, não necessariamente refletem as políticas oficiais do Departamento de Saúde e Serviços Humanos; nem a menção a nomes comerciais, práticas de comércio ou organizações implica em endosso pelo governo dos EUA. Financiamento para esta Edição Especial de Value in Health, “Construindo uma Via Pragmática: Desenvolvendo o QALY”, foi possível, em parte, pelo contrato nº HHSN261200800148P do Instituto Nacional do Câncer. Referências 1 Drummond M, Sculpher TG, O’Brien BS. Methods for the Economic Evaluation of Health Care Programmes (3rd ed.). New York: Oxford University Press, 2005. 2 Gold M, Siegel R, Weinstein M. Cost-Effectiveness in Health and Medicine. New York: Oxford University Press, 1996. 3 National Institute for Health and Clinical http://www.nice.org.uk [Accessed January 24, 2009]. 4 O’Donnell J, Pham S, Pashos C, Miller D. Health technology assessment: Lessons learned from around the world. Value Health 2009;12(Suppl.) in press. 5 ISPOR. ISPOR Thirteenth Annual International Meeting Abstracts. Value Health 2008;3:A1–311. 6 Statistics Canada. Canadian Community Health Survey. September 2000 and Ongoing. Available from: http://www.statcan.gc.ca [Accessed January 24, 2009]. 7 Fryback DG, Dunham NC, Palta M, et al. Norms for six generic health-related quality-of-life indexes from the national health measurement study. Med Care 2007;45:1162–70. 8 Fryback DG, Lawrence WF, Martin PA, et al. Predicting quality of well-being scores from the SF36: results from the Beaver Dam Health Outcomes Study. Med Decis Making 1997;17:1–9. 9 Feeny D, Furlong W, Torrance GW, et al. Multiattribute and single-attribute utility functions for the Health Utilities Index Mark 3 System. Med Care 2002;40:113–28. 10 Brooks R, Rabin R, de Charro F. The Measurement and Valuation of Health Status Using EQ-5D: a European Perspective. Dordrecht, The Netherlands: Kluwer Academic Publishers, 2003. Excellence (NICE). Available from: Mantendo e Aperfeiçoando o QALY S31 11 Andresen EM, Rothenberg BM, Kaplan RM. Performance of a self-administered mail version of the Quality of Well-Being (QWB-SA) Questionnaire among older adults. Med Care 1998; 36:1349–60. 12 Brazier JE, Roberts J. The estimation of a preference-based measure of health from the SF-12. Med Care 2004;42:851–9. 13 Erickson P. Evaluation of a population-based measure of quality of life: the Health and Activity Limitations Index (HALex). Qual Life Res 1998;7:101–14. 14 Mehrez A, Gafni A. Quality-adjusted life years, utility theory, and healthy years equivalents. Med Decis Making 1989;9:142–9. 15 Nord E. Cost-Value Analysis in Health Care: Making Sense out of QALYs. New York: Oxford University Press, 1999. 16 Ubel P, Nord E, Gold M, et al. Improving value measurement in cost-effectiveness analysis. Med Care 2000;38:892–901. 17 Dolan P, Kahneman D. Interpretations of utility and their implications for the valuation of health. Econ J 2008;118:215–34. 18 Hausman DM. Valuing health properly. Health Econ Policy Law 2008;3:79–83. 19 Miller W, Robinson LA, Lawrence RS, eds. Valuing Health for Regulatory Cost-Effectiveness Analysis.Washington DC: Institute of Medicine, National Academy Press, 2006. 20 Neumann PJ. Using Cost-Effectiveness Analysis to Improve Health Care. New York: Oxford University Press, 2005. 21 US Food and Drug Administration. Guidance for industry—patient-reported outcome measures: use in medical product development to support labeling claims. 2006. Available from: http://www.fda.gov/cber/gdlns/prolbl.pdf [Accessed January 24, 2009]. 22 U.S. Federal Registry. Medicare program: criteria and procedures for extending coverage decisions that relate to health care technology. US Federal Register 1989;54:4302–18. 23 Feeny D. The roles of preference-based measures in support of cancer research and policy. In: Lipscomb J, Gotay CC, Snyder C, eds. Outcomes Assessment in Cancer: Measures, Methods, Applications. Cambridge: Cambridge University Press, 2005. 24 Brauer CA, Rosen AB, Greenberg D, Neumann PJ. Trends in the measurement of health utilities in published cost-utility analyses. Value Health 2006;9:213–8. 25 Szende A, Williams A, eds. Measuring Self-Reported Population Health: an International Perspective Based on the EQ-5D. Budapest: SpringMed Publishing, 2004. 26 Bryan S, Sofaer S, Siegelberg T, Gold MR. Has the time come for CEA in U.S. Health Care? J Health Econ Policy Law in press. 27 US Agency for Healthcare Research and Quality. Medical Expenditure Panel Survey (MEPS). Available from: http://www.meps.ahrq.gov [Accessed January 24, 2009]. 28 Sullivan PW, Ghushchyan V. Mapping the EQ-5D Index from the SF-12: U.S. general population preferences in a nationally representative sample. Med Decis Making 2006;26:401–9. 29 Lawrence WF, Fleishman JA. Predicting EuroQol EQ-5D preference scores from the SF-12 Health Survey in a nationally representative sample. Med Decis Making 2004;24:160–9. 30 Franks P, Lubetkin EI, Gold MR, et al. Mapping the SF-12 to the EuroQol EQ-5D Index in a national U.S. sample. Med Decis Making 2004;24:247–54. Mantendo e Aperfeiçoando o QALY S32 31 Statistics Canada and the US Centers for Disease Control and Prevention. Joint Canada–United States Survey of Health (JCUSH). Available from: http://www.cdc.gov/nchs/about/major/nhis/Canada_US.htm [Accessed January 24, 2009]. 32 Statistics Canada. National Population Health Survey. Available at: http://www.statcan.gc.ca/bsolc/olc-cel/olc-cel?lang=eng&catno=82-618-M [Accessed January 24, 2009]. 33 US Centers for Medicare and Medicaid Services. Medicare Health Outcomes Survey. Available from: http://www.cms.hhs.gov/hos/ [Accessed January 24, 2009]. 34 Kind P, Dolan P, Gudex C, Williams A. Variations in population health: results from a United Kingdom national questionnaire survey. BMJ 1998;316:736–41. 35 Shaw JW, Johnson JA, Coons SJ. U.S. Valuation of the EQ-5D Health States: development and testing of the D1 valuation model. Medical Care 2005;43:203–20. 36 Revicki DA, Kawata A, Harnam N, et al. Predicting EuroQol (EQ-5D) scores from the Patient Reported Outcomes Measurement Information System (PROMIS) global items and domain item banks in a United States representative sample. UnitedBio-Source Corp. working Paper, November 2008. 37 Ware JE Jr. SF-36® Health Survey Update. Available from: http://www.sf-36.org/tools/sf36.shtml [Accessed January 24, 2009]. 38 Horsman J, Furlong W, Feeny D, Torrance G. The Health Utilities Index (HUI): concepts, measurement properties, and applications. Health Qual Life Outcomes 2003;1:54–66. 39 Maddigan SL, Feeny DH, Johnson JA, for the DOVE Investigators. A comparison of the Health Utilities Indices Mark 2 and Mark 3 in type 2 diabetes. Med Decis Making 2003;23:489–501. 40 Pickard A, Kohlmann T, Janssen M, et al. Evaluating equivalency between response systems: application of the Rasch Model to 3-Level and 5-Level EQ-5D. Med Care 2007;45:812–9. 41 National Institutes of Health. Patient-reported outcomes measurement information system: dynamic tools to measure health outcomes from the patient perspective. Available from: http://www.nihpromis.org [Accessed January 24, 2009]. 42 Petrillo J, Cairns J. Converting condition-specific measures into preference-based outcomes for use in economic evaluation. Exp Rev Pharmacoeconom Res 2008;8:453–6. 43 Franks P, Hanmer J, Fryback DG. Relative disutilities of 47 risk factors and conditions assessed with seven preference-based health status measures in a national U.S. sample: toward consistency in cost-effectiveness analysis. Med Care 2006;44:478–85. 44 Janssen MF, Birnie E, Bonsel GJ. Evaluating the discriminatory power of EQ-5D, HUI2 and HUI3 in a U.S. general population survey using Shannon’s indices. Qual Life Res 2007;16:895–904. 45 Stevens K, McCabe C, Brazier J, Roberts J. Multi-attribute utility functions or statistical inference models: a comparison of health state valuation models using the HUI2 health state classification system. J Health Econ 2006;26:992–1002. 46 Fryback D, Palta M, Cherepanov D, et al. for the Health Measurement Research Group. Cross-walks among five self-reported summary health utility indexes: progress and prospects. Presented at the Annual Meeting of the Society for Medical Making, Pittsburgh, PA, Oct 24, 2007. 47 Scientific Advisory Committee for the Medical Outcomes Trust (Lohr K, et al.) Assessing health status and quality-of-life instruments: attributes and review criteria. Qual Life Res 2002;11:193– 205. Mantendo e Aperfeiçoando o QALY S33 48 Lipscomb J, Snyder CF, Gotay C. Cancer outcomes measurement through the lens of the medical outcomes trust framework. Qual Life Res 2007;16:143–64. 49 Salomon JA, Murray CJ. A multi-method approach to measuring health-state valuations. Health Econ 2006;13:281–90. 50 Lipscomb J. Time preference for health in cost-effectiveness analysis. Med Care 1989;27:S233–53. 51 Nord E, Pinto JL, Richardson J, et al. Societal concerns for fairness in numerical valuations of health programmes. Health Econ 1999;8:25–39. 52 Bleichrodt H, Doctor J, Stolk E. A nonparametric elicitation of the equity-efficiency trade-off in cost-utility analysis. J Health Econ 2005;24:655–78. 53 Wagstaff A. QALYs and the equity-efficiency trade-off. J Health Econ 1991;10:21–41. 54 Johannesson M. Should we aggregate relative or absolute changes in QALYs? Health Econ 2001;10:573–7. 55 Epstein DM, Chalabi Z, Claxton K, Sculpher M. Efficiency, equity, and budgetary priorities. Med Decis Making 2007;27: 128–37. 56 Stinnett AA, Paltiel AD. Mathematical programming for the efficient allocation of health care resources. J Health Econ 1996;15: 641–53. 57 Chen MM, Bush JW. Maximizing health system output with political and administrative constraints using mathematical programming. Inquiry 1977;13:215–27. 58 NICE Citizens Council. NICE Citizens Council report: ultra orphan drugs. London, November 2004. Available from: http://www.nice.org.uk/ [Accessed January 24, 2009]. [Alternatively or together, cite: Culyer AJ. NICE’s Use of Cost-Effectiveness as an Exemplar of a Deliberative Process. Health Econ Policy Law 2006;1:299–318. and/or a critique of the process.]. 59 Gold MR, Sofaer S, Siegelberg T. Medicare and cost-effectiveness analysis: time to ask the taxpayer. Health Aff (Millwood) 2007;26:1399–406.