Descoberta Baseada em Literatura: um Enfoque Experimental para Descoberta Aberta em Bases de Dados do tipo MEDLINE 1 Adalberto O. Tardelli1, Meide S. Anção2, Abel L. Packer1, Daniel Sigulem2 Centro Latino-Americano e do Caribe de Informação em Ciências da Saúde (BIREME/OPAS/OMS), Brasil 2 Departamento de Informática em Saúde (DIS), Universidade Federal de São Paulo (UNIFESP), Brasil Resumo - A busca de pares de literaturas complementares em bases de dados bibliográficas tem sido investigada desde que Swanson divulgou seu trabalho pioneiro sobre o então “conhecimento público nãodescoberto” (undiscovered public knowledge). É uma atividade centrada em humanos assistidos por um programa de computador. A descoberta baseada em literatura (DBL) é essencialmente uma atividade de formulação de hipóteses científicas através da busca de conexões entre estruturas de conhecimento publicamente disponíveis, mas inadvertidamente desconhecidas, isto é, jamais citadas ou aplicadas conjuntamente. O presente trabalho enfoca alguns aspectos de DBL em medicina, descrevendo um instrumento de apoio à descoberta baseada em literatura do tipo MEDLINE. Palavras-chave: Descoberta Baseada em Literatura, MEDLINE, Recuperação de Informação. Abstract – The searching of complementary literatures in bibliographical data bases is a computer-assisted human-centered activity and has been studied since Swanson published its pioneering results on “undiscovery public knowledge”. The literature-based discovery task aims the formulation of scientific hypotheses by connecting structures of knowledge which are publicly available, although had never been brought together in the scientific literature. This paper discuss some aspects on literature-based discovery in medicine and presents a software tool to assist literature-based discovery using MEDLINE-like data bases. Key-words: Literature-Based Discovery, MEDLINE, Information Retrieval. Introdução A busca de pares de literaturas complementares em bases de dados bibliográficas, sobretudo em bases de dados com artigos científicos em medicina, tem sido investigada desde que Swanson divulgou seu trabalho pioneiro sobre o então “conhecimento público não-descoberto” (undiscovered public knowledge). Em 1988, publica um artigo em uma revista de medicina relatando 11 conjuntos de referências bibliográficas de MEDLINE sobre Enxaqueca e determinadas características fisiopatológicas, juntamente com outros 11 conjuntos de referências bibliográficas sobre Magnésio e essas mesmas características, indicando conexões implícitas entre a enxaqueca e a deficiência de magnésio[1]. Essa descoberta do conhecimento implicitamente representado em pares de literaturas complementares é chamada de “descoberta baseada em literatura” (literature-based discovery) no campo da ciência da informação. A descoberta baseada em literatura (DBL) é essencialmente uma atividade de formulação de hipóteses científicas através da busca de conexões entre estruturas de conhecimento publicamente disponíveis, mas inadvertidamente desconhecidas, isto é, jamais citadas ou aplicadas conjuntamente. É, pois, uma atividade centrada em humanos assistidos por um programa de computador. Baseiase no conhecimento específico nos domínios da descoberta dos humanos que atuam no cenário da descoberta, eventualmente com o apoio de um especialista em ciência da informação. Conformam este cenário o conhecimento público desses domínios, representado nas bases de dados bibliográficas organizadas internacionalmente, e um instrumento para recuperar a informação pertinente e prover saídas focadas para a descoberta. MEDLINE é a base de dados que representa o conhecimento científico público em medicina e tem sido usada como o universo da descoberta nos cenários de DBL em medicina. O presente trabalho enfoca alguns aspectos de DBL em medicina, especificamente descreve um instrumento de apoio à descoberta baseada em literatura do tipo MEDLINE, isto é, organizada segundo a classificação MeSH (Medical Subject Headings)[2] ou compatível, como é o caso da classificação DeCS – Descritores em Ciências da Saúde utilizada na base de dados LiLACS – Literatura Latino-Americana em Ciências da Saúde[3]. Motivação e objetivo A Biblioteca Nacional de Medicina dos Estados Unidos - NLM (National Library of Medicine) referencia a produção intelectual em medicina divulgada nas principais revistas internacionais na base de dados MEDLINE, atualmente com mais de 11 milhões de trabalhos publicados desde 1966 [4]. Dado o número de conexões implícitas dentre tal volume de informação, deve haver, como premissa, muitas dessas conexões interessantes à atividade de pesquisa. Swanson disponibiliza um instrumento para ambiente Internet (endereço http://kiwi.chicago.edu/), chamado ARROWSMITH, que produz a saída minimamente requerida para apoio à DBL[5,6]. O usuário provê dois conjuntos de títulos de trabalhos A e C (eventualmente com resumos) provenientes de alguma fonte (por exemplo, títulos recuperados em duas pesquisas em PubMed). ARROWSMITH organiza os títulos segundo as palavras comuns presentes nas listas de títulos A e C, podendo-se ler os títulos de A (à esquerda da tela) justapostos aos de C (à direita) com destaque para uma palavra comum aos distintos subconjuntos de títulos. O contexto da informação pode estimular o usuário – um pesquisador, no caso – a elaborar alguma hipótese plausível, dado que A representa um conhecimento possivelmente conectado ao conhecimento C através de uma ligação logicamente plausível representada pela palavra (ou segmento de texto) comum. Embora uma lista de títulos organizados por palavras comuns às duas listas de títulos (ou textos) auxilie o trabalho intelectual do usuário, a indicação de eventual conexão entre literaturas complementares é mais efetiva quando é expressa por conceitos médicos. Isto é, vincular literaturas por palavras comuns não contempla as situações em que um conceito é representado por distintas palavras, ou por termos compostos por mais de uma palavra[7]. A propósito, o advento de fontes de conhecimento tais como o metathesaurus UMLS (Unified Medical Language System) da NLM[8] viabilizou o desenvolvimento de programas de indexação automática de textos biomédicos, identificando 2 conceitos médicos em textos livres. Esse metathesaurus é composto por centenas de milhares de conceitos médicos e suas variações léxicas provenientes de dezenas de vocabulários controlados, grande parte no idioma inglês, tais como MeSH, Classificação Internacional de Doenças em inglês (ICD-10), Thesaurus do Instituto Nacional de Câncer dos EUA (NCI Thesaurus), etc, e versões traduzidas de alguns vocabulários controlados, tais como a versão do MeSH em português e espanhol (DeCS) e a CID-10. Dessa forma, contando com o UMLS e enfoques semânticos, surgiram novas iniciativas em DBL em medicina que organizam as listas de títulos A e C através de conceitos comuns, independentemente da palavra ou palavras utilizadas nos títulos (ou textos) para representar um dado conceito[9,10]. Em conseqüência, o usuário obtém do instrumento de recuperação de informação uma saida mais organizada: títulos dos trabalhos de interesse à descoberta organizados por conceitos médicos comuns (elementos vinculantes) que podem sugerir conexões entre as literaturas complementares com maior riqueza, demandando menor carga cognitiva para a interpretação de uma possível conexão entre os fragmentos de texto. Por outro lado, há que se considerar que as bases de dados do tipo MEDLINE são organizadas segundo a classificação MeSH (ou compatível) e que possuem descritores de assunto (MeSH Headings) atribuídos por indexadores humanos. Essa indexação é produto intelectual de especialista humano, capacitado no sistema de classificação MeSH e com seu trabalho revisado por esquema de controle de qualidade que inclui revisão por um indexador senior durante seu primeiro ano de atividade, além de procedimentos rotineiros de controle e de educação continuada. A indexação de MEDLINE feita por humanos ainda é o padrão de referência para os programas de indexação automática da própria NLM[11]. Assim, explorar MEDLINE com fins de DBL sem considerar os seus descritores de assunto para a organização dos elementos vinculantes, equivale a ignorar o valor agregado pelo julgamento humano à representação desse conhecimento biomédico, e consequentemente demandar esforço cognitivo adicional do investigador-usuário, durante a análise dos títulos de trabalhos vinculados por meras palavras do texto ou por conceitos atribuídos automaticamente e com falhas, devidas às limitações intrínsecas ao processamento de linguagem natural. Métodos Vocabulários controlados (estruturados) são coleções de termos que representam assuntos (conceitos), organizadas segundo uma metodologia na qual é possível especificar as relações entre conceitos com o propósito de facilitar o acesso à informação indexada por tais termos. Permitem recuperar a informação com o termo exato que foi utilizado para descrever o conteúdo de um documento científico, ou recuperar a informação por agrupamentos hierárquicos de termos. Os termos que compõem o vocabulário MeSH são estruturados em 15 categorias hierárquicas, ou ramos da árvore do conhecimento em ciências da saúde: Anatomia (A), Organismos (B), Doenças (C), Compostos Químicos e Drogas (D), Técnicas e Equipamentos (E), Psicologia e Psiquiatria (F), Ciências Biológicas (G), Ciências Físicas (H), Antropologia, Educação, Sociologia e Fenômenos Sociais (I), Tecnologia e Alimentos e Bebidas (J), Humanidades (K), Ciências da Informação (L), Pessoas (M), Assistência à Saúde (N) e Localizações Geográficas (Z). A versão traduzida do MeSH, o DeCS, utilizado pelas fontes de informação que compõem a Biblioteca Virtual em Saúde [3] incorpora outras duas categorias hierárquicas, a saber: Homeopatia (HP) e Saúde Pública (SP). Um termo pode pertencer a mais de uma categoria hierárquica ou a vários ramos de uma mesma categoria hierárquica. Por exemplo, DIABETES MELLITUS pertence aos ramos Doenças Metabólicas (C18.452) e Endocrinopatias (C19). A estrutura do MeSH prevê e utiliza sistematicamente termos ou então termos seguidos de qualificadores de assunto (MeSH Subheadings). Qualificadores de assunto representam aspectos do assunto: por exemplo, o termo DIABETES MELLITUS e forma pré-coordenada DIABETES MELLITUS/terapia. Há um total de 83 qualificadores previstos para os assuntos, tais como /efeitos adversos, /diagnóstico, /fisiologia, /sangue, /antagonistas & inibidores etc. Uma expressão de busca de artigos sobre diagnóstico ou terapia de diabetes mellitus seria especificada por “DIABETES MELLITUS/diagnóstico or DIABETES MELLITUS/terapia”. Note-se que uma especificação trivial do tipo “/diagnóstico” recuperaria todos os registros que tratam de diagnósticos de alguma patologia, não importando a patologia. Seja o termo DOENÇA DE RAYNAUD. Está descrito no MeSH na classificação hierárquica das Doenças (C), sob Doenças Cardiovasculares (C14), Doenças Vasculares (C14.907), Doença de Raynaud (C14.907.744). Tem a nota de escopo: «Uma doença vascular primária ou idiopática caracterizada por ataques bilaterais de fenômeno de Raynaud. A doença afeta mulheres mais freqüentemente que homens. (Dorland, 28. ed)» e a seguinte lista de qualificadores de assunto permitidos: «BL CF CI CL CN CO DH DI DT EC EH EM EN EP ET GE HI IM ME MI MO NU PA PC PP PS PX RA RH RI RT SU TH UR US VE VI». Ou seja, artigos sobre esta patologia que tratem especificamente do aspecto SANGUE serão indexados por DOENÇA DE RAYNAUD/sangue. Ademais, artigos que tratem deste tópico como conceito central do artigo serão indexados com maior especificidade, isto é, com o qualificador de assunto precedido por um asterisco: DOENÇA DE RAYNAUD/*sangue. Descritores seguidos de asterisco são chamados de “descritores primários”. Em geral pode-se recuperar artigos com um certo descritor de assunto, ou pré-coordenado com um qualificador de assunto, em dois índices de acesso: a) descritores primários e b) descritores, sejam primários ou “descritores secundários”. Assim, tomando o exemplo acima, se se deseja estudar as possíveis conexões implícitas entre a Doença de Raynaud e as dietas ricas em óleos de peixe, poder-se-ia recuperar os artigos sobre a patologia e com o qualificador /sangue, formando uma lista A, e os artigos sobre Óleos de peixe (D10.516.627.430), resultando em um número menor de artigos cujos títulos (ou fragmentos de texto) serão justapostos aos dos artigos sobre as ditas dietas tendo o aspecto /sangue como passo intermediário do processo de descoberta. O método que se propõe está fundamentado no valor da informação agregada às bases de dados bibliográficas do tipo MEDLINE pela indexação humana e utiliza a estrutura hierárquica do MeSH e seus qualificadores de assunto para produzir saídas filtradas com vistas a facilitar a análise dos elementos vinculantes de literaturas complementares. Quanto à racionalidade do processo da descoberta, note-se que o modelo empregado em ARROWSMITH seria o de uma “descoberta fechada” (closed discovery), onde o usuário objetiva simplesmente elencar os elementos vinculantes para formular (ou rejeitar) uma hipótese, e se caracteriza como uma fase “de exclusão” das conexões não plausíveis. A fase inicial de uma DBL seria uma “descoberta aberta” (open discovery), exploratória, a qual se realiza, por exemplo, a partir de uma doença para a qual se busca uma terapia, 3 ou a partir de efeitos adversos de uma droga para a qual se busca novos usos. Resultados preliminares: protótipo ATMA1 A seguir é descrita uma implementação de um instrumento para apoio à descoberta aberta baseada em MEDLINE. O protótipo, ATMA1, foi aplicado a artigos de MEDLINE publicados até 1987 (MDL6687) e que tenham sido indexados com ao menos um descritor de assunto das categorias hierárquicas Doenças (C) e Compostos Químicos e Drogas (D). Os dados foram obtidos com finalidade especifica a esta investigação: apenas identificação única dos registros (UI) e os descritores de assunto MeSH (MH). O protótipo produz inicialmente uma página de seleção de termos DeCS que serão usados como critério de seleção dos registros de MEDLINE, bem como parâmetros para o processamento. O usuário digita uma palavra (ENXAQUECA, no caso) e o sistema produz a lista de termos DeCS que contém tal palavra em seu nome, sinônimos ou em suas notas de escopo. Dessa forma, o usuário pode escolher um ou mais termos do DeCS como critério de seleção dos registros de MEDLINE. Múltiplas escolhas são combinadas pelo operador booleano or. Os registros de MEDLINE indexados por esses descritores de assunto são então recuperados e formam o conjunto de citações A (cluster A). Todos os descritores de assunto presentes em A são processados no maior grau de detalhamento, formando os conjuntos de citações B1 a Bn (cluster B1, B2, etc) referentes aos distintos descritores de assunto presentes em A. A figura 1 apresenta a página produzida pelo protótipo, com a distribuição dos descritores de assunto do conjunto A gerada segundo os parâmetros especificados no passo anterior. Figura 1: Distribuição dos descritores de assunto presentes nos registros de MDL6687 selecionados pelo descritor de assunto ENXAQUECA do DeCS 4 No exemplo, o conjunto A é formado por 4.652 artigos do universo de 4.540.368 artigos (conjunto MDL). Na coluna Articles A tem-se as freqüências absolutas e relativas dos descritores de assunto ao longo do conjunto A. Na coluna Articles MDL temse a frequencia absoluta desses descritores no universo de MEDLINE considerado. Os números de ordem referem-se aos respectivos postos. No exemplo, vê-se que EPILEPSIA é o sexto descritor que mais ocorre no conjunto A (236 dos 4.652 artigos de A, ou 5.07%), embora haja 16.287 artigos sobre EPILEPSIA dentre os 4.540.368 artigos do universo considerado. qualificadores de assunto presentes nos descritores de assunto do conjunto A, formando até 83 conjuntos B correspondentes aos qualificadores de assunto do MeSH; b) tipos semânticos do UMLS, de acordo com a equivalência entre os descritores de assunto MeSH e um ou mais dos 134 tipos semânticos desse metathesaurus; e c) outras formas de organização, tais como os 141 descritores de assunto de revistas (Journal Descriptors) automaticamente atribuídos aos artigos do conjunto A pela aplicação de vetores de termos construídos sobre registros de MEDLINE. Conclusão A tabela possui uma série de hiperlinks para facilitar a exploração do conjunto A, através de um ou mais de seus conjuntos B associados. O link sobre o nome de um conjunto B remete o usuário à base de dados DeCS, para eventual consulta aos conceitos e termos relativos à patologia ou droga. O link sobre um valor do tipo “número de artigos” remete o usuário diretamente a esses artigos, para referência ou eventual acesso ao seu resumo ou texto completo. Os links nas colunas A*B, A^B, B^A e B reiniciam o processo para um novo conjunto de artigos: respectivamente, para a interseção de A e B; A e não B; B e não A; e trivialmente apenas pelo conjunto B da linha correspondente. Por exemplo, o link A*B da linha EPILEPSIA define um novo conjunto A composto por artigos que tratam de ENXAQUECA e de EPILEPSIA. Analogamente, o link A^B da linha ANTICONCEPCIONAIS ORAIS produz a informação para ENXAQUECA excluindose os artigos que a discutam juntamente com ANTICONCEPCIONAIS ORAIS. O instrumento proposto tem aplicação específica à descoberta aberta em bases de dados do tipo MEDLINE e complementa as funcionalidades de instrumentos afins utilizados nesses cenários, inclusive dos que se baseiam apenas nos textos dos artigos e desconsideram a indexação da literatura que constitui o universo da descoberta, realizada por décadas e com rigor metodológico. Facilita a formulação de hipóteses científicas por gerar um mapa de literaturas de possível interesse à DBL, apresentando relacionamentos derivados apenas da indexação humana. Referências [1] Swanson D.R. (1988) Migraine and magnesium: Eleven neglected connections. Perspectives in Biology and Medicine; 31:526-557. [2] Considerações e trabalho futuro O protótipo ATMA1 permite que os conjuntos B sejam listados segundo o valor de determinadas colunas ou segundo a estrutura hierárquica MeSH. A opção de ordenação por código MeSH também permite a formação de grandes conjuntos correspondentes aos níveis superiores dessa estrutura hierárquica, os quais encabeçam a lista de conjuntos B quando assim organizados. O protótipo permite o refinamento de um determinado conjunto B, porém ainda não oferece a possibilidade de se agrupar, em operação única, vários conjuntos B em um mesmo conjunto. O desenvolvimento futuro do instrumento ATMA1 acrescentará outras formas de organização e de sumarização da lista de conjuntos B, a saber: a) NLM (2002) MeSH Browser. http://www.ncbi.nlm.nih.gov/entrez/meshbrowser.cgi . [3] BIREME (2002), Biblioteca Virtual em Saúde. http://www.bireme.br/. [4] NLM (2002), PubMed. http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubM ed/. [5] Swanson D.R. e Smalheiser N.R. (1997), An interactive system for finding complementary literatures: a stimulus to scientific discovery. Artificial Intelligence; 91:183-203. [6] Smalheiser N.R. e Swanson D.R. (1998), Using ARROWSMITH: a computer-assisted approach to formulating and assessing scientific 5 hypotheses. Computer Methods and Programs in Biomedicine; 57:149-153. [7] Lindsay K.L. e Gordon M.D. (1999), LiteratureBased Discovery by Lexical Statistics. Journal of the American Society for Information Science; 50:574-587. [8] NLM (2002). UMLS Knowlegde http://umlsks.nlm.nig.gov/. [11] NLM (2002), The http://ii.nlm.nih.gov/. Indexing Sources. [9] Weeber M., Klein H., Aronson A.R., Mork J.G., Jong L. e Vos R. (2000), Text-Based Discovery in Biomedicine: The architecture of the DADsystem. In Proceedings of the American Medical Informatics Association Symposium, Los Angeles, p. 903-907. [10] Blake C. e Pratt W. (2001), Better rules, fewer features: A semantic approach to selecting feature from text. In Proceedings of the IEEE 6 data Mining Conference, San Jose, CA, p. 5966. Contato Adalberto Otranto Tardelli Email: [email protected] BIREME/OPAS/OMS Rua Botucatu, 862 – Vila Clementino 04023-901 São Paulo Brasil Tel. (55)(11)5576.9800 Initiative.