Descoberta Baseada em Literatura: um Enfoque Experimental para
Descoberta Aberta em Bases de Dados do tipo MEDLINE
1
Adalberto O. Tardelli1, Meide S. Anção2, Abel L. Packer1, Daniel Sigulem2
Centro Latino-Americano e do Caribe de Informação em Ciências da Saúde (BIREME/OPAS/OMS), Brasil
2
Departamento de Informática em Saúde (DIS),
Universidade Federal de São Paulo (UNIFESP), Brasil
Resumo - A busca de pares de literaturas complementares em bases de dados bibliográficas tem sido
investigada desde que Swanson divulgou seu trabalho pioneiro sobre o então “conhecimento público nãodescoberto” (undiscovered public knowledge). É uma atividade centrada em humanos assistidos por um
programa de computador. A descoberta baseada em literatura (DBL) é essencialmente uma atividade de
formulação de hipóteses científicas através da busca de conexões entre estruturas de conhecimento
publicamente disponíveis, mas inadvertidamente desconhecidas, isto é, jamais citadas ou aplicadas
conjuntamente. O presente trabalho enfoca alguns aspectos de DBL em medicina, descrevendo um instrumento
de apoio à descoberta baseada em literatura do tipo MEDLINE.
Palavras-chave: Descoberta Baseada em Literatura, MEDLINE, Recuperação de Informação.
Abstract – The searching of complementary literatures in bibliographical data bases is a computer-assisted
human-centered activity and has been studied since Swanson published its pioneering results on “undiscovery
public knowledge”. The literature-based discovery task aims the formulation of scientific hypotheses by
connecting structures of knowledge which are publicly available, although had never been brought together in
the scientific literature. This paper discuss some aspects on literature-based discovery in medicine and presents
a software tool to assist literature-based discovery using MEDLINE-like data bases.
Key-words: Literature-Based Discovery, MEDLINE, Information Retrieval.
Introdução
A busca de pares de literaturas complementares em
bases de dados bibliográficas, sobretudo em bases
de dados com artigos científicos em medicina, tem
sido investigada desde que Swanson divulgou seu
trabalho pioneiro sobre o então “conhecimento
público não-descoberto” (undiscovered public
knowledge). Em 1988, publica um artigo em uma
revista de medicina relatando 11 conjuntos de
referências bibliográficas de MEDLINE sobre
Enxaqueca
e
determinadas
características
fisiopatológicas, juntamente com outros 11
conjuntos de referências bibliográficas sobre
Magnésio e essas mesmas características,
indicando conexões implícitas entre a enxaqueca e
a deficiência de magnésio[1].
Essa descoberta do conhecimento implicitamente
representado
em
pares
de
literaturas
complementares é chamada de “descoberta
baseada em literatura” (literature-based discovery)
no campo da ciência da informação. A descoberta
baseada em literatura (DBL) é essencialmente uma
atividade de formulação de hipóteses científicas
através da busca de conexões entre estruturas de
conhecimento publicamente disponíveis, mas
inadvertidamente desconhecidas, isto é, jamais
citadas ou aplicadas conjuntamente.
É, pois, uma atividade centrada em humanos
assistidos por um programa de computador. Baseiase no conhecimento específico nos domínios da
descoberta dos humanos que atuam no cenário da
descoberta, eventualmente com o apoio de um
especialista em ciência da informação. Conformam
este cenário o conhecimento público desses
domínios, representado nas bases de dados
bibliográficas organizadas internacionalmente, e um
instrumento para recuperar a informação pertinente
e prover saídas focadas para a descoberta.
MEDLINE é a base de dados que representa o
conhecimento científico público em medicina e tem
sido usada como o universo da descoberta nos
cenários de DBL em medicina.
O presente trabalho enfoca alguns aspectos de DBL
em medicina, especificamente descreve um
instrumento de apoio à descoberta baseada em
literatura do tipo MEDLINE, isto é, organizada
segundo a classificação MeSH (Medical Subject
Headings)[2] ou compatível, como é o caso da
classificação DeCS – Descritores em Ciências da
Saúde utilizada na base de dados LiLACS –
Literatura Latino-Americana em Ciências da
Saúde[3].
Motivação e objetivo
A Biblioteca Nacional de Medicina dos Estados
Unidos - NLM (National Library of Medicine)
referencia a produção intelectual em medicina
divulgada nas principais revistas internacionais na
base de dados MEDLINE, atualmente com mais de
11 milhões de trabalhos publicados desde 1966 [4].
Dado o número de conexões implícitas dentre tal
volume de informação, deve haver, como premissa,
muitas dessas conexões interessantes à atividade
de pesquisa.
Swanson disponibiliza um instrumento para
ambiente Internet (endereço http://kiwi.chicago.edu/),
chamado ARROWSMITH, que produz a saída
minimamente requerida para apoio à DBL[5,6]. O
usuário provê dois conjuntos de títulos de trabalhos
A e C (eventualmente com resumos) provenientes
de alguma fonte (por exemplo, títulos recuperados
em duas pesquisas em PubMed). ARROWSMITH
organiza os títulos segundo as palavras comuns
presentes nas listas de títulos A e C, podendo-se ler
os títulos de A (à esquerda da tela) justapostos aos
de C (à direita) com destaque para uma palavra
comum aos distintos subconjuntos de títulos. O
contexto da informação pode estimular o usuário –
um pesquisador, no caso – a elaborar alguma
hipótese plausível, dado que A representa um
conhecimento
possivelmente
conectado
ao
conhecimento C através de uma ligação
logicamente plausível representada pela palavra (ou
segmento de texto) comum.
Embora uma lista de títulos organizados por
palavras comuns às duas listas de títulos (ou textos)
auxilie o trabalho intelectual do usuário, a indicação
de
eventual
conexão
entre
literaturas
complementares é mais efetiva quando é expressa
por conceitos médicos. Isto é, vincular literaturas
por palavras comuns não contempla as situações
em que um conceito é representado por distintas
palavras, ou por termos compostos por mais de uma
palavra[7].
A propósito, o advento de fontes de conhecimento
tais como o metathesaurus UMLS (Unified Medical
Language System) da NLM[8] viabilizou o
desenvolvimento de programas de indexação
automática de textos biomédicos, identificando
2
conceitos médicos em textos livres. Esse
metathesaurus é composto por centenas de
milhares de conceitos médicos e suas variações
léxicas provenientes de dezenas de vocabulários
controlados, grande parte no idioma inglês, tais
como MeSH, Classificação Internacional de
Doenças em inglês (ICD-10), Thesaurus do Instituto
Nacional de Câncer dos EUA (NCI Thesaurus), etc,
e versões traduzidas de alguns vocabulários
controlados, tais como a versão do MeSH em
português e espanhol (DeCS) e a CID-10.
Dessa forma, contando com o UMLS e enfoques
semânticos, surgiram novas iniciativas em DBL em
medicina que organizam as listas de títulos A e C
através de conceitos comuns, independentemente
da palavra ou palavras utilizadas nos títulos (ou
textos) para representar um dado conceito[9,10]. Em
conseqüência, o usuário obtém do instrumento de
recuperação de informação uma saida mais
organizada: títulos dos trabalhos de interesse à
descoberta organizados por conceitos médicos
comuns (elementos vinculantes) que podem sugerir
conexões entre as literaturas complementares com
maior riqueza, demandando menor carga cognitiva
para a interpretação de uma possível conexão entre
os fragmentos de texto.
Por outro lado, há que se considerar que as bases
de dados do tipo MEDLINE são organizadas
segundo a classificação MeSH (ou compatível) e
que possuem descritores de assunto (MeSH
Headings) atribuídos por indexadores humanos.
Essa indexação é produto intelectual de especialista
humano, capacitado no sistema de classificação
MeSH e com seu trabalho revisado por esquema de
controle de qualidade que inclui revisão por um
indexador senior durante seu primeiro ano de
atividade, além de procedimentos rotineiros de
controle e de educação continuada. A indexação de
MEDLINE feita por humanos ainda é o padrão de
referência para os programas de indexação
automática da própria NLM[11].
Assim, explorar MEDLINE com fins de DBL sem
considerar os seus descritores de assunto para a
organização dos elementos vinculantes, equivale a
ignorar o valor agregado pelo julgamento humano à
representação desse conhecimento biomédico, e
consequentemente demandar esforço cognitivo
adicional do investigador-usuário, durante a análise
dos títulos de trabalhos vinculados por meras
palavras do texto ou por conceitos atribuídos
automaticamente e com falhas, devidas às
limitações intrínsecas ao processamento de
linguagem natural.
Métodos
Vocabulários
controlados
(estruturados)
são
coleções de termos que representam assuntos
(conceitos), organizadas segundo uma metodologia
na qual é possível especificar as relações entre
conceitos com o propósito de facilitar o acesso à
informação indexada por tais termos. Permitem
recuperar a informação com o termo exato que foi
utilizado para descrever o conteúdo de um
documento científico, ou recuperar a informação por
agrupamentos hierárquicos de termos.
Os termos que compõem o vocabulário MeSH são
estruturados em 15 categorias hierárquicas, ou
ramos da árvore do conhecimento em ciências da
saúde: Anatomia (A), Organismos (B), Doenças (C),
Compostos Químicos e Drogas (D), Técnicas e
Equipamentos (E), Psicologia e Psiquiatria (F),
Ciências Biológicas (G), Ciências Físicas (H),
Antropologia, Educação, Sociologia e Fenômenos
Sociais (I), Tecnologia e Alimentos e Bebidas (J),
Humanidades (K), Ciências da Informação (L),
Pessoas (M), Assistência à Saúde (N) e
Localizações Geográficas (Z). A versão traduzida
do MeSH, o DeCS, utilizado pelas fontes de
informação que compõem a Biblioteca Virtual em
Saúde [3] incorpora outras duas categorias
hierárquicas, a saber: Homeopatia (HP) e Saúde
Pública (SP). Um termo pode pertencer a mais de
uma categoria hierárquica ou a vários ramos de uma
mesma categoria hierárquica.
Por exemplo,
DIABETES MELLITUS pertence aos ramos Doenças
Metabólicas (C18.452) e Endocrinopatias (C19).
A
estrutura
do
MeSH
prevê
e
utiliza
sistematicamente termos ou então termos seguidos
de qualificadores de assunto (MeSH Subheadings).
Qualificadores de assunto representam aspectos
do assunto: por exemplo, o termo DIABETES
MELLITUS e forma pré-coordenada DIABETES
MELLITUS/terapia. Há um total de 83 qualificadores
previstos para os assuntos, tais como /efeitos
adversos,
/diagnóstico,
/fisiologia,
/sangue,
/antagonistas & inibidores etc. Uma expressão de
busca de artigos sobre diagnóstico ou terapia de
diabetes mellitus seria especificada por “DIABETES
MELLITUS/diagnóstico
or
DIABETES
MELLITUS/terapia”. Note-se que uma especificação
trivial do tipo “/diagnóstico” recuperaria todos os
registros que tratam de diagnósticos de alguma
patologia, não importando a patologia.
Seja o termo DOENÇA DE RAYNAUD.
Está
descrito no MeSH na classificação hierárquica das
Doenças (C), sob Doenças Cardiovasculares (C14),
Doenças Vasculares (C14.907), Doença de
Raynaud (C14.907.744). Tem a nota de escopo:
«Uma doença vascular primária ou idiopática
caracterizada por ataques bilaterais de fenômeno de
Raynaud. A doença afeta mulheres mais
freqüentemente que homens. (Dorland, 28. ed)» e a
seguinte lista de qualificadores de assunto
permitidos: «BL CF CI CL CN CO DH DI DT EC EH
EM EN EP ET GE HI IM ME MI MO NU PA PC PP
PS PX RA RH RI RT SU TH UR US VE VI». Ou
seja, artigos sobre esta patologia que tratem
especificamente do aspecto SANGUE serão
indexados por DOENÇA DE RAYNAUD/sangue.
Ademais, artigos que tratem deste tópico como
conceito central do artigo serão indexados com
maior especificidade, isto é, com o qualificador de
assunto precedido por um asterisco: DOENÇA DE
RAYNAUD/*sangue. Descritores seguidos de
asterisco são chamados de “descritores primários”.
Em geral pode-se recuperar artigos com um certo
descritor de assunto, ou pré-coordenado com um
qualificador de assunto, em dois índices de acesso:
a) descritores primários e b) descritores, sejam
primários ou “descritores secundários”.
Assim, tomando o exemplo acima, se se deseja
estudar as possíveis conexões implícitas entre a
Doença de Raynaud e as dietas ricas em óleos de
peixe, poder-se-ia recuperar os artigos sobre a
patologia e com o qualificador /sangue, formando
uma lista A, e os artigos sobre Óleos de peixe
(D10.516.627.430), resultando em um número
menor de artigos cujos títulos (ou fragmentos de
texto) serão justapostos aos dos artigos sobre as
ditas dietas tendo o aspecto /sangue como passo
intermediário do processo de descoberta.
O método que se propõe está fundamentado no
valor da informação agregada às bases de dados
bibliográficas do tipo MEDLINE pela indexação
humana e utiliza a estrutura hierárquica do MeSH e
seus qualificadores de assunto para produzir saídas
filtradas com vistas a facilitar a análise dos
elementos
vinculantes
de
literaturas
complementares.
Quanto à racionalidade do processo da descoberta,
note-se
que
o
modelo
empregado
em
ARROWSMITH seria o de uma “descoberta
fechada” (closed discovery), onde o usuário objetiva
simplesmente elencar os elementos vinculantes
para formular (ou rejeitar) uma hipótese, e se
caracteriza como uma fase “de exclusão” das
conexões não plausíveis. A fase inicial de uma DBL
seria uma “descoberta aberta” (open discovery),
exploratória, a qual se realiza, por exemplo, a partir
de uma doença para a qual se busca uma terapia,
3
ou a partir de efeitos adversos de uma droga para a
qual se busca novos usos.
Resultados preliminares: protótipo ATMA1
A seguir é descrita uma implementação de um
instrumento para apoio à descoberta aberta
baseada em MEDLINE. O protótipo, ATMA1, foi
aplicado a artigos de MEDLINE publicados até 1987
(MDL6687) e que tenham sido indexados com ao
menos um descritor de assunto das categorias
hierárquicas Doenças (C) e Compostos Químicos e
Drogas (D). Os dados foram obtidos com finalidade
especifica a esta investigação: apenas identificação
única dos registros (UI) e os descritores de assunto
MeSH (MH).
O protótipo produz inicialmente uma página de
seleção de termos DeCS que serão usados como
critério de seleção dos registros de MEDLINE, bem
como parâmetros para o processamento. O usuário
digita uma palavra (ENXAQUECA, no caso) e o
sistema produz a lista de termos DeCS que contém
tal palavra em seu nome, sinônimos ou em suas
notas de escopo. Dessa forma, o usuário pode
escolher um ou mais termos do DeCS como critério
de seleção dos registros de MEDLINE. Múltiplas
escolhas são combinadas pelo operador booleano
or.
Os registros de MEDLINE indexados por esses
descritores de assunto são então recuperados e
formam o conjunto de citações A (cluster A). Todos
os descritores de assunto presentes em A são
processados no maior grau de detalhamento,
formando os conjuntos de citações B1 a Bn (cluster
B1, B2, etc) referentes aos distintos descritores de
assunto presentes em A. A figura 1 apresenta a
página produzida pelo protótipo, com a distribuição
dos descritores de assunto do conjunto A gerada
segundo os parâmetros especificados no passo
anterior.
Figura 1: Distribuição dos descritores de assunto presentes nos registros de MDL6687 selecionados pelo
descritor de assunto ENXAQUECA do DeCS
4
No exemplo, o conjunto A é formado por 4.652
artigos do universo de 4.540.368 artigos (conjunto
MDL). Na coluna Articles A tem-se as freqüências
absolutas e relativas dos descritores de assunto ao
longo do conjunto A. Na coluna Articles MDL temse a frequencia absoluta desses descritores no
universo de MEDLINE considerado. Os números de
ordem referem-se aos respectivos postos.
No
exemplo, vê-se que EPILEPSIA é o sexto descritor
que mais ocorre no conjunto A (236 dos 4.652
artigos de A, ou 5.07%), embora haja 16.287 artigos
sobre EPILEPSIA dentre os 4.540.368 artigos do
universo considerado.
qualificadores de assunto presentes nos descritores
de assunto do conjunto A, formando até 83
conjuntos B correspondentes aos qualificadores de
assunto do MeSH; b) tipos semânticos do UMLS, de
acordo com a equivalência entre os descritores de
assunto MeSH e um ou mais dos 134 tipos
semânticos desse metathesaurus; e c) outras
formas de organização, tais como os 141 descritores
de assunto de revistas (Journal Descriptors)
automaticamente atribuídos aos artigos do conjunto
A pela aplicação de vetores de termos construídos
sobre registros de MEDLINE.
Conclusão
A tabela possui uma série de hiperlinks para facilitar
a exploração do conjunto A, através de um ou mais
de seus conjuntos B associados. O link sobre o
nome de um conjunto B remete o usuário à base de
dados DeCS, para eventual consulta aos conceitos
e termos relativos à patologia ou droga. O link sobre
um valor do tipo “número de artigos” remete o
usuário diretamente a esses artigos, para referência
ou eventual acesso ao seu resumo ou texto
completo. Os links nas colunas A*B, A^B, B^A e B
reiniciam o processo para um novo conjunto de
artigos: respectivamente, para a interseção de A e
B; A e não B; B e não A; e trivialmente apenas pelo
conjunto B da linha correspondente. Por exemplo, o
link A*B da linha EPILEPSIA define um novo
conjunto A composto por artigos que tratam de
ENXAQUECA e de EPILEPSIA. Analogamente, o
link A^B da linha ANTICONCEPCIONAIS ORAIS
produz a informação para ENXAQUECA excluindose os artigos que a discutam juntamente com
ANTICONCEPCIONAIS ORAIS.
O instrumento proposto tem aplicação específica à
descoberta aberta em bases de dados do tipo
MEDLINE e complementa as funcionalidades de
instrumentos afins utilizados nesses cenários,
inclusive dos que se baseiam apenas nos textos dos
artigos e desconsideram a indexação da literatura
que constitui o universo da descoberta, realizada por
décadas e com rigor metodológico. Facilita a
formulação de hipóteses científicas por gerar um
mapa de literaturas de possível interesse à DBL,
apresentando relacionamentos derivados apenas da
indexação humana.
Referências
[1] Swanson D.R. (1988) Migraine and magnesium:
Eleven neglected connections. Perspectives in
Biology and Medicine; 31:526-557.
[2]
Considerações e trabalho futuro
O protótipo ATMA1 permite que os conjuntos B
sejam listados segundo o valor de determinadas
colunas ou segundo a estrutura hierárquica MeSH.
A opção de ordenação por código MeSH também
permite a formação de grandes conjuntos
correspondentes aos níveis superiores dessa
estrutura hierárquica, os quais encabeçam a lista de
conjuntos B quando assim organizados. O protótipo
permite o refinamento de um determinado conjunto
B, porém ainda não oferece a possibilidade de se
agrupar, em operação única, vários conjuntos B em
um mesmo conjunto.
O desenvolvimento futuro do instrumento ATMA1
acrescentará outras formas de organização e de
sumarização da lista de conjuntos B, a saber: a)
NLM
(2002)
MeSH
Browser.
http://www.ncbi.nlm.nih.gov/entrez/meshbrowser.cgi
.
[3] BIREME (2002), Biblioteca Virtual em Saúde.
http://www.bireme.br/.
[4] NLM (2002), PubMed.
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubM
ed/.
[5] Swanson D.R. e Smalheiser N.R. (1997), An
interactive system for finding complementary
literatures: a stimulus to scientific discovery.
Artificial Intelligence; 91:183-203.
[6] Smalheiser N.R. e Swanson D.R. (1998), Using
ARROWSMITH: a computer-assisted approach
to formulating and assessing scientific
5
hypotheses. Computer Methods and Programs
in Biomedicine; 57:149-153.
[7] Lindsay K.L. e Gordon M.D. (1999), LiteratureBased Discovery by Lexical Statistics. Journal of
the American Society for Information Science;
50:574-587.
[8]
NLM (2002). UMLS Knowlegde
http://umlsks.nlm.nig.gov/.
[11]
NLM (2002), The
http://ii.nlm.nih.gov/.
Indexing
Sources.
[9] Weeber M., Klein H., Aronson A.R., Mork J.G.,
Jong L. e Vos R. (2000), Text-Based Discovery
in Biomedicine: The architecture of the DADsystem. In Proceedings of the American Medical
Informatics
Association
Symposium,
Los
Angeles, p. 903-907.
[10] Blake C. e Pratt W. (2001), Better rules, fewer
features: A semantic approach to selecting
feature from text. In Proceedings of the IEEE
6
data Mining Conference, San Jose, CA, p. 5966.
Contato
Adalberto Otranto Tardelli
Email: [email protected]
BIREME/OPAS/OMS
Rua Botucatu, 862 – Vila Clementino
04023-901 São Paulo Brasil
Tel. (55)(11)5576.9800
Initiative.
Download

Descoberta Baseada em Literatura