Teoria Bayesiana da Decisão Aplicada a Multi-rotulação de Páginas Web
sobre Saúde
Fernando S. Sousa1, Felipe Mancini1,2, Fabio O. Teixeira1, Alex E.J. Falcão1,
Gabriela D. de Araujo1, Kellen C.A. Falcão1, Fátima L. S. Nunes3, Ivan T. Pisa1
1
Departamento de Informática em Saúde, Escola Paulista de Medicina, Universidade Federal de São Paulo –
EPM/UNIFESP, São Paulo
2
Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Guarulhos
3
Escola de Artes, Ciências e Humanidades, Universidade de São Paulo – USP, São Paulo
Contexto
O reconhecimento, ou classificação, de padrões é uma tarefa recorrente na vida humana. Segundo Duda et al.1,
classificação de padrões é “o ato de assimilar dados brutos e tomar uma ação baseado na ’categoria’ do padrão”. Em
algumas situações, a classificação de objetos ou dados em diferentes grupos não é uma tarefa trivial, principalmente
quando tratamos com situações onde a quantidade de atributos é grande ou quando eles assumem valores que a
mente humana tem uma maior dificuldade para processar. Para estes casos, contamos com o auxilio de
computadores e sistemas inteligentes2. É possível encontrar aplicabilidade de reconhecimento de padrões em
diversas áreas de conhecimento, como a classificação de imagens3 e diagnóstico auxiliado por computador4. Na área
de saúde, uma das aplicabilidades é a classificação automática de conteúdos web relacionados a esta área5, dada a
quantidade de informação disponível na web e a dificuldade que pessoas leigas normalmente têm em encontrar a
informação desejada6. Neste contexto, este trabalho tem como objetivo utilizar um classificador baseado na Teoria
Bayesiana da Decisão para classificar automaticamente e sugerir multi-rótulos para páginas web com conteúdos
relacionados à saúde.
Métodos
Foram coletadas 3.678 páginas web rotuladas em até 19 categorias pertencentes ao domínio da saúde seguindo o
padrão ODP, utilizado pelo Google. O vetor de características representativo das páginas web foram gerados a partir
da contagem de ocorrência dos termos presentes nas páginas (term occurrence - to). As páginas coletadas foram
dividas em conjunto de treinamento (70%) e testes (30%). Os vetores de características das páginas selecionadas
para treinamento foram utilizados para treinar um classificador de padrões baseado em Teoria Bayesiana da
Decisão1. As páginas de testes foram então submetidas ao classificador treinado, e seu desempenho foi medido.
Um classificador baseado na Teoria Bayesiana da Decisão calcula as probabilidades de cada amostra presente no
conjunto de treinamento pertencer a cada uma das 19 categorias do problema abordado, a partir da seguinte
fórmula1:
× =
×|
(×)
Ou seja, calculamos a probabilidade de uma categoria
de um vetor de características × (
× ) a partir da
probabilidade do vetor × dada a categoria
( × | ), da probabilidade de ocorrência da categoria
(
)e
(×)).
da probabilidade de ocorrência do vetor × (
O termo
×|
representa a função de densidade de
probabilidade encontrada pelo treinamento do classificador, e pode ser, por exemplo, uma distribuição normal. Com
as probabilidades de cada classe calculadas para uma amostra podemos gerar um ranking das categorias mais
prováveis. Uma das vantagens do classificador Bayesiano é a garantia de um desempenho ótimo1.
Com o ranking de categorias avaliamos o desempenho do classificador quanto ao acerto até a quinta posição do
ranking, com o objetivo de medir a evolução na melhora do desempenho. Foram utilizadas como medidas de
avaliação a revocação e precisão7.
Resultados
A Figura 1 e a Tabela 1 mostram a evolução do classificador para as medidas de precisão e revocação, da primeira
até a quinta posição do ranking de categorias. Podemos observar que a revocação atinge valores satisfatórios já a
partir da primeira posição do ranking, com valor médio entre as categorias de 0,81. Quando observamos as
categorias atribuídas às páginas até a segunda posição do ranking, já conseguimos um aumento considerável,
atingindo 0,90. Como esperado, o valor da revocação sempre aumenta, chegando a 0,93 na quinta posição. De
maneira oposta, o valor da precisão diminui com o aumento das posições do ranking de relevância. Apesar de
conseguirmos um valor muito bom de precisão para a primeira posição do ranking (0,94), este valor já diminui
consideravelmente na segunda posição (0,66), chegando a apenas 0,24 na quinta posição. Apesar disso,
consideramos que essa diminuição é menos importante frente ao ganho conseguido com a revocação. Em uma
aplicação real que classifica páginas web para usuários leigos, uma revocação alta é importante, visto que o
classificador estará classificando corretamente a maior parte das páginas. A precisão mais baixa indica que, dentre
as páginas para as quais o classificador inferiu certa categoria, parte delas originalmente pertencem originalmente a
outras. Porém, em se tratando de conteúdos web de saúde, nada impede que as páginas possam pertencer a mais de
uma categoria, devido seu conteúdo não determinístico5. Ademais, a inversão de desempenho entre revocação e
precisão ao longo das posições do ranking é esperada8,9, uma vez que estamos aumentando a chance do classificador
acertar para certa categoria, ao mesmo tempo em que estamos colocando mais categorias incorretas para as páginas
das outras categorias. Caso as páginas fossem originalmente multi-rotuladas, a queda na precisão seria menos
acentuada8.
1,00
0,80
0,60
0,40
Revocação
0,20
0,00
Precisão
1
2
3
4
Ranking
Revocação
Precisão
#1
0,81
0,94
#2
0,90
0,66
#3
0,92
0,46
#4
0,93
0,32
#5
0,93
0,24
5
Conclusão
O classificador de padrões baseado em Teoria Bayesiana da Decisão mostrou-se uma boa alternativa para classificar
conteúdos web de saúde, dado o bom desempenho conseguido logo na primeira posição do ranking de categorias.
Além do mais, com ranking construído a partir das probabilidades de cada categoria calculadas pelo classificador
Bayesiano conseguimos uma melhora significante no desempenho do classificador quanto à revocação, e ainda
possibilita que o classificar sugira multi-rótulos às páginas web de saúde retornadas em uma busca na internet.
Referências
1.
2.
3.
4.
5.
6.
7.
8.
9.
Duda RO, Hart PE, Stork DG. Pattern Classification (2nd Edition). Wiley-Interscience; 2000.
Theodoridis S, Koutroumbas K. Pattern Recognition, Third Edition. 3rd ed. Academic Press; 2006.
Rebelo MDS, Aarre AKH, Clemmesen K-L, Brandão SCS, Giorgi MC, Meneghetti JC, et al. Determination of
three-dimensional left ventricle motion to analyze ventricular dyssyncrony in SPECT images. EURASIP J.
Adv. Signal Process. 2010;2010:2-2.
Hummel AD, Maciel RF, Sousa FS, Cohrs FM, Falcão AEJ, Teixeira F, et al. Artificial intelligence techniques:
predicting necessity for biopsy in renal transplant recipients suspected of acute cellular rejection or
nephrotoxicity. Transplant. Proc. 2011 maio;43(4):1343-1344.
Mancini F, Sousa FS, Teixeira FO, Falcão AEJ, Hummel AD, da Costa TM, et al. Use of Medical Subject
Headings (MeSH) in Portuguese for categorizing web-based healthcare content. J Biomed Inform [Internet].
2010 dez 16; Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/21167957
Keselman A, Browne AC, Kaufman DR. Consumer Health Information Seeking as Hypothesis Testing. Journal
of the American Medical Informatics Association. 2008 jul 1;15::484 -495.
Sebastiani F. Machine learning in automated text categorization. ACM Comput. Surv. 2002 mar;34:1–47.
Humphrey SM, Névéol A, Gobeil J, Ruch P, Darmoni SJ, Browne A. Comparing a Rule Based vs. Statistical
System for Automatic Categorization of MEDLINE® Documents According to Biomedical Specialty. J Am
Soc Inf Sci Technol. 2009 dez 1;60(12):2530-2539.
Yang Y. An Evaluation of Statistical Approaches to Text Categorization. Inf. Retr. 1999 maio;1:69–90.
Download

Teoria Bayesiana da Decisão Aplicada a Multi-rotulação de