Teoria Bayesiana da Decisão Aplicada a Multi-rotulação de Páginas Web sobre Saúde Fernando S. Sousa1, Felipe Mancini1,2, Fabio O. Teixeira1, Alex E.J. Falcão1, Gabriela D. de Araujo1, Kellen C.A. Falcão1, Fátima L. S. Nunes3, Ivan T. Pisa1 1 Departamento de Informática em Saúde, Escola Paulista de Medicina, Universidade Federal de São Paulo – EPM/UNIFESP, São Paulo 2 Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Guarulhos 3 Escola de Artes, Ciências e Humanidades, Universidade de São Paulo – USP, São Paulo Contexto O reconhecimento, ou classificação, de padrões é uma tarefa recorrente na vida humana. Segundo Duda et al.1, classificação de padrões é “o ato de assimilar dados brutos e tomar uma ação baseado na ’categoria’ do padrão”. Em algumas situações, a classificação de objetos ou dados em diferentes grupos não é uma tarefa trivial, principalmente quando tratamos com situações onde a quantidade de atributos é grande ou quando eles assumem valores que a mente humana tem uma maior dificuldade para processar. Para estes casos, contamos com o auxilio de computadores e sistemas inteligentes2. É possível encontrar aplicabilidade de reconhecimento de padrões em diversas áreas de conhecimento, como a classificação de imagens3 e diagnóstico auxiliado por computador4. Na área de saúde, uma das aplicabilidades é a classificação automática de conteúdos web relacionados a esta área5, dada a quantidade de informação disponível na web e a dificuldade que pessoas leigas normalmente têm em encontrar a informação desejada6. Neste contexto, este trabalho tem como objetivo utilizar um classificador baseado na Teoria Bayesiana da Decisão para classificar automaticamente e sugerir multi-rótulos para páginas web com conteúdos relacionados à saúde. Métodos Foram coletadas 3.678 páginas web rotuladas em até 19 categorias pertencentes ao domínio da saúde seguindo o padrão ODP, utilizado pelo Google. O vetor de características representativo das páginas web foram gerados a partir da contagem de ocorrência dos termos presentes nas páginas (term occurrence - to). As páginas coletadas foram dividas em conjunto de treinamento (70%) e testes (30%). Os vetores de características das páginas selecionadas para treinamento foram utilizados para treinar um classificador de padrões baseado em Teoria Bayesiana da Decisão1. As páginas de testes foram então submetidas ao classificador treinado, e seu desempenho foi medido. Um classificador baseado na Teoria Bayesiana da Decisão calcula as probabilidades de cada amostra presente no conjunto de treinamento pertencer a cada uma das 19 categorias do problema abordado, a partir da seguinte fórmula1: × = ×| (×) Ou seja, calculamos a probabilidade de uma categoria de um vetor de características × ( × ) a partir da probabilidade do vetor × dada a categoria ( × | ), da probabilidade de ocorrência da categoria ( )e (×)). da probabilidade de ocorrência do vetor × ( O termo ×| representa a função de densidade de probabilidade encontrada pelo treinamento do classificador, e pode ser, por exemplo, uma distribuição normal. Com as probabilidades de cada classe calculadas para uma amostra podemos gerar um ranking das categorias mais prováveis. Uma das vantagens do classificador Bayesiano é a garantia de um desempenho ótimo1. Com o ranking de categorias avaliamos o desempenho do classificador quanto ao acerto até a quinta posição do ranking, com o objetivo de medir a evolução na melhora do desempenho. Foram utilizadas como medidas de avaliação a revocação e precisão7. Resultados A Figura 1 e a Tabela 1 mostram a evolução do classificador para as medidas de precisão e revocação, da primeira até a quinta posição do ranking de categorias. Podemos observar que a revocação atinge valores satisfatórios já a partir da primeira posição do ranking, com valor médio entre as categorias de 0,81. Quando observamos as categorias atribuídas às páginas até a segunda posição do ranking, já conseguimos um aumento considerável, atingindo 0,90. Como esperado, o valor da revocação sempre aumenta, chegando a 0,93 na quinta posição. De maneira oposta, o valor da precisão diminui com o aumento das posições do ranking de relevância. Apesar de conseguirmos um valor muito bom de precisão para a primeira posição do ranking (0,94), este valor já diminui consideravelmente na segunda posição (0,66), chegando a apenas 0,24 na quinta posição. Apesar disso, consideramos que essa diminuição é menos importante frente ao ganho conseguido com a revocação. Em uma aplicação real que classifica páginas web para usuários leigos, uma revocação alta é importante, visto que o classificador estará classificando corretamente a maior parte das páginas. A precisão mais baixa indica que, dentre as páginas para as quais o classificador inferiu certa categoria, parte delas originalmente pertencem originalmente a outras. Porém, em se tratando de conteúdos web de saúde, nada impede que as páginas possam pertencer a mais de uma categoria, devido seu conteúdo não determinístico5. Ademais, a inversão de desempenho entre revocação e precisão ao longo das posições do ranking é esperada8,9, uma vez que estamos aumentando a chance do classificador acertar para certa categoria, ao mesmo tempo em que estamos colocando mais categorias incorretas para as páginas das outras categorias. Caso as páginas fossem originalmente multi-rotuladas, a queda na precisão seria menos acentuada8. 1,00 0,80 0,60 0,40 Revocação 0,20 0,00 Precisão 1 2 3 4 Ranking Revocação Precisão #1 0,81 0,94 #2 0,90 0,66 #3 0,92 0,46 #4 0,93 0,32 #5 0,93 0,24 5 Conclusão O classificador de padrões baseado em Teoria Bayesiana da Decisão mostrou-se uma boa alternativa para classificar conteúdos web de saúde, dado o bom desempenho conseguido logo na primeira posição do ranking de categorias. Além do mais, com ranking construído a partir das probabilidades de cada categoria calculadas pelo classificador Bayesiano conseguimos uma melhora significante no desempenho do classificador quanto à revocação, e ainda possibilita que o classificar sugira multi-rótulos às páginas web de saúde retornadas em uma busca na internet. Referências 1. 2. 3. 4. 5. 6. 7. 8. 9. Duda RO, Hart PE, Stork DG. Pattern Classification (2nd Edition). Wiley-Interscience; 2000. Theodoridis S, Koutroumbas K. Pattern Recognition, Third Edition. 3rd ed. Academic Press; 2006. Rebelo MDS, Aarre AKH, Clemmesen K-L, Brandão SCS, Giorgi MC, Meneghetti JC, et al. Determination of three-dimensional left ventricle motion to analyze ventricular dyssyncrony in SPECT images. EURASIP J. Adv. Signal Process. 2010;2010:2-2. Hummel AD, Maciel RF, Sousa FS, Cohrs FM, Falcão AEJ, Teixeira F, et al. Artificial intelligence techniques: predicting necessity for biopsy in renal transplant recipients suspected of acute cellular rejection or nephrotoxicity. Transplant. Proc. 2011 maio;43(4):1343-1344. Mancini F, Sousa FS, Teixeira FO, Falcão AEJ, Hummel AD, da Costa TM, et al. Use of Medical Subject Headings (MeSH) in Portuguese for categorizing web-based healthcare content. J Biomed Inform [Internet]. 2010 dez 16; Disponível em: http://www.ncbi.nlm.nih.gov/pubmed/21167957 Keselman A, Browne AC, Kaufman DR. Consumer Health Information Seeking as Hypothesis Testing. Journal of the American Medical Informatics Association. 2008 jul 1;15::484 -495. Sebastiani F. Machine learning in automated text categorization. ACM Comput. Surv. 2002 mar;34:1–47. Humphrey SM, Névéol A, Gobeil J, Ruch P, Darmoni SJ, Browne A. Comparing a Rule Based vs. Statistical System for Automatic Categorization of MEDLINE® Documents According to Biomedical Specialty. J Am Soc Inf Sci Technol. 2009 dez 1;60(12):2530-2539. Yang Y. An Evaluation of Statistical Approaches to Text Categorization. Inf. Retr. 1999 maio;1:69–90.