A utilização da mineração de dados para a construção de uma base de fragmentos protéicos 1 Éric Miranda2, Fagner Candido3, Victor Neres4,Wesley Vaz5 Resumo: O presente trabalho se destina à utilização de ferramentas e conceitos de mineração de dados para a construção de uma base de fragmentos de proteínas com vistas a facilitar a pesquisa, escolha e sintetização das mesmas propondo uma arquitetura computacional que ofereça suporte aos pesquisadores e permita maior velocidade tanto no processo de fragmentação de proteínas quanto no processo de consulta de resultado já encontrados. Palavras-chave: Mineração de dados, Algoritmo de Boyer Moore, Text Mining, WEKA, proteína. 1. Introdução A composição das células, tecidos, músculos e órgãos de um ser vivo podem ser descritas como uma das funções das proteínas. Entre suas funções está a de constituir os nossos músculos e órgãos, como é o caso da proteína muscular, responsável pela contração muscular, primordial para a necessidade humana. Elas também constituem os hormônios, que regulam o funcionamento de diversos órgãos e compõem os anticorpos responsáveis pela defesa do corpo contra elementos estranhos. No entanto, trabalhar com dados relativos a proteínas para produzir medicamentos tem como problema a própria quantidade e diversidade de proteínas existentes, das quais somente uma pequena parte da proteína é efetivamente útil para o combate a enfermidades e, portanto, para a produção de medicamentos. Um processo automatizado que permitisse maior velocidade na busca, análise e classificação tornaria mais viável e prático o processo de obtenção de novos medicamentos, por exemplo. Por esta razão é interessante criar uma arquitetura computacional para suporte a busca e extração destas pequenas partes de uma proteína ou de um conjunto de proteínas. 1 Trabalho desenvolvido como projeto final no curso Bacharelado em Ciência da Computação da Universidade Católica de Brasília em junho/2011; 2 Aluno do curso de Bacharelado em Ciência da Computação; 3 Aluno do curso de Bacharelado em Ciência da Computação; 4 Aluno do curso de Bacharelado em Ciência da Computação; 5 Professor Orientador 2. Referencial Teórico As proteínas, além de constituírem o componente celular mais abundante, são as moléculas mais diversificadas quanto à forma e à função, onde sua composição se baseia na disposição sequencial dos aminoácidos, composto básico de uma proteína. As funções que desempenham são estruturais e dinâmicas e participam de quase todos os processos biológicos. O conhecimento da sequência de aminoácidos de uma proteína nos permite ter uma ideia sobre sua estrutura e função, sua localização celular e evolução, obtidas, sobretudo, a partir de pesquisas de similaridade com outras sequências conhecidas. Atualmente, o pesquisador na área de bioinformática que deseja utilizar fragmentos de uma determinada sequência de proteína para a criação de medicamentos, cria sua base de dados de forma rudimentar. Por estar sendo feito manualmente o trabalho de fragmentação, não há grande precisão nos fragmentos criados e a análise destes fragmentos é restringida, devido à quantidade de fragmentos criados e o tempo necessário para a sua criação. Um grande problema que o pesquisador pode encontrar é que as bases de dados são altamente suscetíveis a dados ruidosos (erros e valores estranhos), incompletos (valores de atributos ausentes) e inconsistentes (discrepâncias semânticas) devido a seus típicos volumes. Técnicas de pré-processamento e transformação de dados são aplicadas para aumentar a qualidade e o poder de expressão dos dados a serem minerados. Para encontrar padrões dentro das sequências desejadas, é utilizado os conceitos de descoberta de conhecimento em banco de dados, comumente conhecida como KDD, para busca de padrões não triviais de identificar em dados padrões que sejam validos, novos(previamente conhecidos), potencialmente úteis e compreensíveis, visando facilitar a criação de uma base de fragmentos com base em um padrão informado ou minerado. A utilização da mineração de dados para a classificação dos fragmentos é usada seguindo as próprias etapas de mineração de dados propostas, que utilizam técnicas e algoritmos de diferentes áreas do conhecimento, principalmente inteligência artificial (especialmente aprendizagem de máquina), banco de dados (recursos para manipular grandes bases de dados) e estatística (comumente na avaliação e validação de resultados). Nas fases de mineração é que as sequencias de proteínas são fragmentadas para que seja analisado e comparado o padrão com os fragmentos gerados da sequência Com as dados preparados, é realizado a classificação dos fragmentos juntamente com o padrão, gerando assim uma listagem de fragmentos pertencente a uma ou mais sequências que possuem compatibilidade com o padrão informado ou encontrado. A figura abaixo demonstra como é o funcionamento da arquitetura proposta para a criação da base de fragmentos de proteínas por meio dos conceito de mineração de dados e KDD. Figura 1. Arquitetura proposta para a criação de uma base de fragmentos proteicos. 3. Resultados O resultado obtido foi a criação de uma arquitetura que permitiu encontrar fragmentos de proteínas compatíveis com determinada característica além de descobrir, dentre uma quantidade de sequências armazenadas dentro de uma base de dados estruturada, tanto as características mais comuns destas sequências quanto as características mais incomuns, permitindo encontrar fragmentos compatíveis com as características informadas. 4. Conclusão Pela síntese apresentada pode-se verificar que a arquitetura proposta pode ser utilizada no apoio ofereça suporte aos pesquisadores que ainda utilizam bases rudimentares de proteínas permitindo maior velocidade tanto na fragmentação das proteínas quanto na consulta de resultados anteriores. 5. Referências Bibliográficas: I. WANG, Jason. Data mining in bioinformatics. — (Advanced information and knowledge processing) 1. Data mining 2. Bioinformatics — Data processing I. Wang, Jason T. L. 2005. KIMBALL, Ralph. The Data Warehouse Lifecycle Toolkit. New York: Wiley. 1998. WITTEN, Ian H.; EIBE, Frank; KAUFMMAN, Morgan. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). 2005. NELSON, David L.; COX, Michael F. Lehninger Princípios de Bioquímica 3º Edição. 2002. FAYYAD, Usama; PIATETSKY–SHAPIRO, Gregory; SMYTH, Padhraic. Knowledge Discovery and Data Mining: Towards a Unifying Framework. Proceeding of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). 1996.