A utilização da mineração de dados para a construção de uma base de
fragmentos protéicos 1
Éric Miranda2, Fagner Candido3, Victor Neres4,Wesley Vaz5
Resumo:
O presente trabalho se destina à utilização de ferramentas e conceitos de mineração
de dados para a construção de uma base de fragmentos de proteínas com vistas a facilitar a
pesquisa, escolha e sintetização das mesmas propondo uma arquitetura computacional que
ofereça suporte aos pesquisadores e permita maior velocidade tanto no processo de
fragmentação de proteínas quanto no processo de consulta de resultado já encontrados.
Palavras-chave: Mineração de dados, Algoritmo de Boyer Moore, Text Mining, WEKA,
proteína.
1. Introdução
A composição das células, tecidos, músculos e órgãos de um ser vivo podem ser
descritas como uma das funções das proteínas.
Entre suas funções está a de constituir os nossos músculos e órgãos, como é o caso da
proteína muscular, responsável pela contração muscular, primordial para a necessidade
humana. Elas também constituem os hormônios, que regulam o funcionamento de diversos
órgãos e compõem os anticorpos responsáveis pela defesa do corpo contra elementos
estranhos.
No entanto, trabalhar com dados relativos a proteínas para produzir medicamentos tem
como problema a própria quantidade e diversidade de proteínas existentes, das quais somente
uma pequena parte da proteína é efetivamente útil para o combate a enfermidades e, portanto,
para a produção de medicamentos. Um processo automatizado que permitisse maior
velocidade na busca, análise e classificação tornaria mais viável e prático o processo de
obtenção de novos medicamentos, por exemplo. Por esta razão é interessante criar uma
arquitetura computacional para suporte a busca e extração destas pequenas partes de uma
proteína ou de um conjunto de proteínas.
1
Trabalho desenvolvido como projeto final no curso Bacharelado em Ciência da Computação da Universidade
Católica de Brasília em junho/2011;
2
Aluno do curso de Bacharelado em Ciência da Computação;
3
Aluno do curso de Bacharelado em Ciência da Computação;
4
Aluno do curso de Bacharelado em Ciência da Computação;
5
Professor Orientador
2. Referencial Teórico
As proteínas, além de constituírem o componente celular mais abundante, são as
moléculas mais diversificadas quanto à forma e à função, onde sua composição se baseia na
disposição sequencial dos aminoácidos, composto básico de uma proteína. As funções que
desempenham são estruturais e dinâmicas e participam de quase todos os processos
biológicos.
O conhecimento da sequência de aminoácidos de uma proteína nos permite ter uma
ideia sobre sua estrutura e função, sua localização celular e evolução, obtidas, sobretudo, a
partir de pesquisas de similaridade com outras sequências conhecidas.
Atualmente, o pesquisador na área de bioinformática que deseja utilizar fragmentos de
uma determinada sequência de proteína para a criação de medicamentos, cria sua base de
dados de forma rudimentar. Por estar sendo feito manualmente o trabalho de fragmentação,
não há grande precisão nos fragmentos criados e a análise destes fragmentos é restringida,
devido à quantidade de fragmentos criados e o tempo necessário para a sua criação.
Um grande problema que o pesquisador pode encontrar é que as bases de dados são
altamente suscetíveis a dados ruidosos (erros e valores estranhos), incompletos (valores de
atributos ausentes) e inconsistentes (discrepâncias semânticas) devido a seus típicos volumes.
Técnicas de pré-processamento e transformação de dados são aplicadas para aumentar a
qualidade e o poder de expressão dos dados a serem minerados.
Para encontrar padrões dentro das sequências desejadas, é utilizado os conceitos de
descoberta de conhecimento em banco de dados, comumente conhecida como KDD, para
busca de padrões não triviais de identificar em dados padrões que sejam validos,
novos(previamente conhecidos), potencialmente úteis e compreensíveis, visando facilitar a
criação de uma base de fragmentos com base em um padrão informado ou minerado.
A utilização da mineração de dados para a classificação dos fragmentos é usada
seguindo as próprias etapas de mineração de dados propostas, que utilizam técnicas e
algoritmos de diferentes áreas do conhecimento, principalmente inteligência artificial
(especialmente aprendizagem de máquina), banco de dados (recursos para manipular grandes
bases de dados) e estatística (comumente na avaliação e validação de resultados). Nas fases de
mineração é que as sequencias de proteínas são fragmentadas para que seja analisado e
comparado o padrão com os fragmentos gerados da sequência
Com as dados preparados, é realizado a classificação dos fragmentos juntamente com o
padrão, gerando assim uma listagem de fragmentos pertencente a uma ou mais sequências que
possuem compatibilidade com o padrão informado ou encontrado. A figura abaixo demonstra
como é o funcionamento da arquitetura proposta para a criação da base de fragmentos de
proteínas por meio dos conceito de mineração de dados e KDD.
Figura 1. Arquitetura proposta para a criação de uma base de fragmentos proteicos.
3. Resultados
O resultado obtido foi a criação de uma arquitetura que permitiu encontrar fragmentos
de proteínas compatíveis com determinada característica além de descobrir, dentre uma
quantidade de sequências armazenadas dentro de uma base de dados estruturada, tanto as
características mais comuns destas sequências quanto as características mais incomuns,
permitindo encontrar fragmentos compatíveis com as características informadas.
4. Conclusão
Pela síntese apresentada pode-se verificar que a arquitetura proposta pode ser utilizada
no apoio ofereça suporte aos pesquisadores que ainda utilizam bases rudimentares de
proteínas permitindo maior velocidade tanto na fragmentação das proteínas quanto na
consulta de resultados anteriores.
5. Referências Bibliográficas:
I. WANG, Jason. Data mining in bioinformatics. — (Advanced information and knowledge
processing) 1. Data mining 2. Bioinformatics — Data processing I. Wang, Jason T. L. 2005.
KIMBALL, Ralph. The Data Warehouse Lifecycle Toolkit. New York: Wiley. 1998.
WITTEN, Ian H.; EIBE, Frank; KAUFMMAN, Morgan. Data Mining: Practical Machine
Learning Tools and Techniques (Second Edition). 2005.
NELSON, David L.; COX, Michael F. Lehninger Princípios de Bioquímica 3º Edição.
2002.
FAYYAD, Usama; PIATETSKY–SHAPIRO, Gregory; SMYTH, Padhraic. Knowledge
Discovery and Data Mining: Towards a Unifying Framework. Proceeding of the
Second International Conference on Knowledge Discovery and Data Mining (KDD-96).
1996.
Download

A utilização da mineração de dados para a construção de uma base