BANCO DE DADOS E MINERAÇÃO DE DADOS
EM BIOINFORMÁTICA
ANA PAULA SANDOVAL CARLOS
PIBIC/CNPQ
JERONIZA NUNES MARCHAUKOSKI
Com o avanço da tecnologia, o crescimento das
informações através da produção científica é
exorbitante. Dados biológicos, como a genômica e
proteômica, o contingente é ainda maior. O desafio
posto na manipulação de elementos complexos
instiga a busca de soluções eficazes. O estudo trata
da modelagem desses, definindo arquiteturas de
banco de dados para o gerenciamento de grandes
volumes de informação e estratégias de mineração,
através de algoritmos genéticos e redes neuronais
Pesquisa e estudos dos repositórios de dados
biológicos do NCBI (NR),PFAM e COG. O NCBI
concentra diversos dados de genomas, cada
sequência de proteína é identificada por um único
‘gi’, composto somente por números, sua base de
dados inclui ainda taxonomia, tamanho da
sequência. O PFAM organiza os dados
relacionados a famílias de proteínas, incluindo
suas anotações. A base de dados COG classifica
esses genomas por relacionamentos ortólogos.
[1]PFAM:<http://pfam.sanger.ac.uk/>.[2]NCBI:http://
www.ncbi.nlm.nih.gov/>.[3]COG:<http://www.ncbi.nl
m.nih.gov/COG/>.[4]ENZYME:<http://enzyme.expas
y.org/>.[5]Xml_io_tools.:<http://www.mathworks.com
/matlabcentral/fileexchange/12907-xmliotools>.
Ao verificar os bancos, observou-se a redundância
ocasionada por erros de anotação de genes ou informações
repetidas de diferentes formas. Os comandos de inserção e
comparação dos dados no banco de dados dos repositórios
foram alterados de forma a facilitar o entendimento. Neste
trabalho, o identificador ‘gi’ do NCBI foi utilizado como
referência para integrar os dados das bases de dados
públicas NCBI, PFAM e COG, das proteínas em estudo. Uma
nova base de dados integradora foi desenvolvida utilizandose o Sistema Gerenciador de Banco de Dados MySQL,
linguagem de programação C e interface para a manipulação
de dados em MATLAB. Para melhorar a comparação, será
necessário comparar as sequências pela tabela de
sequências do NR e depois fazer outra comparação a fundo
mas só dos gis atrelado a essa sequência (também é
necessário desenvolver uma técnica para encontrar o gi
certo).
Com os bancos de dados públicos integrados, as consultas
às informações de proteína são extraídas de forma
transparente e mais rapidamente,. A manipulação das
informações são realizadas através de comandos da
linguagem de Banco de Dados, mais amigável e, dinâmico
pois os dados podem ser acessados em um único local.
Download

Ana Paula Sandoval Carlos