BANCO DE DADOS E MINERAÇÃO DE DADOS EM BIOINFORMÁTICA ANA PAULA SANDOVAL CARLOS PIBIC/CNPQ JERONIZA NUNES MARCHAUKOSKI Com o avanço da tecnologia, o crescimento das informações através da produção científica é exorbitante. Dados biológicos, como a genômica e proteômica, o contingente é ainda maior. O desafio posto na manipulação de elementos complexos instiga a busca de soluções eficazes. O estudo trata da modelagem desses, definindo arquiteturas de banco de dados para o gerenciamento de grandes volumes de informação e estratégias de mineração, através de algoritmos genéticos e redes neuronais Pesquisa e estudos dos repositórios de dados biológicos do NCBI (NR),PFAM e COG. O NCBI concentra diversos dados de genomas, cada sequência de proteína é identificada por um único ‘gi’, composto somente por números, sua base de dados inclui ainda taxonomia, tamanho da sequência. O PFAM organiza os dados relacionados a famílias de proteínas, incluindo suas anotações. A base de dados COG classifica esses genomas por relacionamentos ortólogos. [1]PFAM:<http://pfam.sanger.ac.uk/>.[2]NCBI:http:// www.ncbi.nlm.nih.gov/>.[3]COG:<http://www.ncbi.nl m.nih.gov/COG/>.[4]ENZYME:<http://enzyme.expas y.org/>.[5]Xml_io_tools.:<http://www.mathworks.com /matlabcentral/fileexchange/12907-xmliotools>. Ao verificar os bancos, observou-se a redundância ocasionada por erros de anotação de genes ou informações repetidas de diferentes formas. Os comandos de inserção e comparação dos dados no banco de dados dos repositórios foram alterados de forma a facilitar o entendimento. Neste trabalho, o identificador ‘gi’ do NCBI foi utilizado como referência para integrar os dados das bases de dados públicas NCBI, PFAM e COG, das proteínas em estudo. Uma nova base de dados integradora foi desenvolvida utilizandose o Sistema Gerenciador de Banco de Dados MySQL, linguagem de programação C e interface para a manipulação de dados em MATLAB. Para melhorar a comparação, será necessário comparar as sequências pela tabela de sequências do NR e depois fazer outra comparação a fundo mas só dos gis atrelado a essa sequência (também é necessário desenvolver uma técnica para encontrar o gi certo). Com os bancos de dados públicos integrados, as consultas às informações de proteína são extraídas de forma transparente e mais rapidamente,. A manipulação das informações são realizadas através de comandos da linguagem de Banco de Dados, mais amigável e, dinâmico pois os dados podem ser acessados em um único local.