Bancos de Dados Biológicos Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática ( http://lgmb.fmrp.usp.br ) Departamento de Genética ( http://rge.fmrp.usp.br ) Faculdade de Medicina de Ribeirão Preto ( http://fmrp.usp.br ) Universidade de São Paulo ( http://www.usp.br ) Sumário • Introdução – Banco de Dados – Dados Biológicos • Banco de Dados Biológicos – Revisão Histórica – Principais Bases de Dados – Bases de Dados de Expressão Gênica • NCBI GEO (Gene Expression Omnibus) • Referências Banco de Dados • A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe) • A database is a repository for a collection of computerized data files. (C.J.Date) Abordagem utilizando Sistema de Arquivos • Cada usuário define e implementa os arquivos necessários para uma aplicação específica. – Gera redundância na definição e no armazenamento dos dados; – Possui estrutura específica e dependente de determinada aplicação; – Não permite compartilhamento e acesso concorrente; –… Abordagem utilizando Sistema de Banco de Dados • Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; – Evita redundância; – Contém em si a definição de sua estrutura (metadados); – Possui restrições implementadas que evitam inconsistências nos dados; – Solução genérica para qualquer aplicação; – Permite o acesso concorrente de múltiplos usuários; – Permite diferentes visões dos dados; – Independência da aplicação; – Permite representar relacionamentos complexos entre os dados; – ... Modelo de dados • Uma coleção de conceitos que podem ser usados para descrever a estrutura do banco de dados. • Projeto de um Banco de Dados Relacional – Modelo de Dados Conceitual; • Modelo de Entidades e Relacionamentos (MER); – Entidades, atributos e relacionamentos; » Diagrama de Entidades e Relacionamentos (DER); – Modelo de Dados de Implementação; • Modelo de Dados Relacional; – Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR; – Modelo de Dados Baseado em Registros » Representação através de estruturas de registros; – Modelo de Dados Físico; • Detalhes internos de armazenamento; Diagrama de Entidades e Relacionamentos • Notação Original – Peter Chen,1976. • Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos. Notação IDEF1X Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017 ERwin® Sistema de Gerenciamento de Banco de Dados • A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe) • • • Modelo de Dados Relacional (SGBDR) – Inspirado na Álgebra Relacional – Organiza os dados em uma estrutura de tabelas – Linguagem SQL (Structured Query Language) Modelo de Dados Orientado a Objetos (SGBDOO) – Inspirado nos Paradigmas de Orientação a Objetos – Permite a persistência de objetos – Linguagem OQL (Object Query Language) Modelo de Dados Objeto-Relacional (SGBDOR) – Extensão do Modelo Relacional incorporando algumas das funcionalidades do modelo Orientado a Objetos; – Extensão da linguagem SQL (SQL3); O2 Jasmine Ambiente Simplificado de um Sistema de Banco de Dados Elmasri, R. A. and Navathe Em que situações a abordagem com arquivos é indicada? • O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; • Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; • Não há necessidade de múltiplos acessos. Banco de Dados Flat file • Abordagem utilizando arquivos – Arquivos que contêm registros de dados que não estão estruturalmente relacionados. • Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt) • Possui um padrão específico de formatação – GenBank, Fasta, ASN.1 ... • É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. – Ex.: Módulos da BioPerl Revisão Histórica Leroy Hood Desenvolve o primeiro seqüenciador automático 1986 1977 Gilbert & Sanger Desenvolvem um método para o seqüenciamento de DNA Sequenciamento de DNA • Sequenciamento manual x automático CCCAACT... Revisão Histórica Iniciativa pública Projeto Genoma Humano Cancer Genome Anatomy Project 1990 1988 National Center for Biotechnology Information Publicação do rascunho do Genoma Humano 1996 1997 Rede Organization for Nucleotide Sequencing and Analysis 1999 2001 2000 Genoma Xylella fastidiosa E agora ? Repositórios de Dados Biológicos • 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb • 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information • 1997 – EMBL – European Molecular Biology Laboratory • 1986 – DDBJ – DNA Data Bank of Japan International Nucleotide Sequence Database Colaboration • 100 Giga bases (Agosto de 2005) Repositórios de Dados Biológicos • PDB – Protein Data Bank • UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL, and PIR) • KEGG – Kyoto Encyclopedia of Genes and Genome Bancos de Dados Flat files do NCBI • FASTA • GenBank • ASN.1 Referências • Date, C. J. 2003. An Introduction to Database Systems. Addison-Wesley Longman Publishing Co., Inc. • Elmasri, R. A. and Navathe, S. B. 2003. Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co., Inc. Perguntas... Daniel Guariz Pinheiro [email protected] http://scarecrow.fmrp.usp.br/~daniel/ MUITO OBRIGADO !!!