Bancos de Dados Biológicos
Daniel Guariz Pinheiro
Laboratório de Genética Molecular e Bioinformática ( http://lgmb.fmrp.usp.br )
Departamento de Genética ( http://rge.fmrp.usp.br )
Faculdade de Medicina de Ribeirão Preto ( http://fmrp.usp.br )
Universidade de São Paulo ( http://www.usp.br )
Sumário
• Introdução
– Banco de Dados
– Dados Biológicos
• Banco de Dados Biológicos
– Revisão Histórica
– Principais Bases de Dados
– Bases de Dados de Expressão Gênica
• NCBI GEO (Gene Expression Omnibus)
• Referências
Banco de Dados
• A database is a collection of related data.
By data, we mean known facts that can be
recorded and that have implicit meaning.
(R. Elmasri and S. B. Navathe)
• A database is a repository for a collection
of computerized data files. (C.J.Date)
Abordagem utilizando Sistema de
Arquivos
• Cada usuário define e implementa os
arquivos necessários para uma aplicação
específica.
– Gera redundância na definição e no
armazenamento dos dados;
– Possui estrutura específica e dependente de
determinada aplicação;
– Não permite compartilhamento e acesso
concorrente;
–…
Abordagem utilizando Sistema de
Banco de Dados
• Utiliza um sistema de gerenciamento de bancos de dados
para manter um único repositório de dados;
– Evita redundância;
– Contém em si a definição de sua estrutura (metadados);
– Possui restrições implementadas que evitam inconsistências nos
dados;
– Solução genérica para qualquer aplicação;
– Permite o acesso concorrente de múltiplos usuários;
– Permite diferentes visões dos dados;
– Independência da aplicação;
– Permite representar relacionamentos complexos entre os dados;
– ...
Modelo de dados
• Uma coleção de conceitos que podem ser
usados para descrever a estrutura do banco de
dados.
• Projeto de um Banco de Dados Relacional
– Modelo de Dados Conceitual;
• Modelo de Entidades e Relacionamentos (MER);
– Entidades, atributos e relacionamentos;
» Diagrama de Entidades e Relacionamentos (DER);
– Modelo de Dados de Implementação;
• Modelo de Dados Relacional;
– Detalhamento do Modelo Conceitual (MER) e adequação ao
SGBDR;
– Modelo de Dados Baseado em Registros
» Representação através de estruturas de registros;
– Modelo de Dados Físico;
• Detalhes internos de armazenamento;
Diagrama de Entidades e
Relacionamentos
•
Notação Original
– Peter Chen,1976.
•
Modelo diagramático que descreve o modelo de dados de um sistema com
alto nível de abstração. Ele é a principal representação do Modelo de
Entidades e Relacionamentos.
Notação IDEF1X
Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier
Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017
ERwin®
Sistema de Gerenciamento de
Banco de Dados
• A database management system (DBMS) is a collection of
programs that enables users to create and maintain a database. The
DBMS is hence a general-purpose software system that facilitates
the processes of defining, constructing, and manipulating databases
for various applications. (R. Elmasri and S. B. Navathe)
•
•
•
Modelo de Dados Relacional (SGBDR)
– Inspirado na Álgebra Relacional
– Organiza os dados em uma estrutura de tabelas
– Linguagem SQL (Structured Query Language)
Modelo de Dados Orientado a Objetos (SGBDOO)
– Inspirado nos Paradigmas de Orientação a Objetos
– Permite a persistência de objetos
– Linguagem OQL (Object Query Language)
Modelo de Dados Objeto-Relacional (SGBDOR)
– Extensão do Modelo Relacional incorporando algumas das
funcionalidades do modelo Orientado a Objetos;
– Extensão da linguagem SQL (SQL3);
O2
Jasmine
Ambiente Simplificado de um
Sistema de Banco de Dados
Elmasri, R. A. and Navathe
Em que situações a abordagem
com arquivos é indicada?
• O banco de dados e as aplicações são
simples e bem definidas e não espera-se
alterações;
• Há o requisito de tempo-real para alguns
programas, não encontrado com o uso de
SGBDs dada sua sobrecarga;
• Não há necessidade de múltiplos acessos.
Banco de Dados
Flat file
• Abordagem utilizando arquivos
– Arquivos que contêm registros de dados que não
estão estruturalmente relacionados.
• Exemplo: Banco de Dados flat file de seqüências
de nucleotídeos (nt)
• Possui um padrão específico de formatação
– GenBank, Fasta, ASN.1 ...
• É necessário um programa chamado de parser,
que reconhece esses formatos específicos e
conseguem
extrair
informação
de
forma
automática.
– Ex.: Módulos da BioPerl
Revisão Histórica
Leroy Hood
Desenvolve o primeiro
seqüenciador automático
1986
1977
Gilbert & Sanger
Desenvolvem um
método para o seqüenciamento de DNA
Sequenciamento de DNA
• Sequenciamento manual x automático
CCCAACT...
Revisão Histórica
Iniciativa pública
Projeto Genoma Humano
Cancer Genome
Anatomy Project
1990
1988
National
Center for
Biotechnology
Information
Publicação
do rascunho
do Genoma
Humano
1996
1997
Rede
Organization for
Nucleotide
Sequencing and
Analysis
1999 2001
2000
Genoma
Xylella fastidiosa
E agora ?
Repositórios de Dados Biológicos
• 1965 – Atlas of Protein Sequences and
Structure (Dayhoff et al.) - 1Mb
• 1982 – GenBank – 1988 – NCBI – National
Center for Biotechnology Information
• 1997 – EMBL – European Molecular Biology
Laboratory
• 1986 – DDBJ – DNA Data Bank of Japan
International Nucleotide Sequence
Database Colaboration
• 100 Giga bases (Agosto de 2005)
Repositórios de Dados Biológicos
• PDB – Protein Data Bank
• UniProt – Universal Protein
Resource (Swiss-Prot,
TrEMBL, and PIR)
• KEGG – Kyoto
Encyclopedia of Genes and
Genome
Bancos de Dados Flat files do
NCBI
• FASTA
• GenBank
• ASN.1
Referências
• Date, C. J. 2003. An Introduction to
Database
Systems.
Addison-Wesley
Longman Publishing Co., Inc.
• Elmasri, R. A. and Navathe, S. B. 2003.
Fundamentals of Database Systems.
Addison-Wesley Longman Publishing Co.,
Inc.
Perguntas...
Daniel Guariz Pinheiro
[email protected]
http://scarecrow.fmrp.usp.br/~daniel/
MUITO OBRIGADO !!!
Download

Bancos de Dados Biológicos