Alexandre L. Martins
Valério A. Balani
Introdução
A cinqüenta anos atrás, o estudo da célula se
baseava fundamentalmente na observação de
suas estruturas com o uso do microscópio.
Bem pouco se conhecia do complexo
mecanismo que se processa em nível
molecular, coordenando, por meio da
atividade enzimática, todo o vasto
funcionamento íntimo da célula.
Introdução
O DNA foi, há 50 anos atrás, a última grande
revolucionária descoberta científica da
humanidade, abrindo novos caminhos para o
desenvolvimento das ciências da vida e para o
nascimento de áreas multidisciplinares de
estudo e pesquisa antes desconhecidas.
•Biologia Molecular
•Bioinformática
•Genômica
•Proteômica
•Engenharia Genética, ...
O que é Bioinformática?
"A bioinformática é uma nova disciplina científica com
raízes nas ciências da computação, na estatística e
na biologia molecular. A bioinformática desenvolveuse para enfrentar os resultados das iniciativas de
seqüenciamento de genes, que produzem uma
quantidade cada vez maior de dados sobre proteínas,
DNA e RNA. Desse modo, os biólogos moleculares
passaram a utilizar métodos estatísticos capazes de
analisar grandes quantidades de dados biológicos, a
predizer funções dos genes e a demonstrar relações
entre genes e proteínas".
Universidade de Wageningen, Holanda
http://www.bioinformatica.nl
O que é Bioinformática?
Dentre as características da Bioinformática,
pode-se citar:
O recebimento das seqüências
O tratamento de seqüências e a montagem do
genoma
A anotação do genoma.
Base para novas hipóteses
O que é Bioinformática?
Bioinformática: Um ramo da Biologia
Computacional que se vale de “informações”
para entender a Biologia. Para tanto, ela
constroi ferramentas computacionais com base
em “Algoritmos” que representam o
comportamento dos dados biológicos, sendo
este comportamento definido pela Ciência da
Computação como “Estrutura de Dados”.
O que é Bioinformática?
As características funcionais da Bioinformática
são:
Representação,
Armazenamento e
Distribuição de dados Biológicos.
O que é Bioinformática?
Qual a importância da BI para os biólogos?
Melhor planejamento experimental,
Redução de custos em P&D (homem/hora),
Melhor compartilhamento de informações e
Melhor Armazenamento de Informações.
O que é Bioinformática?
Importância
Genoma Humano: previsto para ser
desenvolvido e concluído em 15 anos, foi
antecipado, em cerca de 5 anos.
Hoje, um novo gene, com 12 mil bases tem
sua seqüência decifrada em 1 minuto, há 3
anos atrás a mesma tarefa levaria 20 minutos.
Breve Introdução aos
Conceitos
Computacionais da
Bioinformática
Dado
Menor parte da informação que não
possui um significado em si.
Exemplo: 5 6 3 4 5 6.
Estrutura de Dados
Comportamento dos dados e suas
características cuja determinação
permite definir qual o melhor tipo de
tratamento a eles se deve aplicar
visando a obtenção de informação
sobre estes.
Informação
Conjunto de dados organizado de
maneira a possuirem um significado que
descreva um objeto.
Ex: 12 anos, 12 anos, 25 anos : a média
dos tempos em ano é 16,3 anos.
Algoritmo
Processo de cálculo em que um certo
número de regras formais resolvem de
forma precisa ou aproximada, na
generalidade, sem exceções e de forma
finita, problemas da mesma natureza.
Exemplo de Algoritmo
1. Iniciar
2. Armazene X
3. Armazene Y
4. Some X + Y
5. Apresente o resultado
6. Finalizar
Linguagem
Conjunto de regras gramaticais que
definem a estrutura de comunicação
entre o usuário e o Sistema
Computacional.
Um Vírus em C
int main()
{
int *i;
new(i);
while (i != null) new(i);
}
Sistema Computacional
Infra-estrutura na qual são feitas as
implementações dos conceitos
computacionais, pode ser dividido em
dois conjuntos: Hardware e Software.
Infra-Estrutura
específica para a BI
Sistema Operacional(SO)
Software responsável pelo
gerenciamento das atividades de um
sistema computacional.
UNIX e GNU/LINUX
Estes dois sistemas fazem parte da família X (seu criador não foi o Prof.
Xavier) e têm por caracterísiticas:
Confiabilidade,
Multiplataforma (baixa ou alta),
Multiusuário,
Multitarefa,
Enorme gama de comandos,
Não é um sistema amigavel para iniciantes,
Possui um conjunto pderoso de aplicativos,
POSIX (Portable Operating System Interface),
Comunidade de desenvolvedores,
Escrito todo em C e
Baseado em arquivos texto (.txt)
Por que X?
O motivo da BI usar o Unix/Linux como SO preferêncial está no
fato desse SO ter sido criado para desenvovimentos de software
de alto desempenho em situações críticas, particularmente
aquelas nas quais estão envovidas enormes quantidades de
dados. A possibilidade de se usar um SO de alta performance em
baixa platamorfa (Linux e FreeBSD) ou se valer dos Clusters que
são construidos com base em Linux e fazem as vezes dos
Supercomputadores. O fator “preço” também é importante, é
possível usar sistemas X sem a necessidade de se pagar direitos
autorais. Some a isso o perfil acadêmico destes softwares que já
são amplamente usados em outras áreas como física e
matemática.
Linguagem de Programação Perl e
BI.
A Linguagem Prática de Extração e Geração de Relatórios - The Practical
Extraction and Report Language (ou Pathologically Eclectic Rubbish Lister) é
uma linguagem de programação estável e multiplataforma, usada em aplicações
de missão crítica em todos os setores, e é bastante usada para desenvolver
aplicações web de todos os tipos, foi criada por Larry Wall em dezembro de
1987. A origem do Perl remonta ao shell scripting, Awk e à linguagem C, e está
disponível para praticamente todos os sistemas operacionais, mas é usado mais
comumente em sistemas Unix e compatíveis. Perl é uma das linguagens
preferidas por administradores de sistema e autores de aplicações para a web. É
especialmente versátil no processamento de cadeias (strings), manipulação de
texto e no pattern matching implementado através de expressões regulares,
além de permitir tempos de desenvolvimento curtos. A linguagem Perl já foi
portada para mais de 100 diferentes plataformas, e é bastante usada em
desenvolvimento web, finanças e bioinformática
Características da Linguagem Perl
Perl tira as melhores características de linguagens como C, awk, sed,
sh, e BASIC, entre outras.
Sua interface de integração com base de dados (DBI) suporta muitos
bancos de dados, incluindo Oracle, Sybase, PostgreSQL, MySQL e
outros.
Perl tem módulos para trabalhar com HTML, XML, e outras linguagens
de markup. Perl suporta Unicode.Perl permite programação procedural e
orientada a objetos.
Perl pode acessar bibliotecas externas em C/C++ através de XS ou
SWIG.
Perl é extensível. Existem milhares de módulos disponíveis no
Comprehensive Perl Archive Network (CPAN).
O interpretador Perl pode ser embutido em outros sistemas.
Exemplo de código em Perl
Em Perl
printf “Oi mundo!! \n”;
Em C
void main()
{
printf (“Oi mundo!! \n”);
}
Banco de Dados
Bancos de dados, (ou bases de dados), são conjuntos de dados com
uma estrutura regular que organizam informação. Um banco de dados
normalmente agrupa informações utilizadas para um mesmo fim.
Um banco de dados é usualmente mantido e acessado por meio de um
software conhecido como Sistema Gerenciador de Banco de Dados
(SGBD). Normalmente um SGBD adota um modelo de dados, de forma
pura, reduzida ou extendida. Muitas vezes o termo banco de dados é
usado como sinônimo de SGDB.
O modelo de dados mais adotado hoje em dia ó o modelo relacional,
onde as estruturas têm a forma de tabelas, compostas por linhas e
colunas.
Bancos de Dados
Sistema de Gerenciamento de Banco de Dados
Construção
Manipulação
Administração
MySQL
•Gratuíto
MySQL
PostgreSQL
Oracle
sqlServer
•Código Aberto
•Acesso Veloz aos Dados
Bancos de Dados
Bancos de Dados
Fonte: GOLD[TM] Genomes OnLine Database
http://www.genomesonline.org/
Bancos de Dados
Primários:
GenBank
EBI-EMBL (European Bioinformatics Institut)
DDBJ (DNA Data Bank of Japan)
PDB (Protein Data Bank)
INSDC – International Nucleotide Sequence
Database Colaboration
Secundários:
PIR (Protein Information Resource)
SWISS-PROT
Bancos de Dados
Funcionais:
KEGG (Kyoto Encyclopedia of Genes and Genomes)
Mapas metabólicos de organismos com genoma
completamente ou parcialmente seqüenciados
Estruturais:
Mantém dados sobre estrutura de proteínas
Nucleic Acids Research
http://www3.oup.co.uk/nar/database/
BD de Seqüências
Há uma quantidade gigantesca de informação sobre biomoléculas em BD
públicos
Mais de 348 BD
– BD de seqüências de nucleotídeos
EMBL (http://www.ebi.ac.uk/embl)
GenBank (http://www.ncbi.nlm.nih.gov/GenBank)
DDBJ (http://www.ddbj.nig.ac.jp)
UniGene (http://www.ncbi.nlm.nih.gov/UniGene)
– BD de seqüências de proteínas
SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)
PIR (http://pir.georgetown.edu)
– BD de motivos
Pfam (http://www.sanger.ac.uk/Software/Pfam)
PROSITE (http://www.expansy.ch/prosite)
– BD de estruturas macromoleculares 3D
PDB (http://www.rcsb.org/pdb)
Usos de BD de Seqüências
O que se pode descobrir sobre um gene por meio
de uma busca a um BD?
– Informação evolutiva: genes homólogos, freqüências
dos alelos, ...
– Informação genômica: localização no cromossomo,
introns, ORFs, regiões reguladoras, ...
– Informação estrutural: estruturas da proteína
correspondente, tipos de folds, domínios estruturais, ...
– Informação de expressão: expressão específica a um
dado tecido, fenótipos, doenças, ...
– Informação funcional: função molecular/enzimática,
papel em diferentes rotas, papel em doenças, ...
Busca em BD de Seqüências
O que queremos saber sobre a seqüência?
– Ela é similar ao algum gene conhecido? Quão próximo é o
melhor match? Significância?
– O que sabemos sobre este gene?
Genômica (localização no cromossomo, regiões reguladoras, ...)
Estrutural (estrutura conhecida? ...)
Funcional (molecular, celular e doença)
– Informação evolutiva
Este gene é encontrado em outros organismos?
Qual é sua árvore taxonômica?
NCBI e Entrez
A mais usada interface para a recuperação de informação de BD
biológicos é o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez)
– NCBI (National Center for Biotechnology Information)
– O sistema Entrez tira vantagem do fato que há relacionamentos lógicos
pré-existentes entre as entradas indíviduas encontradas em diversos BD
públicos
Por um exemplo, um artigo no PuBMed pode descrever o
sequenciamento de um gene cuja seqüência aparece no GenBank
A seqüência de nucleotídeos, por sua vez, pode codificar o produto de
uma proteína cuja seqüência está armazenada em um BD de proteínas
A estrutura 3D desta proteína pode ser conhecida - as coordenadas da
estrutura podem aparecer em um BD de estruturas
Finalmente, o gene pode ter sido mapeado para uma região específica
do cromossomo - BD de mapeamento
– A existência dessas conexões naturais, levou ao desenvolvimento de um
método por meio do qual toda a informação poderia ser encontrada sem
ter que visitar sequencialmente BD distintos
Mais que NCBI
Links para anotações funcionais fora do NCBI
– Gene Ontology - nomes padrões para:
Funções moleculares
Localização celular
Processos
– Links para o BD KEGG (vias)
Alinhamento de Seqüências
Possibilitar ao pesquisador determinar se duas seqüências
apresentam suficiente similaridade tal que uma inferência sobre
homologia possa ser justificada
– Homologia: significa dizer que duas (ou mais) seqüências tem um
ancestral comum
História evolutiva
– Similaridade: é uma medida da qualidade do alinhamento entre
duas seqüências, baseada em algum critério
Não se refere a nenhum processo histórico
Apenas uma comparação das seqüências com algum método
É uma afirmação logicamente mais fraca
Relação entre Seqüências
Alinhamento de Seqüências
Programas mais utilizados:
ClustalW
Multialin
FASTA
Blast 2 sequences
Blast
Alinhamento de Seqüências
Alinhamento Global e Local
Alinhamento Global e Local
Global
– Seqüências são comparadas como um todo
Útil quando temos seqüências que diferem pouco entre si
Inclui gaps
Local
– O alinhamento localiza fragmentos de seqüências que são mais
similares
Algumas vezes não inclui gaps
Muitas proteínas não apresentam um padrão global de
similaridade
– Mosaico de domínios modulares
Alinhamento de seqüências de nucleotídeos de um mRNA
processado (spliced) com sua seqüencia genômica
(Exon/Intron)
Alinhamento de Seqüências
•Unidade pareada (match): +
•Espaços (gaps): -
•Não pareadas (mismatch): -
Alinhamento de Seqüências
Alinhamento de Seqüências
Alinhamento de Seqüências
Alinhamento de Seqüências
Alinhamento de Seqüências
Alinhamento de Seqüências
Blast 2 Sequences
Projetos Genoma
•Shotgun
•Shotgun hierárquico
Base Calling
Dados Brutos
do Seqüênciador
Programa de
Base calling
Identifica e atribui
valor de qualidade
para cada
nucleotídeo
Base Calling
PHRED
Reconhece arquivos .SCF, .ABI e .MegaBACE
ESD
Reconhece os dados brutos do seqüenciador
Atribui valores de qualidade aos nucleotídeos
Gera arquivos de saída com informações sobre
o basecall e os valores de qualidade (FASTA e
PHD)
Base Calling
Cálculo
Algorítmo – Métodos de Análise de Fourier.
Qualiadade: probabilidade de erro
PHRED Quality -log (Pe)
Ex: Valor 20 para uma posição nucleotídica
significa uma chance em 100 de estar errada
Valor 30 para uma posição nucleotídica
significa uma chance em 1000 de estar errada
Phred – qualidade dos reads
Alta qualidade
Média qualidade
Baixa qualidade
Mascaramento de Vetores
Retirada de seqüências contaminantes:
Partes de vetores de clonagens
DNA adaptores
Programa mais utilizado é o Cross_match
Mascaramento de Vetores
Agrupamento de Seqüências
Software de montagem (Assembler)
PHRAP
CAP3
TIGR Assembler
•Leitura do base call
•Montagem dos contigs
Agrupamento de Seqüências
Pontos Chaves
Uso de seqüências com alta qualidade
Uso de informações de qualidade computadas
internamente e fornecidas pelo usuário
Informações sobre as montagens realizadas
Projetos Genoma =
contíguo genômico
Projetos Transcriptoma =
seqüências dos genes
expressos
O Phrap
Assembler (monta as sequencias
contíguas usando as reads).
Contig 1
reads
Contig 2
Região de
sobreposição
Visualização e Montagem
Progamas Phrapview ou Consed
Standen Package
Standen Package
Standen Package
Standen Package
Standen Package
Fluxo de dados
Sequenciador
Phred
Phd2fasta
Indireto
Cross_match
Consed
Phrap
Análise de Genomas
Então, o que fazer com um genoma completo?
Afinal, um genoma seqüenciado consiste apenas
de um infinidade de bases em uma ordem definida
Análise é obviamente necessária a fim de se obter
informações biologicamente interessantes. A
análise de um genoma cobre muitos aspectos
diferentes
Anotação Gênica
•RepeatMasker
•Genscan
•tRNAscan-SE
•BLAST
•InterproGeneOntology
•GenomeScan
Definição da localização dos genes (regiões
codificadoras, regiões reguladoras)
Predição de genes ab initio usando software
baseado em regras e padrões.
Identificação de genes por meio de alinhamento
com proteínas conhecidas e seqüências EST
Predição de genes por meio de similaridade com
proteínas e seqüências EST em outros
organismos
Predição de genes por meio de comparação com
outros genomas
Regiões conservadas são provavelmente regiões
codificadoras ou reguladoras
Anotação Gênica
Algorítimo gene-finder chamado BGF (BGI
GeneFinder) baseado no GenScan e FgeneSH
Teste com Drosophila
Predição: 13.366 genes
Oficial: 13.379 genes
E a Bioinformática
não pára por ai...