BIOLOGIA/MEDICINA
A Revolução da
Genômica/Bioinformática
A Verdadeira Revolução
Início do séc. 20:
Mendel e as leis da hereditariedade.
1944:
DNA como elemento carreador da
informação genética (Avery)
1953:
Watson/Crick e aestrutura do DNA.
Anos 70 e 80:
Biologia Molecular/Biotecnologia
Anos 90 e séc. 21:
Genômica/Bioinformática
História da Biologia Molecular












1951
1953
1957
1960’s
1967
1972
1973
1977
1977
1978
1980
1983
Fred Sanger, Amino Acid Sequence of Insulin
Watson/Crick, Estrutura do DNA
Francis Crick, Central Dogma, DNA  RNA  Protein
Nirenberg, Matthaei, The Genetic Code
Shapiro and Beckwith, First gene cloned, LacZ
Paul Berg, First recombinant DNA molecule
Cohen/Boyer, First recombinant organism
Maxam/Gilbert and Fred Sanger, DNA sequencing
Fred Sanger, Complete sequence of phage X174
David Botstein, Restriction Fragment Length
Polymorphisms (RFLP)
Kerry Mullis, PCR
Lee Hood, First Automated DNA Sequencer
Sequenciamento
do DNA
Sanger, Gilbert (Nobel 1980)
Sequenciamento Automático
Leroy Hood
30kb por corrida
A era genômica
376 Genomas Concluídos! 251 como
rascunho! 342 em andamento
327 Bacterial, 27 Archeal, 22 Eukaryotic












1995, Haemophilus influenzae
1996, Methanococcus jannaschii
1997, Saccharomyces cerevisiae
1997, Escherichia coli
1998, Caenorhabditis elegans
2000, Drosophila melanogaster
2000, Arabidopsis thaliana
2001, Homo sapiens
2002, Schizosaccharomyces
pombe
2002, Oryza sativa
2002, Mus musculus
2005, Pan troglodites
http://www.ncbi.nlm.nih.gov
09/07/2006
Um modelo genético
Genoma Humano
2001

International Consortium


Grupos acadêmicos
Celera Genomics

Companhia Privada
A nova revolução da Genômica
454
~120 MB de DNA
por corrida
12KB/US$
Solexa - Illumina
~01 GB de DNA
por corrida
100KB/US$
Tecnologia de Capilar = 0.5KB/US$
SOLiD - ABI
~03 GB de DNA
por corrida
300KB/US$
Nova tecnologia
Dispensa clonagem dos fragmentos em
sistemas bacterianos
 Dispensa a preparação de DNA molde
para sequenciamento
 Reações feitas em paralelo em volume
extremamente pequeno nanotecnologia

Aplicações

Sequenciamento de Genomas
 sequenciamento
de novo
 re-sequenciamento - variabilidade SNPs e
mutações

Sequenciamento de Transcriptomas
 variabilidade
- splicing, poliadenilação
 quantificação de expressão gênica
Sequenciamento de novo
Re-sequenciamento
Transcriptoma
Projeto 454
Participantes: LICR-SP, LICR-NY, Venter Institute
Objetivo: Sequenciamento extensivo dos genes
expressos na linhagem celular HCC1954 (tumor de
mama) buscando conhecer, com um único set de
dados, alterações genéticas e epi-genéticas neste tipo
de câncer.
Sequenciador: 454
Fapesp/LICR
Genoma Humano do Câncer
Projeto 454 Venter/LICR
# sequências
1.2 milhões
520 mil
# sequenciadores
05 MegaBaces
01 454
# corridas
~15,000
01
Custo (US$)*
12 milhões
10 mil
* Excluindo o preço dos aparelhos
Um objetivo a curto prazo
Os sequenciadores de nova geração
promovem uma mudança no
paradigma
Geração de dados
deixa de ser o fator
limitante
Com os bilhões de
datapoints gerados em
horas, o processamento
e análise dos dados
tornou-se o maior
gargalo das pesquisas
biomédicas.
Bioinformática
Computação
 Matemática
 Biologia

O que é Bioinformática?
Bioinformática - História







1970, Needleman/Wunch, Alinhamento Global.
1972, Margaret Dayhoff, Matrizes de
Comparação.
1979, Walter Goad, GenBank.
1981, Smith/Waterman, Alinhamento Local.
1989, NHGRI, Projeto Genoma Humano.
1990, Altschul/Gish/Miller/Myers/Lipman, BLAST.
1994, Eddy/Krogh/Durbin, Hidden Markov
Models (HMMs).
Bioinformática - Importância

Poucas pessoas adequadamente treinadas em
Biologia e Computação.

Biologia em larga-escala. Produção de dados
em massa gera uma demanda para análises
computacionais.

Economiza tempo e dinheiro.
Bioinformática




Desenvolvimento de ferramentas.
Forma de explorar novos dados.
Processamento de dados gerados por
projetos em larga-escala.
Uma nova forma de se fazer ciência
dirigida por hipóteses.
Bioinformática
O Bioinformata
- Manipula a informação.
- Desenvolve ferramentas
- Bancos de dados locais.
- Local.
- Mta programação.
- Habilidades de TI.
O Usuário
- Recursos da Web.
- Local ou remoto.
- nada de programação.
- pouca habilidade de TI.
Cinco websites que todos devem
conhecer

NCBI (The National Center for Biotechnology Information;


EBI (The European Bioinformatics Institute)


http://genome.ucsc.edu/
SwissProt/ExPASy (Swiss Bioinformatics Resource)


http://www.ebi.ac.uk/
The UCSC Genome Browser


http://www.ncbi.nlm.nih.gov/
http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank)

http://www.rcsb.org/PDB/
NCBI
(http://www.ncbi.nlm.nih.gov/)

Acesso aos bancos de dados via Entrez
 Medline/OMIM
 Genbank/Genpept/Structures

Servidor de BLAST
 Todos
os tipos de Blast
Portal do Genoma Humano
 Muito, muito mais……..

EBI (http://www.ebi.ac.uk/)

Acesso a bancos de dados via SRS
 EMBL,

SwissProt, ……
Muitas outras ferramentas
 ClustalW,
DALI, …
UCSC Genome Browser
(http://genome.ucsc.edu/)

Banco de dados e Browser para genomas
de diferentes espécies
 Humano,

camundongo, rato, zebrafish, etc….
Muitas outras ferramentas
 SNPs,
domínios prtéicos, genômica
comparativa, etc….
SwissProt
(http://www.expasy.ch/sprot/)

Checagem manual.
O
número de entradas errôneas é bastante
reduzido.
Cross-link extensivo com outros bancos
 SwissProt é o ‘gold-standard’ em termos
de bancos de dados e é o melhor lugar
para se começar uma análise se vc
procura info para uma ou poucas

Protein Data Bank – PDB
(http://www.rcsb.org/pdb/)

Armazena a estrutura tri-dimensional para
milhares de proteínas

Acesso a vários serviços relacionados a
biologia estrutural
Bancos de
Sequência Primários
GenBank (USA)
http://www.ncbi.nlm.nih.gov/Genbank
EMBL (Europa)
http://www.ebi.ac.uk/embl/
DDBJ (Japão)
http://www.ddbj.nig.ac.jp/
Homologia
- Ortologia
- Paralogia
Dois conceitos importantes

Paralogia: O evento que originou às duas
sequências é um evento de duplicação
gênica! FUNÇÕES SIMILARES!

Orthologia: O evento que deu origem às
duas sequências é um evento de
especiação! FUNÇÕES IDÊNTICAS!
Como definir função?
Alinhamento de sequências
 Motivos (padrões consensuais)
 Blocos, perfis, etc....
 Hidden Markov Models - HMM

Similarity Searches on Sequence Databases, EMBnet Course, October 2003
Alinhamento
0 1 2 3 4 5 6 7 8 9 10
G A A - G G A T TA G
G A T C G G A - -A G

Identidade - MATCH

Semelhança / divergência - MISMATCH

Lacunas - GAPS

Inserção/Deleção - INDELS
Alinhamento
Qual é o melhor alinhamento ?
Alinhamento 1:
Alinhamento 2:
A–C–GG–ACT
| | | ||
ATCGGAT–CT
ATCGGATCT
| |||
-||
A–CGG–ACT
Pontuação
Esquema de pontuação
match: +2
mismatch: +1
indel: –2
Alinhamento 1: (5 *2) + (1*1) + (4*-2) = 10 + 1 – 8 = 3
Alinhamento 2: (6 *2) + (1*1) + (2*-2) = 12 + 1 – 4 = 9
Escore final = soma dos escores para cada posição
Favorece os matches, penaliza os gaps
Matriz de Substituição

Tabela de comparação

Reflete a probabilidade ou frequência de determinada substituição
em sequências biologicamente relacionadas

p(A  B) = p(B  A)

Construídas pelo estudo do alinhamento de diversas sequências
relacionadas

AA ou nucleotídeos
Percent Accepted Mutation
(PAM - Dayhoff)

Margaret Dayhoff (1978)

Probabilidade de substituição de aa em alinhamentos globais de sequências
homólogas

Cada matriz reflete as mutações entre sequências que divergiram por
determinado período de tempo

Mutações aceitas => não afetam negativamente a viabilidade da proteína

Primeira matriz
 71 grupos de proteínas, 85% de similaridade
 1572 substitutições de aminoácidos

Expansão do número de proteínas => 1991 database
Matrizes PAM

Premissa => cada mutação é independente das mutações anteriores

Consequência => as substituições observadas em curtos períodos podem ser
extrapoladas para longos períodos

PAM 1 => sequências com 1% ou menos de divergência =>1 mutação aceita a
cada 100 aminoácidos

PAM N mutações = (PAM 1)N

PAM 250 => 250 mutações por 100 aa => 250% mutações em 2500 milhões anos

PAM 250: 20% similar - PAM 120: 40% - PAM 80: 50% - PAM 60: 60%
http://www.blc.arizona.edu/courses/bioinformatics/dayhoff.html
Blocks Substitution Matrix
(BLOSUM)

Kenikoff & Henikoff (1992)

Frequência de substituição de aa em um conjunto de ~2000 padrões (blocos)

Maior número de sequências consideradas => mais de 500 famílias

Alinhamentos locais de sequências relacionadas e não geradas a partir de
extrapolações

BLOSUM 62 é o padrão para BLAST 2.0 => sequências moderadamente distantes
ou mais próximas

Sequências Consenso
 60% idênticas: BLOSUM 60
 80% idênticas : BLOSUM 80
http://www.blc.arizona.edu/courses/bioinformatics/blosum.html
GAVCTKI
GVVCYRE
6+0+4+9+(-2)+2+(-3)= 16
Relação ente BLOSUM e PAM
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html
PAM => origens evolutivas de proteínas
BLOSUM => domínios conservados
Global vs. Local
Global

Alinhamento de toda a sequência utilizado o maior número de
caracteres possíveis

Sequências similares e de tamanho aproximado
Local

Segmentos com o maior número de identidades

Regiões alinhadas e não alinhadas (≠ mismatch)

Sequências similares em algumas regiões, que diferem em
tamanho ou que compartilham domínios conservados
Aplicações
Global

Deduzir histórias evolutivas entre membros da mesma família

Estabelecer a existência de um ancestral comum (homologia)
Local

Inferir funções biológicas

Identificar regiões conservadas e de alta similaridade (sítio ativo,
domínios) entre outras pouco conservadas

Reconstruir sequências de DNA a partir de seus fragmentos

Comparar sequências de mRNA (sem íntrons) à sequência genômica
Métodos de Análise

Diagramas - DOT PLOT

Algoritmo de Programação Dinâmica

Algoritmos Heurísticos - Word-Based ou K-tuples
Dot Plot
Inserções & Deleções
Repetições & Inversões
Programas
Disponíveis

Dotter (http://www.cgr.ki.se/cgr/groups/sonnhammer/Dotter.html)

COMPARE & DOTPLOT (Genetics Computer Group)

PLALIGN (http://fasta.bioch.virginia.edu/fasta/fasta_list.html)

Web browser (http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html)
Programação
Dinâmica

Needleman & Wunsch (1970)

Compara cada par de caracteres nas duas sequências

Posiciona os gaps de forma a obter o maior número de
alinhamentos idênticos ou similares

Gera uma matriz de números que representa todos os possíveis
alinhamentos de acordo com um sistema de escore

Alinhamento ótimo => maior escore
Limitações

Computacionalmente lento

Número de alinhamentos cresce exponencialmente com a
média dos comprimentos das sequências (n)

Número de cálculos => proporcional a n2 ou n3

Memória => capacidade da ordem de n2
Needleman-Wunsch
As sequências
abcdefghajklm
abbdhijk
São alinhadas e scores são dados
a b c d e f g h a
| |
|
|
a b b d . . . h i
match
4 4
4
4
mismatch
-3
-3
gap_open
-2
gap_extend
-1-1-1
Score total de 24-6-2-3 = 13.
j
|
j
4
k l m
|
k
4
Needleman-Wunsch
O alinhamento de maior score entre as duas
sequências é considerado o mais provável.
Needleman-Wunsch
Saída típica:
Global: HBA_HUMAN vs HBB_HUMAN
Score: 290.50
HBA_HUMAN
1
HBB_HUMAN
1
HBA_HUMAN
45
HBB_HUMAN
44
HBA_HUMAN
84
HBB_HUMAN
89
HBA_HUMAN
129
HBB_HUMAN
134
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFP 44
|:| :|: | | |||| : | | ||| |: : :| |: :|
VHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFE 43
HF.DLS.....HGSAQVKGHGKKVADALTNAVAHVDDMPNALSAL 83
| |||
|: :|| ||||| | :: :||:|::
: |
SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATL 88
SDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKF 128
|:|| || ||| ||:|| : |: || |
|||| | |: |
SELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKV 133
LASVSTVLTSKYR
:| |: | ||
VAGVANALAHKYH
%id = 45.32
Overall %id = 43.15
%similarity = 63.31
Overall %similarity = 60.27
141
146
Razões para se usar um banco de sequências

Eu acabei de obter uma sequência. O que é sabido à respeito desta
sequência? Ela é única?

Eu tenho uma sequência única. Ela tem similaridade com alguma
outra sequência de função conhecida?

Eu encontrei uma nova proteína em um determinado organismo.
Existe um ortólogo conhecido?

Eu decidi trabalhar com um gene novo. Eu não tenho como obter um
clone contendo a sequência deste gene. Eu preciso da sequência
do cDNA para fazer uma PCR.
O que envolve uma busca ?

Algoritmos de busca (BLAST, FASTA)

Matrizes de comparação (PAM vs. BLOSUM)

Banco de dados (nr, dbEST)

Parâmetros de busca (filtros on/off, threshold, etc…)
Basic Local Alignment Search Tool

Método heurístico => método empírico, que utiliza a fórmula ´tentativa e
erro´ para encontrar as soluções

Significado estatístico => determina se um alinhamento ocorre
aleatoriamente ou não

Vantagem => pelo menos 50 vezes mais rápido que os algoritmos de
programação dinâmica e mais apropriados para busca em bancos de
dados

Desvantagem => não garante uma solução com um alinhamento ótimo
como os algoritmos de programação dinâmica
Aplicações

Identificar sequências ortólogas e parálogas

Descobrir novos genes ou proteínas

Descobrir variantes de genes e proteínas

Investigar Expressed Sequence Tags - ESTs

Explorar a estrutura e função de proteínas
BLAST WEB Pages

BLAST (NCBI – National Center for Biotechnology Information):
http://www.ncbi.nlm.nih.gov/BLAST/

BLAST2 (Swiss EMBnet server - European Molecular Biology
network??): http://www.ebi.ac.uk/blastall/

WU-BLAST (Washington University): http://blast.wustl.edu/
Blast é Heurístico
1) Tabela de busca com todas as ´palavras´ (words) de comprimento W (3 aa ou11
nucleot.) mais as palavras vizinhas semelhantes, que aparecem pelo menos T
vezes na sequência query.
2) Busca de sementes (hits, hot spots) na sequência do banco de dados que
alinhem com as palavras previamente estabelecidas.
3) Extensão das sementes em ambas as direções, produzindo alinhamentos locais
máximos (HSP - high scoring pair) com ou sem lacunas, de acordo com os
parâmetros estabelecidos.
4) Registro da informação em um arquivo SeqAlign (ASN.1).
5) A informação é utilizada para buscar sequências similares. Os resultados podem
ser reformatados sem a necessidade de refazer a busca.
Sensibilidade vs. Seletividade
Sensibilidade
Habilidade de encontrar a maior parte dos membros relacionados à família da
sequência query
Seletividade
Habilidade de não identificar sequências de outras famílias como falsopositivos
“Grau de cobertura dos membros da família dado um nível de falso-positivos”
Escores e Estatística
Bit Score

Indica quão bom é o alinhamento. Quanto maior o escore, melhor o alinhamento

Considera o número de resíduos idênticos ou similares e a quantidade de gaps

Influenciado pela Matriz de Substituição (padrão: BLOSUM 62 )

Exceção: blastn and MegaBLAST

Normalização: bit scores de diferentes alinhamentos podem ser comparados
Escores e Estatística
E-value

Significado estatístico do alinhamento

Quanto menor o escore, mais significativo é o alinhamento

E-value = 0.05. Significa que existem 5 chances em 100 (1 em 20) da
similaridade entre as sequências ocorrer aleatoriamente

Influenciado pelo tamanho do banco de dados e o sistema de escore
utilizado
Etapas de Busca
1) Selecionar a sequência (query)
2) Selecionar o banco de dados
3) Selecionar o programa
4) Definir os parâmetros
Passo 1: Escolha da sequência

Natureza

Tamanho

Formatos : Identificadores (ID), FASTA (>seq name), sequências puras (txt?)
Passo 2: Seleção do Banco de Dados
Proteínas
GenBank, PDB, SWISSPROT, PIR, REPBASE68 e BDGP
Nucleotídeos
GenBank, EMBL, DDBJ, PDB, REPBASE, BDGP, EST69, STS70, vetores, sequências de
mitocôndrias, GSS71, sequências HTGS72
Conteúdo

não-redundância,

periodicidade de atualização

organismos ou espécies

sequências patenteadas

interesse imunológico
 elementos repetitivos, etc.
http://www.ncbi.nlm.nih.gov/blast/BLAST_guide.pdf
Passo 3: Seleção do Programa

Natureza da sequência

Finalidade da busca

Banco de dados
DNA codifica 6 proteínas potenciais
5’ CAT CAA
5’ ATC AAC
5’ TCA ACT
5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’
3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’
5’ GTG GGT
5’ TGG GTA
5’ GGG TAG
Tipos de Programas
programa
entrada
blastn
DNA
blastp
protein
blastx
DNA
tblastn
protein
tblastx
DNA
banco de dados
1
1
6
6
36
DNA
protein
protein
DNA
DNA
Passo 4: Seleção dos parâmetros




Tamanho da palavra (w-er)
Filtros
E value
Matriz de substituição & penalidades para gap
Sensibilidade e velocidade => W, T e X
Seletividade => cutoff score
Entrez
Filter
Expect
Word size
Scoring matrix
organism
Filtro
Report Header



Tipo de programa (BLASTP), versão (2.2.1) e data da versão
Artigo que descreve o BLAST, request ID (issued by QBLAST), a definição da sequência e
resumo do banco de dados
Taxonomy reports: mostra o resultado deste BLAST na base de informação do banco de
dados Taxonomy
Taxonomy Report
Graphical Overview
query
database hits




Quanto mais próximas da query, mais semelhantes
Barras em rosa: lower-scoring matches que alinham em 2 regiões (resíduos 3-60 e 220500)
Segmento rachurado: as duas regiões de similaridade estão na mesma proteína mas esta
região não alinha
Outras barras: lower-scoring matches
One-line Descriptions
(a) gi number, designação do banco de dados, número de acesso e o nome do locus para as
sequências encontradas, separados por barras verticais
(b) Definição da sequência
(c) Escore de alinhamento ( bits)
(d) E-value
Pairwise Sequence Alignment
Famílias de Elementos
Repetitivos
Alu
 L1
 L2
 Tais sequências podem gerar
alinhamentos espúrios.

Alu
Constitutes about 5% of the human
genome.
 Short interspersed repeats.
 Found in primate genomes.
 ALU elements often found in 3’ regions or
introns.

Blast usando uma sequência
de Alu
Como identificar e remover
elementos repetitivos
Filter para elementos repetitivos no
servidor de Blast do NCBI
 Repeat Masker:
http://ftp.genome.washington.edu/cgibin/RepeatMasker

Nair & Rost, 2002
Way out!
- psi-Blast
- pattern (phi-Blast)
- Hidden Markov Models (HMMs)
Position Specific Interactive (PSI)BLAST

Detecta proteínas fracamente relacionadas ou novos membros de uma família
protéica (mais sensível)

Utilizado quando o BLAST padrão falha em encontrar hits significativos ou
retorna hits com decrições do tipo "hypothetical protein" ou "similar to... "

Busca iterativa => comparam-se as sequências de alto escore com a sequência de
busca para determinar quais delas são altamente conservadas

Sequências resultantes => construção de um modelo de escore específico por
posição (consenso) => Position-Specific Scoring Matrix (PSSM ou profile)
PSI-BLAST - Algoritmo

Busca com BLASTp normal

Construção de um consenso a partir das regiões alinhadas com E
values menores que o limite estabelecido (padrão = 0.005)

Utilizando este consenso, procede a uma nova pesquisa sobre a base
de dados

Quaisquer novos hits abaixo do limite são incluídos em um novo
PSSM

Fim do processo (convergência) : nenhuma nova sequência é
adicionada ao consenso em iterações subsequentes
Pattern-Hit Initiated (PHI)-BLAST

Busca proteínas que contém padrão especificado pelo usuário E é similar à sequência query
em relação in the vicinity ao padrão

Reduz o número de hits que contém o padrão no banco de dados mas pode também
apresentar nenhuma homologia ao query

Exemplo de sequência query e um padrão no formato ProSite:
>gi|4758958|ref|NP_004148.1| Human cAMP-dependent protein kinase
MSHIQIPPGLTELLQGYTVEVLRQQPPDLVEFAVEYFTRLREARAPASVLPAATPRQSLGHPPPEPGPDR
VADAKGDSESEEDEDLEVPVPSRFNRRVSVCAETYNPDEEEEDTDPRVIHPKTDEQRCRLQEACKDILLF
KNLDQEQLSQVLDAMFERIVKADEHVIDQGDDGDNFYVIERGTYDILVTKDNQTRSVGQYDNRGSFGELA
LMYNTPRAATIVATSEGSLWGLDRVTFRRIIVKNNAKKRKMFESFIESVPLLKSLEVSERMKIVDVIGEK
IYKDGERIITQGEKADSFYIIESGEVSILIRSRTKSNKDGGNQEVEIARCHKGQYFGELALVTNKPRAAS
AYAVGDVKCLVMDVQAFERLLGPCMDIMKRNISHYEEQLVKMFGSSVDLGNLGQ

Padrão encontrado:
[LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV]
Hidden Markov Models




An approach based on statistical sampling
theory
Previously used with success for natural
language processing
Model sequence as a Markov model that is not
known (hidden)
Observed sequence is a noisy representation of
the hidden “true” model
A HMM for a DNA sequence
T (prob 0.8)
or A (prob 0.2)
C
C
A
T
G (prob 0.1)
or C (prob 0.9)
A (prob 0.7)
or T (prob 0.3)
G (prob 0.1)
or C (prob 0.9)
Idea of HMM
Since multiple alignment of k sequences
take O(Nk) time, instead estimate a
statistical model of the sequences
 Align the multiple sequences to this model
 This is equivalent to aligning the
sequences to one another

Protein Family Classification
Pfam
 large collection of multiple sequence
alignments and hidden Markov models
 covers many common protein domains
and families

 Over
73% of all known protein sequences
have at least one match
 5,193 different protein families
Pfam

Initial multiple alignment of seeds using a
program such as Clustal

Alignment hand scrutinized and adjusted
Pfam

Links to the Pfam software:


http://pfam.wustl.edu/
http://www.sanger.ac.uk/Software/Pfam/index.shtml

View some examples:

 http://pfam.wustl.edu/
Locating ORFs

Simplest method of predicting coding regions is
to search for open reading frames (ORFs)

open reading frames begin with a start (AUG)
codon, and ends with one of three stop codons

Six total reading frames
Locating ORFs

Prokaryotes: DNA sequences coding for proteins
generally transcribed into mRNA which is translated into
protein with very little modification

Locating an open reading frame from a start codon to a
stop codon can give a strong suggestion into protein
coding regions

Longer ORFs are more likely to predict protein-coding
regions than shorter ORFs.
Locating ORFs

Eukaryotes: mRNA undergoes processing to
remove introns before the protein is translated

ORF corresponding to a gene may contain
regions with stop codons found within intronic
regions

Posttranscriptional modification makes gene
prediction more difficult
Filogenia

Problema de determinação de árvores
filogenéticas
 Encontrar
a árvore que melhor descreve a
relação entre um conjunto de objetos
(espécies ou táxons)
Cenoura
Baleia Chimpanzé Humano
Filogenia

Táxons e Complexidade
3
árvores possíveis para 4 táxons
Filogenia

Táxons e Explosão Combinatorial
Métodos para reconstrução
filogenética
03 métodos principais: :
 Parsimônia
 Métodos
baseados em distância
 Verossimilhança máxima
Parsimônia

Dá preferência à topologia que requer o menor número
de mudanças .
Filogenia

Métodos de Distância
 A distância
evolutiva é calculada para todos
os pares de táxons
 Matriz de Distâncias
 A árvore filogenética é construída
considerando a relação entre esses valores
de distâncias
O método de evolução mínima

Para todas as topologias possíveis :


Calcula o comprimento de todos os ramos, S
Mantém a árvore com menos S.
Problema: computacionalmente intenso. Não é
usado com mais de 25 sequências.
Filogenia

Métodos com Critério de Ótimo
 Máxima Verossimilhança
 Determina-se a probabilidade de um modelo evolutivo
gerar um certo dado
 Considera todos os sítios e todas as possibilidades
de mutações em todos os nós internos da árvore
proposta
 Multiplica-se a probabilidade de cada sítio
 Probabilidade da árvore
 Pode ser utilizado para análises de características e de
valores
 Mais consistente e com estimativas com menor variância
 Não é simples e intuitivo
 Computacionalmente intenso
Bootstrap procedure
O suporte para cada ramo interno é expresso em
termos the % de réplicas.
"bootstrapped” tree
Gallus
0.02
Rattus
91
46
Mus
Bos
97
Hom o
Xenopus
Bootstrap
Ramos internos suportados por ≥ 90%
das réplicas são considerados
estatisticamente significativos.
 O procedimento de bootstrap não
define se um programa é bom. Uma
árvore errada pode ter 100% de
suporte de bootstrap em seus ramos
internos.

Tempo de processamento para vários programas
distance < parsimony ~ PHYML << Bayesian < classical ML
NJ
DNAPARS
PHYML
MrBayes
fastDNAml,PAUP
Recursos de Web para filogenia

Compilações

Uma lista de web sites
http://www.ucmp.berkeley.edu/subway/phylogen.htm
l

Uma lista grande de programas
http://evolution.genetics.washington.edu/
phylip/software.html
Recursos de Web para filogenia

Editor de alinhamento

SEAVIEW : para windows e unix
http://pbil.univ-lyon1.fr/software/seaview.html

Programas para filogenia molecular

PHYLIP :
http://evolution.genetics.washington.edu/phylip.html

PAUP :
http://paup.csit.fsu.edu/index.html

PHYLO_WIN :
http://pbil.univ-lyon1.fr/software/phylowin.html

MrBayes :

http://morphbank.ebc.uu.se/mrbayes/

PHYML :
http://www.lirmm.fr/~guindon/phyml.htm
Recursos de Web para filogenia

Desenho de árvores
NJPLOT (para todas as plataformas)
http://pbil.univ-lyon1.fr/software/njplot.html

Aulas de filogenia
http://www.bioinf.org/molsys/lectures.html
[email protected]
Ontologia
Fornecer um vocabulário estruturado
e controlado para representar
o conhecimento biológico nos bancos
de dados.for the
Gene Onthology (GO)

Biological Process
 Objetivo

Molecular Function
 Função

dentro da célula, tecido…
básica ou tarefa
Cellular Component
Compartimento
ou complexo
Busca com a palavra “collagenase”
Conteúdo do GO
•molecular function
•biological process
•cellular component
7422 termos
8972 termos
1472 termos
•all
17,866 terms