‘
Introdução à
Bioinformática
Sónia Andrade
setembro/2012
ESALq - USP
1
‘
O que é bioinformática
“... é a pesquisa, desenvolvimento e aplicação de
ferramentas e abordagens computacionais que
permitem o uso de de dados biológicos,
comportamentais ou da área de saúde, incluindo sua
aquisição, organização, visualização, análise e
armazenamento”
(http://www.bisti.nih.gov/CompuBioDef.pdf)
National Center for Biotechnology Information
Origem
- Universidade de Ultrecht, Grupo de
Bioinformática, final dos anos 1970
- Paulien Hogeweg e Ben Hesper
"the study of information processes in biotic
systems".
- Desde então a área de bioinformática
engloba um número grande de assuntos
interdisciplinares incluindo biologia de
sistemas, biologia computacional e genômica
Sequenciamento do genoma humano 2001
Métodos tradicionais em bioinformática
- Procura na literatura e buscas (NCBI Entrez e Blast)
- Análises de dados de sequenciamento (análise de
restrição, mapeamento de plasmídeos, desenho de
primers, procura por ORFs)
- Obtenção da sequência consenso a partir de
sequenciamento direto
4
Citocromo oxidase I
5
Uso de algoritmos para adquirir novos conhecimentos
biológicos
Uso de conhecimentos biológicos na construção de
algoritmos
Algoritmos
Afinal, o que é um algoritmo?
●
Uma receita passo a passo para um cálculo
Exemplo: Alinhamento de 2 sequências
Método – deslize a sequência 1 com sequência 2 e
conte os pb que são coincidentes
Algoritmo – ao longo do comprimento da seq 1
- compare a base na posição 1 da seq 2 com posição
1 da seq 1, conte coincidentes
- repita com todas posições
- registre a posição de todas bases coincidentes
Implementação – escreva um código que exceute
esses algoritmo em uma linguagem que o sistema
computacional entenda
7
Nosso problema
GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT
CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC
GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT <—
—>
CTAGAAGAGCGTAGTCAGAGTGTGTTTGAGTTCC
??????
GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT
—>CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC
<—
8
Por que nosso algoritmo não
funcionou?
Algoritmos de comparação par-a-par não funcionam
bem pq não refletem a realidade biológica da
similaridade entre sequências
Mas porque não?
Não sabe o que fazer com os indels
Logo não sabe o que fazer com as regiões internas
de similaridade
Isso é um problema do algoritmo ou de sua
implementação?
Não, o problema aqui é o método
Precisa conhecer a biologia do sistema
Normalmente cientistas da computação criam
algoritmos de bioinformática não muito úteis
Um problema biológico pode ser solucionado por
vários algoritmos diferentes:
- possíveis resultados diferentes
- diferentes quantidade de tempo de cálculo
- pesquisador define o melhor “trade off”
Um tipo de algoritmo pode ser aplicável a diversos
problemas biológicos
Difícil saber qual é a melhor solução possível
Quanto mais os algoritmos existentes não
proporcionam a solução adequada, mais ativa é
a área de pesquisa
Uma solução ótima mas que leva bilhões de
anos para calcular não é satisfatória!
10
Mas preciso saber muito de
computação?
- Bioinformática pode ser encarada como
uma ferramenta – como o PCR
- Biólogos deveriam ser capazes de
escrever seus próprios programas e
construir base de dados?
-na verdade não, mas seria extremamente
vantajoso
- está na crista da onda
“Two months in the lab can easily save an afternoon on the computer.”
—Alan Bleasby, 1997
11
12
Mas qual sistema usar?
Mac OS X e Linux - Sistema Unix
É possível em Windows: Cygwin, um
portal de ambiente Unix
13
Na maioria das distribuições o shell onde se digita a
linha de comando se chama bash
“ Bash script”
#!/bin/bash
for ARQ in $(ls *.fasta)
do
bsub -q giribet -R "span[ptile=4]" -n 4 -e $ARQ.err -o $ARQ.out -J
$ARQ.job blastx -query $ARQ -db nr -gilist
/n/nobackup2/giribet/sandrade/blast_db/Fungi_Metazoa.gi -outfmt 5
-max_target_seqs 5 -evalue 1e-5 -out $ARQ.blx
done
15
“Scripts”
Funções escritas utilizando linguagens avançadas,
como perl (.pl), python (.py) ou R (.r), onde o programa é
interpretado ao longo da análise
#!/usr/bin/perl
use warnings;
#use Bio::SeqIO;
use Bio::AlignIO;
$informat="fasta";
$outformat="phylip";
#$count = 0;
for $infile (@ARGV)
{
$in = Bio::AlignIO->new(-file => $infile, -format => $informat);
$outfile = $infile.".phy";
$out = Bio::AlignIO->new(-file => ">$outfile", -format => $outformat, -interleaved => 0, -longid =>
1);
while ( my $aln = $in->next_aln )
{
$out->write_aln($aln);
#
$count++;
}
}
#warn "Translated $count sequences from $informat to $outformat format\n"
warn "Converted file @ARGV sequences from $informat to $outformat format\n"
16
Scriptome
http://sysbio.harvard.edu/csb/resources/computational/scriptome/
17
“Programas compilados”
Se referem a arquivos executáveis que já tem
seu código pré-compilado
ou seja
Não possuem um arquivo texto onde vc
possa fazer alterações (ou se vc faz, tem que
ser compilado novamente)
18
Repositórios de programas livres
https://github.com/
http://sourceforge.net/
19
Onde analisar seus dados?
1000-Pentium Beowulf-Style Cluster Computer
1999
HPTC cluster -4096 processadores, 16 TB
mem - 2008
20
Aplicações da área de Bioinformática
Análise de bases de dados de DNA & proteína
Alinhamentos múltiplos
Similaridade, alinhamento e montagem
Padrões de domínios/motifs de proteínas (Pfam, Blocks, ProDom)
Padrões de sequências/motifs de DNA (promotores, fatores de
transcrição, regiões intrônicas)
Reconstrução filogenética
Predição de genes
Análise de expressão de microarranjos
Análise de SNPs
Predição da estrutura de proteínas
Mapeamento dos caminhos metabólicos e regulatórios
Ontologias
21
Genômica
Aplicação do sequenciamento de nova geração para
biologia molecular
Permite o estudo dos genomas completos (e dos
transcriptomas, proteomas, metabolômicas...)
22
Análise Genômica de larga escala
- lida-se com uma quantidade muito grande de dados
Cria-se uma base de dados do lab
Utiliza-se de ferramentas de bioinformática em grupos
de dados
Necessário saber linguagem de programação
-estudos de expressão diferencial, classificação e predição de
genes
-genômica funcional – caminhos funcionais, classificção da
ontologia
-identificação de SNPs, GWA (Genome Wide Association)
23
Um dos grandes desafios...
Enorme quantidade de dados
Muitas novas sequências
Sequenciamento direto
Sequenciamento de genomas
Sequenciamento de EST
Sequenciamento
ambiental/metagenômica
O GenBank tem mais de 140
Bilhões de bases!!!
E continua crescendo
Processadores não dão conta
Busca de sequências
Como procurar uma sequência similar
às minhas?
Ferramentas – usando arquivos
FASTA, faz-se uma busca heurística
no BLAST (Basic Local Alignment
Search Tool)
Como decidir: resultados estatísticos
e bom senso
25
Arquivos Fasta
>Mytilusedulis
TGGAGGAAAAGCTCCAAGAAAACAACTTGCCACCAAGGCCGC
CCGTAAGAGCGCACCTGCCACAGGTGGAGTTAAGAAGCCACA
TAGATACAGGCCAGGAACAGTCGCTCTTCGTGAGATCAGAAGA
TACCAGAAAAGTACTGAACTCCTCATCAGGAAACTCCCCTTCC
AGAGATTAGTTCGTGAAATTGCTCAAGACTTCAAGACTGATCTT
CGTTTCCAGAGCTCTGCCGTTATGGCCCTCCAGGAAGCCAGT
GAAGCTTACCTCGTTGGTCTTTTCGAGGACACCAACTTGTGTG
CAATCCACGCCAAGAG
>Golfingiaelongata
TGGTGGCAAAGCCCCAAGGAAGCAACTGGCCACCAAGGCAG
CCCGCAAGAGCGCCCCAGCSACAGGGGGAGTGAAGAAACCC
CACAGGTACAGGCCTGGCACAGTCGCCCTGAGAGAAATCAGA
AGGTACCAGAAGAGCACTGAACTTCTCATCAGGAAGCTGCCCT
TCCAGCGTCTGGTGCGAGAAATTGCCCAGGACTTCAAGACTG
ACCTCAGGTTCCAGAGCTCCGCCGTCATGGCTCTCCAGGAGG
CCAGCGAGGCCTACCTTGTTGGACTGTTTGAGGACACCAACC
TGTGCGCCATCCACGCCAAACG
26
BLAST
27
Algoritmo do Blast
28
Resultado BLAST
29
30
31
Projeto Genoma
O genoma humano é decodificado
cerca de 3,2 bilhões de pares de base
32
Mais genomas
33
Sequenciamento de Nova Geração
fastq
@HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT
CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAACCTTTACATAC
TGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGATACTTTGA
+
b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggidM\`d`dac]]bc`_
]b``bbb`bbZ_`Z
@HWI-H201:67:D13FRACXX:5:1101:1875:1922 1:N:0:CGATGT
NTTGCAAGTCATTGAACTTAGGGGAAAAGAAGTACTTTATGGCTCATTAAACAGGC
CACTCAACACAACAACATACTTTTATAAATAAAATTTGCTAAGC
+
BP\ccccc\ceeehhhhhhhhhhhheehhhedefhehhhbdhheedehdecehhdehhhehhhhheedde
eea__a__Z`bbcdd`caaaZ_Z__```Y^
cromatograma
Cerca de 76800 pb
Cerca de 150 bilhões pb
Mas como são esses dados?
Arquivos FASTQ
Identificação do read/leitura
@HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT
CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAA
CCTTTACATACTGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGAT
ACTTTGA
+
b__eeeeeggege]ghdhghiiihhiiifWefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggi
dM\`d`dac]]bc`_]b``bbb`bbZ_`Z
Score de qualidade
Paired end e Single end
Ozsolak e Milos (2011)
37
Como checar a qualidade dessas sequências?
Programa FASTQC
38
39
Mas o que fazer com as sequências que não
estão boas??
préprocessamento
Após thinning e
trimming
40
Alinhamento contra o genoma de referência
Se temos um genoma de referência é fácil
visualizar se o alinhamento ficou bom ou não
E quando não há um genoma de referência?
Montagem de novo
Gráficos
De Brujin
Como saber se sua montagem de novo ficou boa ou não?
Usando parâmetros como:
Tamanho dos contigs
Número dos contigs maior que 1000pb
N50 * é o tamanho minímo do contig que contém 50% das bases
utilizadas na montagem
Exemplo:
Se vc tem 1000 pares de base para fazer a montagem e seu
N50 = 300, isso quer dizer que 500 pb estão dentro de contigs
com tamanho ≥ 300 pb
44
Faça um blast!!
Tubulanus punctatus
dados da plataforma 454 - Roche
4217 contigs!
1885 identificados
pelo Blast
Todos
Blast hits
(e<10-4)
45
E em seguida se faz a anotação dos contigs
Anotação estrutural consiste na identificação do
elementos de genoma
ORFs e sua localização
Estrutura do gene
Regiões codificadoras
Localizaçào dos motifs reguladores
Anotação funcional consiste em dar informação
biológica aos elementos do genoma
Função bioquímica
Função biológica
Regulação da expressão e interações
46
Anotação Funcional
As propriedades dos
produtos gênicos se
encaixam em 3
categorias:
Funções Moleculares
Processos Biológicos
Componentes Celulares
DAG
47
O projeto Gene Ontology é uma iniciativa entre
pesquisadores com o objetivo de padronizar a
representação do genes e dos atributos desse
genes em várias espécies e bases de dados. O
projeto proporciona um vocabulário controlado
de termos para descrever os produtos do gene
e os dados de anotação do consórcio GO,
assim como também ferramentas para acessar
e processar esses dados.
48
50
51
Análise de expressão diferencial
Quantificando a expressão
RPKM: Reads Per Kilobase per
Million mapped reads
• RPKM = C/LN
C : número de reads mapeados em uma
região determinada
L: tamanho da região (em pb)
N: número total de reads mapeados (em
milhões)
52
Exemplo do cálculo de RPKM
Quantificando expressão: FPKM
• FPKM: Fragments Per Kilobase of transcript per
Million fragments mapped
Análogo ao RPKM mas não usa o número de reads
As abundâncias relativas dos transcritos são
descritas em termos de objetos biológicos esperados
(fragmentos); a expressão relativa dos transcritos é
proporcional ao número de fragmentos de cDNA que
geraram os mesmos
55
Nectophores rpm (mean)
1M Nectophore
Enriched
p<0.05
p<0.01
p<0.00
10k
100
1
Gastrozooid
Enriched
0.01
0.01
1
100
10k
1M
Visualização de análises de RNA-seq
Análise de enriquecimento
existem diferenças de expressão entre categorias
pré-definidas? (Alguma categoria é “enriquecida”?)
Categorias comumente usadas: Gene Ontology
(GO), Kyoto Encyclopedia of Genes and Genomes
(KEGG)
Outras categorias PRÉ-definidas (cromossomo,
tecido expresso, etc).
59
Como funciona?
1.Genes são divididos em categorias
2.conta-se quantos genes diferencialmente
expressos existem por categoria
3. teste estatístico comparando distribuição de
genes diferencialmente expressos entre
categorias
60
Análise de enriquecimento
existem diferenças de expressão entre categorias
pré-definidas? (Alguma categoria é “enriquecida”?)
Categorias comumente usadas: Gene Ontology
(GO), Kyoto Encyclopedia of Genes and Genomes
(KEGG)
Outras categorias PRÉ-definidas (cromossomo,
tecido expresso, etc).
61
‘
Aula Prática
Enriquecimento das ontologias GO usando GOrilla
(http://cbl-gorilla.cs.technion.ac.il/)
62
Dados do traballho:
Comparação da expressão diferencial
entre células tumorosas do tipo TNBC e
não TNBC
63
Objetivos
- Procurar quais são os genes enriquecidos
nas diferentes ontologias: Processos
biológicos, funções moleculares e
componentes celulares
- Visualização e compressão dos DAG
(gráficos acíclicos direcionado)
64
Exercício 1.
fazer análise comparando os genes significativos em
relação ao total de genes identificados
Exercício 2.
fazer análise somente com os genes significativos
ranqueados para cada tipo de câncer
65
Download

Sonia Andrade(Introdução a Bioinformatica)