Bioinformática
Felipe G. Torres
DICA
http://www.cellbiol.com/
TERMOS IMPORTANTES
• READS: Trechos sequenciados de DNA.
• CONTIG: Macro trechos formato pela
junção de reads.
• LOW QUALITY: Regiões com baixa
região, seja por falha de artefato ou
metodológica.
• QUALIDADE: Certeza de identificação do
nucleotídeo em um determinado sítio.
MONTAGEM DE GENOMAS
• É um subprocesso do workflow de obtenção
da sequencia de DNA.
• Consiste em pegar os reads gerados no
processo de sequenciamento e montar um
ou vários contigs.
• Afim de unificar os reads em uma sequência
consensus que é a sequência do DNA.
WORKFLOW - MONTAGEM
ANÁLISE DE
QUALIDADE
SEQUENCIA
MENTO
MONTAGEM
DOS CONTIGS
SEQUENCIAMENTO
• O sequenciamento do DNA é uma série de
processos bioquímicos tem por finalidade
determinar a ordem dos nucleotídeos.
• Método Sanger
• Pirosequenciamento
• Nova Geração
SEQUENCIAMENTO
COMO É ARMAZENADO OS DADOS
DO SEQUENCIAMENTO EM UM
ARQUIVO ?
SEQUENCIAMENTO
• O arquivo usado para armazenar esse tipo
de dado é o .FASTQ
• Este arquivo não é lido de uma forma
agradável pois muitas vezes possui o seu
conteúdo binário.
• Para lidar com ele normalmente é feita a
conversão para o modelo FASTA.
ANÁLISE
• Essa conversão não é tão simples pois
envolve uma análise de qualidade.
• Existem regiões que possuem
ruídos que necessitam ser
avaliados.
• Essa avaliação pode ser feita
por diversos softwares. Ex:.
PHRED & PHRAP
ANÁLISE
http://asparagin.cenargen.embrapa.br/phph/
MÃOS NA MASSA
1- Pegue o arquivo seq2.zip
2- Analise a qualidade
sequenciamento e gere
arquivos FASTA.
do
os
APENAS SEQUENCIAR O DNA DE UM
ORGANISMO RESPONDE TODAS AS
PERGUNTAS ?
ANOTAÇÃO GENÔMICA
• Ter a sequência do genoma de um
organismo não responde todas as
perguntas... Mas ABRE PORTAS
• É necessário entender, mapear e identificar
todas as estruturas gênicas presentes nesse
genoma.
• Esse processo de explorar e entender melhor
a estrutura de um genoma é conhecido por
anotação.
ANOTAÇÃO GENÔMICA
• Este processo tem ganhado muita força
recentemente devido:
• Ganho de tempo
• Redução de erros de artefatos
• Entendimento melhor dos organismos
• Redução de custos
ANOTAÇÃO
GENÔMICA
ESTRUTURAL
FUNCIONAL
PROCESSO DE ANOTAÇÃO
ANOTAÇÃO GENÔMICA
ANOTAÇÃO ESTRUTURAL
• A anotação estrutural consiste na
identificação e mapeamento de estruturas
genômicas:
• GENES
• RNAnc
• REGIÕES PROMOTORAS
ANOTAÇÃO ESTRUTURAL
• Essa identificação é feita utilizando técnicas
de predição gênica.
• Os preditores são especializados para seres
eucariotos e procariotos.
• Essa especificação deve-se a diferença da
complexidade das estruturas do genoma.
ANOTAÇÃO ESTRUTURAL
• Alguns
preditores
conhecidos
são:
GLIMMER, GENSCAN e GENMARK.
Eucarioto
GENSCAN
GENMARK
Procarioto
GLIMMER
DICA
http://www.bioplanet.com/
GLIMMER
• É um sistema de identificação de genes em
DNA de procariotos, especialmente bacteria
e archaea.
• GLIMMER (Gene Locator and Interpolated
Markov ModelIER).
• Ele utiliza a interpolação de Markov para
definir a probabilidade de uma região ser
codificante.
GLIMMER
GLIMMER
http://www.ncbi.nlm.nih.gov/genomes/MICROBES/
glimmer_3.cgi
GLIMMER - RESULTADO
ID: São números identificadores de possíveis genes.
Frame: É o frame de leitura da ORF. Positivo indica a fita foward
e Negativo indica a reverse.
GLIMMER - RESULTADO
Start: Sítio de início do gene ou da ORF.
Stop: Sítio de início do gene ou da ORF.
GLIMMER - RESULTADO
Length: Tamanho do ORF e do Gene.
MÃOS NA MASSA
1- Procure no
sequência
da
braziliensis.
NCBI uma
Leishmania
2- Utilizando o GLIMMER,
analise a sequência em busca de
genes.
GENSCAN
• É um sistema de identificação de genes em
DNA de eucariotos.
• O GENSCAN pode ser usado para
localização de exon-intron em sequências.
• Desenvolvido pelo MIT, este software pode
ser executado utilizando a web.
• Ele utiliza cadeias de Markov do estado
oculto para predizer as estruturas.
GENSCAN
GENSCAN
http://genes.mit.edu/GENSCAN.html
GENSCAN - RESULTADO
Gn.Ex : Número de identificação da estrutura.
Type : Init = Initial exon (ATG to 5' splice site)
Intr = Internal exon (3' splice site to 5' splice site)
Term = Terminal exon (3' splice site to stop codon)
Sngl = Single-exon gene (ATG to stop)
Prom = Promoter (TATA box / initation site)
PlyA = poly-A signal (consensus: AATAAA)
GENSCAN - RESULTADO
S : DNA strand (+ = input strand; - = opposite strand)
Begin : beginning of exon or signal (numbered on input strand)
End : end point of exon or signal (numbered on input strand)
Len : length of exon or signal (bp)
GENSCAN - RESULTADO
CodRg : coding region score (tenth bit units)
P : probability of exon (sum over all parses containing exon)
Tscr : exon score (depends on length, I/Ac, Do/T and CodRg
scores)
DICA
http://www.softberry.com/
SOFTBERRY
• O softberry é uma plataforma de
bioinformática que permite a execução de
softwares sem instalar.
• Você pode executar softwares como:
• BLAST
• FGNESH
ANOTAÇÃO FUNCIONAL
• A anotação funcional consiste na
identificação das funções executadas pelas
estruturas identificadas.
• Normalmente para este tipo de anotação
utiliza-se algoritmos de similaridade entre
bases de dados anotadas.
• A comparação é feita entre o desconhecido e
o conhecido e anotado.
ANOTAÇÃO FUNCIONAL
Proteínas
anotadas
Compara
ção
Proteinas
preditas
BLAST
BLAT
BOWTIE
Proteinas
preditas
similares a
existentes
ANOTAÇÃO FUNCIONAL
• Esta metodologia tem algumas limitações
que por muitas vezes resultam diretamente
no resultado do projeto.
• Por exemplo, a base de dados conhecida
precisa ter uma variedade alta de
sequências.
• Você pode está procurando similaridade
entre coisas impossíveis.
ANOTAÇÃO FUNCIONAL
• Existem algumas
consolidadas:
bases
conhecidas
e
• SWISS-PROT: Base de dados de
proteínas curadas manualmente e
mantida pela UNIPROT.
• NRDR: Base de dados de RNA não
codificante.
ANOTAÇÃO FUNCIONAL
• Existem algumas
consolidadas:
bases
conhecidas
e
• EGGNOG: Base de dados de proteínas e
grupos de Orthologia.
ANOTAÇÃO FUNCIONAL
• Esse processo é lento devido a grande
quantidade de comparações.
• A escolha do algoritmo de comparação deve
ser feita analisando o tipo de dado que será
comparado.
• Nesse processo a escolha e formatação dos
dados está diretamente ligado ao sucesso da
técnica.
MÃOS NA MASSA
1- Pegue as proteinas 2,3,4,5 e
descubra:
Qual o organismo ?
Qual é a proteína ?
Qual a função da proteína ?
TERMOS GO
• Mas como descobrir a função de uma
proteína ?
• Será que terei que difere o processo para
organismos diferentes ?
TERMOS GO
• O Gene Onthology é a maior iniciativa da
área de bioinformática para unificar os
produtos gênicos atribuídos a todas as
espécies.
• O GO é na verdade uma metodologia de
classificar proteínas por:
• Componente Celular
• Processo Biológico
• Função Molecular
TERMOS GO
• Existem três tipos de termos GO:
• Componente celular: É um componente
celular
ou
no
desenvolvimento
extracelular.
• Processo biológico: São produtos gênicos
envolvidos processos vitais para a célula.
TERMOS GO
• Existem três tipos de termos GO:
• Função molecular: São produtos gênicos
envolvidos
em
alguma
função
intracelular.
GO
http://geneontology.org/
AMIGO
http://amigo.geneontology.org/amigo
MÃOS NA MASSA
1- Pegue as proteinas 4 e
descubra:
Qual a função da proteína ?
Bioinformática
Felipe G. Torres
Download

anotação funcional