Disciplina BMP 5762 – Bioinformática
Aplicada ao Estudo de Doenças
Parasitárias
RNA-SEQ: CONCEITO E
APLICAÇÕES
Ana da Rocha Kurata
Katie Cristina Takeuti Riciluca
RNA-seq
• RNA-seq é uma abordagem recentemente desenvolvida,
para analisar o perfil de transcriptoma, que utiliza
tecnologias de deep-sequencing.
• O transcriptoma é o conjunto completo de transcritos
(RNAs) em uma célula, e sua quantidade, para um
estágio de desenvolvimento específico ou condição
fisiológica.
• * deep-sequencing = indica que a cobertura do processo é muito maior que o
comprimento da sequencia em estudo.
• O entendimento do transcriptoma é essencial
para:
• Interpretar os elementos funcionais do genoma
• Revelar os constituintes moleculares de células e
tecidos nos diferentes estágios de desenvolvimento
• Compreender os elementos presentes no
desenvolvimento de doenças
• O transcriptoma pretende catalogar todos os
tipos de transcritos:
• mRNAs
• RNAs não codificadores
• pequenos RNAs.
Porquê estudar o transcriptoma?
• Para determinar a estrutura transcripcional dos genes,
•
•
•
•
em termos de seus sítios de início 5’ e final 3’;
Padrões de splicing e outras modificações póstraducionais;
Quantificar os níveis de mudanças de expressão de cada
transcrito durante o desenvolvimento e sob condições
diferentes.
Encontrar microRNAs que possuem função reguladora
Metagenômica
* Splicing = é um processo que remove os íntrons e junta os éxons depois da transcrição
do RNA. O splicing só ocorre em células eucarióticas, já que o DNA das células
eucarióticas não possui íntrons.
Criação da Biblioteca
• Pode-se utilizar:
• Todo o RNA da célula
• Possui 90-95% de rRNA
• Apenas mRNA selecionado pela cauda de poli-A
• Perde-se microRNAs e mRNAs sem poli-A
• Retirando o rRNA
• Por hibridização com sequencias específicas ligadas a biotina que
são retiradas com esferas ligadas a streptovidina
• Quebra por uma exonuclease que age sobre RNAs que possuem
fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato)
• A remoção de rRNAs aumenta a detecção e a montagem de transcritos
raros.
• Mas se o objetivo do estudo é a quantificação, é necessário uma
biblioteca não depletada.
Criação da Biblioteca
• Para a criação da biblioteca o RNA é transformado em
cDNA por uma transcriptase reversa
• Para não se perder a direcionalidade do transcrito podem
ser acrescentados adaptadores a uma extremidade do
RNA
• isso é muito importante no estudo de espécies de genoma muito
compactado onde o transcrito pode se sobrepor em fitas opostas
• O RNA pode ser fragmentado antes da formação de
cDNA evitando a formação de estrutura secundária
• Cada molécula de cDNA, com ou sem amplificação, é
então sequenciada com um método de alto rendimento
para obter sequências curtas de um final
(sequenciamento single-end) ou de ambos os lados
(sequenciamento pair-end).
• As leituras são tipicamente 30 – 400 bp, dependendo da
tecnologia usada para sequenciamento do DNA.
• Para esse método tem se usado plataformas tipo:
Illumina IG, SOLiD e 454.
Considerações Prioritárias na montagem
• Para garantir uma alta qualidade na montagem
do transcriptoma, cuidados particulares devem
ser tomados nos experimentos de RNA-Seq.
• Na fase de análise de dados, as leituras curtas
são pré-processadas para remover erros de
sequenciamento e outros artefatos.
• As leituras são subsequentemente montadas nos
RNAs originais e então sua abundância é
avaliada.
[Martin, J. A.; Wang, Z. 2011]
• Para evitar erros na montagem de RNA, é
necessário retirar o passo de amplificação por
PCR
• Na etapa de amplificação por PCR alguns fragmentos
podem ser melhor amplificados que outros
prejudicando os dados
• Já é possível fazer o sequenciamento sem amplificação
usando as plataformas Helicos e Pacific Biosciences,
•O
sequenciamento através de uma única
molécula é possível, porém essas tecnologias
ainda sofrem com a alta taxa de erro.
Estratégias de Montagem do
Transcriptoma
• Baseado em três categorias :
- Etratégia baseada em referência
- Estratégia de novo
- Estratégia combinada
Estratégia baseada em Referência
• Quando existe um genoma de referência o transcriptoma
pode ser construido a partir dele.
• Esse método inclui três passos:
• Alinhamento das leituras sobre o genoma de referência
• As leituras sobrepostas em cada locus são agrupadas para
construir um gráfico de todas as isoformas possíveis.
• O gráfico é analisado para resolver isoformas individuais.
• Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
[Martin, J. A.; Wang, Z. 2011]
[Martin, J. A.; Wang, Z. 2011]
• Após as leituras serem alinhadas ao genoma, dois
métodos são usados para a construção dos gráficos:
- Cufflinks - cria um gráfico de sobreposição de todas as
leituras que alinham com um único locus para montar
isoformas encontrando o mínimo de transcritos que
explicam os introns dentro da leitura.
- é mais conservativo na escolha de quais os transcritos são re-
construidos
- Scripture - cria um gráfico que une cada base de um
cromossomo e adiciona nas laterais (conexões) entre as
bases se existe uma leitura que liga duas bases.
- pode produzir um grande conjunto de transcritos de um locus.
Vantagens
• Pode montar transcritos de baixa abundância;
• Pode usar computação paralela
• Pode ser feita em máquinas com poucos gb de RAM;
• Descobrir novos transcritos que não estão em anotações
já existentes;
• Descarta artefatos e contaminantes (que não alinham)
• Usado para transcriptomas simples:
• bactérias, archeaeal, eucarióticos simples
• com poucos introns
• pouco splicing alternativo
Desvantagens
• Não é possível sem um genoma de referência;
• Depende da qualidade do genoma de referência ;
• Genomas podem não ser completos, ter regiões não
agrupadas e parcialmente montadas.
• Genes que se encontram muito próximos ou sobrepostos
podem ser interpretados com um único transcrito
• Não une leituras que esteja muito distantes no genoma
ou em cromossomos diferentes
Estratégia de novo
• Não utiliza um genoma de referência;
• Se utiliza da redundância das leituras para encontrar
sobreposições entre as leituras
• Programas usam o gráfico De Brujin para reconstruir
transcritos de uma ampla faixa de níveis de expressão e
então processar a montagem de contigs e remover
redundancias.
• Semelhante à montagem de genoma
[Martin, J. A.; Wang, Z. 2011]
[Martin, J. A.; Wang, Z. 2011]
Vantagens
• Não depende de um genoma de referência;
• Pode providenciar um novo conjunto de dados de transcritos para
genomas que não apresenta alta qualidade;
• Pode ser usado para encontrar transcritos exógenos ou que estão
faltando no genoma;
• Não é influenciado por longos introns
• Encontra transcritos trans-spliced, resultantes de rearranjos
cromossomais
• Pode ser utilizado para o transcriptoma de organismos complexos
Desvantagens
• A montagem de organismos eucariotos complexos pode
consumir muita memória RAM
• Grande quantidade de dados
• Complexidade dos gráficos de Brujin nescessários para analizar os
possíveis splicings
• Consome dias ou semanasde processamento
• Exige maior cobertura(30x)
• Suscetível a erros de leitura, pode não diferenciar um
erro do sequenciamento de um splicing
• Trechos similares(como parálogos) ainda podem ser
considerados um só transcrito
Estratégia Combinada
• A combinação dos dois métodos pode ser utilizada
• O alinhamento tem a vantagem da sensibilidade
• O De Novo para encontrar transcritos novos e trans-spliced
• Realizando o alinhamento primeiro podemos descartar as
sequências já conhecidas
• Fazendo a montagem De Novo com uma quantidade muito menor
de dados
• Quando o genoma de referência tem baixa qualidade a
montagem De Novo pode ser feita primeiro
• Os contigs e singlets são alinhados no genoma e as lacunas
podem ser preenchidas com informações do genoma
[Martin, J. A.; Wang, Z. 2011]
Cobertura x Custo
• Uma questão importante é a cobertura da sequência ou a
porcentagem dos transcritos pesquisados, os quais
implicam no custo.
• Grandes coberturas requerem mais sequenciamento.
• Em transcriptomas simples, como da levedura
S.
cerevisiae, que não tem evidência de splicing alternativo,
30 milhões de leituras de 35 nucleotídeos são suficientes
para observar a transcrição de mais de 90% dos genes
de células em crescimento sob uma condição unica
• RNA-Seq revela a localização precisa dos limites da
transcrição, com a resolução base a base.
• Além disso, pequenas leituras de 30 pb de RNA-Seq
nos mostra informação como 2 exons estão conectados,
enquanto leituras longas ou leituras curtas por pair-ends
poderiam revelar conectividade entre exons múltiplos.
• Os resultados de RNA-Seq também mostram alto nível
de reprodutibilidade, para ambas as técnicas e replicatas
biológicas.
Utilizações
• Descoberta de pequenos RNAs
• Quantificação da expressão em diferentes
momentos
• Fusão de genes em câncer
• Identificação de mutações
• Metagenômica
Obrigada!
Download

RNAseq