New Generation Sequencing and
Bioinformatics in the Big Data Era
Daniel Guariz Pinheiro, PhD.
Laboratório de Genética Molecular e Bioinformática
Departamento de Genética
Faculdade de Medicina de Ribeirão Preto
Universidade de São Paulo
Em 2010, o universo digital somou 1,2
ZettaBytes. Em 2011 o número subiu para
1,8 ZettaBytes
Estudo da IDC sobre o Universo Digital patrocinado
pela EMC, maio de 2010
1 ZettaByte (ZB) = 1 Trilhão
1,000,000,000,000 GigaBytes (GB)
1,2 ZB = 2 pilhas de DVDs da terra à lua
(384.404 Km)
Introdução
BIG DATA ERA
D. ALLISON
http://www.nature.com/nature/journal/v455/n7209/full/455028a.html
“Big Data” Era
•
“…information in our world is exploding. There are expected to be 1 trillion new devices
connected to the Internet in the near future, which will help drive 44X
digital
data growth by the year 2020, 80 percent of which will be
unstructured content and will require great effort to analyze.
By Steve Mills
IBM’s Senior Vice President & Group Executive,
Software & Systems
CISCO estimates that the monthly global
internet traffic in the spring of 2010 was 21
exabytes.
1 ExaByte (EB) = 1,000,000,000 GigaBytes (GB)
“Big Data Era” na Ciência
Researchers need to adapt their institutions
and practices in response to torrents of new
data — and need to complement smart science
with smart searching.
Editorial
Setembro 2008
1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)
Ciclo do Conhecimento
Gene Knock-outs
Protein Assays
Point mutations
…
(Kell DB et al., 2004)
hypothesis-driven science
data-driven science
“…computational methods of data analysis,
which may be automated, provide the means
of generating novel hypotheses, especially in
the post-genomic era.”
(Kell DB et al., 2004)
Microarrays
Genomics
Meta-genomics
HT proteomics
…
Inundação de Dados na Área
de Ciências Biológicas
•
•
•
•
•
•
•
genomas completos sequenciados;
dados de variações genômicas;
projetos de Meta-Genômica;
dados de transcritomas;
dados de proteínas;
dados de interações entre proteínas;
…
Explosão de Sequências
Preparação
Desafios
• Pontos urgentes que devem ser enfrentados:
– Transferência de dados, controle de acesso e
gerenciamento;
– Padronização dos formatos de dados;
– Integração dos dados oriundos de múltiplas fontes.
• Dados com características Multi-dimensionais e em um
volume imenso;
– Exemplo: Análise funcional de variações no DNA em múltiplas
amostras em diferentes tipos de tumores utilizando dados de
sequenciamento de nova geração;
– Modelos preditivos para fenótipos complexos
demandam computação intensa (Problemas NPdifíceis – ex. Reconstrução de uma rede Bayesiana
para representar um modelo de regulação gênica)
Integração dos Bancos de
Dados Biológicos
• Características
– Grande volume de dados;
• Desenvolvimento de novos mecanismos e técnicas para o
armazenamento e recuperação (e.g. Google BigTable );
– Não há padrão para os nomes dos objetos;
• Ontologias (e.g. Gene Ontology) e organizações que regulam a
nomenclatura (e.g. HUGO)
– Não há padrão para acesso aos dados, cuja natureza é distribuída;
• Utilização de formatação padrão para troca de informações (e.g. GFF)
e web services;
– Definição variável para alguns conceitos;
• e.g. gene
– Dados altamente heterogêneos mas inter-relacionados;
– Informação dinâmica e em constante atualização;
Soluções computacionais
• Cloud-based computing;
• Ambientes computacionais heterogêneos;
– Integração de aceleradores especializados (GPUs);
• Aumento do número de computadores;
• Otimização de algoritmos;
Primeiros passos...
• Compreensão da natureza dos dados, ou seja,
da sua magnitude e complexidade, e dos
recursos disponíveis (memória, espaço,...);
• Compreensão dos algoritmos;
• Compreensão das vantagens e desvantagens
das arquiteturas disponíveis;
– A decisão não é sempre óbvia e muitas vezes
consiste em uma combinação delas;
Soluções no Brasil
O EMU (Equipamento MultiUsuário) é uma plataforma de alta-performance para análises
computacionais aplicadas à genômica e à transcriptômica.
Financiamento: Programa Multiusuário da FAPESP de 2010, com uma contra-partida do
Instituto Ludwig de Pesquisa sobre o Câncer.
Sequenciamento
Por quê sequenciar ?
• Motivação
– Aplicações diversas: identificar
sequências funcionais e caracterizar
genomas ou transcriptomas;
• Da Genômica Comparativa à Medicina
Genômica;
– Propósitos gerais;
• Análogo às aplicações de um
Computador Pessoal (PC)
Introdução
REVISÃO HISTÓRICA
Marcos históricos
Darryl Leja , NHGRI
Oswald
James
T. Avery
Watson Walter Gilbert
Wilhelm
Johannsen
Leroy
Hood
GENBANK
Gregor Johann Mendel
ColinFrancis
M. MacLeod,
CrickNCBI
Frederick
Sanger
Kary Mullis
TermoMaclyn
Gene
=McCarty
unidade
Sequenciador Semi-Automático
Maurice
Wilkins
Leis da hereditariedade
mendeliana
Métodos
para
Banco
de
ePolymerase
surgimento
dooprimeiro
Rosalind
Franklin
Chain
Reaction
DNA = caracter
da
hereditariedade
sequenciamento
de DNA
Dados
de
Sequências
Biológicas
sequenciador
comercial (ABI)
Experimentshereditário
in
Estrutura do DNA
Plant Hybridization
Início do PGH
• PGH - início em 1990
• Mapeamento detalhado do genoma humano
–
–
–
–
–
–
5000 cientistas, de 250 diferentes laboratórios;
15 anos.
5 a 10 Bilhões de dólares (US$);
Otimismo exacerbado;
Para muitos pesquisadores um projeto irrealizável;
Para outros a oportunidade de transformar a Genética
em Big Science;
Projeto Genoma
Humano
•
•
•
•
The International Human Genome Sequencing Consortium
13 anos (1990-2003)
U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!)
Avanços imediatos proporcionados
 Identificação de ~25.000 genes (~20% material genético total);
 Possibilitou a descoberta de ~1.800 genes relacionados a doenças,
facilitando a identificação de outros genes;
 Permitiu o desenvolvimento de mais de 1.000 testes genéticos;
 Ao menos 350 produtos biotecnológicos resultantes deste conhecimento
já estão em testes clínicos;
 Desenvolvimentos de ferramentas para análise genômica, inclusive de
outras espécies de interesse biomédico e econômico;
 Promoveu discussões éticas, legais e implicações sociais em torno do
assunto;
 Consituição de uma base de conhecimento;
...no Brasil
Publicação
do rascunho
do Genoma Humano
Iniciativa pública
Projeto Genoma Humano
1990
1999
2001
...
1997
2000
2002 2003
Organization for
Nucleotide
Sequencing and
Analysis
Conclusão do
Projeto Genoma
Humano
1ª experiência
brasileira:
Sequenciamento
do Genoma da bactéria Xylella fastidiosa
Desenvolvimento dos Computadores
ENIAC, o 1° computador
eletrônico
John Presper Eckert e
John W. Mauchly
1946
1936
Konrad Zuze
Z1, o 1° computador
eletro-mecânico
Gordon E. Moore
Lei de Moore
1965
1981
IBM PC (Personal Computer)
Lei de Moore
...e dos Sistemas Computacionais
Linguagem Estatística R
Ross Ihaka e
Robert Gentleman
UNICS ,
Ken Thompson, Dennis Ritchie
e outros na Bell Labs.
Linguagem de Programação C
Dennis Ritchie
1969 1972
1971
UNIX – 1ª Versão
Linguagem de
Programação Perl
1987
1993
1991
GNU/Linux
http://www.bioperl.org/wiki/How_Perl_saved_human_genome
Bioinformática
• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas
computacionais e abordagens para expandir a utilização de dados
biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o
armazenamento, a organização, o arquivamento a análise ou visualização
desses dados.
• Computational Biology: O desenvolvimento e aplicação de métodos
teóricos e analíticos, incluindo modelagem matemática e aplicação de
técnicas de simulações computacionais para o estudo de sistemas
biológicos, sociais ou comportamentais.
Biomedical Information Science and
Technology Initiative Consortium (BISTI - NIH)
Repositórios de Dados Biológicos
• 1965 – Atlas of Protein Sequences and Structure
(Dayhoff et al.) - ~1Mb
• 1982 – GenBank – 1988 – NCBI – National
Center for Biotechnology Information
• 1997 – EMBL – European Molecular Biology
Laboratory
• 1986 – DDBJ – DNA Data Bank of Japan
International Nucleotide Sequence
Database Colaboration
1982
606 seqüências
2.427 bases
2008
98.868.465 seqüências
99.116.431.942 bases
Era “Pós-Genoma”
"O PGH aumentou a capacidade de compreensão da
complexidade que é a transmissão dos caracteres
genéticos” (José Roberto Goldim, UFRGS)
• Genômica Estrutural
– Construção de mapas genéticos, físicos e de transcrição de
um organismo.
• Genômica Funcional
– Caracterização das propriedades funcionais dos genes e
determinação de Assinaturas Moleculares de Expressão
Gênica.
Projetos “-omas”
x
Pesquisa Clássica em Genética e Bioquímica
Genômica
Transcritômica
Proteômica
Epigenômica
Metabolômica
…
Science 291:1221. 2001
Genômica Funcional: Análise de
Expressão Gênica
Genômica Funcional =
Métodos de obtenção de dados em larga escala
+
(Genome-wide expression “profiling”)
Métodos de Bioinformática
Revolução dos projetos “-omas”
Mayo Clin Proc. 2004 May;79(5):651-8
Biologia Sistêmica
• Estudo das interações entre as componentes de
um sistema biológico, e como essas interações
fazem emergir função e comportamento no
sistema;
"Systems Biology is the science of discovering,
modeling, understanding and ultimately
engineering at the molecular level the dynamic
relationships between the biological molecules
that define living organisms “
Leroy Hood
Últimos anos
Sequenciamento do Genoma
Diplóide de um único indivíduo
(Craig Venter)
The diploid genome sequence
of an individual human.
(Levy, S. et al. 2007)
2005
Legião de Sequenciadores
ABI 3730 no JCVI
2007
...
2003
2006
2008
Genoma James D. Watson
Sequenciamento com 454
Conclusão do
Projeto Genoma
Humano
1000 Genomes
Project
Next-Generation
Sequencing Revollution
Introdução
NEW GENERATION SEQUENCING
AND APPLICATIONS
Nova Geração de Sequenciadores de
PLATÔ
DNA
TECNOLOGIA
ABI 3730xl
Método
Roche/454 FLX
Illumina/Solexa GA
ABI SOLiD
ABI 3730xl
Roche/454 FLX
Illumina/Solexa GA
ABI SOLiD
Sanger
Pirosequenciamento
Sequenciamento
por Síntese
Sequenciamento
por Ligação
• Aumento na quantidade de Dados
• IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)
• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de
poucos dias);
• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);
• Redução do custo por base sequenciada;
Resumo das plataformas
• http://www.illumina.com/
• http://www.my454.com/
• http://www.appliedbiosystems.com.br/
Trade-offs in Next Generation
Sequencing technologies
NHGRI Current Topics in Genome Analysis 2010
Elliott Margulies, Ph.D
Revisão: Métodos de sequenciamento
de nova geração
NGS no mundo
http://pathogenomics.bham.ac.uk/hts/
James Watson’s Genome
Genoma Neandertal
99,7% identidade humano moderno
De 1% a 4% do genoma humano (2% de seus genes) provêm do homem de Neandertal
Detecção de Variantes Genômicas
•
Detecção de Variações (Padrão normal de variações)
–
–
–
–
Single Nucleotide Variants (SNVs)
Small Insertions/Deletions
Structural variants (Large Insertions/Deletions/Inversions)
Copy-Number Variants (CNVs)
Catálogo de Mutações Somáticas
• Sequenciamento de diferentes tipos de câncer
– Cancer Driver mutations – mutações responsáveis
pelo desenvolvimento do câncer (Cancer Genes);
COSMIC
• Catálogo de Mutações Somáticas em Câncer,
resultado também de sequenciamentos
completos de diversos cânceres;
Novas promessas
• HeliScope
– Helicos BioSciences
2008
• ION Torrent
– Applied Biosystems
2010
• PacBio RS
– Pacific Biosciences
2010
$1000 genome
• Re-sequenciamento genoma humano completo (3000 Mb)
–
–
454 sequencing (average read length=300-400 bases): 10-fold coverage
Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage
• Valores nos últimos anos
– Julho 2010 (~U$31.125,00)
– Julho 2011 (~U$10.500,00)
National Human Genome Research Institute (NHGRI)
Produtividade
[Stratton MR, et al. 2009]
Gordon Moore´s Genome
Sequence Read Archive
I nternational
N ucleotide
S equence
D atabase
C ollaboration
2010, the
SRA contained >500 billion reads
consisting of 60 trillion base pairs
• SRA (NCBI Sequence Read Archive):
http://www.ncbi.nlm.nih.gov/sra
• ENA (EBI European Nucleotide Archive):
http://www.ebi.ac.uk/ena/
• DRA (DDBJ Sequence Read Archive):
http://trace.ddbj.nig.ac.jp/dra/index_e.shtml
“(…) In mid-September
available for download (…) Almost 80% of the
sequencing data are derived from the
Illumina GA platform. The SOLiD™ and
Roche/454 platforms account for 15% and 5%
of submitted base pairs, respectively.(…)”
[Leinonen R et. al., 2011]
“We’re currently at 8.5
Terabases (Tb) of biological
sequence under
management. We’re growing
by about 1 Tb/month.”
NCBI’s staff scientist Martin Shumway
in 2007
1000 Genomes
• Consórcio Internacional (2008)
– Catálogo completo e detalhado de Variantes
Genômicas Humanas (SNPs e variações estruturais)
• Projeto Genoma Humano
• HapMap
– Catálogo das variações genéticas mais comuns (SNPs c/ freq. > 5%) em
diferentes populações humanas;
• 2500 genomas de 25 populações
– Mínimo de cobertura:
• 3x - Genoma completo;
• 20x – exome capture;
• Suporte financeiro
– Wellcome Trust Sanger Institute (Inglaterra);
– Beijing Genomics Institute (China);
– National Human Genome Research Institute (EUA);
Publicação Fase piloto
UK10K Genomes
• Objetivo: identificação de variantes raras
(freq. alélica abaixo de 0.1%)
• Associação com fenótipos extremos em condições
específicas (ex.: doenças relacionadas ao
desenvolvimento neurológico e obesidade)
• Sequenciamento
– 4000 genomas (6x)
– 6000 exomas
…e outros
• i5K
– 5000 genomas de insetos
• importância especialmente para a agricultura;
• Genome10K
– 10000 genomas de vertebrados
• diversidade genética entre vertebrados;
• 1001 Genomes
– 1001 cepas de Arabdopsis thaliana
• planta modelo, base de estudos;
• 1KP
– 1000 genomas de plantas
• desenvolvimentos de produtos biotecnológicos;
Genome-Wide Association Studies
• Estudos que procuram identificar a associação
entre genótipos e fenótipos (e.g. doenças, resposta
a medicamentos, etc.);
• Identificar a fatores genéticos de risco para o
desenvolvimento ou progressão de determinadas
doenças;
• Catálogo de associações
• dbGaP
(http://www.ncbi.nlm.nih.gov/sites/entrez?db=gap)
“Counting Experiments”
RNA-Seq – Quantificação da expresão dos
genes no transcriptoma de camundongos
Myf6 - myogenic factor 6
RNA-Seq
“Whole Transcriptome Shotgun
Sequencing”
High-Throughput sequencing of cDNA
Expressão específica em células musculares
Análise RNA-Seq
Análise ChIP-Seq
ChIP-Seq
ChIP – Chromatin ImunoPreciptation
High-Throughput sequencing
Reproducibilidade
r = 0.906 (p-value < 2.2e-16).
Uma das primeiras publicações utilizando
Illumina 1G Genome Analyzer
ChIP-Seq X GMAT (Genome-wide Mapping Technique)
ChIP-Seq – Estudo da estrutura da cromatina
Padrão de metilação de histonas no genoma
humano
Análise Methyl-Seq
Methyl-Seq
DNA treatment with methyl-sensitive restriction
enzymes (HpaII - não metilada, MspI - indiferente)
High-Throughput sequencing
Methyl-Seq – Estudo de padrões de metilação do
DNA em hESCs, células derivadas de hESCs e fígado
fetal humano
AUC = 0.94
Methyl-Seq x Illumina Infinium
methylation status:
presence or absence of HpaII tags:
average tag count > 1 unmethylated
Análise microRNA-Seq
microRNA-Seq
small RNA library (mirVana miRNA Isolation Kit)
High-Throughput sequencing
microRNA-Seq – Caracterização dos miRNAs expressos
em tecido gástrico humano (cardia - estômago)
Plataforma SOLiD
qRT-PCR
2 -∆Ct
Pearson correlation (SOLiDxqRTPCR)
r2 = 83.9 (p-value < 0.05)
Resumo de Aplicações
Category
Examples of applications
Complete genome resequencing
Comprehensive polymorphism and mutation discovery in
individual human genomes
Reduced representation sequencing
Large-scale polymorphism discovery
Targeted genomic resequencing
Targeted polymorphism and mutation discovery
Paired end sequencing
Discovery of inherited and acquired structural variation
Metagenomic sequencing
Discovery of infectious and commensal flora
Transcriptome sequencing
Quantification of gene expression and alternative splicing;
transcript annotation; discovery of transcribed SNPs or
somatic mutations
Small RNA sequencing
Sequencing of bisulfite-treated DNA
microRNA profiling
Determining patterns of cytosine methylation in genomic
DNA
Chromatin immunoprecipitation– sequencing
(ChIP-Seq)
Genome-wide mapping of protein-DNA interactions
Nuclease fragmentation and sequencing
Nucleosome positioning
Molecular barcoding
Multiplex sequencing of samples from multiple individuals
[Shendure, J & Ji, H, 2008]
Introdução
EXEMPLO DE ABORDAGEM
Breast Cancer Sequencing Project
• Objetivo: Catálogo completo de mutações
somáticas na linhagem celular de tumor de
mama (HCC1954) utilizando como base de
comparação uma linhagem celular
linfoblastóide obtidas de um mesmo paciente
(HCC1954BL).
http://lgmb.fmrp.usp.br/bcsp/
Sequenciamento
• gDNA
– Whole Genome Sequencing
• Shotgun and paired-end sequencing
– Exome Capture
• cDNA
– Whole Transcriptome Sequencing
• Shotgun and paired-end sequencing
~ 350GB dados
Publicações
• Zhao Q et al., 2009. Transcriptome-guided characterization of
genomic rearrangements in a breast cancer cell line. Proc Natl
Acad Sci U S A. 2009 Feb 10;106(6):1886-91. Epub 2009 Jan 30.
PubMed PMID: 19181860;
• Zhao Q et al., 2010. Systematic detection of putative tumor
suppressor genes through the combined use of exome and
transcriptome sequencing. Genome Biol. 2010;11(11):R114. Epub
2010
Nov
25.
PubMed
PMID:
21108794;
• Galante PA et al., 2011. Distinct patterns of somatic alterations in a
lymphoblastoid and a tumor genome derived from the same
individual. Nucleic Acids Res. 2011 Aug;39(14):6056-68. Epub 2011
Apr 14. PubMed PMID: 21493686;
HCC1954
Representative SKY Karyotype
pseudotetraploid cell line
http://www.path.cam.ac.uk/~pawefish/BreastCellLineDescriptions/HCC1954.html
Linhagem celular derivada de carcinoma ductal de mama (estágio IIA, grau 3 invasivo,
sem metástase nos linfonodos)
extraído de uma paciente (Mulher, 61 anos, indiana)
[Gazdar AF , et al., 1998]
HCC1954BL
• HCC1954BL is an Epstein-Barr virus (EBV)transformed lymphoblastoid cell line derived
from the same patient.
– Both cell lines received similar treatments in terms
of the timing of establishment and in vitro
propagation (36 passages);
Objetivo
• Catalogar as mutações somáticas encontradas
nas linhagens HCC1954 e HCC1954BL em busca
de padrões que possam caracterizar as alterações
genéticas que ocorrem em um determinado
tumor e que direcionam a tumorigênese (driver
mutations) em relação às mutações passageiras
(passenger mutations);
– Motivação: Primeiro trabalho a caracterizar as
mutações somáticas presentes na linhagem não
tumoral e tumoral de um mesmo paciente (outros
estudos focados apenas nas mutações somáticas do
tumor);
Dados
• gDNA paired-end sequencing
– Illumina GAII
• gDNA exome capture (Nimblegen Sequence Capture 2.1M Human Exome
array)
– Roche 454 GS FLX
Total number of
reads
HCC1954
Paired-end
Capture sequencing
sequencing
5,996,389
381,274,888
HCC1954BL
Paired-end
Capture sequencing
sequencing
6,265,250
347,891,568
Dados de Referências
• Genoma referência
– NCBI build 36.1/hg18;
• Regiões com haplótipos alternativos e o loci de
imunoglobulinas foram excluídos;
– UCSC Genome Browser
• dbSNP version 130;
• RefSeq (mRNAs e ncRNAs);
Alinhamento
• gDNA paired-end sequencing
– Illumina GAII (Bowtie [Langmead B et al., 2009])
• gDNA exome capture
– Roche 454 GS FLX Titanium (BLAT [Kent WJ, 2002])
Total number of
reads
Mapped reads
Percentage of
mapped reads
Total number of
nucleotides
Mapped
nucleotides
Percentage of
mapped nucleotides
HCC1954
Paired-end
Capture sequencing
sequencing
5,996,389
381,274,888
HCC1954BL
Paired-end
Capture sequencing
sequencing
6,265,250
347,891,568
5,212,428
86.9
254,326,859
66.7
5,106,763
81.5
237,886,727
68.4
3,143,589,263
19,392,752,128
3,252,428,887
15,693,171,704
2,257,027,363
13,432,965,012
2,175,120,803
11,166,288,816
71.8
69.3
66.7
71.1
Pré-processamento
• Leituras duplicadas mapeadas em
coordenadas idênticas foram fundidas;
• Leituras com mapeamento ambíguo foram
desconsideradas;
Estratégia para Detecção de Mutações
A zigosidade
e as regiões com perda de
heterozigozidade (LOH)
foram estimadas por HMM
usando dados públicos
de microarranjos de SNPs
(Affymetrix SNP array)
e confirmadas com os
dados de Exoma
Análise de SNVs
• Independentemente para cada linhagem em
relação ao genoma referência;
– 3 leituras com qualidade >= 20 suportando a variação;
– Análise de mutações somáticas
• Profundidade na cobertura de ao menos 5 leituras em
ambas as linhagens;
• Leituras suportando a variação devem constituir ao menos
20% do número total de leituras;
• Variações comuns ao dbSNP foram desconsideradas para a;
• Variações comuns às duas linhagens foram excluídas;
• Falsas chamadas de mutação residindo em regiões onde há
perda de heterozigose (LOH);
SNVs
three reads with base quality ≥20
Substitutions
Coding
Intronic
UTR
ncRNA
Intergenic
Indels
Coding
Intronic
UTR
ncRNA
Intergenic
HCC1954
N (%) in dbSNP
82355 (92.68)
11717 (90.92)
60314 (92.53)
3419 (92.57)
256 (96.87)
6649 (91.84)
689 (52.10)
38 (50.00)
595 (52.43)
30 (46.66)
1 (100.00)
25 (52.00)
HCC1954BL
N (%) in dbSNP
83474 (93.60)
12373 (93.84)
61428 (93.77)
3570 (94.04)
260 (96.92)
5843 (90.86)
587 (52.81)
31 (51.61)
506 (54.15)
26 (42.30)
1 (0.00)
23 (39.13)
Maioria delas
comuns a ambas
as linhagens
92% descritas
no dbSNP
8% novos SNVs
[Bentley, DR et al., 2008]
[Wheeler, DA et al., 2008]
Comparação com SNP Array
• Affymetrix Mapping 250K Sty2 SNP Array
– GEO: GSE12019 and GSE13373
• Correspondência com as regiões de detecção
(sequenciada ao menos 1 vez)
– 93.7% HCC1954
– 97.8% HCC1954BL
• Detecções corretamente identificadas
– 80.8% HCC1954
– 83.3% HCC1954BL
» Diferença de performance entre as linhagens não
significante (p-value=0.69, χ2=0.16, df=1)
Análise de Variações Estruturais
• Dados desconsiderados
– Leituras que mapearam em regiões altamente repetitivas
(1Mb);
– Leituras onde os pares maperam dentro da distância
esperada porém, uma das leituras em orientação
incorreta;
• Requisitos
– 5 pares de leituras suportando a variação em HCC1954 e
nenhuma em HCC1954BL;
• Rearranjos intercromossomos: leituras em pares mapeadas
unicamente em cromossomos distintos;
• Rearranjos intracromossomos:
– Deleções: distância maior do que a esperada (average+4*SD);
– Duplicação in tandem: orientação e distância não esperada;
Sequenciamento em pares
•
Sequenciamento em pares
mate-pair
paired-ends
(Korbel et al. , 2007)
–
–
36 bp
Referência:
>SOLEXA01:1:1:27:1992#0/1
36 bp
~ 128 bp a ~428 bp
paired-ends
>SOLEXA01:1:1:27:1992#0/2
Mutações somáticas
Somatic variations
Point mutations
Coding
Nonsense
Missense
Synonymous
Non-coding
UTR
ncRNA
miRNA
Intronic
Splice site
Other intronic
Intergenic
Structural variations
Interchromosomal
Intrachromosomal
Deletions
Inversions
Duplications
HCC1954
N (%)
274 (100)
64 (23.36)
2 (0.73)
45 (16.42)
17 (6.20)
14 (5.11)
13 (4.74)
1 (0.36)
0 (0)
179 (65.33)
0 (0)
179 (65.33)
17 (6.20)
94 (100)
49 (52.1)
45 (47.9)
30 (31.9)
11 (11.7)
4 (4.3)
HCC1954BL
N (%)
173 (100)
30 (17.3)
3 (1.7)
15 (8.7)
12 (6.9)
15 (8.7)
13 (7.5)
2 (1.2)
0 (0)
114 (65.9)
0 (0)
114 (65.9)
14 (8.1)
4 (100)
0 (0)
4 (100)
2 (50.0)
2 (50.0)
0 (0)
HCC1954 dNs/dS = 2.8
HCC1954BL dNs/dS = 1.5
Diferença significativa
entre as taxas
(p=0.031; χ2=4.68; df=1)
38 regiões gênicas
22 já descritas
[Stephens, PJ et al., 2009]
[Zhao, Q et al., 2009]
Mutações pontuais e variações
estruturais
Circos plot representing somatic point mutations and structural variations in the (A) HCC1954 and (B) HCC1954BL genomes.
mutações somáticas pontuais: pontos (preto: NS; vermelho S);
cobertura do genoma: região em verde;
rearranjos cromossômicos: linhas conectando dois cromossomos;
deleções: linhas azuis;
inversões: linhas pretas;
duplicações: linhas cinzas;
Frequência de substituições
• Espectro similar de substituições
Predominância de transições
Validação
• Mutações pontuais
– PCR e Sequenciamento com o método de Sanger
(ABI3130)
• HCC1954 (47 mutações Ns)
– 33 (70.2%) já descritas na literatura;
– 12/14 (85.7% ) foram validadas (Sanger);
– 45 mutações Ns válidas
» 42 (93.3%) em resíduos de aminoácidos conservados
evolutivamente (10 espécies distintas);
• HCC1954BL (18 mutações Ns)
– 12 (66.6%) foram validadas (Sanger);
– 12 mutações Ns válidas
» 11 (91.6%) em resíduos de aminoácidos conservados
evolutivamente (10 espécies distintas);
Análise de Vias Biológicas
Vias metabólicas/regulatórias relacionadas com a tumorigênese
KEGG ID
KEGG annotation
Number of genes in
Gene Name
the pathway
P-value
3
ITGA6 TP53 TRAF2
0.0003
2
ITGA6 MYH7
0.0167
2
2
3
TP53 TRAF2
ITGA6 MYH7
ARRB1 TP53 TRAF2
0.0169
0.0191
0.0237
1
DPYD
0.0325
2
1
3
CFL2 SEMA3A
LNPEP
ITGA6 TP53 TRAF2
0.0335
0.0372
0.0375
1
EME1
0.0234
1
2
SETD2
OR51E2 OR2D2
0.0382
0.0421
HCC1954
hsa05222
hsa05410
hsa04210
hsa05414
hsa04010
hsa00770
hsa04360
hsa04614
hsa05200
HCC1954BL
hsa03440
hsa00310
hsa04740
Small cell lung cancer
Hypertrophic
cardiomyopathy
Apoptosis
Dilated cardiomyopathy
MAPK signaling pathway
Pantothenate and CoA
biosynthesis
Axon guidance
Renin-angiotensin system
Pathways in cancer
Homologous
recombination
Lysine degradation
Olfactory transduction
Simulação de Monte Carlo (1000 conjuntos aleatórios 45 e 12 genes)
Todos os genes conhecidos e 200 vias metabólicas/regulatórias do KEGG
Interações entre Proteínas
• PPI DBs
– MINT, BIOGRID, INTACT, HPRD, BIND, DIP
• HCC1954
–25/45 (55.5%)
• HCC1954BL
–8/12 (66.7%)
• Não há diferença significativa em termos de
representação
– (p=0.729; χ2=0.12; df=1)
Análise de Interações entre Proteínas
Tumorigenesis pathways:
apoptosis
(TP53, TRAF2, SLC25A5)
MAPK signaling
(TP53, ARRB1, TRAF2)
cell adhesion
(ITGA6)
cytoskeleton organization
(PCNT, CLIP1)
cell cycle
(RFC4, PCNT)
Key Cancer Genes:
BRCA1,
CDC42, CHECK1, MDM2,
MAP3K1/3
SMAD2/3
Protein–protein interactions
networks for mutated genes in
HCC1954 (A) and HCC1954BL (B).
Alto grau de interações em HCC1954 (33.2)
(P=0.0017, Monte Carlo simulation)
Baixo grau de interações em HCC1954BL (5.1)
(P=0.875, Monte Carlo Simulation)
proteínas com mutações NS validadas
proteínas com interação com 3 proteínas mutadas
porteínas com interação com 2 proteínas mutadas
Atuação Sinergística na Tumorigênese
• Proteínas mutadas com parceiros de interações em
comum => atuação sinergística no desenvolvimento do
tumor [Bredel M. et al., 2009];
• HCC1954
– (17/25 – 68%) ao menos 1 parceiro em comum (64 parceiros)
• Diferente do esperado ser ao acaso (p < 0.0001, Monte Carlo
simulation)
• HCC1954BL
– (0/5 – 0%) nenhum
• Diferença do esperado ser ao acaso pouco significativa (p = 0.855,
Monte Carlo simulation)
• Diferença na média de parceiros de interações em comum?
– 1000 conjuntos aleatórios (5) em ambas as linhagens x PPI
• (3.3 versus 0) (P=0.0245, Monte Carlo simulation)
Redes funcionais em outros tipos de
tumor
Number of
mutated
genes with
PPI
information
(%)
50 (56)
References
Tumor
type
Number of
genes with
nonsynonymous
mutations
Pleasance et al.
Lung
90
Pleasanceet al.
Melanoma 188
100 (53)
Ding et al.
Breast
basal
Breast
lobular
GBM
29
17 (59)
32
16 (50)
110
40 (36)
Breast
HCC1954
45
25 (56)
Shah et al.
Clark et al.
Galante et al.
Average
number of
interactions
for mutated
genes (Pvalue)
11.6 (0.2692)
Number of
mutated
genes with
common
partner (%)
(P-value)
33 (66)
(0.0001)
8.3 (0.8344) 69 (69)
(0.0001)
8.1 (0.2210) 7 (41)
(0.0001)
32.5 (0.0034) 7 (44)
(0.0001)
12.9 (0.7269) 18 (45)
(0.0001)
33.2 (0.0017) 17 (68)
(0.0001)
Number of
common
partners (Pvalue)
42 (0.0870)
103 (0.3130)
7 (0.0132)
28 (0.0011)
13 (0.1896)
64 (0.0001)
Discussão (1)
•
Caracterização das mutações somáticas
– linhagens celulares (mesmo indivíduo)
•
•
tumor e de células linfoblastóides
Padrões complexos de rearranjos cromossômicos no genoma do tumor afetando
regiões gênicas;
– [Michor F et al., 2005]
•
O mesmo espectro de mutações encontrado nas duas linhagens;
– Ding L et al., 2010 – tumor de mama metastático fenótipo basal
– Shah SP et al., 2009 – tumor lobular de mama
•
Ação de agentes mutagênicos endógenos e erros na replicação
– Número de mutações identificadas em ambos os genomas é compatível com a taxa de
mutação espontânea para células humanas normais [Albertini RJ et al., 1990] suportando a
hipótese de que não há neste caso um fenótipo “causador de mutação” em HCC1954;
•
(274/173=1.58) – devido a um maior conteúdo de DNA na linhagem tumoral;
– Evidências de tumores sem evidência de agentes mutagênicos externos;
•
Existência de mutações resultates da cultura in vitro e transformação EBV
(HCC1954BL);
– 36 passagens;
– Critérios estringentes;
– Estudos com evidências de que mutações pontuais clonais são raras [Jones S et al., 2008]
Discussão (2)
• Diferenças entre o conjunto de genes mutados em ambas
as linhagens:
– Mutações não-sinônimas mais frequentes HCC1954;
– Mutações no genoma do tumor não estão distribuídas
aleatóriamente;
• Afetam preferencialmente genes “HUB” nas interações com outros
genes;
• Afetam vias biológicas relacionadas com a tumorigênese;
• Mutações no genoma do tumor são co-selecionadas;
– Ação sinergística de mutações na tumorigênese;
» Observação em outros tumores;
• Observação:
• Se a célula tumoral requer somente um número pequeno de
alterações genéticas “fortes” para a tumorigênese;
• Não seria esperado uma associação funcional dos genes mutados
no tumor, pois a maioria das mutações seriam passageiras;
Discussão (3)
• Modelo sugerido: o genoma do tumor tem
poucas mutações “fortes” e muitas mutações
“fracas” que atuam em sinergia para
desestabilizar as vias relacionadas à
tumorigênese;
– Associação funcional marcante entre os genes
mutados no tumor;
– Modelo já proposto na literatura (e.g. [Bredel M et
al., 2009])
Conclusão
CONCLUSÃO
Conclusão
• New-Generation Sequencing (NGS)
– Avanços sem precedentes
• Obter informações genômicas em curto tempo a um custo razoável;
– Flexibilidade para ser aplicada em uma série de estudos genômicos;
» Genômica de organismos não-modelos;
» Regulação gênica em determinadas situações e condições biológicas;
» Caracterização da relação evolutiva entre genomas ancestrais
(Comparative and Evolutionary Genomics);
» Elucidação dos eventos moleculares que direcionam a tumorigênese
(Cancer Genomics);
– Redução da distância em direção a uma medicina personalizada;
– Desafios
• Infraestrutura de sistemas de informação tecnológica (TI)
– BIG Data
» transferência de dados, armazenamento, controle de qualidade,
sistemas computacionais eficientes (algoritmos e hardware);
Perguntas...
Daniel Guariz Pinheiro
[email protected]
OBRIGADO !!!
Download

New Generation Sequencing: The Big Data Era