UNIVERSIDADE FEDERAL DE RONDÔNIA
PAULO HENRIQUE ALVES
Uso de Dados de Microarranjos de DNA em Amostras Armazenadas por Longo
Período. Estudo dos Casos de Amostras da Hospedaria de Imigrantes do Estado de
São Paulo e Monte Negro, Rondônia.
PORTO VELHO - RO
2012
PAULO HENRIQUE ALVES
Uso de Dados de Microarranjos de DNA em Amostras Armazenadas por Longo
Período. Estudo dos Casos de Amostras da Hospedaria de Imigrantes do Estado de
São Paulo e Monte Negro, Rondônia.
Dissertação apresentada ao
Programa de Pós Graduação
em Biologia Experimental da
Universidade
Federal
de
Rondônia, para o Título de
Mestre
em
Biologia
Experimental.
Orientador: Dr. Ricardo de
Godoi Mattos Ferreira
PORTO VELHO - RO
2012
FICHA CATALOGRÁFICA
Alves, Paulo Henrique.
A474u
Uso de dados de microarranjos de DNA em amostras
armazenadas por longo período. Estudo dos casos de amostras da
hospedaria de imigrantes do estado de São Paulo e Monte Negro,
Rondônia. / Paulo Henrique Alves. Porto Velho, Rondônia, 2012.
60f.: il.
Dissertação (Mestrado em Biologia Experimental) – Programa de
Pós-Graduação em Biologia Experimental, Fundação Universidade
Federal de Rondônia, Porto Velho, Rondônia, 2012.
Orientador: Prof. Dr. Ricardo de Godoi Mattos Ferreira.
1. Microarranjos. 2. SNP. 3. Bioinformática. 4. Homozigosidade. I.
Título.
CDU: 577.1(811.1)
Bibliotecária Responsável: Eliane Gemaque / CRB 11-549
A minha família, que sem eles
nada disso seria possível, sempre
apoiando
e
acreditando
no
meu
potencial.
A minha linda princesinha, que
com seu olhar me faz acreditar que
tudo é possível.
AGRADECIMENTOS
Ao CNPq pelo apoio financeiro.
A todos os colegas, professores e amigos da FIOCRUZ/RO.
A toda a equipe que participou do projeto e da coleta dos dados da Hospedaria de
Imigrantes do Departamento de Imigração e Colonização do Estado de São Paulo, como
também, toda a equipe que coletou os dados do Município de Monte Negro do Estado de
Rondônia.
Às colegas Lilian Mota Cantanhêde e Iasmin Pimentel.
Aos colegas do Laboratório de Epidemiologia e Genética da Universidade Federal
de São Paulo por fornecer os dados que tornaram possível a execução do trabalho.
Aos meus amigos Márlon Grégori Flores Custódio pela parceria e o apoio e
Ednaldo Teixeira da Silva pelas sábias dicas e ensinamentos da programação.
Ao Professor Fernando Berton Zanchi pela colaboração e apoio na produção dos
scripts para o banco de dados.
Ao Professor Ricardo de Godoi Mattos Ferreira pela orientação, paciência,
grandes ensinamentos e amizade.
RESUMO
O presente estudo tem como objetivo avaliar se os dados fornecidos pelos experimentos de
microarranjos utilizando amostras biológicas alimentadas por longos períodos podem trazer viés
as análises. Admite-se na literatura científica que dois indivíduos não aparentados apresentam em
seu genoma cerca de 99,5% de similaridade e que a maioria das diferenças ocorre em locais
específicos, por substituições únicas de nucleótidos (SNP). Nos seres humanos, como em outros
organismos diplóides, existem duas cópias de cada cromossomo autossómico, portanto, há
geralmente três combinações de alelos possíveis para cada SNP, sendo o genótipo de um
indivíduo uma combinação específica de alelos. Tecnologias de análise moleculares, tais como
microarranjos de DNA permitem avaliar a partir de algumas dezenas de milhares até milhões de
variações de DNA em praticamente todos os genes humanos. Entre essas tecnologias, existe o
GeneChip 500k da Affymetrix ®, em que os dados podem ser analisados utilizando chips com
duas matrizes com 250 mil sondas e procedimentos de digestão enzimática, que no presente
estudo foi a Nsp I. Esses microarranjos possuem um desenho básico com pares de sondas de 25
bases capazes de analisar mais de 250.000 SNPs. Essas sondas são hibridizadas sobre lâminas
de vidro, utilizando uma técnica conhecida como fotolitografia. O DNA extraído de amostras é
hibridado com as sondas do chip, resultando numa matriz que é digitalizada, proporcionando uma
imagem de elevada resolução, imagens que são os dados primários deste tipo de experimento.
Esta imagem é submetida a um processo de atribuição de genótipo, que é específico para cada
SNP. A análise é feita pelo algoritmo BRLMM (Distância de Mahalanobis com Robusto Modelo
Linear e Bayesiano) usado em estratégias com o modelo dinâmico, que calcula os genótipos com
base na intensidade de sondas. Os quatro estados possíveis para cada SNPs (null, A, AB e B) são
chamados de código de chamada (call code) e são definidos pela relação entre a intensidade da
sonda e seu fundo, gerando alguns indicadores que são comparados entre diferentes
experimentos. O genótipo final é, em seguida, o resultado de sondas do tipo A, combinados com
sondas do tipo B de cada SNP. Quando um código não pode ser devidamente determinado é
chamado de NoCall. Abordagens bayesianas combinadas com a distância Mahalanobis são
utilizadas para gerar um controle de qualidade (QC call rate) que é determinado por um valor de
call rate de 93% para cada experimento. O fabricante de microarranjos recomenda que os únicos
resultados obtidos nos experimentos sejam os que apresentem um call rate superior ao indicado.
Os Dados foram obtidos em projetos em andamento no Laboratório de Epidemiologia e Genética
do Departamento de Ciências Biomedicas da Universidade de São Paulo. Devido à importância da
amostra, e a impossibilidade de realizar novas coletas, decidiu-se verificar que tipo de viés poderia
ser encontrado utilizando os dados dessas amostras analisadas. Um viés possível, é que, alguma
perda não aleatória de blocos cromossômicos pode ser detectada nos genótipos homozigóticos
em posições cromossômicas comuns que levam a erros de cálculo de genótipos e freqüências de
alelos e genótipos / associação de fenótipo. Para avaliar a hipótese de perda não aleatória, um
banco de dados MySQL foi criado para armazenar os genótipos fornecidos pelos programas da
Affymetrix e scripts em PHP foram criados para calcular uma pontuação individual cumulativa
baseado no vizinho / SNP consecutivo e calcular a frequência de genótipos do SNP baseada na
contagem de genótipos da amostra. Concluímos com os resultados, que ao compararmos os
dados e verificar que boa parte estava abaixo do QC call rate e cruzar os dados de Monte Negro
com a da Hospedaria, verificamos que a homozigosidade em Monte Negro é relativamente maior.
Contudo a nossa hipótese era de que a baixa qualidade da amostra da Hospedaria poderia
influenciar no aumento de homozigosidade, devido a atribuição errada do call code AB em AA ou
BB, o que de fato não ocorreu. Apesar de não podermos inferir com 100% de certeza o estudo
abre margem para novos estudos de variabilidade genética.
Palavras-chave: Microarranjos, SNP, Bioinformática, Homozigosidade.
ABSTRACT
The present study aims to evaluate if data provided by microarray experiments using biological
samples stoked for long periods can bring bias to downstream analyses. It is accepted on scientific
literature that two unrelated individuals share about 99.5% of theirs genome and that most of the
differences occurs at specific locations by single nucleotides substitutions (SNPs). In humans, as in
other diploid organisms, there are two copies of each autosomal chromosome, so there are usually
three possible allele combinations for each SNP, been the genotype of an individual a specific
combination of alleles on a specific SNP. Molecular analysis technologies such as DNA microarrays
allows one to evaluate from some tens of thousands up to millions of DNA variations in virtually
every human gene. Among those technologies, data obtained using the Affymetrix GeneChip®
500k (only from the 250K Nsp slides) were analyzed. Those microarrays have a basic design with
a group of pairs of 25 mers probes able to discriminate more than 250,000 SNPs on every subject.
Those probes are spotted on glass slides using a technique known as photolithography. DNA
extracted from subject’s samples are hybridized with the array probes, resulting in a matrix that is
scanned, resulting in a very high resolution image, which is the primary data of this kind of
experiment. This image is than subjected to the genotype calling process to attribute the individual
genotype on every SNP. This analysis is done by the BRLMM (Bayesian Robust Linear Model with
Mahalanobis distance classifier) algorithm used in pipeline with the Dynamic Model, which
calculates the genotypes based on probes intensity. The four possible states for every SNPs (Null,
A, AB e B) are named call code, defined by the relation between probe intensity and its
background, generating some metrics that are compared between different experiments in the
dynamic model given the final call code. The final genotype is then the result of type A probes
metrics, combined with type B probes of every SNP. When those cannot be properly accessed a
null call value (NoCall) is attributed. Bayesians approaches combined with Mahalanobis distance
are used to determine a quality control (QC call rate) for every microarray. The microarray
manufacturer recommends the only data from experiments with an overall call rate greater than
93% is used. Data from experiments of an ongoing project at the Genetic Epidemiology Laboratory
from the Biomedicine Science Department of São Paulo University with overall call rate smaller
than 93% were analyzed. Due to the sample importance, and the impossibility to perform a new
sample collection, it was decided to verify what kind of bias could be found using the genotypes
generated by microarray analyses in this kind of sample. One of the possible bias is that some norandom loss of chromosome blocks could be detected by long homozygous genotypes in common
chromosomal positions leading to miscalculation of genotypes and alleles frequencies and
genotype/phenotype association. To evaluate the no-random loss of chromosome blocks bias
hypothesis a MySQL database was created to store the genotypes provided by Affymetrix
softwares. PHP scripts were created to calculate an individual cumulative score based on both
neighbor/consecutive SNPs and the calculate genotypes frequency of that SNP based on sample
genotypes counts. No bias was found using the proposed scoring schema on chromosome 22
data. Further analyses need to be done on different scoring schemas and also using data of all
chromosomes
Keywords: Microarray, SNP, Bioinformatics, Homozygosity.
ÍNDICE DE IMAGENS
Figura 1. Esquema da Hibridização a níveis de especificidade. ....................................... 3
Figura 2. Imagem dos chips das plataformas. .................................................................. 5
Figura 3. Técnicas empregadas ....................................................................................... 8
Figura 4. Visão geral do processo de ligação dos adaptadores ......................................12
Figura 5. Fluxo de trabalho do Algoritmo BRLMM. ..........................................................13
Figura 6. Transformação do Espaço dos Clusters ...........................................................15
Figura 7. Imagem de baixa qualidade hospedaria. ..........................................................17
Figura 8. Foto do Museu dos Imigrantes de São Paulo ...................................................20
Figura 10. Imagem do arquivo de intensidades ...............................................................22
Figura 11. Lista de Arquivos disponibilizados pelo software Genotyping Console ...........22
Figura 12. Output do software genotyping console .........................................................23
Figura 13. Esquema do Fluxo de Trabalho .....................................................................24
Figura 14. Diagrama do Banco de Dados Microarray. .....................................................26
Figura 15. Imagem da Home do programa MySQL Workbench. .....................................27
Figura 16. Imagem da Home do programa phpMyAdmin. ...............................................28
Figura 17. Histograma para análise das frequências dos QC Call Rates ........................30
Figura 18. Gráfico dos limites do QC Call Rates Monte Negro. .......................................31
Figura 19. Gráfico dos limites do QC Call Rates Hospedaria. .........................................31
Figura 20. Percentual de Call Codes presentes no banco relacionando a quantidade de
Homozigotos analisados no estudo. ................................................................................33
Figura 21. Comparação dos grupos de call codes. .........................................................35
Figura 22. Função para cálculo do score. .......................................................................35
Figura 23.Gráfico dos scores do cromossomo 19 obtidos para cada um dos blocos para
as duas amostras. ...........................................................................................................38
Figura 24. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da
amostra da Hospedaria. ...................................................................................................38
Figura 25. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da
amostra de Monte Negro .................................................................................................39
Figura 26. Boxplot da amostra Hospedaria por cromossomo. .........................................40
Figura 27. Boxplot da amostra Monte Negro por cromossomo. .......................................41
ÍNDICE DE TABELAS
Tabela 1. Análises descritivas das amostras de Monte Negro e Hopedaria. ....................32
Tabela 2. Relação da quantidade de repetições com os grupos formados para cada call
code.................................................................................................................................34
Tabela 3. Esquema de atribuição dos scores. .................................................................36
Tabela 4. Esquema de atribuição dos scores e medição dos blocos de score.................37
SUMÁRIO
1
2
CONTEXTUALIZAÇÃO ............................................................................................. 1
INTRODUÇÃO........................................................................................................... 2
2.1 Microarranjo ........................................................................................................ 2
2.1.1
Hibridização ............................................................................................... 2
2.1.2
Normalização ............................................................................................. 4
2.1.3
Sumarização .............................................................................................. 4
2.2 As Principais Tecnologias de Microarranjo .......................................................... 5
2.2.1
Características e Aplicações ...................................................................... 6
2.2.2
As Ferramentas do Microarranjo ................................................................ 7
2.2.3
As Diferentes Tecnologias de Microarranjos .............................................. 8
2.3 Mapeamento Humano ........................................................................................11
2.4 Microarranjos de DNA Affymetrix .......................................................................11
2.4.1
GeneChip® Conjunto de Matrizes 500k ....................................................11
2.4.2
Seleção de SNP e Cobertura do Genoma .................................................12
2.5 Obtenção e Análise dos Dados ..........................................................................12
2.6 Algoritmos de Microarranjo.................................................................................13
2.6.1
Normalização e Sumarização do Alelo ......................................................14
2.6.2
Agrupamento e Transformação do Espaço ...............................................14
2.6.3
Obtenção do Genótipo ..............................................................................15
2.6.4
Casos Especiais .......................................................................................16
2.7 Desafios no Uso dos Microarranjos de DNA ......................................................16
2.7.1
Hibridização Cruzada ................................................................................16
2.7.2
Ruído ........................................................................................................17
2.7.3
Correção do Background ..........................................................................17
2.8 Degradação do DNA ..........................................................................................18
3 OBJETIVO ................................................................................................................18
3.1 Objetivos Específicos .........................................................................................18
4 METODOLOGIA .......................................................................................................19
4.1 Obtenção dos Dados..........................................................................................19
4.1.1
Hospedaria................................................................................................19
4.1.2
Monte Negro .............................................................................................20
4.2 Tratamento dos Dados no Microarranjo .............................................................21
4.2.1
Console de Comando GeneChip® ............................................................21
4.2.2
Console de Genotipagem (Genotyping Console) ......................................21
4.3 Análise dos Dados .............................................................................................23
4.3.1
Banco de Dados .......................................................................................24
4.3.2
Scripts de Análise .....................................................................................28
4.3.3
Estatística dos Dados ...............................................................................29
5 RESULTADOS .........................................................................................................29
5.1 Controle de Qualidade .......................................................................................29
5.1.1
Análises Exploratórias ...............................................................................29
5.2 Contagem dos códigos de leitura (call codes) ....................................................32
5.2.1
Contagem das sequências de homozigotos ..............................................33
5.3 Determinação dos Scores ..................................................................................35
5.3.1
Criação dos Blocos de Scores ..................................................................36
5.4 Gráficos das Médias dos Scores. .......................................................................37
6 DISCUSSÃO ............................................................................................................42
6.1 Fenômeno Biológico ..........................................................................................42
6.2 Metodologia Analítica .........................................................................................42
6.3 Análise de Hipóteses Genéticas .........................................................................43
6.4 Relação Entre o QC e os Grupos Analisados. ....................................................44
7 CONCLUSÃO ...........................................................................................................45
8 PERSPECTIVA.........................................................................................................45
9 REFERÊNCIAS BIBLIOGRÁFICAS ..........................................................................46
10
ANEXOS ............................................................................................................49
10.1
Anexo A .........................................................................................................49
10.2
Anexo B .........................................................................................................54
10.3
Anexo C.........................................................................................................56
1
CONTEXTUALIZAÇÃO
Técnicas que envolvem biologia molecular necessitam de uma avaliação cuidadosa
de seus mecanismos. Estas são suscetíveis a vários problemas, como por exemplo, o
longo período de armazenagem do DNA que pode gerar prováveis desgastes a amostra.
Uma destas técnicas é a de Microarranjos de DNA, que devido a estes problemas pode
gerar resultados imprecisos afetando assim as conclusões de experimentos baseados
nesses dados.
A hipótese a ser testada no presente trabalho é de que no processo de
armazenagem e manipulação das amostras biológicas, podem ocorrer perdas não
aleatórias de blocos cromossômicos em regiões específicas. Essas perdas podem ser
detectadas em dados de microarranjos de DNA quando uma série longa de genótipos
homozigóticos ou genótipos não determinados ocorrem em regiões cromossômicas
específicas. Essa perda não aleatória poderia gerar viés no cálculo de freqüências de
alelos e genótipos e consequente associação dos fenótipos estudados com os genótipos
obtidos.
Uma abordagem que pode ajudar a sanar os problemas nos resultados é a aplicação
de mecanismos de bioinformática, onde aliamos práticas de produção de códigos de
programação, estruturação de bancos de dados e de análises de bioestatística a fim de
analisar resultados imprecisos fornecidos por outras técnicas.
O presente estudo tem como objetivo principal avaliar se a baixa qualidade dos
dados de microarranjos de DNA das amostras de Monte Negro, em Rondônia e
Hospedaria dos Imigrantes do estado de São Paulo, que foram obtidas nos experimentos
realizados pelo Laboratório de Epidemiologia Genética do ICB (Instituto de Ciências
Biomédicas) da USP (Universidade de São Paulo) podem trazer viés às análises
subsequentes de frequência, associação e ligação.
1
2
INTRODUÇÃO
2.1
Microarranjo
As primeiras tentativas de se usar nucleotídeos em arranjos (arrays), com o
propósito de analisar simultaneamente, o maior número possível de genes começaram a
ser aplicadas no final da década de 70, com o advento da técnica conhecida como DotBlot (Kafatos et al., 1979). Contudo, foi somente na metade da década de 90 que esta
tecnologia adquiriu as características atuais (SCHENA et al.,1995).
A tecnologia do microarranjo teve sua evolução a partir de uma técnica criada por
um biólogo britânico chamado Edwin Southern (1975) conhecida como Southern blotting,
onde DNA fragmentado serve como uma sonda para uma sequencia de DNA. Esses
fragmentos são anexados a um substrato, em seguida hibridizados com a amostra a ser
averiguada. O uso de arranjos de diferentes fragmentos de DNA em matrizes de perfil de
expressão foi descrita pela primeira vez em 1987. Estas sondas foram utilizadas para
identificar genes cuja expressão é modulada por interferons (Kulesh et al., 1987). A
utilização de microarranjos para perfis de expressão gênica foi primeiramente relatada
em 1995 (Schena et al., 1995) a completa expressão de um genoma eucarioto
(Saccharomyces cerevisiae ) em um microarranjo foi publicado em 1997 (LASHKARI et
al., 1997).
O sucesso da tecnologia de microarranjo levou a produção de plataformas
múltiplas com matrizes diferentes no que se refere a sondas utilizadas (oligonucleotídios
curtos, longos e DNA, etc.), a hibridização (competitiva e não competitiva), métodos de
rotulagem e de produção polimerização in situ, spotting, etc. (BARNES, 2005).
2.1.1 Hibridização
A definição de hibridização pode ser feita através de quatro níveis de
especificidade no que envolve o contexto de hibridização de microarranjos. O primeiro é
hibridação entre uma molécula com uma única sonda e um único alvo (Figura 1A). As
duas moléculas podem apresentar hibridação perfeita (Figura 1Ai), parcial hibridação
(Figura 1Aii) ou nenhuma hibridização (Figura 1Aiii). O segundo nível é com relação ao
spot (Figure 1B). Neste nível, múltiplas sondas compõem um spot que será hibridizado
para múltiplos alvos. Essa relação pode apresentar uma hibridização perfeita ou parcial
2
(Figura 1Bi, Figura 1Bii e Figura 1Biii). É possível que ocorra em um mesmo array as
duas formas. A hibridização parcial a nível local pode ser um resultado de hibridização
cruzada, isto é, hibridização entre sequências que não são estritamente complementares,
(Figura 1Biv), devido à presença de moléculas não-alvo com sequências semelhantes as
das sondas. Uma vez que um local não é composto de sondas múltiplas um único spot
pode simultaneamente suportar todas as combinações possíveis. O terceiro nível é o
conjunto de pontos (spot-set. A Affymetrix utiliza a terminologia probe-set) (Figura 1C),
em que vários spots representam diferentes segmentos da sequência de referência.
Neste nível, diferentes pontos de um spot-set podem apresentar tanto uma hibridização
perfeita com alvo (Figura 1CI) quanto hibridização parcial (Figura 1Cii), que pode ocorrer
devida a presença de sondas que apresentem disparidades à molécula alvo, como por
exemplo, erros de quantificação; Também a não hibridização (Figura 1Ciii) devido a
splicings alternativos de uma transcrição; E hibridização cruzada (Figura 1Civ) que ocorre
devido a, segmentos de genes conservados que hibridizam com moléculas não-alvo
ocasionando a esse efeito uma mancha no spot-set. O quarto e útimo nível de
especificidade envolve microarranjos, em que um número variável de spot-sets que
podem apresentar diferenças nas formas de hibridação com sequências alvo (Figura 1D),
hibridização perfeita ou seja, todas as moléculas-alvo são hibridizadas ao seu ponto
representante e todos os spot-sets hibridizam com as moléculas alvo a que representam,
hibridização parcial em qualquer direção, não hibridização
moléculas alvo não são
hibridizados ou hibridização. Estas diferentes formas podem existir para um grande
número de diferentes moléculas-alvo ou spot-sets (KOLTAI, 2008).
Após o processo de hibridização, todos os chips de DNA são lavados para
remoção dos “alvos” excedentes não ligados às sondas (OLIVEIRA, 2010)
Figura 1. Esquema da Hibridização a níveis de especificidade (Fonte. KOLTAI, 2008).
3
2.1.2 Normalização
Normalização é um termo utilizado para descrever o processo de eliminação de
variações, causadas pelo diferencial de rotulagem da eficiência dos corantes
fluorescentes ou de diferentes quantidades de matéria-prima nas amostras utilizadas.
Assim como para todas as experiências em larga escala, existem muitas fontes de
variação sistemáticas que afetam as medições dos níveis de expressão do gene. O
primeiro passo para o processo de normalização é a escolha do conjunto de genes que
consiste de genes onde os níveis de expressão não devem mudar mediante as condições
estudadas sendo a razão da expressão de todos os genes (gene set). É esperado que a
partir deste conjunto, os fatores da normalização, que é um número que representa a
variabilidade observada no conjunto dos genes, sejam calculados. (BABU, 2004).
Este processo de correção dos dados considera ajustes para diferenças entre
chips visto em termos de variância, média, em efeitos de marcação e outros possíveis
erros sistemáticos. Determinados procedimentos de normalização baseiam-se em
somente alguns genes presentes nos chips exemplo disso, genes controles ou
housekeeping e genes com expressão supostamente constante nos diversos grupos
experimentais, tendo assim outros que se baseiam com todos os genes utilizando
procedimentos estatísticos robustos (GÖHLMANN e TALLOEN, 2009).
2.1.3 Sumarização
É o passo em que os valores de intensidade observados para cada grupo de
sondas (porbe set) representativos dos genes são combinados numa única medida que
resume tudo, determinando o nível de expressão de um gene. Diferentes técnicas e
resultados são referenciados e utilizam a média das diferenças entre a intensidade das
sondas PM (perfect match) e a intensidade das sondas MM (mismatch) para produzir o
valor de expressão, outras que consideram somente o valor da intensidade das sondas
PM (MBEI, RMA, sRMA, FARMS). Que são algoritmos contidos em programas
específicos para análise de dados de microarranjos (OLIVEIRA, 2010).
4
2.2
As Principais Tecnologias de Microarranjo
Uma das tecnologias empregadas é a Affymetreix GeneChip (Santa Clara, CA)
(Figura 2a) que em uma das técnicas, utiliza máscaras fotolitográficas para cada base
nucleotídica a ser fixada em cada posição específica. Processo em que uma determinada
região da lâmina deve conter uma base específica, a máscara deixa um ponto ou spot na
região, onde a base pode ser depositada sem haver contaminação das outras regiões,
em seguida ocorre desbloqueio por luminosidade ocorrendo assim um processo de
repetição até que os fragmentos de interesse sejam construídos base a base (ESTEVES,
2007).
Outra fabricante de lâminas deste tipo Agilent (Palo Alto, CA) (Figura 2b) usa uma
metodologia similar à das impressoras de jato de tinta, onde quatro cartuchos contendo
os quatro nucleotídeos (A,C,G,T) adenina, citosina, guanina e tirosina respectivamente,
são carregados em uma cabeça de impressão que injeta cada base necessária em áreas
específicas da lâmina à medida que a cabeça de impressão se move ao longo da mesma
(ESTEVES, 2007).
Uma terceira plataforma Illumina BeadArrays (Figura 2c) tem um processo
fundamentado na síntese de oligonucleotídeos longos espotados em uma matriz de micro
esferas (microbeads), que são então colocados em um Microarranjo utilizando um
mecanismo de montagem aleatória. O rendimento gerado pela montagem utiliza na
ordem de 30 (trinta) cópias de oligonucleotídeos prevê um aumento da replicação e um
diferencial da tecnologia (GUNDERSON, 2004).
Figura 2. Imagem dos chips das plataformas (a) GeneChip da Affymetrix (b) Chip-on-chip da
Agilent (c) BeadArray da Illumina (Fonte. Google Imagens 2012 15:48).
5
2.2.1 Características e Aplicações
Microarranjo (do inglês Microarray) se tornou uma das ferramentas indispensáveis
utilizadas por muitos profissionais, com práticas diversas, tais como, monitoramento de
níveis de expressão do genoma, variação de genes em um dado organismo, detecção de
polimorfismos de nucleotídeos simples (SNP), análise cromossomal, entre outras. Um
microarranjo é tipicamente um slide de vidro, sílica, plástico, membranas de nylon e
nitrocelulose sobre a qual as moléculas de DNA são fixadas de forma ordenada em locais
específicos, chamados de spots (pontos microscópicos). No caso da utilização de
membranas de nylon, essas moléculas são marcadas radioativamente e utiliza-se apenas
um tipo biológico por membrana, em contrapartida as lâminas de vidro, na qual dois tipos
de amostras biológicas diferentes são marcados geralmente por fluorescência.
(ESTEVES, 2007).
Os microarranjos são chamados também de chips de DNA em referencia ao
componente eletrônico miniaturizado, uma vez que são coleções de segmentos de
material genético (sondas do inglês probes) representativos dos genes de interesse que
se encontram depositados sobre um substrato sólido em um padrão regular (Chaudhuri,
2005). Diversas são as variações da tecnologia básica dos microarranjos, que dependem
das características do substrato, tipo de sonda bem como o método aplicado (ROGOJINA
et al., 2003).
O substrato sólido utilizado pode ser de diferentes materiais (lâmina de vidro,
sílica, plástico, membranas de nylon, nitrocelulose etc., medindo 2 cm2). As sondas
podem ser compostas de oligonucleotídios de cadeia longa (45 a 70mer), cDNAs
produzidos em projetos de sequenciamento, produtos de amplificação por PCR (reação
em
cadeia
da
polimerase)
ou
oligonucleotídios
de
cadeia
curta
(25mer)
(VENKATASUBBARAO, 2004).
Um microarranjo pode conter milhares de pontos e cada local pode conter alguns
milhões de cópias de moléculas de DNA, denominadas probes (sondas), idênticas que
correspondem exclusivamente a um gene. O DNA em um spot pode ser genômico,
cDNA, ou mesmo pequenos trechos de nucleotídeos (oligonucleotídio medindo
VERIFICAR: 35 mers) correspondente a uma sequencia de DNA de interesse. Os spots
são fixados sobre o slide (vidro) por um robô ou são sintetizadas pelo processo de
fotolitografia. (BABU, 2004).
Da mesma maneira, as formas de deposição das sondas também variam, mas
duas são as mais comuns: deposição mecânica e síntese in situ. A primeira, mais
simples, é feita por robôs de alta precisão que utilizam agulhas especiais para depositar
6
as sondas na superfície da lâmina na forma de spots (elemento circular criado pela
sonda) (VENKATASUBBARAO, 2004 apud OLIVEIRA, 2010).
2.2.2 As Ferramentas do Microarranjo
Tecnologias avançadas de manufatura permitem a produção em massa de
biochips e automação, aumentando a proliferação de ensaio de microarranjo, garantindo
a sua qualidade, disponibilidade e acessibilidade. É o exemplo de tecnologias como,
fotolitografia, mecânica de Microspotting e jato de tinta (Ink jets) (SCHENA, et al., 1995).
a) Fotolitografia: Baseada na síntese in situ, mais complexa, utiliza processos
especiais como a fotolitografia, impressão a jato ou síntese eletroquímica para realizar a
síntese química de oligonucleotídios sintéticos de cadeia curta (25 mer) diretamente
sobre a superfície do substrato. Representado na (Figura 3a) uma lamina de vidro
modificada com grupos de proteção foto instáveis (X) é seletivamente ativada para a
síntese de DNA por uma luz através de uma foto máscara (M1). A lamina é então
inundada com uma base de DNA (A-X), resultando em acoplamento espacial definido
pela superfície do chip. A segunda foto máscara (M2) é usada para desproteger regiões
definidas da lâmina. Repetidos ciclos de desproteção e de engate são realizados para
permitir a preparação dos microarranjos. Tecnologia desenvolvida por Fodor e colegas
(Affymetrix, Santa Clara, CA, E.U.A, 1992) que combina a tecnologia de fotolitografia da
indústria de semicondutores com o DNA sintético para permitir a fabricação de
oligonucleotídeos de microarranjo de alta densidade. Uma das principais vantagens desta
abordagem é que as versões foto protegidas dos blocos de DNA permitem a fabricação
de chips diretamente da sequencia da base de dados, eliminando assim os aspectos
incertos da manipulação e controle.
b) Mecânica de Microspotting: Uma versão original do que foi desenvolvido pro Shalon
e Brown, (1995) e posteriormente comercializado na Synteni (Fremont, CA, E.U.A).
Versão em miniatura de antigas técnicas de DNA spotting, que engloba conjuntos de
tecnologias que permitem a deposição relacionada com a produção automatizada por
microarranjo de impressão em pequenas quantidades de substâncias bioquímicas préfabricadas sobre superfícies sólidas (Figura 3b). A técnica de Mecânica de Microspotting
relaciona uma amostra bioquímica que é carregada por um pino por ação capilar, em
seguida, um pequeno volume é transferido para uma superfície sólida por contato físico
7
entre o pino e o substrato. Após o primeiro ciclo de spotting, o pino é lavado e uma
segunda amostra é carregada e depositada em um local adjacente. Sistema que é
automatizado por controle robótico e cabeçotes multiplex que permitem a fabricação dos
microarranjos.
c) Jatos de tinta: Técnica conhecida pelo nome Ink jets, fornece uma maneira de
fabricar microarranjos. A mais avançada destas abordagens são adaptações em
tecnologia de jatos de tintas que utilizam formas piezoeletric e outras de propulsão para
transferência de sub posições bioquímicas dos bocais miniaturizados em superfícies
sólidas (Figura 3c). Ink jets onde uma amostra bioquímica é carregada em um bocal
miniaturizado equipado com um encaixe piezoelétrico e uma corrente elétrica são usadas
para expelir uma quantidade exata de líquido sobre o substrato. Após a primeira etapa de
injeção, o jato é lavado e uma segunda amostra é carregada e depositada em um local
adjacente, o ciclo se repete permitindo assim a produção rápida de microarranjos.
Figura 3. Técnicas empregadas (a) Esquema do método de fotolitografia (b) Mecânica de
Microspotting (c) Jato de Tinta para produção de Microarranjo. Fonte: Affymetrix.(SCHENA, et al.,
1998).
2.2.3 As Diferentes Tecnologias de Microarranjos
A distinção entre as diferentes tecnologias existentes refere-se ao número de
amostras hibridizadas em cada lâmina. Neste sentido, os diversos tipos de tecnologias de
Microarranjos podem ser divididos em dois grupos básicos: sistema de uma cor ou canal
8
único (single-color ou single-channel Microarray) e sistema de duas cores, dois canais
(two-color ou two-channel Microarray) ou sppoted array, sendo também são referidas por
lâminas de hibridizações independentes e lâminas de hibridizações competitivas,
respectivamente (VENKATASUBBARAO, 2004 apud OLIVEIRA, 2010).
As sondas tendem a ligar-se pelo processo de hibridização apenas a sua
sequência complementar de nucleotídeos (alvos) extraída de amostras biológicas
previamente
marcadas
com
substâncias
fluorescentes.
Processo
chamado
de
hibridização (JALURIA et al., 2007).
Após o processo de hibridização, todos os chips de DNA são lavados para
remoção dos “alvos” excedentes (que não se ligaram às sondas) e, em seguida, exposta
à ação de raios laser que excitam os fluoróforos que foram incorporados aos “alvos”,
fazendo com estes emitam luz (fluorescência). Em princípio, quanto maior for a
expressão de um determinado gene, maior será a quantidade de “alvos” marcados com o
fluoróforo e, consequentemente, maior será a intensidade da fluorescência do complexo
alvo sonda após a hibridização. Assim, a tecnologia de Microarranjos fornece uma
medida indireta do nível de expressão gênica, mediante quantificação da abundância dos
RNAs transcritos (OLIVEIRA, 2010).
A tecnologia de Microarranjo é amplamente usada para monitorar a expressão
gênica de dezenas de milhares de genes em paralelo, a partir de células e em diferentes
condições experimentais. Microarranjo utiliza a vantagem do projeto de sequenciamento
do genoma humano, e compara a expressão de genes (DNA) de amostra de genes
conhecidos (Babu, 2004). As aplicações incluem várias técnicas.
Perfis de expressão gênica: Milhares de genes são simultaneamente
monitorados a fim de estudar os efeitos do tratamento em doenças, testando os estágios
em que os genes são expressos. A expressão de genes alvos sintetiza novos dados
sobre o que os genes fazem em condições variadas gerando uma ampla quantidade de
interpretações possíveis (COUZIN, 2006).
Hibridização de genômica comparativa: Também conhecida como (CMA)
Cromossomal Microarray Analysis, método que analisa mudanças em cópias de DNA,
como deleções e inserções de bases nucleotídicas (MORAN, 2004).
Imunoprecipitação da cromatina em Chip: Método que utiliza sequências de
DNA ligadas a uma proteína específica que pode ser isolada por imunoprecipitação,
fragmentos que podem então ser hibridizados com um microarranjo permitindo assim
determinar as proteínas de ligação. Os representantes mais importantes dessa classe
são fatores de transcrição, replicação de proteínas relacionadas, tais como, ORC
(Complexo de Reconhecimento de Origem) e histonas (APARICIO, 2004).
9
Detecção de Splicing alternativo: O splicing alternativo (AS) é um processo
biológico que ocorre durante a fase de maturação de um pré-mRNA, permitindo a
produção de diferentes variantes do mRNA maduro a partir de uma única unidade de
transcrição. Primeiramente considerado como um acontecimento extraordinário, é agora
visto que envolve a maioria dos genes multi-exon humanos, entre 50% a 74%. Este
mecanismo utiliza sondas específicas para emendar sitios previstos ou genes esperados
(TOMOTANI, 2010).
Fusão de Genes Microarranjo: O princípio desta técnica é a construção de
splicing alternativo. A estratégia combina oligos que permitem a medição da junção de
transcritos quiméricos com medidas de exons já conhecidos. Fusão de genes criada por
rearranjos cromossômicos estruturais, tais como translocações, deleções, inversões e
muitas vezes recursos patogenéticos essenciais do genoma do câncer. Eles parecem ser
particularmente característicos das neoplasias hematológicas e sarcomas, onde a sua
identificação pode ser crucial para o diagnóstico diferencial e tomada de decisão
terapêutica (SKOTHEIM et al, 2009).
Tiling Array: O objetivo é detectar empiricamente expressão de transcritos ou
alternativamente formas de splice que possam não ter sido previamente previstos. Eles
funcionam com um princípio semelhante aos microarranjos tradicionais que rotulam
moléculas-alvo hibridizando sondas não rotuladas fixadas sobre uma superfície sólida.
Pequenos fragmentos são projetados para cobrir todo o genoma ou regiões contíguas do
genoma. Dependendo do comprimento da sonda e espaçamento, entre diferentes graus
de resolução pode ser alcançado. Uma única matriz pode variar de 10 mil para mais de 6
milhões, característica que confere milhões de cópias a uma sonda (MOCKLER, 2005).
DamID: Ou Identificação de adenina em DNA Metiltransferase. DamID identifica
sítios de ligação, expressando a proteína de ligação no DNA proposto como uma proteína
de fusão com a DNA metiltransferase. Ligação da proteína de interesse para a DNA
metiltransferase localiza na região do sítio de ligação (VOGEL, 2007).
Detecção de SNP (SNP array): A técnica baseia-se na matriz de hibridização
genômica em microarranjo de oligonucleotídeos sintéticos de alta densidade. Cada um
dos dois alelos de um SNP é representado por 10 ou 14 oligonucleotídeos (chamado de
probe set) as intensidades de hibridização são medidas para todas as sondas em um
conjunto (LAMY, 2006).
10
2.3
Mapeamento Humano
Apesar do princípio dos processos de normalização, sumarização e hibridização
do microarranjo se manter, a constituição das sondas e dos alvos difere entre as
tecnologias de microarranjos.
Na construção de um microarranjo de SNPs, as sondas são um segmento da
zona conservada, em que um polimorfismo se encontra na zona central. Por sua vez, as
sequências alvo são constituídas por segmentos de DNA do genoma completo do
organismo. São várias as aplicações dos microarranjos de SNP’s, no entanto, uma das
mais relevantes resulta na avaliação da susceptibilidade de determinadas doenças
genéticas. Tal é conseguido através do estudo da sequência associada à determinada
doença e da capacidade de encontrar polimorfismos (ARRAIS, 2010).
2.4
Microarranjos de DNA Affymetrix
2.4.1 GeneChip® Conjunto de Matrizes 500k
O GeneChip ® Conjunto de Matrizes 500k duas matrizes de 250k permite estudos
de genomas inteiros para associação de diferentes populações, essas matrizes
correspondem a quantidade de SNPs que uma matriz de microarranjo pode analisar,
podendo ser de até quinhentos mil SNPs. O método utiliza o mesmo padrão da
tecnologia de GeneChip ® 10K e 100K. Em que, o DNA genômico (de no mínimo 250g)
é digerido com enzimas de restrição (Nsp I ou Sty I) e ligado a adaptadores que
reconhecem a ligação entre as bases. Todos os fragmentos resultantes do processo de
restrição enzimática, independentemente do tamanho, são substratos para ligação de
adaptadores. Um primer genérico que reconhece a sequência do adaptador é usado para
amplificar os fragmentos ligados ao DNA, podendo amplificar fragmentos de 200 a 1100
pb. O DNA amplificado é então fragmentado, rotulado e hibridado (Figura 4). Sendo que,
o conjunto de matrizes de mapeamento de 500K é composto de duas matrizes, cada uma
capaz de genotipar, em média, 250.000 SNPs. Uma matriz usa o Nsp I enzima de
restrição (~ 262.000 SNPs), enquanto o segundo usa Sty I (~ 238.000 SNPs). Juntos, é
possível genotipar 10.000, 50.000, 100.000, 250.000, ou 500.000 SNPs para uma
variedade de aplicações, incluindo ligação e estudos de associação (AFFYMETRIX™,
2006).
11
Figura 4. Visão geral do processo de ligação dos adaptadores (hibridização) (Affymetrix™).
2.4.2 Seleção de SNP e Cobertura do Genoma
SNPs são selecionados e em seguida dispostos em arrays com base na acurácia,
call rate e análise de desequilíbrio de ligação, tendo com base o estudo prévio do
genoma de três populações. A distância mediana entre os SNPs é de 2,5 kb e a distância
média é de 5.8 kb. A heterozigozidade média destes SNPs é de 0,30. Oitenta e cinco por
cento do genoma humano está presente em 10 kb de um SNP (AFFYMETRIX™, 2006).
2.5
Obtenção e Análise dos Dados
Os valores obtidos serão utilizados como entrada nas ferramentas de análise de
dados. Estas podem ser divididas em três classes: verificação da qualidade, préprocessamento e normalização. A primeira diz respeito à verificação da qualidade
elementar do resultado. Neste passo, vários erros sistemáticos, associados com o
procedimento laboratorial, são detectados através do uso de um conjunto de ferramentas
estatísticas e de métodos alternativos de visualização dos resultados. Após esta fase, é,
normalmente, aplicado aos dados um conjunto de algoritmos que tem como objetivo
removerem os efeitos de hibridação basal, responsável por conduzir a valores de
intensidade do fundo do microarranjo. É, ainda, realizada a normalização dos dados, de
forma a que os valores produzidos sejam uniformes e passíveis de comparação. Só
12
então, através do uso de ferramentas de visualização e de análise exploratória, a
interpretação biológica dos dados é obtida (ARRAIS, 2010).
2.6
Algoritmos de Microarranjo
A tecnologia do GeneChip® 100K e 500K utiliza o Modelo Dinâmico (DM) que tem
sido muito efetivo nas aplicações, mas que, na atualidade foi possível melhorá-lo com
mudanças no desenvolvimento do algoritmo RLMM (Distância de Mahalanobis com
Robusto Modelo Linear) em duas importantes áreas. Em primeiro lugar, RLMM realiza
uma análise de múltiplos chips, permitindo a estimativa simultânea dos efeitos e sinais da
sonda para cada SNP. Em segundo lugar, a melhora no desempenho (call rate e
acurácia) igualando o desempenho dos genótipos homozigotos e heterozigotos. A
principal diferença dessa mudança é a inserção de passos bayesianos ao algoritmo
RLMM que passa a ser chamado de BRLMM, fazendo assim, parte do fluxo de trabalho
(Figura 5.) (BRLMM, 2006).
Figura 5. Fluxo de trabalho do Algoritmo BRLMM (Adaptação Affymetrix™).
13
2.6.1 Normalização e Sumarização do Alelo
A Normalização e sumarização dos alelos são passos do algoritmo BRLMM que
consistem na determinação de valores para cada alelo de um SNP em um dado
experimento, que ocorre o aumento ou diminuição destes valores em prol da quantidade
de alelos presentes no genoma alvo (target). Os valores são calculados a fim de remover
efeitos estranhos relacionados a variações no chip, background e brilhos relativos a
diferentes sondas (probes) de um array (BRLMM, 2006).
Para cada SNP de interesse, o array terá múltiplas sondas designadas para
hibridizar com cada alelo do SNP, onde a intensidade das sondas varia em sistemáticas
maneiras para cada genótipo. Essa variação torna necessária a sumarização das
intensidades dos alelos, a esse processo dá-se o nome de “sinal”, que será atribuído para
cada alelo específico, portanto pra cada SNP de um experimento obtêm-se dois valores,
sendo um sinal representado pela letra “A” e um sinal pela letra “B” nomeadas como
sondas. Como a quantidade é resultante na intensidade do sinal, é importante saber que
devido a problemas de hibridização cruzada com alternância de alelos, este “sinal” não
corresponde diretamente à perfeita concentração de alelos correspondentes (BRLMM,
2006).
Portanto, cada SNP terá uma matriz (2xN) como valor de saída. Ou seja, dois
sinais para cada um dos N experimentos. Esta matriz de saída é então usada para avaliar
cada SNP do experimento (BRLMM, 2006).
2.6.2 Agrupamento e Transformação do Espaço
Após obter os sinais para cada alelo do SNP em cada experimento, inicia-se a
avaliação das distâncias entre os protótipos (cluster center) (Figura 6) para um
determinado genótipo (AA, AB, BB chamados de call codes) dados reais observados no
experimento. Embora, um "sinal" bruto dos valores seja útil para análise de expressão,
este não é perfeitamente adequado para análise de clusteres de genótipos. Por isso a
necessidade de transformar cada par do sinal em cada experiência para um espaço com
propriedades mais adequadas para avaliação dos genótipos (BRLMM, 2006).
14
Figura 6. Transformação do Espaço dos Clusters (BRLMM, 2006).
2.6.3 Obtenção do Genótipo
Segundo o manual do algoritmo BRLMM de 2006, a obtenção do genótipo é um
processo que compara a transformação do sinal de valores observados em um
experimento típico (protótipo) que é esperado para cada genótipo. O genótipo que está
mais próximo do valor típico é o que é atribuído (um classificador de distância mínima). A
obtenção é baseada na razão entre o mais próximo protótipo para o segundo mais
próximo.
Cada SNP deverá ter três genótipos "AA", "AB" e "BB", que é esperado ter alguma
dispersão de valores mediante ao protótipo. Logo, essa dispersão é medida por uma
distribuição multidimensional. O método pardrão para avaliar a distância do centro dos
grupos (protótipo) é a distância de Mahalanobis que leva em conta a variação e
covariação dos protótipos ao longo de cada eixo, que é definido pela equação sqrt[(x-µ)t
∑-1(x-µ)], onde µ é o centro do aglomerado, x é o valor de teste, e Σ é a matriz de
variância-covariância descrevendo os grupos (clusters) multidimensionais.
Então com um experimento obtêm-se valores transformados x e comparam os
três clusters centrais que foram criados (µAA, µAB e µBB) com matrizes de covariação
(∑AA, ∑AB e ∑BB) e com isso obtem-se uma distância (dAA, dAB e dBB). A menor
15
distância de um genótipo é que determinará qual o melhor genótipo do SNP a ser
utilizado. E nesse espaço de agrupamentos, cada protótipo consiste de dois
componentes, um centro e uma variância. Os componentes do centro consistem das
médias dos contrastes e forças de cada sinal, ou seja, µG=(contrasteG,forçaG), onde G é
o genótipo. O componente da variância é uma matriz 2x2 (variância-covariância). Ao fim
do processo obtemos os genótipos com menor distância dos centros.
2.6.4 Casos Especiais
Há uma definição clara para os protótipos observados no algoritmo já explicado.
Entretanto, para os SNPs que estão no cromossomo X (chrX), o tratamento é diferente,
assim, há grupos centrais distintos para cada sexo com menor quantidade de cópias do
chrX. Isso muda não apenas a localização dos centros de cluster para indivíduos XY,
mas os SNPs localizados no chrX podem acabar sendo chamados de heterozigotos. O
tratamento especial ocorre devido os SNPs do chrX aqui descritos serem aplicados
apenas para os que estão em regiões não-pseudo-autossômica. Após a detecção das
diferenças entre indivíduos XY e XX por um sinal obtido pelo Modelo Dinâmico (MD) do
algoritmo. Portanto, pessoas XY são estimadas como aquelas que apresentam
heterozigosidade menor que 7,5% no chrX, sendo maior, são tratados como XX.
Apenas dois centros de clusters são utilizados (AA e BB) e apenas os dados dos
indivíduos XY são utilizados. As seguintes modificações são executadas. A primeira,
apenas o MD para homozigotos é usado para propagar o processo de aprendizagem que
estima os clusters. Isto fornece a localização aproximada para os protótipos homozigotos
do agrupamento dos SNPs específicos. Segundo, os clusters heterozigotos são
modificados para evitar confusões entre indivíduos heterozigotos e XY (BRLMM, 2006).
2.7
Desafios no Uso dos Microarranjos de DNA
2.7.1 Hibridização Cruzada
Como a hibridização cruzada é um dos desafios presentes na tecnologia de
microarranjo e é eventualmente obtida pela reduzida dimensão das sondas usadas, a
Affymetrix aplica vários pares de sondas para cada transcrito alvo. Cada par de sondas
perfaz-se de uma sequência de 25 oligonucleotídios com complementaridade completa
16
com o éxons do gene alvo (perfect macth) e de outra de 25 oligonucleotídios, que difere
da anterior num único nucleotídeo localizado na posição central (mismatched). O objetivo
é o de que as sondas que possuem um nucleotídeo errado não hibridem com o transcrito
alvo sem erros, mas hibridem com muitos dos transcritos alvo com os quais as restantes
sondas sem erros também erradamente hibridam. Assim, o valor de intensidade do
mismatched subtraído ao do perfect macth deve dar uma estimativa mais realística da
intensidade correspondente à hibridação do transcrito alvo (ARRAIS, 2010).
2.7.2 Ruído
Devido suas condições, os microarranjos tendem por vezes a apresentar dados
com ruído (figura 7). Realizando a mesma experiência com os mesmos métodos,
materiais e condições, é possível que após a digitalização e processamento da imagem
os valores obtidos sejam distintos. Na origem desta situação está o fato do ruído ser
cumulativo a todos os passos e por muitas vezes não ser possível de reproduzir com
precisão todas as condições de uma experiência (ARRAIS, 2010).
Figura 7. Imagem de baixa qualidade hospedaria_15_mapping250k_nsp QC 50,09.
2.7.3 Correção do Background
A correção do background (Figura 7) é o principal passo para remoção de
contribuições não biológicas ao sinal medido. Típicos exemplos de sinais não específicos
17
são sinais de fundo das lavagens incompletas, ligações inespecíficas de transcritos.
(SEO e Hoffman, 2006 apud OLIVEIRA, 2010).
2.8
Degradação do DNA
O DNA degrada-se através de diversos mecanismos, incluindo processos
bacteriológicos, bioquímicos, oxidativos e/ou enzimáticos, que levam a ruptura das
cadeias constituintes da molécula. Calor, umidade e luz são exemplos de fatores que
contribuem para essa degradação. Pode então concluir-se que a presença de DNA
degradado numa amostra conduz, geralmente, a obtenção de um perfil genético parcial, o
que significa um menor poder informativo. (MARTINS, 2008).
3
OBJETIVO
O presente estudo tem como objetivo principal avaliar se a baixa qualidade dos
dados de microarranjos de DNA das amostras de Monte Negro, em Rondônia, e da
Hospedaria dos Imigrantes de São Paulo, que foram obtidas nos experimentos realizados
pelo Laboratório de Epidemiologia Genética do ICB (Instituto de Ciências Biomédicas) da
USP (Universidade de São Paulo) podem trazer viés às análises subsequentes de
frequência, associação e ligação.
3.1
Objetivos Específicos
a.
Treinar e usar os softwares associados ao estudo.
b.
Realizar análises descritivas das sequências de “No Call” e Homozigotos.
c.
Verificar se há viés nos resultados, sugerindo correções e avaliando se a mesma
região é perdida em diferentes amostras.
18
4
METODOLOGIA
4.1
Obtenção dos Dados
A obtenção dos dados ocorreu por intermédio de trabalhos realizados na USP
(Universidade de São Paulo) e no laboratório de Epidemiologia e Genéticos (EPIGEN).
Estes foram analisados utilizando a tecnologia de Microarranjos de DNA da Affymetreix
GeneChip® Human Mapping 500K. Duas amostras foram escolhidas para o
desenvolvimento do presente trabalho. Os residentes da Hospedaria dos Imigrantes do
Estado de São Paulo e o Município de Monte Negro do Estado de Rondônia,
contabilizando um N de 152 indivíduos coletados. Escolhemos estas amostras pela
importância dos resultados gerados em trabalhos anteriores e por se tratarem de coletas
antigas, inviabilizando uma nova coleta.
4.1.1 Hospedaria
A coleta foi feita pela equipe de pesquisa dirigida pelo Prof. Dr. Henrique Krieger
(projeto: Dinâmica Gênica em Populações do Nordeste Brasileiro) no período de outubro
de 1969 a agosto de 1970 com um total de 9127 indivíduos, pertencentes a 1806
famílias, na antiga e extinta Hospedaria de Imigrantes do Departamento de Imigração e
Colonização em São Paulo. Essa população caracteriza-se por apresentar altas taxas de
fertilidade, consanguinidade, mortalidade e grande variabilidade étnica permitindo a
realização de estudos de variabilidade genética (KAWAMATA, 2006).
Desses 9127 indivíduos, separamos 69 indivíduos da Hospedaria dos Imigrantes
do Estado de São Paulo, devido à quantidade de informações que estas amostras
forneciam e que ao fim do procedimento gerou 1517 arquivos, com informações
biológicas obtidas a partir dos programas da affymetrix.
19
Figura 8. Foto do Museu dos Imigrantes de São Paulo, antiga Hospedaria de Imigrantes. (Fonte:
Google imagens).
4.1.2 Monte Negro
Município do Estado de Rondônia que se localiza a uma latitude 10º17'40" sul e a
uma longitude 63º19'31" oeste. Sua população estimada em 2010 era de 14.090
habitantes e possui uma área de 1.413,4 km² (IBGE, 29 de novembro de 2010).
O presente trabalho analisou 83 indivíduos relacionados ao programa: Pesquisas
na Amazônia Ocidental Brasileira, onde foram coletados 900 indivíduos que
compreendem cerca de 250 famílias nucleares do Município de Monte Negro (Figura 9).
Em outros estudos, foi observado um componente de mistura africana de 25%, seguido
de 12% de ameríndia e 63% de origem europeia (FERREIRA, 2008).
Ao fim do procedimento de microarranjo, contabilizou um total de 1827 arquivos,
com informações biológicas geradas a partir dos programas da affymetrix.
Figura 9. Foto do Instituto de Ciências Biomédicas (ICB5) da USP em Monte Negro/RO. (Fonte:
http://www.icbusp.org/)
20
4.2
Tratamento dos Dados no Microarranjo
O software genotyping console da affymetrix gerou 23 arquivos para cada
indivíduo do estudo (output) no formato “txt” (do inglês text), relativos à quantidade de
cromossomos. Sendo 22 desses arquivos referentes aos cromossomos autossômicos e
um ligado ao sexo (apenas o X, a tecnologia de Microarranjos de DNA GeneChip® array
500k utiliza uma metodologia específica para o cromossomo Y vide tópico 2.5.4 Casos
Especiais) e um arquivo que não estava relacionado a cromossomo algum (NoChr). A
priori, o que nos interessou foram apenas os arquivos relacionados aos 22 cromossomos
autossômicos, já que nosso estudo não tem correlação com cromossomos ligados ao
sexo. Essa quantidade de arquivos se repetiu na ordem de 152 vezes, pois se tratava da
quantidade
de
amostras
coletadas
(Nomeamos
o
conjunto
de
amostras
de
array_experiment), gerando ao final de todo o processo 3.344 arquivos que auxiliaram na
inserção dos dados de interesse.
4.2.1 Console de Comando GeneChip®
O programa AGCC (Affymetrix GeneChip® Command Console) fornece um
conjunto de ferramentas para controle dos instrumentos e gerenciamento de dados
utilizados no processamento do GeneChip array. O software sumariza as sondas e suas
intensidades (arquivos com extensão CEL são gerados), possibilita o registro da amostra,
gerenciamento de dados e controle de instrumentos, bem como da imagem. Suporta toda
a gama de ensaios da Affymetrix, permitindo integração com aplicativos de análise
primários como o Expression Affymetrix Console ™ e Genotipagem Console ™. Os
dados das amostras de atributos e matrizes podem ser diretamente importados para mais
de 30 aplicativos disponíveis (AFFYMETRIX™, 2006).
4.2.2 Console de Genotipagem (Genotyping Console)
A utilização do programa Genotyping Console utilizado para leitura dos arquivos
que continham as informações dos indivíduos analisados, apresentava formatos nativos
do programa possibilitando a manipulação apenas no Genotyping Console. Os formatos
são (ARR e CEL) arquivos que mostram os atributos e intensidades respectivamente, no
arquivo de extensão CEL encontramos os valores do QC call rate (Figuara 10) que foram
utilizados como base do nosso trabalho. Tabela completa no Anexo C.
21
Figura 9. Imagem do arquivo de intensidades (QC call rate) gerado pelo programa Genotyping
Console da Affymetrix.
Na Figura 11 apresentamos as definições de cada arquivo gerado pelo programa.
Figura 10. Lista de Arquivos disponibilizados pelo software Genotyping Console da affymetrix
(Fonte: Affymetrix).
De todos os arquivos que são gerados a partir do programa Genotyping Console,
o que nos serviu como suporte para inserção das informações necessárias no banco de
dados e posteriormente para teste da nossa hipótese foi o arquivo com extensão (CHP)
exportado para o formato “txt” (Figura 12).
22
Esse arquivo apresenta informações que ajudaram na estruturação do banco,
informações que são as seguintes: Cabeçalho, que mostra as informações de um
determinado cromossomo para um determinado indivíduo, é com ele que identificamos o
arquivo no programa; Probe Set ID, o nome de uma sonda específica; Call Codes (AA,
BB e NoCall), códigos que representam um genótipo relacionado a um SNP, onde AA e
BB indicam um genótipo homozigoto, AB de genótipos heterozigotos e NoCall genótipo
nenhum.
Figura 11. Output do software genotyping console (brlmm.chp).
4.3
Análise dos Dados
Após uma primeira análise e tratamento dos dados pelo programa Genotyping
Console da Affymetrix, demos início a depuração dos dados para o trabalho de
verificação dos possíveis erros ocorridos pela qualidade do DNA analisado pelo
microarranjo de DNA. Esta preparação seguiu uma linha lógica de execução, onde o
primeiro passo foi a criação de um banco de dados (BD) para armazenagem dos dados,
já que se tratava de um contingente muito grande de valores. Para isso, era necessário à
escolha de um Sistema de Gerenciamento de Banco de Dados adequado (DBMS – do
inglês Database Management System), assim como os programas que auxiliaram na
construção dos esquemas, diagramas e scripts que ao fim de todo o processo geraria
aproximadamente ~6,8 Gbytes de informação. O segundo passo foi colocar em prática a
preparação dos scripts de análise dos dados que foram armazenados no BD, onde,
também, escolhemos qual a melhor linguagem para execução do nosso fluxo de trabalho
(Figura 13). Por fim, realizou-se as análises estatísticas dos valores gerados a partir dos
programas utilizados e códigos desenvolvidos.
23
Figura 12. Esquema do Fluxo de Trabalho (Workflow) A. Primeira Fase, Obtenção, Preparação e
Inserção dos dados no DB. B. Segunda Fase, Síntese dos scripts nas linguagens PHP/SQL/PERL,
Contagem dos call codes e suas interações, Criação do algoritmo de geração de s scores para os
respectivos call codes. C. Terceira Fase, Estatísticas dos valores obtidos nos scripts
desenvolvidos na segunda fase e produção dos resultados finais.
4.3.1 Banco de Dados
A escolha do melhor banco a ser utilizado partiu de um conceito de facilidade e
praticidade na execução dos passos que se seguiam. Com isso, optamos por utilizar o
MySQL por ser um dos DBMS mais populares na atualidade e por possuir iniciativa Open
Source (Uso livre), sistema que é desenvolvido, distribuído e tem suporte da MySQL AB,
que é uma empresa comercial fundada pelos desenvolvedores do MySQL e por
24
apresentar várias vantagens. Como são descritos no Manual de Referência do MySQL
4.1 de 2006:

O programa MySQL (R) é um servidor robusto de bancos de dados SQL
(Structured Query Language – Linguagem Estruturada para Pesquisas) muito
rápido, multi-tarefa e multi-usuário. O Servidor MySQL pode ser usado em
sistemas de produção com alta carga e missão crítica, bem como, pode ser
embutido em programa de uso em massa;

Funciona em diversas plataformas;

O MySQL é um sistema de gerenciamento de bancos de dados relacional;

Um sistema de alocação de memória muito rápido;

Funções SQL são implementadas por meio de uma biblioteca de classes
altamente otimizada e com o máximo de desempenho. Geralmente não há
nenhuma alocação de memória depois da inicialização da pesquisa.
Ao escolher o MySQL como sistema de gerenciamento dos nossos dados,
começamos a desenvolver o diagrama que daria origem ao banco (Figura 14). Para esse
momento escolhemos utilizar dois programas o MySQL Workbench (Figura 15) e o
phpMyAdim versão 3.3 (Figura 16) ambas ferramentas Open Source e multi-plataformas.
25
Figura 13. Diagrama do Banco de Dados Microarray.
26
Após a escolha da ferramenta para confecção do diagrama, iniciamos a edição do
mesmo, que ao fim de uma reunião, ficou decidido que possuiria 15 tabelas relacionais
(1:N e N:N). Esta decisão foi tomada após uma análise apurada dos arquivos que são
gerados pelo programa genotyping console, que posteriormente seriam inseridos com
ajuda de um script em PHP. O programa MySQL Workbench (Figura 15) auxiliou nesse
processo, por possuir uma interface dinâmica e de fácil compreensão dos processos de
edição de diagramas de bancos de dados. Entretanto, no decorrer do processo vimos
que era necessário utilizar uma ferramenta mais detalhada e robusta para as ações de
estruturação e conexão do banco, para essa mudança, optamos por utilizar o
phpMyAdmin.
Figura 14. Imagem da Home do programa MySQL Workbench.
O programa phpMyAdmin (Figura 16) apresenta as seguintes características
encontradas na página do programa (http://www.phpmyadmin.net/home_page/index.php
27/04/2012 15:28).

Interface web Intuitiva (Em qualquer sistema operacional é possível acessar).

Suporte para muitas funções do MySQL;

Importa nos formatos CSV e SQL;

Exporta dados nos formatos CSV, SQL, XML, PDF, ISO/IEC 26300 OpenDocument Text and Spreadsheet, Word, LATEX entre outros;

Administra múltiplos servidores;

Cria gráficos dos layouts em PDF;
27

Buscas globais nos bancos de dados.
Figura 15. Imagem da Home do programa phpMyAdmin.
4.3.2 Scripts de Análise
A linguagem que serviu de suporte para a edição dos scripts utilizados no trabalho
foi o PHP “PHP: Hypertext Preprocessor”, uma linguagem de programação de ampla
utilização, interpretada, muito utilizada para desenvolvimento para a Web. A sintaxe da
linguagem lembra C, Java e Perl, e é fácil de aprender. Apesar do objetivo principal da
linguagem ser para desenvolvedores escreverem páginas que serão geradas
dinamicamente, muitas outras características estão relacionadas à linguagem PHP, como
é possível ver no Manual do PHP online (PHP, 2012):

O PHP é extremamente útil em recursos de processamento de texto, e manipulação
de arquivos, o POSIX estendido ou expressões regulares Perl até como
interpretador para documentos XML;

Considerada uma das mais significativas características do PHP é seu suporte a
uma ampla variedade de banco de dados. Vários são os bancos suportados
(MySQL, ODBC, Oracle, PostgreSQL entre outros);

O PHP pode ser utilizado na maioria dos sistemas operacionais, incluindo Linux,
várias variantes Unix (incluindo HP-UX, Solaris e OpenBSD), Microsoft Windows,
Mac OS X, RISC OS;
28

O PHP também é suportado pela maioria dos servidores web atuais, incluindo
Apache, Microsoft Internet Information Server, Personal Web Server, Netscape and
iPlanet Servers, Oreilly Website Pro Server, Caudium, Xitami, OmniHTTPd, entre
outros.
A linguagem utilizada para manipulação do banco de dados é a SQL (Structured
Query Language) é uma linguagem de pesquisa declarativa para banco de dados
relacional.
A linguagem é um grande padrão de banco de dados. Isto decorre da sua
simplicidade e facilidade de uso. Ela se diferencia de outras linguagens de consulta a
banco de dados no sentido em que uma consulta SQL especifica a forma do resultado e
não o caminho para chegar a ele. Ela é uma linguagem declarativa em oposição a outras
linguagens procedurais (NAVATHE, 2002).
4.3.3 Estatística dos Dados
Demos início as análises dos scores gerados pelo script gscore.php e optamos
por tentar utilizar o programa “R” que é um software livre desenvolvido para análises
estatísticas. O motivo de estar escolhendo esse pacote é por causa da quantidade de
dados alocados no banco de dados microarray. Outra vantagem que torna o R a melhor
ferramenta para as análises, é por que possui um pacote chamado RMySQL que conecta
com o banco de dados, proporcionando uma interação mais prática das análises dos
scores.
5
RESULTADOS
5.1
Controle de Qualidade
5.1.1 Análises Exploratórias
Após a obtenção dos dados provenientes do programa AGCC, que gera um arquivo
com valores de controle de qualidade (QC call rate) para cada arquivo CEL, valores que
são determinados através do algoritmo BRLMM que associa esses valores de qualidade
29
aos resultados gerados pelo microarranjo, que por padrão recomenda que os únicos
resultados considerados nas experiências sejam os que apresentem um call rate superior
a 93%, esse valor é definido pela empresa responsável pela tecnologia, que leva em
conta a qualidade dos resultados de intensidade.
Iniciamos as análises exploratórias dos dados presentes nos arquivos GQC, a fim
de entender melhor como os valores se comportavam nas duas amostras analisadas.
Geramos dois histogramas (Figura 17) para comparar e entender como os valores do QC
eram distribuídos em conformidade à frequência observada nas duas amostras. Podemos
observar a partir desses dois gráficos que poucos valores estão acima do valor sugerido
pelo protocolo da affymetrix e que existe uma maior concentração de valores abaixo de
93% na amostra da Hospedaria quando comparado com a de Monte Negro. Isto pode
reforçar a ideia de que algum fator relacionado à estocagem possa ter influenciado nos
resultados, já que, essa amostra possui um longo período desde sua coleta.
Figura 16. Histograma para análise das frequências dos QC Call Rates
Monte Negro e Hospedaria.
Demos continuidade às análises dos resultados com relação aos valores que
estavam acima e abaixo do valor padrão do QC, criando outros dois gráficos de pirâmide.
É observado que tanto na Hospedaria (Figura 18) quanto na amostra de Monte Negro
(Figura 19) a quantidade de valores acima do sugerido é a mesma e que a distribuição
dos valores abaixo do sugerido na amostra de Monte Negro se aproxima bastante dos 93
30
e os da Hospedaria a maior concentração está entre 50 a 60, sugerindo uma baixa
qualidade nos dados do sinal.
Figura 17. Gráfico dos limites do QC Call Rates Monte Negro.
Figura 18. Gráfico dos limites do QC Call Rates Hospedaria.
31
A tabela 1 mostra a descrição das duas amostras analisadas, com seu N amostral
e medidas de tendência central e de dispersão. Observamos que a média da amostra de
Monte Negro é maior comparado a de Hospedaria, sugerindo que maioria dos dados
apresenta uma concentração de valores mais altos, onde é reforçado ao verificar o desvio
padrão da mesma amostra, que ao ser novamente comparado com a amostra da
Hospedaria apresenta menor dispersão dos dados, ou seja, os valores não se distanciam
tanto da média. Ao calcular o coeficiente de variação (cv= s/ẋ) das duas amostras,
notamos que a Hospedaria tem maior variação dos dados com 21,14% enquanto a
amostra de Monte Negro é de 11,31%.
Tabela 1. Análises descritivas das amostras de Monte Negro e Hopedaria.
AMOSTRA
Monte Negro
Hospedaria
5.2
QC call rate
N
Mínimo
Máximo
Média
84
69
52,76
50,09
96,24
95,92
80,3210
69,7465
Desvio
Padrão
9,09610
14,75938
Variância
82,739
217,839
Contagem dos códigos de leitura (call codes)
Tendo entendido como estavam distribuídos os dados do QC call rate demos início
a análise descritiva das sequências de NoCall e Homozigotos, dados que estavam
armazenados no banco de dados microarray.
A primeira ideia foi verificar a concentração de call codes (AA, BB, AB e NoCall)
presentes no banco (Figura 20).
Era necessário conhecer estes números devido o problema exposto no tópico
anterior, como tínhamos a grande maioria dos QC call rates abaixo do valor sugerido pelo
protocolo, ou seja, a estimação das intensidades (sinal) para cada call code não possuía
uma qualidade acentuada, e como, pelo modelo seguido na sumarização, que pra cada
SNP de um experimento de microarranjo era obtido dois valores, onde um sinal
representava a letra A e outro a letra B determinada pela concentração não perfeita de
alelos correspondentes a cada uma das letras, que ao fim desse processo gerava uma
matriz (2xN) onde era atribuído três diferentes tipos de call codes (AA, BB, AB), a dúvida
partia daí, quando o programa sugere um AB a certeza de que esta estimação esteja
correta é bem grande frente o design do algoritmo, agora quando é sugerido um AA ou
um BB é possível que um ou outro seja um AB mal atribuído já que tratamos de um grupo
diploide que é constituído de duas cromátides sendo que cada um dos alelos é
32
representado por cada uma dessas letras no presente experimento, uma estimação
incorreta de um call code gera um genótipo incorreto.
Separamos os códigos homozigotos dos heterozigotos e verificamos a taxa de
cada código através de um gráfico de setores. observamos uma taxa de 54% de
homozigotos, sendo 30% de códigos AA e 24% de códigos BB, a taxa de heterozigotos
representados pelo código AB foi de 28% e os 18% restantes eram os códigos NoCall
que representam a falta de sinal (Figura 20).
Figura 19. Percentual de Call Codes presentes no banco relacionando a quantidade de
Homozigotos analisados no estudo.
5.2.1 Contagem das sequências de homozigotos
A contagem das interações dos call codes homozigotos (AA e BB) teve início, já
que, a nossa hipótese partia da ideia de verificar a atribuição errônea desses códigos.
A estratégia para esse momento foi contar as interações grupo a grupo. Onde
toda vez que encontrássemos um call code ou uma sequencia de dois ou mais códigos
seguidos no nosso banco, com a ideia de verificar qual o tamanho dos grupos possíveis
para cada um dos códigos em questão.
Para
ajudar
nessa
contagem
foi
criado
um
script
em
PHP
count_call_code_interactions.php (Anexo A) com auxílio da linguagem SQL. O script
selecionava a coluna “call_code” em que estavam os códigos depositados, onde toda vez
que ele achava um código armazenava na memória. Se o código seguinte fosse igual o
33
script somava ao anterior, se fosse diferente, salvava o código anterior e iniciava uma
nova contagem. Quando o script encontrava uma sequencia com mesmo tamanho,
somava e criava o grupo. Ao fim, obtivemos a quantidade de 17 grupos com tamanhos de
1 a 17 códigos seguidos. O código que apresentou maior sequência foi o código AA
(Tabela 2).
Tabela 2. Relação da quantidade de repetições com os grupos formados para cada call code.
GRUPOS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
REPETIÇÕES
AA
5704041
1815381
591635
200494
69145
23637
8641
3059
1188
394
169
69
23
21
4
1
1
BB
5137863
1264573
334257
92623
26586
8024
2461
758
279
87
34
11
12
3
1
0
0
AB
5574239
1627852
496372
160838
52009
17481
6123
2149
733
284
115
37
14
2
0
0
0
NoCall
4142725
834243
199143
51436
14171
4033
1189
341
129
25
10
3
0
0
0
0
0
No gráfico abaixo (Figura 21) apresentamos a distribuição das frequências de
cada um dos códigos analisados. Fizemos um corte no eixo x do gráfico (Comparação)
para visualizar melhor os grupos de interação, com ele é possível verificar que a maior
tendência dos grupos vem do código AA e AB.
34
Figura 20. Comparação dos grupos de call codes.
5.3
Determinação dos Scores
Ao verificarmos a distribuição dos call codes nas nossas amostras, decidimos criar
um script que calculasse um score para cada um dos códigos em questão. A ideia
era estimar o tamanho dos blocos de homozigosidade presentes na nossa
amostra, no intuito de verificar como no geral os dados se comportavam. Essa
abordagem levou em consideração os códigos, indivíduos e os cromossomos de
cada indivíduo da amostra.
O primeiro passo no desenvolvimento do script gscore.php (Anexo A) foi a criação
de uma função (Figura 22) em que era associado um valor a cada um dos códigos, onde
toda vez que o script encontrasse um call code AA ou um BB somava um, quando
encontrasse AB zerava, quando NoCall não fazia nada.
Figura 21. Função para cálculo do score.
35
O segundo passo foi a continuação dessa função. Onde, toda vez que o indivíduo
ou cromossomo mudasse, a contagem zerava e começava tudo novamente. Esse
processo foi feito para todos os indivíduos e cromossomos do estudo. A tabela 3 mostra a
estratégia seguida.
Tabela 3. Esquema de atribuição dos scores.
CallCode
gscore.php
AA
1
BB
2
AA
3
BB
4
AB
0
NC
0
BB
1
AB
0
AB
0
BB
1
NC
1
BB
2
BB
3
5.3.1 Criação dos Blocos de Scores
No intuito de estudar a homozigosidade na amostra, criamos um script
block_score.php (Anexo A) que estimava o tamanho dos blocos de homozigotos
presentes nos dados. Este script usava o script gscore.php para determinar o tamanho
dos blocos, ao fim da soma do último código homozigoto o script block_score.php atribuía
esse valor a cada um dos códigos associados aquela soma, estimando assim o tamanho
do bloco (Tabela 4). Todos os valores foram armazenados no banco de dados
microarray, tabela blocks colunas score e size.
36
Tabela 4. Esquema de atribuição dos scores e medição dos blocos de score.
5.4
CallCode
gscore.php
block_score.php
block_id
AA
1
4
1
BB
2
4
1
AA
3
4
1
BB
4
4
1
AB
0
0
0
NC
0
0
0
BB
1
1
2
AB
0
0
0
AB
0
0
0
BB
1
3
3
NC
1
3
3
BB
2
3
3
BB
3
3
3
Gráficos das Médias dos Scores.
Para visualizar melhor os resultados criamos gráficos em que os parâmetros
aplicados foram os cromossomos, posição do cromossomo e as médias dos valores dos
scores (Figura 23). As médias foram calculadas direto do banco de dados utilizando a
linguagem SQL, em que, para cada cromossomo e cada posição do cromossomo eram
somados todos os scores e dividido pelo total de scores presentes naquela posição. Esse
procedimento foi feito para todos os 22 cromossomos do estudo.
37
Figura 22.Gráfico dos scores do cromossomo 19 obtidos para cada um dos blocos para as duas
amostras.
Figura 23. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra
da Hospedaria.
38
Figura 24. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra
de Monte Negro.
Para avaliar a distribuição empírica dos dados, utilizamos gráficos do tipo boxplot
(ou diagrama de caixa), estes gráficos foram organizados a fim de comparar visualmente
a variabilidade, e a mediana entre as médias dos scores dos 22 cromossomos analisados
no presente estudo.
As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior
até o menor valor não inferior ao limite inferior Q1 – 1,5(Q3 – Q1), e do quartil superior até
o maior valor não superior ao limite superior Q3 + 1,5(Q3 – Q1). Maioria dos valores se
apresentam aproximadamente entre 5 e 10 no caso de Monte Negro, já Hospedaria entre
4 a 7. Todo valor fora desse limite é considerado valor discrepante (outliers) o maior pico
observado para valores discrepantes encontrasse nos cromossomos 11, 12, e 14 para a
amostra da Hospedaria e em Monte Negro são observados os cromossomos 2, 10 e 19.
É possível verificar quais cromossomos possuem maior variabilidade, através da
comparação das diferenças entre os quartis
.
39
Figura 25. Boxplot da amostra Hospedaria por cromossomo.
40
Figura 26. Boxplot da amostra Monte Negro por cromossomo.
41
6
DISCUSSÃO
6.1
Fenômeno Biológico
Entender como o fenômeno biológico está associado aos dados de intensidade de
sinal, como é o caso da tecnologia do Microarranjos, é um dos pontos mais complexos do
nosso estudo. Tínhamos duas matrizes de 250 mil SNPs a serem cruzadas com 150
indivíduos de duas populações distintas, com coletas de diferentes épocas e com
características próprias, tais como, tempo de armazenagem e qualidade da amostra
coletada.
Em seguida, observamos um problema biológico onde dois alelos característicos
deste tipo de polimorfismo eram atribuídos especificamente a uma ordem e posição.
Portanto, a resposta a ser obtida pela tecnologia tinha que ser a mais confiável possível,
em comparação aos parâmetros sugeridos pelo protocolo da metodologia empregada.
Entretanto, dentre os 150 indivíduos analisados apenas oito estavam dentro dos critérios
de qualidade.
Passamos então a criar metodologias analíticas que poderiam aumentar o nível de
confiança dessas estimativas.
6.2
Metodologia Analítica
Vários polimorfismos de nucleotídeo simples (SNP) foram identificados a partir da
técnica de microarranjo em nosso estudo. Onde cada posição específica de um
cromossomo associado a um indivíduo era atribuída uma intensidade para a
concentração de SNPs no chip. Essa intensidade era representada por um código (Call
Code) específico, quando identificado um genótipo homozigoto tínhamos os códigos AA
e BB e para os genótipos heterozigotos AB, quando a concentração de SNPs era muito
baixa o código atribuído era o NoCall.
A atribuição desses códigos é realizada por um algoritmo chamado BRLMM que
após o processo molecular de hibridização, passa por uma normalização, que é a
primeira fase de transformação do dado biológico em um código específico seguido da
sumarização, processo em que cada código é associado a um SNP.
O algoritmo atua a partir do processo de normalização utilizando parâmetros
estatísticos Bayesianos e distância de Mahalanobis que tem como função estimar a
42
distância de cada um dos códigos em relação aos grupos homozigotos AA e BB e
heterozigotos AB.
Analisamos esses códigos em quantidade e interação. Verificando os blocos de
homozigosidade, pois a hipótese do nosso trabalho era de que, AA ou BB podem ser um
AB mal atribuído por uma leitura errônea do dado molecular ou pela qualidade da
amostra. Após observar os gráficos de qualidade de cada uma das amostras, podemos
perceber que os dados da Hospedaria apresentam maior variabilidade com relação ao
QC Call rates. Além disso, boa parte desses dados está bem a baixo desse controle de
qualidade, já que essa amostra tem maior tempo de armazenagem, sendo possível que
esse tempo possa ter influenciado os resultados.
6.3
Análise de Hipóteses Genéticas
As análises descritivas foram realizadas, tanto para os QC Call rates como para os
call codes, com ajuda dos scripts que criamos. Utilizando os gráficos das médias de cada
um dos blocos de homozigosidade definidos por uma função de atribuição de scores.
Observamos nos gráficos uma variação com relação às médias dos blocos ao
comparar as amostras de Monte Negro e Hospedaria. Onde o maior pico de variação foi
encontrado nas amostras de Monte Negro que chegou próximo a uma média de score 25.
Ao verificar todos os cromossomos autossômicos dessa mesma amostra e comparar com
os resultados da Hospedaria, verificamos que este padrão é seguido em todos os
cromossomos, onde a maior parte das médias se concentram entre os valores de score 5
e 10 aproximadamente. Já os dados da Hospedaria mostram valores entre 5 e 7
aproximadamente, ou seja, no caso de Monte Negro os blocos de homozigosidade são
maiores quando comparados a amostra da Hospedaria.
Com base na hipótese sugerida, de que era possível que alguns códigos
homozigotos poderiam ser heterozigotos mal atribuídos e comparados aos resultados,
não podemos inferir com uma margem alta de certeza, que no caso da Hospedaria, os
códigos tenham sido erroneamente atribuídos. Para que isso seja possível, temos que
testar com amostras com quantidade maior de QC Call Rates, acima de 93%, para que
novas comparações sejam feitas e uma resposta mais segura possa ser dada.
43
6.4
Relação Entre o QC e os Grupos Analisados.
As duas amostras apresentaram a mesma quantidade QC Call Rates acima do
padrão sugerido de 93%, já nos dados que estão abaixo do padrão a variação é grande.
Quando associados aos blocos e homozigosidade percebemos que eles são maiores na
amostra de Monte Negro. Se realmente ocorresse uma atribuição errada na amostra de
Hospedaria devido a má qualidade da amostra esses blocos deveriam ser bem maiores
em comparação a amostra de Monte Negro que apresentou maio qualidade do QC Call
Rate.
Como altos índices de homozigosidade podem caracterizar uma perda de alelos
heterozigóticos, resultando em alto grau de consanguinidade e diminuição da
variabilidade genética, estudos mais aprofundados com relação a variabilidade genética
deve ser empregada aos dados do presente estudo.
44
7
CONCLUSÃO
Concluímos que ao verificar os resultados e compará-los ao controle de qualidade
sugerido pelo protocolo do método usado, não é possível inferir com 100% de certeza
que os valores dos blocos estejam sendo influenciados pela má qualidade do dado.
Entretanto, quando comparamos as duas amostras, verificamos que a Hospedaria por
apresentar maior tempo de estocagem, segundo trabalhos feitos anteriormente por
Kawamata, 2006 que sugere um alto grau de consanguinidade nessa amostra, quando
cruzadas com os dados de Monte Negro que não apresenta muito tempo de estocagem
foram observados blocos de homozigosidade maiores, estes dados podem sugerir que na
verdade o tempo de estocagem não influenciou no resultado ou que Monte Negro
apresenta grau de consanguinidade maior que a amostra da Hospedaria, mas que isso
abre margem para novos estudos de variabilidade genética.
Novas análises estatísticas devem ser aplicadas para conclusão dos problemas
apresentados.
8
PERSPECTIVA
Como perspectiva do trabalho, apresentamos novos objetivos a serem desenvolvidos
para trabalhos futuros com dados de Microarranjo de DNA:
a.
Propor soluções que envolvam mascaramento de homozigoze seguida quando a
mesma for maior que a limiar;
b.
Avaliar o efeito do mascaramento em análises realizadas;
c.
Refazer análises de Monte Negro e Chagas Hospedaria utilizando a metodologia
proposta.
45
9
REFERÊNCIAS BIBLIOGRÁFICAS
Affymetrix™, GeneChip® Human Mapping 500K Array Set (2006). Data Sheet.
Aparicio, Oscar, O Aparicio, Geisberg JV, Struhl K (2004). "imunoprecipitação da
cromatina para determinar a associação de proteínas com seqüências específicas do
genoma in vivo" . atual Protocolos em Biologia Celular (University of Southern California,
Los Angeles, California, E.U.A..: John Wiley & Sons, Inc.), Capítulo 17 (2004): Unidade
de 17.7. doi : 10.1002/0471143030.cb1707s23 . ISSN 1934-2616 . PMID 18228445 .
http://www.ncbi.nlm.nih. gov/pubmed/18228445
Arrais J. P, Sistemas de informação para DNA (2010). Dissertação apresentada à
Universidade de Aveiro
BRLMM: an Improved Genotype Calling Method for the GeneChip® Human Mapping
500K Array Set Revision Date: 2006-04-14 Revision Version: 1.0
Chaudhuri JD. Genes arrayed out for you: the amazing world of Microarranjos. Med
Sci Monit. 2005;11(2):RA52-62.
Couzin J (2006). "Genomics. Microarranjo data reproduced, but some concerns
remain". Science 313 (5793): 1559. doi : 10.1126/science.313.5793.1559a . PMID
16973852 .
Edwin Mellor Sul (05 de novembro de 1975). "Detection of specific sequences among
DNA fragments separated by gel electrophoresis". Journal of Molecular Biology 98 (3):
503–517. doi : 10.1016/S0022-2836(75)80083-0 . ISSN 0022-2836 . PMID 1195397
Esteves G. H. Métodos estatísticos para a análise de dados de cDNA Microarranjo
em um ambiente computacional integrado. (2007) Tese apresentada na Universidade
de São Paulo.
Ferreira, Ricardo de Godoi Mattos. Genética Epidemiológica de Malária em Rondônia.
São Paulo, 2008. Tese Doutorado, Universidade de São Paulo.
Göhlmann H, Talloen W. Gene expression studies using Affymetrix Microarranjos.1st
ed. Boca Raton: Chapman & Hall/CRC, 2009.
Gunderson,K.L., Kruglyak,S., Graige,M.S., Garcia,F., Kermani,B.G., Zhao,C., Che,D.,
Dickinson,T., Wickham,E., Bierle,J. et al. (2004) Decoding randomly ordered DNA
arrays. Genome Res., 14, 870–877.
Hiendleder S, Bauersachs S, Boulesteix A, Blum H, Arnold GJ, Fröhlich T, Wolf E.
Functional genomics: tools for improving farm animal hea lth and welfare. Rev Sci
Tech. 2005;24(1):355-77.
46
Jaluria P, Konstantopoulos K, Betenbaugh M, Shiloach J. A perspective on
Microarranjos: current applications, pitfalls, and potential uses. Microb Cell Fact.
2007;6:4.
KAFATOSF,. C., J. REGIERG, . D. MAZURM, . R. NADELH, . BLAU,W . H. PETRIA, . R.
WYMAN, R. E. GELINASP, . B. MOOREM, . PAULA, . EFSTRATIADJIS. ,V
OURNAKISM, . R. GOLDSMITH, I. HUNSLEBY. ,B AKERa nd J. NARDI,1 977 The
eggshell of insects: differentiation-specific proteins and the control of their
synthesis and accumulation during development. pp. 45- 145. In: R&wlts and
Problems in Cell Differentiation, Vol. 8. Edited by W. BEERMANN. Springer-Verlag, New
York.
Kawamata, Carlos Eduardo Malvezzi. EPIDEMIOLOGIA GENÉTICA DA INFECÇÃO
POR Trypanosoma cruzi. Dissertação apresentada ao Programa de Pós-Graduação
Biologia da relação Patógeno-hospedeiro, USP/Instituto de Ciências Biomédicas/ICB,
2006
Koltai, H. Specificity of DNA microarray hybridization: characterization, effectors
and approaches for data correction. Nucleic Acids Research, Vol. 36, No 2395-2405.
doi: 10.1093/nar/gkn087 2008.
Kulesh D.A, Clive DR, Zarlenga DS, Greene JJ (1987). "Identification of interferonmodulated proliferation-related cDNA sequences". Proc Natl Acad Sci USA 84 (23):
8453–8457. doi:10.1073/pnas.84.23.8453. PMID 2446323.
Lashkari D.A, DeRisi JL, McCusker JH, Namath AF, Gentile C, Hwang SY, Brown PO,
Davis RW (1997). "Yeast Microarranjos for genome wide parallel genetic and gene
expression analysis". Proc Natl Acad Sci USA 94 (24): 13057–13062.
doi:10.1073/pnas.94.24.13057. PMID 9371799.
Navathe, S. B. and Elmasri, R.. Sistemas de banco de dados – Fundamentos e
aplicações. LTC: 2002.
Philippe Lamy, Jakob Grove, Carsten Wiuf. A review of software for microarray
Genotyping. HUMAN GENOMICS. VOL 5. NO 4. 304–309 MAY 2011
Babu, M. (2004) An Introduction to Microarranjo Data Analysis
Manual de Referência do MySQL 4.1 This is a translation of the MySQL Reference
Manual that can be found at dev.mysql.com. The original Reference Manual is in English,
and this translation is not necessarily as up to date as the English version. Copyright ©
1997-2006 MySQL AB
Manual PHP Copyright © 2001-2012 The PHP Group http://www.php.net/manual/pt_BR/
Last updated: Mon Apr 16 01:41:16 2012 UTC
47
Mark Schena, Renu A. Heller, Thomas P. Theriault, Ken Konrad, Eric Lachenmeier and
Ronald W. Davis (1998). Microarranjos: biotechnlogy's discovery platform for functional
genomics. Elsevier Science Ltd. PII: S0167-7799(98)01219-0 301.
Martins T. M. V., Y-miniSTR: alternativa para a analise de amostras “complicadas”
(2008). Dissertacao para a obtencao do grau de Mestre em Ciencias Forenses
Barnes, M. Johannes Freudenberg, Susan Thompson, Bruce Aronow, Paul Pavlidis.
Experimental comparison and cross-validation of gene expression analysis platforms.
5914–5923 Nucleic Acids Research, 2005, Vol. 33, No. 18 doi:10.1093/nar/gki890.
Mockler T, Ecker,J: Applications of DNA tiling arrays for whole-genome analysis.
Genomics, 85 (2005) 1-15
Moran G, Stokes C, Thewes S, Hube B, Coleman DC, Sullivan D (2004). "Comparative
genomics using Candida albicans DNA Microarranjos reveals absence and
divergence of virulence-associated genes in Candida dubliniensis". Microbiology 150
(Pt 10): 3363–3382. doi:10.1099/mic.0.27221-0. PMID 15470115.
Oliveira, Rafael Martins. Análise do perfil transcricional de células dendríticas
derivadas de monócitos utilizadas na vacina terapêutica anti-HIV-1. São Paulo, 2010.
Tese de doutorado Faculdade de Medicina da Universidade de São Paulo.
Rogojina AT, Orr WE, Song BK, Geisert EE Jr. Comparing the use of Affymetrix to
spotted oligonucleotide Microarranjos using two retinal pigment epithelium cell
lines. Mol Vis. 2003;9:482-96.
Schena M, Shalon D, Davis RW, Brown PO (1995). "Quantitative monitoring of gene
expression patterns with a complementary DNA Microarranjo". Science 270 (5235):
467–470. doi:10.1126/science.270.5235.467. PMID 7569999.
Skotheim RI; Thomassen GO; Eken M; Lind GE; Micci F; Ribeiro FR; Cerveira N; Teixeira
MR; Heim S; Rognes T; Lothe RA. A universal assay for detection of oncogenic
fusion transcripts by oligo microarray analysis. 2009
Tomotani, Barbara Mizumo. Aspectos Evolutivos do Splicing Alternativo
Departamento de Fisiologia, Instituto de Biociências, 2010 USP
Venkatasubbarao S. Microarranjos--status and prospects. Trends Biotechnol. 2004
Dec;22(12):630-7.
Vogel MJ, Peric-Hupkes D, van Steensel B (2007). "Detection of in vivo protein-DNA
interactions using DamID in mammalian cells". Nat Protoc 2 (6): 1467–78.
doi:10.1038/nprot.2007.148. PMID 17545983.
48
10 ANEXOS
10.1
I.
Anexo A
Insert_file.php
49
50
II.
Count_call_code_interactions.php
51
III.
count_call_code.php
52
IV.
gscore.php
53
10.2 Anexo B
I.
tabelas_mean.php
54
II.
gráficos.R
55
10.3 Anexo C
I.
Select para calcular as médias dos scores.
56
Tabela 1. Lista de arquivos com as Intensidades QC call rate da amostra da Hospedaria.
Hospedaria
File
13_(Mapping250K_Nsp).CEL
14_(Mapping250K_Nsp).CEL
15_(Mapping250K_Nsp).CEL
16_(Mapping250K_Nsp).CEL
18_(Mapping250K_Nsp).CEL
19_(Mapping250K_Nsp).CEL
20_(Mapping250K_Nsp).CEL
21_(Mapping250K_Nsp).CEL
22_(Mapping250K_Nsp).CEL
23h o certo_(Mapping250K_Nsp).CEL
24_(Mapping250K_Nsp).CEL
25_(Mapping250K_Nsp).CEL
26_(Mapping250K_Nsp).CEL
27_(Mapping250K_Nsp).CEL
28_(Mapping250K_Nsp).CEL
29_(Mapping250K_Nsp).CEL
30_(Mapping250K_Nsp).CEL
31_(Mapping250K_Nsp).CEL
32_(Mapping250K_Nsp).CEL
33_(Mapping250K_Nsp).CEL
34_(Mapping250K_Nsp).CEL
35_(Mapping250K_Nsp).CEL
36_(Mapping250K_Nsp).CEL
37_(Mapping250K_Nsp).CEL
38H_(Mapping250K_Nsp).CEL
39H_(Mapping250K_Nsp).CEL
41H_(Mapping250K_Nsp).CEL
43H_(Mapping250K_Nsp).CEL
44H_(Mapping250K_Nsp).CEL
45H_(Mapping250K_Nsp).CEL
46H_(Mapping250K_Nsp).CEL
47H_(Mapping250K_Nsp).CEL
48H_(Mapping250K_Nsp).CEL
49H_(Mapping250K_Nsp).CEL
50H_(Mapping250K_Nsp).CEL
51H_(Mapping250K_Nsp).CEL
52H_(Mapping250K_Nsp).CEL
53H_(Mapping250K_Nsp).CEL
54H_(Mapping250K_Nsp).CEL
55H_(Mapping250K_Nsp).CEL
56H_(Mapping250K_Nsp).CEL
Bounds
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
QC Call
Rate
72.97
78.22
50.09
50.54
77.66
69.04
88.74
88.12
53.19
52.72
81.78
55.28
72.42
68.80
92.42
59.91
63.39
54.89
82.94
88.21
87.30
91.78
54.23
57.89
75.68
63.63
55.31
89.31
80.59
51.72
64.70
52.95
51.52
60.28
89.47
59.35
73.29
68.56
54.82
58.89
67.10
Computed Gender
female
male
female
female
male
female
male
male
female
female
female
female
female
female
female
female
female
female
male
female
male
female
female
female
male
female
female
female
female
male
male
female
female
female
male
female
female
female
female
female
female
57
57H_(Mapping250K_Nsp).CEL
58H_(Mapping250K_Nsp).CEL
59H_(Mapping250K_Nsp).CEL
6038_(Mapping250K_Nsp).CEL
60H_(Mapping250K_Nsp).CEL
61H_(Mapping250K_Nsp).CEL
6318_(Mapping250K_Nsp).CEL
63H_(Mapping250K_Nsp).CEL
64H_(Mapping250K_Nsp).CEL
65H_(Mapping250K_Nsp).CEL
66H_(Mapping250K_Nsp).CEL
67H_(Mapping250K_Nsp).CEL
68H_(Mapping250K_Nsp).CEL
69H_(Mapping250K_Nsp).CEL
A_(Mapping250K_Nsp).CEL
B_(Mapping250K_Nsp).CEL
C_(Mapping250K_Nsp).CEL
D_(Mapping250K_Nsp).CEL
E_(Mapping250K_Nsp).CEL
F_(Mapping250K_Nsp).CEL
G_(Mapping250K_Nsp).CEL
H_(Mapping250K_Nsp).CEL
I_(Mapping250K_Nsp).CEL
J_(Mapping250K_Nsp).CEL
K_(Mapping250K_Nsp).CEL
L_(Mapping250K_Nsp).CEL
M_(Mapping250K_Nsp).CEL
N_(Mapping250K_Nsp).CEL
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
In
In
In
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
In
Out
Out
81.89
66.66
87.21
53.85
56.38
81.80
56.27
78.62
92.94
89.45
56.85
93.84
95.20
93.43
83.64
53.78
82.25
71.37
62.99
77.44
57.39
64.75
53.81
53.54
53.26
95.92
53.46
54.82
female
female
female
female
female
male
female
female
female
female
female
male
male
male
female
female
male
female
female
female
female
female
female
female
female
female
female
female
Tabela 2. Lista de arquivos com as Intensidades QC call rate da amostra de Monte
Negro.
File
10075_(Mapping250K_Nsp).CEL
10186_(Mapping250K_Nsp).CEL
10236_(Mapping250K_Nsp).CEL
10247_(Mapping250K_Nsp).CEL
10294_(Mapping250K_Nsp).CEL
10296_(Mapping250K_Nsp).CEL
10352_(Mapping250K_Nsp).CEL
10371_(Mapping250K_Nsp).CEL
10406_(Mapping250K_Nsp).CEL
10407_(Mapping250K_Nsp).CEL
10462_(Mapping250K_Nsp).CEL
10470_(Mapping250K_Nsp).CEL
Monte Negro
Bounds QC Call Rate
Out
83.78
Out
82.70
Out
81.51
Out
89.63
Out
80.98
Out
89.48
Out
82.13
Out
85.13
Out
90.98
Out
77.67
Out
77.30
Out
72.12
Computed Gender
male
female
female
male
male
male
female
male
male
male
male
male
58
10577_(Mapping250K_Nsp).CEL
10647_(Mapping250K_Nsp).CEL
10708_(Mapping250K_Nsp).CEL
10825_(Mapping250K_Nsp).CEL
10837_(Mapping250K_Nsp).CEL
10884_(Mapping250K_Nsp).CEL
10887_(Mapping250K_Nsp).CEL
10913_(Mapping250K_Nsp).CEL
17MN positive_(Mapping250K_Nsp).CEL
40MN_(Mapping250K_Nsp).CEL
41MN_(Mapping250K_Nsp).CEL
43MN_(Mapping250K_Nsp).CEL
44MN_(Mapping250K_Nsp).CEL
45MN_(Mapping250K_Nsp).CEL
46MN_(Mapping250K_Nsp).CEL
47MN_(Mapping250K_Nsp).CEL
48MN_(Mapping250K_Nsp).CEL
50MN_(Mapping250K_Nsp).CEL
51MN_(Mapping250K_Nsp).CEL
52MN_(Mapping250K_Nsp).CEL
53MN_(Mapping250K_Nsp).CEL
54MN_(Mapping250K_Nsp).CEL
55MN_(Mapping250K_Nsp).CEL
56MN_(Mapping250K_Nsp).CEL
57MN_(Mapping250K_Nsp).CEL
58MN_(Mapping250K_Nsp).CEL
59MN_(Mapping250K_Nsp).CEL
60MN_(Mapping250K_Nsp).CEL
61MN_(Mapping250K_Nsp).CEL
62MN_(Mapping250K_Nsp).CEL
63MN_(Mapping250K_Nsp).CEL
64MN_(Mapping250K_Nsp).CEL
65MN_(Mapping250K_Nsp).CEL
66MN_(Mapping250K_Nsp).CEL
7MN_(Mapping250K_Nsp).CEL
MN10021_(Mapping250K_Nsp).CEL
MN10031_(Mapping250K_Nsp).CEL
MN10036_(Mapping250K_Nsp).CEL
MN10050_(Mapping250K_Nsp).CEL
MN10061_(Mapping250K_Nsp).CEL
MN10140_(Mapping250K_Nsp).CEL
MN10177_(Mapping250K_Nsp).CEL
MN10203_(Mapping250K_Nsp).CEL
MN10215_(Mapping250K_Nsp).CEL
MN10220_(Mapping250K_Nsp).CEL
Out
Out
In
Out
Out
Out
Out
Out
In
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
86.27
70.64
96.24
74.73
74.22
65.99
70.83
91.51
95.78
85.68
84.51
79.84
87.46
73.13
76.16
79.42
73.54
60.08
83.60
76.69
77.24
80.34
82.33
71.95
72.43
75.77
81.16
76.25
67.62
73.14
73.48
83.92
69.29
62.15
77.89
57.91
80.11
87.32
71.66
87.56
82.63
85.36
73.52
85.14
69.75
female
female
female
male
male
male
male
male
male
male
female
male
male
male
male
male
male
female
male
female
male
male
male
female
male
male
male
male
male
female
male
male
male
female
male
female
female
male
female
male
female
male
female
male
male
59
MN10358_(Mapping250K_Nsp).CEL
MN10362_(Mapping250K_Nsp).CEL
MN10369_(Mapping250K_Nsp).CEL
MN10391_(Mapping250K_Nsp).CEL
MN10393_(Mapping250K_Nsp).CEL
MN10410_(Mapping250K_Nsp).CEL
MN10421_(Mapping250K_Nsp).CEL
MN10478_(Mapping250K_Nsp).CEL
MN10482_(Mapping250K_Nsp).CEL
MN10568_(Mapping250K_Nsp).CEL
MN10570_(Mapping250K_Nsp).CEL
MN10572A_(Mapping250K_Nsp).CEL
MN10582_(Mapping250K_Nsp).CEL
MN10587_(Mapping250K_Nsp).CEL
MN10639_(Mapping250K_Nsp).CEL
MN10699_(Mapping250K_Nsp).CEL
MN10701_(Mapping250K_Nsp).CEL
MN10707_(Mapping250K_Nsp).CEL
MN10709_(Mapping250K_Nsp).CEL
MN10729_(Mapping250K_Nsp).CEL
MN10806_(Mapping250K_Nsp).CEL
MN10826_(Mapping250K_Nsp).CEL
MN10827_(Mapping250K_Nsp).CEL
MN10914_(Mapping250K_Nsp).CEL
MN10919_(Mapping250K_Nsp).CEL
MN586_(Mapping250K_Nsp).CEL
POOL_(Mapping250K_Nsp).CEL
Out
Out
Out
Out
Out
Out
Out
Out
Out
In
Out
Out
Out
Out
In
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
Out
90.90
88.83
90.60
73.49
80.72
90.34
87.98
91.24
90.52
94.12
89.05
65.51
82.55
90.29
93.30
87.56
68.24
92.26
79.24
82.76
73.57
52.76
81.53
91.91
86.66
76.64
88.74
female
female
male
male
female
male
male
male
male
female
male
female
male
male
male
male
female
male
female
male
male
female
female
female
female
female
female
60
Download

UNIVERSIDADE FEDERAL DE RONDÔNIA