O fato de que o gene 1 esteja correlacionado com o gene 2 em um determinado
grau e este esteja correlacionado com o mesmo grau a um outro gene ( gene 3 ), não
implica que este último e o primeiro ( gene 1) estejam relacionados com este mesmo
grau.
Logo, poderemos criar um cluster para cada elemento da matriz de dados de
expressão fornecida pelo microarray, contendo todos os elementos que estão fortemente
correlacionados a este elemento de interesse.Estes clusters não serão necessariamente
disjuntos, o que é perfeitamente condizente com o fato de cada gene estar envolvido
em até dez diferentes processos regulatórios dentro de uma célula (Arnone, 1997 ).
3. Separação baseada em correlacão
A técnica que usamos para separar os elementos que apresentam o mesmo padrão de
expressão consiste em determinar qual é o elemento de interesse ( aquele que pretendemos
estudar ) e depois estabelecer ad hocum limite mínimo de correlação. Este é um limite
crisp, ou seja, elementos que estejam imediatamente abaixo deste valor de correlação não
farão parte do grupo, apesar de seu valor de correlação poder ser bastante próximo a outros
que eventualmente estejam presentes no grupo.
Um exemplo deste caso seria se estabelecêssemos uma correlação de corte de 0,95.
Elementos de correlação com o elemento em estudo igual a 0,9501 estariam
presentes, enquanto elementos com correlação igual 0,9499 estariam ausentes.Este tipo de
problema é inerente à técnica que usamos e não pode ser evitado.
Para testar a aplicabilidade de tal algoritmo computacional, usamos um conjunto de
gerado por experimentos de microarrays, consistindo na expressão de todos os genes da
planta Arabidopsis thaliana ( cerca de 8000 no total) em um número limitado de instantes
de tempo (no caso, 7 apenas). Nosso objetivo primordial consisti em utilizar nosso
algoritmo para realizar uma busca pela regulação de alguns elementos específicos dentro do
conjunto de genes disponíveis, mais especificamente aqueles envolvidos na resposta desta
planta ao frio.
É importante ressaltar um fato que já mencionamos anteriormente: que estes valores
de dimensões são extremamente comuns no campo da biologia.Como os experimentos de
microarrays, temos milhares de linhas em nossa matriz de dados.Entretanto, sua realização
é cara, sendo comum que sejam realizados poucos experimentos, resultando em um baixo
número de colunas ( normalmente, na ordem das unidades ou das dezenas). Assim,
concluímos que o exemplo usado aqui é representativo do tipo de problema que estamos
procurando abordar.
Existem três aspectos fundamentais na resposta às reduções de
temperatura:aclimatação (aumento na tolerância ao frio), invernalização (redução no tempo
de inflorescência) e estratificação (fim da latência das sementes induzida pelo frio). Todos
os três são respostas básicas de uma planta ativadas pelas baixas temperaturas e são, em
grande parte, determinadas pelas alterações dos padrões de expressões genéticos quando
uma planta está submetida a baixas temperaturas
(Gilmour,1998).
Dentro desta resposta, existem alguns genes que a pesquisa identificou como parte
dos elementos reguladores fundamentais.Estes genes são 16062_s_at, 17520_s_at e
16079_s_at, enquanto que os genes controlados por estes, nós temos 15611_s_at,
15997_s_at,13018_f_at,13225_s_at e 13950_at.Para cada um destes genes Regulados nós
geramos um agrupamento de genes que apresentam o mesmo padrão de expressão para
tentar descobrir candidatos que sejam eventualmente desconhecidos e para os quais
possamos descobrir uma função ou uma estrutura regulatória.
As correlacões entre genes foram calculadas aos pares e o nível de corte foi
determinado como sendo 0,95.Outros níveis também foram testados, porém abaixo deste
valor os conjuntos tendem a crescer demais, e este número de prováveis falsos positivos
torna o resultado insignificante em termos práticos.
Dois exemplos de clusters gerado por nossa técnicas estão mostrados na figura 2.É
importante perceber que apesar dos níveis de expressão dos diversos genes serem
diferentes, os padrões de expressão de todos ( a trajetória no tempo) são bastantes similar, o
que pode indicar que uma das nossas hipótese básicas podem ser eventualmente
confirmada.
Como se pode perceber nos gráficos mostrados acima, alguns dos genes do processo
de resposta ao frio estão juntos em grupos, o que é razoável visto que compartilham
funções.O primeiro dos grupos foi gerado listando-se os elementos com alta correlação com
o elemento 15997_s_at enquanto que o segundo foi gerado com base no elemento
16079_s_at.
Os gruposgerados possuem forte interseção: o primeiro grupo tem 10 elementos e o
segundo,11, e a interseção dos dois consiste em 8 elementos, o que decorre do alto nível de
correlação utilizado.É importante entender que ambos os elementos escolhidos estão
presentes no processo de resposta ao frio, o que implica em terem genes presentes nos
conjuntos mas não na interseção dos genes de interesse..Análises mais profundas poderiam
ser obtidas levando-se os grupos obtidos para estudosem laboratórios ( “wet lab”).
4.Conclusão
A aplicação desta técnica computacionalmente simples e eficiente pode gerar grupos
de genes que merecem ser estudados de forma mais aprofundada, criando hipótese viáveis
sobre função e regulação de genes previamente desconhecidos e guiando as pesquisas, o
que diminui a necessidade de um maior número de experimentos e permite um melhor
aproveitamento das verbas já escassas destinadas à pesquisa básica.
Outras técnicas de análise, tais como as descritas em (Lindem,2003) poderiam ser
aplicadas de forma a obter outros resultados interessantes com base nestes agrupamentos,
ou então estes dados poderiam ser remetidos para um laboratório para estudos de campo
que comprovem o ventual relacionamento entre os elementos de interesse e os membros de
seu agrupamento.
Essa técnica tem como vantagem em relação a outras previamente usadas na
literatura, tais como K-Means e clustering hieráquico (Fasulo,1999) o fato que cria
agrupamentos com interseção, o que é realmente interessante em termos
biológicos.Entretanto estudos mais avançados de compara da qualidade dos agrupamentos
gerado por todas as técnica são necessários para determinação de propriedade dos
resultados obtidos.O uso de técnicas de avaliação tais como as mostradas em (Yeung,2000)
poderia resultar benéfico em tal tarefa.
Referências
- (Alberts, 2002) Alberts, Bruce et al.:” Molecular Biology of the Cell”, 4ª. Ed., Garland
Pub., EUA, 2002
- (Arnone, 1997) Arnone, M.I; Davidson, E.H.:”The hardwiring of development:
organization and function of genomic regulatory systems”, Development 124, 1851-1864,
Inglaterra, 1997
- (Baldi, 2002) Baldi, P.; Hatfield, G.W.-“DNA Microarrays and Gene Experiments”,
Cambridge University Press, 1ª Edição, Inglaterra, 2002
- (Fasulo,1999) Fasulo Daniel – “An analysis of recent on clustering algorithms” , Relatório
Técnico, EUA , 1999
- (Gilmour, 1998) Gilmour S. J. ; Zarka, D. G. et al. – “Low Temperature Regulation of the
Arabidopsis CBF family of AP2 transcriptional activators as an early step in cold – induced
COR gene expression” , The Plant Journal vol. 16(4): 433-442, Blackwell Science Ltd. ,
EUA, 1998
- (Hair, 1995) -Hair, J. F. Jr. ; Anderson, R. E. et al – “Multivariate Data Analysis”, 4ª
Edição, Prentice Hall Ed., EUA, 1995.
- (Jiang, 2002) Jiang, Daxin; Zhang, Aidong – “Cluster Analysis for Gene Expression Data:
A Survey”, artigo submetido à revista IEEE Transactions on Knowledge and Data
Engineering
- (Linden, 2003) Linden, R.; Bhaya, A. – “Extracting Gene Relationships From
Microarrays Using Fuzzy Logic And Genetic Algorithms”, in Mondaini, R. “Proc. of the
Third Brazilian Symp. On Mathematical and Computacional Biology”, vol. 1 , Editora EPapers, Brasil, 2003
- (Moore, 2002), Moore, D. S. e McCabe, G.P – “Introdução à Prática da Estatística” ,
Editora LTC, Rio de Janeiro, Brasil, 2002.
- (Yeung, 2000) Yeung, K. Y; Haynor, D. R. e Ruzzo, W. l. – “”, Relatório Técnico,
Universidade de Washington, EUA, 2000
Download

Agrupamento de Dados de Microarrays Baseado em Correlação