O fato de que o gene 1 esteja correlacionado com o gene 2 em um determinado grau e este esteja correlacionado com o mesmo grau a um outro gene ( gene 3 ), não implica que este último e o primeiro ( gene 1) estejam relacionados com este mesmo grau. Logo, poderemos criar um cluster para cada elemento da matriz de dados de expressão fornecida pelo microarray, contendo todos os elementos que estão fortemente correlacionados a este elemento de interesse.Estes clusters não serão necessariamente disjuntos, o que é perfeitamente condizente com o fato de cada gene estar envolvido em até dez diferentes processos regulatórios dentro de uma célula (Arnone, 1997 ). 3. Separação baseada em correlacão A técnica que usamos para separar os elementos que apresentam o mesmo padrão de expressão consiste em determinar qual é o elemento de interesse ( aquele que pretendemos estudar ) e depois estabelecer ad hocum limite mínimo de correlação. Este é um limite crisp, ou seja, elementos que estejam imediatamente abaixo deste valor de correlação não farão parte do grupo, apesar de seu valor de correlação poder ser bastante próximo a outros que eventualmente estejam presentes no grupo. Um exemplo deste caso seria se estabelecêssemos uma correlação de corte de 0,95. Elementos de correlação com o elemento em estudo igual a 0,9501 estariam presentes, enquanto elementos com correlação igual 0,9499 estariam ausentes.Este tipo de problema é inerente à técnica que usamos e não pode ser evitado. Para testar a aplicabilidade de tal algoritmo computacional, usamos um conjunto de gerado por experimentos de microarrays, consistindo na expressão de todos os genes da planta Arabidopsis thaliana ( cerca de 8000 no total) em um número limitado de instantes de tempo (no caso, 7 apenas). Nosso objetivo primordial consisti em utilizar nosso algoritmo para realizar uma busca pela regulação de alguns elementos específicos dentro do conjunto de genes disponíveis, mais especificamente aqueles envolvidos na resposta desta planta ao frio. É importante ressaltar um fato que já mencionamos anteriormente: que estes valores de dimensões são extremamente comuns no campo da biologia.Como os experimentos de microarrays, temos milhares de linhas em nossa matriz de dados.Entretanto, sua realização é cara, sendo comum que sejam realizados poucos experimentos, resultando em um baixo número de colunas ( normalmente, na ordem das unidades ou das dezenas). Assim, concluímos que o exemplo usado aqui é representativo do tipo de problema que estamos procurando abordar. Existem três aspectos fundamentais na resposta às reduções de temperatura:aclimatação (aumento na tolerância ao frio), invernalização (redução no tempo de inflorescência) e estratificação (fim da latência das sementes induzida pelo frio). Todos os três são respostas básicas de uma planta ativadas pelas baixas temperaturas e são, em grande parte, determinadas pelas alterações dos padrões de expressões genéticos quando uma planta está submetida a baixas temperaturas (Gilmour,1998). Dentro desta resposta, existem alguns genes que a pesquisa identificou como parte dos elementos reguladores fundamentais.Estes genes são 16062_s_at, 17520_s_at e 16079_s_at, enquanto que os genes controlados por estes, nós temos 15611_s_at, 15997_s_at,13018_f_at,13225_s_at e 13950_at.Para cada um destes genes Regulados nós geramos um agrupamento de genes que apresentam o mesmo padrão de expressão para tentar descobrir candidatos que sejam eventualmente desconhecidos e para os quais possamos descobrir uma função ou uma estrutura regulatória. As correlacões entre genes foram calculadas aos pares e o nível de corte foi determinado como sendo 0,95.Outros níveis também foram testados, porém abaixo deste valor os conjuntos tendem a crescer demais, e este número de prováveis falsos positivos torna o resultado insignificante em termos práticos. Dois exemplos de clusters gerado por nossa técnicas estão mostrados na figura 2.É importante perceber que apesar dos níveis de expressão dos diversos genes serem diferentes, os padrões de expressão de todos ( a trajetória no tempo) são bastantes similar, o que pode indicar que uma das nossas hipótese básicas podem ser eventualmente confirmada. Como se pode perceber nos gráficos mostrados acima, alguns dos genes do processo de resposta ao frio estão juntos em grupos, o que é razoável visto que compartilham funções.O primeiro dos grupos foi gerado listando-se os elementos com alta correlação com o elemento 15997_s_at enquanto que o segundo foi gerado com base no elemento 16079_s_at. Os gruposgerados possuem forte interseção: o primeiro grupo tem 10 elementos e o segundo,11, e a interseção dos dois consiste em 8 elementos, o que decorre do alto nível de correlação utilizado.É importante entender que ambos os elementos escolhidos estão presentes no processo de resposta ao frio, o que implica em terem genes presentes nos conjuntos mas não na interseção dos genes de interesse..Análises mais profundas poderiam ser obtidas levando-se os grupos obtidos para estudosem laboratórios ( “wet lab”). 4.Conclusão A aplicação desta técnica computacionalmente simples e eficiente pode gerar grupos de genes que merecem ser estudados de forma mais aprofundada, criando hipótese viáveis sobre função e regulação de genes previamente desconhecidos e guiando as pesquisas, o que diminui a necessidade de um maior número de experimentos e permite um melhor aproveitamento das verbas já escassas destinadas à pesquisa básica. Outras técnicas de análise, tais como as descritas em (Lindem,2003) poderiam ser aplicadas de forma a obter outros resultados interessantes com base nestes agrupamentos, ou então estes dados poderiam ser remetidos para um laboratório para estudos de campo que comprovem o ventual relacionamento entre os elementos de interesse e os membros de seu agrupamento. Essa técnica tem como vantagem em relação a outras previamente usadas na literatura, tais como K-Means e clustering hieráquico (Fasulo,1999) o fato que cria agrupamentos com interseção, o que é realmente interessante em termos biológicos.Entretanto estudos mais avançados de compara da qualidade dos agrupamentos gerado por todas as técnica são necessários para determinação de propriedade dos resultados obtidos.O uso de técnicas de avaliação tais como as mostradas em (Yeung,2000) poderia resultar benéfico em tal tarefa. Referências - (Alberts, 2002) Alberts, Bruce et al.:” Molecular Biology of the Cell”, 4ª. Ed., Garland Pub., EUA, 2002 - (Arnone, 1997) Arnone, M.I; Davidson, E.H.:”The hardwiring of development: organization and function of genomic regulatory systems”, Development 124, 1851-1864, Inglaterra, 1997 - (Baldi, 2002) Baldi, P.; Hatfield, G.W.-“DNA Microarrays and Gene Experiments”, Cambridge University Press, 1ª Edição, Inglaterra, 2002 - (Fasulo,1999) Fasulo Daniel – “An analysis of recent on clustering algorithms” , Relatório Técnico, EUA , 1999 - (Gilmour, 1998) Gilmour S. J. ; Zarka, D. G. et al. – “Low Temperature Regulation of the Arabidopsis CBF family of AP2 transcriptional activators as an early step in cold – induced COR gene expression” , The Plant Journal vol. 16(4): 433-442, Blackwell Science Ltd. , EUA, 1998 - (Hair, 1995) -Hair, J. F. Jr. ; Anderson, R. E. et al – “Multivariate Data Analysis”, 4ª Edição, Prentice Hall Ed., EUA, 1995. - (Jiang, 2002) Jiang, Daxin; Zhang, Aidong – “Cluster Analysis for Gene Expression Data: A Survey”, artigo submetido à revista IEEE Transactions on Knowledge and Data Engineering - (Linden, 2003) Linden, R.; Bhaya, A. – “Extracting Gene Relationships From Microarrays Using Fuzzy Logic And Genetic Algorithms”, in Mondaini, R. “Proc. of the Third Brazilian Symp. On Mathematical and Computacional Biology”, vol. 1 , Editora EPapers, Brasil, 2003 - (Moore, 2002), Moore, D. S. e McCabe, G.P – “Introdução à Prática da Estatística” , Editora LTC, Rio de Janeiro, Brasil, 2002. - (Yeung, 2000) Yeung, K. Y; Haynor, D. R. e Ruzzo, W. l. – “”, Relatório Técnico, Universidade de Washington, EUA, 2000