Uma abordagem computacional para estudo de polimorfismos de base única. Orientando: Miguel Galves Orientador: Zanoni Dias Instituto de Computação UNICAMP Roteiro Contexto SNPs: Polimorfismos de Base Única Porque estudar SNPs? Metodologias de estudo de SNPs: Etapas para o estudo de SNPs PCR-RLFP Abordagem computacional Alinhamento Detecção Correlação Projeto PIPE Cronograma Contexto A informação genética dos seres vivos está codificada em cadeias de nucleotídeos (A, C, G, T). Conjunto de sequências = genoma. Genoma armazenado na forma de DNA ou RNA. Expressão gênica: geração de proteínas a partir do DNA. Duas etapas: transcrição, tradução. SNPs: Polimorfismos de base única Polimorfismo: mudança de uma ou mais bases em sequências genêticas. Devem ser observadas em mais de 1% de índividuos de uma população. SNP: Polimorfismo que ocorre em apenas uma base em um dado gene. Poderia ser bi, tri, ou tetra alélico. Caso mais comum: bi-alélico. Porque estudar SNPs? Correspondem a mais de 90% dos polimorfismos nos seres humanos. Grande parte das doenças com base genética são causadas por um ou mais SNPs. Grande interesse das industrias farmacêuticas: Criação de terapias específicas. Farmacogenética: interface entre genética e farmacêutica. Metodologias de estudo de SNPs: PCR-RLFP RLFP - Restriction Length Fragment Polymorphisms. Utiliza enzimas de restrição para detectar polimorfismos. Restrito ao estudo de SNPs conhecidos: Permite detectar apenas SNPs que criem ou destruam sítios de restrição. Depende da disponibilidade de enzimas de restrição apropriadas. Metodologias de estudo de SNPs: Abordagem computacional Utiliza sequências de DNA obtidas através de métodos de sequenciamento automático. Se baseia em comparação utilizando ferramentas computacionais. Método que está se popularizando com o barateamento do processo de sequenciamento automático. Se beneficia do grande número de sequências armazenadas em bases de dados públicas. Etapas para o estudo de SNPs: Alinhamento - Conceitos Inserção de buracos em duas sequências deixando-as com mesmo tamanho: ACGTTCGGC T A-GTTTG-CT Permite criar uma pontuação para avaliar os alinhamentos obtidos. Exemplo: match =1, mismatch = -1, gap = -2. Exemplo: match =1, mismatch = -1, g = -2, h = -1 Objetivo: obter um alinhamento ótimo entre duas sequências. Etapas para o estudo de SNPs: Alinhamento - Estratégias Alinhamento global: visa gerar o melhor alinhamento entre duas sequências. ACTGACCTCG GG ACGCGTGG ACTGACCTCGGG AC-G-CGT--GG Etapas para o estudo de SNPs: Alinhamento - Estratégias Alinhamento semi-global: utilizado para alinhar sequências incompletas. Não penaliza a criação de buracos no início e final das sequências. ACTGACCTCG GG ACCGTCGGGC GG ACTGACC-TCGGG----ACCGTCGGGCGG Etapas para o estudo de SNPs: Alinhamento - Estratégias Alinhamento local: encontra o melhor alinhamento entre duas sub-sequências. Retorna apenas o alinhamento dos segmentos que geram a maior pontuação. ACTGACCTCG GG ACCGTCGGGC GG TCGG G TCGG G Etapas para o estudo de SNPs: Alinhamento - Problema Problema: alinhar cDNA e RNA com DNA genômico: DNA muito maior que cDNA. DNA pode conter regiões de íntrons. Etapas para o estudo de SNPs: Alinhamento - Objetivos Estudar os métodos de alinhamento de DNA genômico e cDNA utilizados por ferramentas de domínio público. Definir um conjunto de parâmetros ideais para alinhamento de DNA com cDNA utilizando estratégia semi-global. Executar testes para medir a qualidade dos alinhamentos obtidos. Etapas para o estudo de SNPs: Detecção - Métodos existentes Análise de cromatograma (polyphred). Analisa o cromatograma obtido após análise sequenciamento. Etapas para o estudo de SNPs: Detecção - Métodos existentes Análise de sequências alinhadas (polybayes). Utiliza métodos Bayesianos para determinar SNPs em um alinhamento Etapas para o estudo de SNPs: Detecção - Objetivos Análise dos métodos existentes para detecção de polimorfismos. Formulação de uma nova metodologia para detecção de SNPs. Montar casos de testes com dados reais para avaliação da metodologia proposta. Etapas para o estudo de SNPs: Correlação - Motivação Predisposição a uma doença pode ser influenciada por SNPs agindo em conjunto. LD: associação não-aleatória de alelos. Quand um alelo está presente, o outro também estará, e vice-versa. Importante ter medidas para quantificar o grau de correlação. Etapas para o estudo de SNPs: Correlação - Medidas Existentes D = PAB - PA x PB Primeira medida proposta. Não tem muita utilidade. D’ = D / (máx D) D’ = 1 representa LD completo. r2 = D2 /(PA x PA’ x PB x PB’) r2 = 1 representa LD perfeito. Medida utilizada para medir a utilidade de um LD. r2 > 1/3 indica LDs úteis em processos de mapeamento. Etapas para o estudo de SNPs: Correlação - Objetivos Análise das medidas utilizadas para avaliação de SNPs. Formulação de uma metodologia que permita integração destas medidas ao processo de estudo de SNPs PIPE: Sistema de Identificação de Polimorfismos Programa de apoio a pequenas empresas de base tecnológica. Concedido à empresa Scylla Bioinformática. Coordenação: Prof. João Meidanis Visa desenvolver a ferramenta SIP Projeto será desenvolvido nas instalações da empresa. Trabalho comprenderá a documentação das metodologias desenvolvidas. Cronograma I - Estudo e identificação de parâmetros ideais para alinhamento. II - Testes com os novos métodos de alinhamento obtidos. III - Escrita dos resultados obtidos nos testes. Cronograma IV - Análise dos métodos existentese formulação de uma nova metodologia de correlação de SNPs. V - Testes computacionais com os novos métodos de correlação de SNPs. VII - Escrita dos resultados obtidos nos testes. Cronograma VII - Análise das metodologias utilizadas e formulação de uma nova metodologia de detecção de SNPs. VIII - Testes computacionais com os novos métodos propostos. IX - Escrita dos resultados obtidos nos testes. Cronograma X - Revisão do texto da dissertação. XII - Defesa da dissertação