Considerações estatísticas em estudos de microarranjos e afins Antonio Guilherme F Pacheco Objetivo Varredura de um grande número de ‘spots’ Não faz diferença o que tem nesses ‘spots’ Estudar expressão diferencial entre grupos Geralmente alguma medida contínua Resultados importantes como primeira abordagem Não são resultados definitivos Tipos de Estudo Experimentais Experimentos laboratoriais Ensaio clínico randomizado Outros Observacionais Coorte Caso-controle ‘Ecológicos’ • No sentido epidemiológico Tipos de Estudo No nosso caso, apesar de experimental, esse tipo de estudo se aproxima mais de estudos ‘ecológicos’ que em epidemiologia são chamados de “estudos geradores de hipóteses” Desenho do estudo Journal of Chromatography B, 849 (2007) 261–272 Desenho do estudo Acurácia e precisão (Validade) Reprodutibilidade do experimento (estudo) Não envolve apenas a maneira como será feito http://en.wikipedia.org/wiki/Accuracy Desenho do estudo Fatores ligados à acurácia A serem Vieses Confundimento A serem evitados estudados Interações Desenho do estudo Fatores ligados à precisão (erro aleatório) Tipo de medida a ser comparada Poder do teste a ser usado Tamanho da amostra adequado Recursos suficientes para realizar o estudo Em muitos casos, um estudo com pouco poder pode ser considerado anti-ético Medidas de Associação Genericamente é o que usamos para ver a diferença entre dois ou mais grupos Diferenças entre médias Razão entre médias Diferença entre proporções Outros (e.g. Odds ratio – OR) São sempre diferenças entre comportamentos médios Pausa para um conceito fundamental Já que estamos falando de médias O que me garante que a média de uma amostra me dará informação acurada e precisa sobre a média de uma população? Relembrando estatística básica X ~ N , Ou, pelo TLC 2 X n ~ N , 2 n Pausa para um conceito fundamental Vamos trabalhar com um exemplo bem simples Suponha uma distribuição de 10 notas de alunos 6.8, 5.0, 7.4, 6.3, 7.2, 7.1, 7.0, 6.4, 9.4, 7.5 • Note que essa é a POPULAÇÃO • Isso nunca vai acontecer na prática!!! = 7.01 2 = 1.109 Pausa para um conceito fundamental Gostaria de inferir a média, usando uma amostra de tamanho 2 Suponha que selecionei as duas primeiras Na prática é isso que acontece: eu tiro UMA e apenas UMA amostra 6.8, 5.0, 7.4, 6.3, 7.2, 7.1, 7.0, 6.4, 9.4, 7.5 Obtenho um número x 5 .9 Pausa para um conceito fundamental Mas como vimos, esse número é uma realização (um valor) de uma V.A. Quais são os outros números que compõem então a distribuição dessa V.A.? São TODAS as médias de TODAS as possíveis amostras de tamanho 2 que podem ser obtidas dessa população (com reposição) Pausa para um conceito fundamental É por esse motivo que é possível fazer-se inferências Nesse exemplo, o número de todas as médias possíveis é conhecido e enumerável: 100 Se fizermos as contas com esses 100 valores, obteremos exatamente: X 7 . 01 S 0.55545 2 2 2 Pausa para um conceito fundamental 0.3 0.2 0.1 0.0 Density 0.4 0.5 0.6 Histogram of medias.2 5 6 7 8 medias.2 9 Pausa para um conceito fundamental 0.6 0.4 0.2 0.0 Probabilidade 0.8 1.0 CDF 5 6 7 8 Médias 9 O TLC Histograma da média amostral de x 0 2 4 6 8 10 0.4 0.0 0.2 0.4 Density Density 0.6 0.6 Histograma da média amostral de x 0.0 0.2 400 200 0 Frequency 600 Histogram of x 0 1 2 3 4 5 6 0 1 2 3 4 z n= 2 z n= 5 Histograma da média amostral de x Histograma da média amostral de x Histograma da média amostral de x 1.0 1.5 2.0 0.8 0.0 0.4 Density 0.8 Density 0.0 0.5 2.5 0.5 1.0 1.5 2.0 2.5 0.5 1.0 1.5 2.0 z n = 15 z n = 20 Histograma da média amostral de x Histograma da média amostral de x Histograma da média amostral de x 0.5 1.0 1.5 z n = 25 2.0 2.0 0.0 1.0 Density Density 0.0 0.5 0.8 0.4 0.0 1.0 1.5 3.0 z n = 10 1.2 0.0 Density 0.4 0.8 0.4 0.0 Density 1.2 x 0.5 1.0 1.5 z n = 30 2.0 0.6 0.8 1.0 z n = 100 1.2 1.4 Inferências Tudo que veremos é baseado nesse conceito básico A diferença é que geralmente queremos comparar dois ou mais grupos Trabalhamos com amostras Mas queremos inferir na população • Em média Valores críticos P-valores Intervalos de confiança Teste de Hipóteses O teste de hipóteses deve ser estabelecido antes da coleta de dados A partir de estimadores (amostra) fazer inferência sobre parâmetros (população) Sempre fazemos uma hipótese nula contra uma hipótese alternativa Como seria isso no caso da OR? Teste de Hipóteses H 0: 1 H 1: 1 Estranho? Não, a OR é uma razão A não associação é um valor igual a 1 Como ficaria para uma diferença de médias? Teste de Hipóteses H 0 : 1 0 H 1 : 1 0 OU H 0 : 1 0 0 H 1 : 1 0 0 Teste de Hipóteses O exemplo clássico do julgamento Me ajudem!!! http://en.wikipedia.org/wiki/Type_I_error Teste de Hipóteses Erro Rejeitar H0 quando ela é verdadeira É tão ruim que quero garantir um valor máximo Erro do tipo I do tipo II Não rejeitar H0 quando ela é falsa Depende de outros fatores também Poder (é um acerto) Rejeitar H0 quando ela é falsa Teste de Hipóteses Como se procede? Cálculo de valores críticos Cálculo do p-valor Cálculo de um intervalo de confiança Sempre baseado naquela idéia básica que vimos da média!!! Cálculo de valores críticos Valores críticos sob a hipótese nula Calculada a partir da amostra Pouco usado atualmente 0.4 0.3 0.2 Compara-se com uma Estatística 0.1 Área de não-rejeição 0.0 Density function Y -6 -4 -2 0 X 2 4 6 Cálculo do p-valor Calculada a estatística adequada Sob a hipótese nula também Calcula-se a massa de probabilidade da distribuição do parâmetro • A partir do valor da estatística até o limite superior dessa distribuição Para Em geral infinito testes bilaterais, multiplica-se por 2 p valor 2 f t dt T Cálculo de um intervalo de confiança Calcula-se um intervalo na distribuição do parâmetro sob a hipótese alternativa Como se o estimador fosse esse valor Verificamos se o valor estabelecido sob a hipótese nula cai nesse intervalo Esse intervalo terá a massa de probabilidade correspondente a 1- É bastante usado atualmente 10 5 0 rep(mean(medias.2), 100) 15 Intervalos de confiança 5 6 7 8 medias.2 9 Força de associação X p-valor Não confundir força de associação com pvalor!!! P-valor baixo significa que o resultado é altamente significativo estatisticamente A força é dada pelo estimador pontual (no nosso caso a OR) Como você interpretaria um resultado de OR=1.01 e p-valor=0.000001? Poder de um teste É a probabilidade de se rejeitar a hipótese nula, quando isso é verdade Depende de: Tamanho da amostra Magnitude da diferença testada Variância do parâmetro testado Probabilidade do erro tipo I Usado para cálculo amostral Geralmente > 80% Poder de um teste Eu tinha dito anteriormente Sempre fazemos uma hipótese nula contra uma hipótese alternativa Mas será que essa afirmação é precisa? H 0 : 1 0 0 H 1 : 1 0 0 Quantos valores existem na H1? 110 120 130 140 0.15 100 110 120 130 140 90 Density function 120 130 140 100 110 120 130 90 100 110 120 Density function Density function 140 0.10 0.00 0.05 Y 0.10 0.00 0.05 Y 0.10 X 140 130 0.15 Density function 0.15 X 130 140 0.10 140 X 120 130 0.00 90 X 110 140 0.05 Y 0.10 0.00 0.05 Y 0.10 110 130 0.15 Density function 0.15 Density function 0.05 100 120 X 0.00 90 110 X 0.00 100 100 X 0.15 90 0.10 0.00 0.05 Y 90 0.15 100 0.05 Y 0.10 0.00 0.05 Y 0.10 0.00 0.05 Y 90 Y Density function 0.15 Density function 0.15 Density function 90 100 110 120 X 130 140 90 100 110 120 X Tamanho da amostra Deve ser calculada antes de se coletar os dados Valores chutados pelo pesquisador Por exemplo: n z1 z1 2 2 2 0 1 2 Tamanho da amostra Nem sempre é possível obter-se uma equação algébrica Podemos lançar mão de simulações Procedimento é simples Simula-se os dados sob H1, com vários tamanhos de amostra, para construir uma curva de poder Aplica-se o teste que será usado Verifica-se se o teste rejeita H0 Repete-se o procedimento muitas vezes (1000, 10000) Proporção de vezes que o teste rejeita H0 Seleciona-se o tamanho que reflete o poder desejado Curvas de poder 1 0.9 0.8 0.7 Power 0.6 1.5 1.7 2 2.5 3 3.5 0.5 0.4 0.3 0.2 0.1 p = 0.05 p = 0.15 p = 0.30 0 250 300 350 400 450 500 550 250 300 350 400 n 450 500 550 250 300 350 400 450 500 550 Comparações múltiplas Tudo muito bonito... Mas tudo que falamos até agora era para uma comparação O que acontece quando temos que comparar várias coisas ao mesmo tempo? Temos 2 problemas O erro do tipo I é alterado Se for na mesma unidade de observação, não terei independência entre os testes Comparações múltiplas A probabilidade do erro tipo I () vai ocorrer para cada comparação Digamos que tenhamos 20 comparações Na distribuição conjunta, podemos cometer o erro tipo I na primeira, OU na segunda, OU na terceira... OU na décima Como só temos 2 possibilidades (verdadeiro ou falso), podemos estudar esse fenômeno como se fosse uma Binomial (n,0.05) Onde n é o número de comparações Quero saber a probabilidade de não cometer erros • Deveria ser 0.95 = 1 – 0.05 Comparações múltiplas X ~ B (n, p ) Recordando um pouco a Binomial n x n x P ( X x ) p (1 p ) x E ( X ) np No nosso caso, se realmente nenhum teste for significativo, a 20 0 19 P ( X 0 ) 0 . 05 ( 0 . 95 ) 0 . 358 probabilidade de 0 nenhum deles dar significativo será... E o número esperado de testes errados será… E ( X ) 20 0 . 05 1 Comparações múltiplas O que fazer??? Temos que aplicar algum tipo de correção Duas classes básicas Baseadas na distribuição conjunta (clássica) Baseadas na false discovery rate – FDR Dentre as clássicas, a mais simples, mais conservadora e mais conhecida é Bonferroni Comparações múltiplas Bonferroni Simples porque basta dividir pelo número de comparações • Ou multiplicar o p-valor, que dá no mesmo!!! Mas como é que isso funciona??? O Bonferroni observou que isso faz com que a probabilidade conjunta de se cometer o erro seja igual ou menor que o original Para o nosso caso: 20 0 19 P ( X 0 ) 0 . 0025 ( 0 . 0975 ) 0 . 951 0 Comparações múltiplas Na verdade, isso é garantido em geral 0.050 0.045 0.040 Probabilidade do erro tipo I 0.055 0.060 Probabilidade do erro tipo I (Bonferroni), segundo o número de comparações 0 50 100 150 Número de comparações 200 250 300 Comparações múltiplas O problema é que isso é muito conservador Especialmente para o objetivo em estudos desse tipo FDR Aqui estamos interessados em saber dentre as comparações que têm a hipótese nula rejeitada, quantas não são diferentes na realidade Na verdade isso só acarreta uma ‘troca’ no denominador... FDR Na clássica, o denominador é o total de testes (comparações) Na FDR, o denominador é o total de testes que rejeitam a H0 Na prática terei um cutoff onde eu sei que dentre os testes significativos a partir desse valor x% serão falso-positivos Uma derivação disso é o q-valor PNAS 2003, 100(16) 9440-5 Independência Pois é, mas tudo isso são para amostras (ou testes com amostras) independentes O que acontece? n Var X i i 1 n n Cov ( X i 1 i , X j) j 1 Var ( X Y ) Var ( X ) Var (Y ) 2 Cov ( X , Y ) Independência implica que a covariância é zero Vamos ver isso depois na parte de análise