Considerações estatísticas em estudos de microarranjos e afins Parte II Antonio Guilherme F Pacheco Dúvidas da Monitoria Não ficou clara a questão do erro tipo I Relembrando Quando tiro uma e apenas uma amostra de uma população ela (a amostra) terá uma média Essa média é uma realização de uma V.A. onde resultados TEÓRICOS, mas que vimos um exemplo na prática, garantem que essa V.A. é distribuída como uma Normal cuja média é igual a da população e sua variância é igual a da população dividida pelo tamanho da amostra Os resultados são teóricos, porque na prática eu jamais conhecerei a verdadeira distribuição das médias de todas as amostras, já que apenas uma é coletada Dúvidas da Monitoria No nosso exemplo vimos apenas um grupo Mas isso se aplica também a 2 grupos De notas Na verdade, o que testamos é uma diferença de distribuições de médias, que é uma Normal menos uma outra Normal (que dá uma Normal também) No caso de uma amostra de dois grupos, a distribuição da média será uma Normal com média igual a diferença das médias das populações e a variância será a soma de suas variâncias Dúvidas da Monitoria Em geral, teremos: 2 0 2 1 Se X~N(μ0 ,σ ) e Y~N(μ1,σ ) X Y~N(μ1 μ0 ,σ σ ) 2 0 2 1 No caso da média amostral,teremos: σ 02 σ12 Se X 0 ~N μ0 , e X 1~N μ1, n n 0 1 σ σ X 1 X 0 ~N μ1 μ0 , n1 n0 2 1 2 0 Dúvidas da Monitoria Aí partimos para a questão do erro Se é um erro, para entender melhor, tenho que assumir que a hipótese nula é correta Isso é um fato que eu JAMAIS saberei ao certo, a não ser que eu faça um censo da minha população!!! Nesse caso eu conheço a distribuição das médias amostrais sob H0: 02 12 X ~ N 0, n0 n1 Dúvidas da Monitoria Mas se eu conheço a distribuição das diferenças sob H0 e sei que vou retirar apenas uma amostra de cada grupo e então obter apenas uma diferença, posso afirmar o seguinte: Dentre todas as amostras possíveis, existirão algumas cuja média da diferença será extrema o suficiente para rejeitar a hipótese nula MESMO QUE ELA (H0) SEJA VERDADEIRA A proporção de amostras que se comportam assim depende do nosso Para um de 0.05, 5% das amostras se comportarão dessa maneira Dúvidas da Monitoria 0.10 0.05 0.00 Densidade 0.15 Distribuição teórica das diferenças das médias amostrais -5 0 5 Dúvidas da Monitoria Reparem que essa probabilidade só existe ANTES da amostra ser obtida!!! Uma vez obtida, é tudo ou nada: ou você “deu sorte” e selecionou uma das 95% das amostras e não errou ou “deu azar” e acabou selecionando uma das 5% que ESTARÃO ERRADAS Essa compreensão tem um impacto direto na interpretação do p-valor e do intervalo de confiança Dúvidas da Monitoria O p-valor Se a hipótese nula for verdadeira • Nunca saberei isso ao certo É a probabilidade de eu ter escolhido uma amostra cuja médiax é muito afastada de zero, ainda que µ seja igual a zero • Interpretação teórica Ou, como gostam alguns, se o experimento for repetido infinitas vezes, em “p-valor” dessas vezes osx calculados serão muito afastados de zero, ainda que µ seja igual a zero • Essa é uma interpretação empírica Dúvidas da Monitoria O IC Como eu tinha dito, o IC é calculado sob H1 Para ser mais preciso é calculado assumindo que o verdadeiro valor de µ é o valor calculado dex (i.e. uma das infinitas possíveis hipóteses) Novamente, dependendo da amostra que eu tire, posso cometer um erro Seria possível inclusive calcular um valor semelhante ao p-valor Mas o que se faz é reportar logo o IC em torno dessa média calculada Dúvidas da Monitoria Qual é a interpretação direta do IC? )x100% dos intervalos de confiança obtidos de todas as possíveis amostras conterão o valor dex (1- Teórica Se o experimento for repetido infinitas vezes, em “1- ” dessas vezes os ICs calculados conterão o valor dex Empírica Dúvidas da Monitoria 0.10 0.05 0.00 Densidade 0.15 0.20 Distribuição teórica das diferenças das médias amostrais 0 5 10 15 Dúvidas da Monitoria EPA! Mas até aí nada foi dito em relação a rejeitar H0! Pois é, é que o IC nesse caso vai se referir apenas à H1 A questão da H0 vem “por tabela” Vamos ver outro gráfico para melhorar (ou piorar) isso... Dúvidas da Monitoria 0.10 0.05 0.00 Densidade 0.15 0.20 Distribuição teórica das diferenças das médias amostrais p-valor = 0.007 -5 0 5 10 15 Dúvidas da Monitoria No caso do IC freqüentista (o nosso caso aqui) Está ERRADO dizer que a verdadeira média µ tem 95% de probabilidade de estar contido no IC O que pode ser feito é assumir quex representa o verdadeiro valor de µ e então também não seria exatamente uma probabilidade… Aí poderíamos dizer 95% dos ICs gerados de todas as possíveis amostras conterão a verdadeira média µ, assumindo-se quex é o verdadeiro valor de µ A interpretação da probabilidade estaria correta se tivéssemos feito uma inferência Bayesiana sobre a média Dúvidas da Monitoria É por isso que é sempre bom reportar tanto o p-valor quanto o intervalo de confiança do estimador pontual O p-valor vai dar uma noção da probabilidade de termos cometido um erro na seleção da amostra para rejeitar H0 O IC vai dar uma noção da variabilidade do estimador pontual calculado a partir dessa amostra selecionada Objetivo Varredura de um grande número de ‘spots’ Não faz diferença o que tem nesses ‘spots’ Estudar expressão diferencial entre grupos Geralmente alguma medida contínua Resultados importantes como primeira abordagem Não são resultados definitivos Desenho de estudo Vamos ainda abordar desenho de estudo, porém agora mais aplicado diretamente aos métodos laboratoriais Vamos falar de replicatas, pooling e ‘randomização’ Desenho do estudo Journal of Chromatography B, 849 (2007) 261–272 Replicatas e pooling Ainda em desenho experimental Replicatas experimentais X “replicatas biológicas” Na verdade as biológicas não são “replicatas”, são a variação que queremos estudar IMPORTANTE Variabilidade do método – quero EVITAR Variabilidade biológica – PRECISO para estudar o fenômeno Replicatas e pooling Como tratar isso? Replicata técnica (experimental) Pode fazer um pool Métodos estatísticos apropriados (modelos hierárquicos) Não influencia no tamanho da amostra – não é considerado amostra diferente A biológica Estudar como está Fazer pool com essas amostras = JOGAR DINHEIRO FORA!!! “Blocking” e “Randomization Tratado no artigo Faz sentido se as condições são diferentes (ou não controladas entre os blocos) E.g. Cada 6 amostras são corridas no MESMO gel Devem ser usados métodos especiais para análise Modelos hierárquicos Se 2 a 2, pode ser teste t pareado Análise de dados Descrição Normalização Testes apropriados O caso do DIGE Mas antes vamos ver uma outra distribuição... Distribuição t de Student Como vimos, se conhecermos a variância da população, podemos definir totalmente a distribuição da média amostral Mas isso NUNCA acontece! Na verdade usamos um estimador dessa variabilidade – a variância amostral (s2) Então deve ter alguma incerteza extra envolvida De fato… Distribuição t de Student No início do século XX William Sealy Gosset Funcionário da cervejaria Guiness Preocupação em estimar s2 em amostras pequenas Distribuição t de Student • A empresa proibiu a divulgação do seu nome Estudada e implementada como conhecemos por R. A. Fisher Distribuição t de Student 0.4 Normal X t-Student 0.2 0.1 0.0 Densidade 0.3 df=2 df=3 df=5 df=10 df=20 df=30 -4 -2 0 t 2 4 Distribuição t de Student Então, como fica a distribuição da média amostral? X n ~ t n 1 T x s2 n n 1 s2 xi x n 1 i 1 2 Descrição dos dados De maneira geral são descrições como o número de spots identificados, número de spots missing, etc É conveniente também descrever algumas médias e desvios ou erros-padrão Mas provavelmente existe alguma maneira mais usual nessa área Normalização Essa é uma questão sobre a qual eu tenho muitas dúvidas Não consigo entender por exemplo transformar os valores em % de alguma coisa O que faria sentido para mim é uma transformação logarítmica ou de potência (<1) Essas medidas não asseguram as verdadeiras premissas, mas ajudam nos cálculos Análise dos dados Como já comentamos, temos vários problemas para a análise desses dados Além das transformações, precisamos achar testes adequados para cada desenho Vamos ver algumas opções, começando pelo teste t… A variância Mas antes de entrar no teste, vamos ver como se estima a variância da população a partir da amostra A variância é uma medida de dispersão central, que nos dá uma idéia de quanto os valores de uma distribuição qualquer estão distribuídos ao redor da média dessa distribuição Ela é, na verdade, uma média, ou melhor uma dispersão média A variância Na verdade, qualquer conta que desse essa idéia seria suficiente, mas a variância tem algumas propriedades ótimas Formalmente, a variância de uma V.A. X que tenha uma PDF f(x) é dada por: Var ( X ) EX E ( X ) 2 E ( y) yf ( x)dx Dx A variância Algebricamente, isso se traduz pela média dos quadrados dos afastamentos entre todos os valores da distribuição e sua média 2 1 n Var ( X ) xi x n i 1 Vamos ver isso graficamente 3 2 1 -2 -1 0 x -2 -1 0 x 1 2 3 A variância 0 20 40 60 Index 80 100 0 20 40 60 Index 80 100 A variância Tudo muito bonito, mas agora vem a pergunta que não quer calar... Por que a variância da amostra é n 2 1 2 s xi x n 1 i 1 E não n 2 1 2 s xi x n i 1 A variância Porque os estatísticos, como todos os cientistas têm duas principais preocupações em relação a estimadores Acurácia (ausência de viés) Precisão (em estatística chamada de eficiência) Em estatística essas características do estimados possuem definições claras A variância Seja ˆ um estimadorde um parâmetro ˆ será um estimadornão enviesadode se E ˆ 2 1 n E xi x 2 n i 1 2 1 n 2 E xi x n 1 i 1 A variância Para adiantar o expediente, assim como vimos a questão da distribuição da média amostral, também teremos uma distribuição da variância amostral quando a população é normal (n 1) s 2 Aqui 2 ~ n21 não temos o TLC para ajudar!!! O teste t Voltando ao teste t... Nesse caso vamos testar se existe diferença entre as médias de duas populações, como vimos anteriormente H 0 : 1 0 0 H1 : 1 0 0 Só que vamos usar uma distribuição t em vez da Normal O teste t Segue o mesmo raciocínio de antes A diferença entre as médias das amostras sobre a soma de suas variâncias A diferença é que para a conta, devo usar o desvio-padrão da diferença, também chamado erro padrão da diferença T x1 x0 2 0 2 1 s s n0 n1 T ~ t n0 n1 2 Isso só é verdade se n0 = n1 e houver homoscedasticidade O teste t Classicamente, o problema foi contornado para ajustar a distribuição de T aos graus de liberdade no caso de tamanhos de amostra diferentes, mas sem resolver o problema da heteroscedasticidade T n0 1s n1 1s n0 n1 2 2 0 T ~ t n0 n1 2 x1 x0 2 1 1 1 n0 n1 O teste t Modernamente, alterou-se os graus de liberdade, acabando com o problema das variâncias diferentes Aplicação da chamada equação de Welch-Satterthwaite Conhecido Pode como teste t de Welch ser aplicado para a ANOVA também O teste t T x1 x0 2 0 2 1 s s n0 n1 T ~ t 2 s s n0 n1 2 2 2 2 1 s0 1 s1 n0 1 n0 n1 1 n1 2 0 2 1 O teste t pareado Usado quando existe alguma dependência 2 a 2 entre as amostras Isso acontece quando a mesma medida é feita na mesma unidade de observação Tipo antes e depois Ou quando temos um estudo pareado 1:1 por uma ou mais variáveis O nosso teste de hipóteses será sobre a diferença de cada par e não mais em relação às diferenças das médias dos grupos O teste t pareado É um pouco diferente do que vimos anteriormente H 0 : d 0 H1 : d 0 E então vamos trabalhar com a média das diferenças e não mais com a diferença das médias O teste t pareado Também é um pouco diferente do que vimos anteriormente T xd 2 d s np T ~ t n p 1 O teste t pareado Onde 1 xd np x n i1 i 1 xi0 n p é o númerode P ARES n 1 s xi1 xi0 xd n 1 i 1 2 d 2 Claro que isso tem um preço O meu tamanho de amostra efetivo agora é o número de pares e não de amostras ANOVA Quando precisamos comparar mais de 2 grupos, o teste t não é a melhor opção Pelo menos, não para uma primeira abordagem Usamos então um teste que pode ser entendido como uma generalização do teste t Mas reparem que agora o meu teste de hipóteses é outro ANOVA Como fica então o teste de hipóteses? Aqui o meu objetivo é saber se a média de algum grupo é diferente de pelo menos uma das médias de outro(s) grupo(s) Vamos ver como ficaria para 3 grupos H 0 : 1 2 3 H1 : Pelomenosuma i j ANOVA Bem, mas antes de entrarmos no teste propriamente dito vamos ver uma outra distribuição e um teste para comparar variâncias Eram muito usados, quando precisávamos de homoscedasticidade!!! Um teste genérico para duas variâncias pode ser: H 0:σ σ 2 1 H1:σ σ 2 1 2 2 2 2 ANOVA Qual é o meu problema? Eu preciso de uma distribuição que dê conta dessa diferença Para a média, foi fácil, já que a Normal (e a t) se comportam muito bem quando são somadas ou subtraídas – continuam uma normal ou uma t, apenas com uma pequena alteração em seus parâmetros Mas e para a variância? ANOVA Bem, nós vimos antes que o melhor estimador da variância de uma população é o s2 e que uma pequena modificação seguiria uma distribuição qui-quadrada: (n 1) s 2 2 ~ n21 Isso chega a ser intuitivo, se vocês souberem que é possível demonstrar que a qui-quadrada com k graus de liberdade é na verdade uma soma de Normais ao quadrado ANOVA Olhando então para o cálculo de s2: n 2 1 2 s xi x n 1 i 1 E sabendo queX segue uma normal, e que está ao quadrado e somada várias vezes nessa conta, com algum ajuste, ela acaba seguindo uma qui-quadrada Mas notem que tenho um problema: o 2 faz parte desse ajuste (como também na normal e na t), só que não posso usar o s2 nesse caso, pois não faria sentido, certo? ANOVA Muito bem, mas preciso de alguma coisa para comparar as variâncias Poderia ser uma diferença, mas aí precisaria conhecer uma distribuição que descrevesse a diferença de duas quiquadradas Tal distribuição não é conhecida (ou pelo menos não é estudada) Mas a razão de duas qui-quadradas, divididas pelas suas respectivas médias é… ANOVA A distribuição F de Snedecor Pode-se provar que Se X~χ df2 1 e Y~χ df2 2 X Y df1 ~Fdf1,df2 df2 Mas como isso me ajuda com o meu teste de hipóteses??? O que fazer com o 2 ??? ANOVA Aí é que vem o “pulo do gato” Eu teria o seguinte: (n1 1) s 2 1 2 1 (n1 1) (n2 1) s 2 2 22 Mas, ~ Fn1 1,n2 1 (n2 1) sob H0, eu não estou assumindo que 12 = 22 ? ANOVA Pois é, então, sob H0, eu cancelo tudo e sobra: 2 1 2 2 s ~Fn1 1,n2 1 s Aí fica fácil de fazer o teste! 2 H0 : 1 2 H1 : 1 2 2 2 2 1 1 ANOVA Mas por que eu entrei nisso? Porque na ANOVA, apesar de testar se as médias são diferentes, usaremos variâncias para fazer isso – daí o nome Analysis of Variance – ANOVA Vamos ver como isso funciona Vamos usar um exemplo para começar Digamos que temos 3 grupos para comparar uma média qualquer Vamos ver graficamente 0 50 100 150 200 250 ANOVA - A B C ANOVA Vamos ver como fica o modelo, sem entrar em detalhes: vocês vão ter que acreditar em mim! A relação entre essas variações é dada por: x k i 1 i 1 2 n ij k n 2 k n x xi x xij x i 1 i 1 2 i 1 i 1 “Simplificando”: x k n i 1 i 1 ij 2 k 2 k n x ni xi x xij x i 1 i 1 i 1 2 ANOVA Complicado? Nem tanto É que em matemática, é difícil às vezes escrever coisas que são simples! x k n ij x i 1 i 1 n x i 1 x i x k n i 1 i 1 Variabilidade total do sistema (SSDTotal) 2 k i 2 ij Variabilidade entre as médias dos grupos (SSDB) 2 x Variabilidade entre cada valor e a média do seu grupo (SSDW) ANOVA Mas o nosso objetivo é saber se a variabilidade do sistema é explicada apenas pela variabilidade das observações em relação às médias de seus grupos, ou se a variabilidade entre as médias dos grupos é importante o suficiente Se contribui o suficiente Ambas as quantidades são estimadores de variâncias, certo? Então posso testar se uma delas é significativamente maior do que a outra com o teste F que vimos há pouco, não é? ANOVA Só que antes, como vimos para duas variâncias quaisquer, temos que dividir esses estimadores de variância pela média das quiquadradas que elas seguem sob H0: SSDB SSDw k 1 MS B nk MSw MS B ~ Fk 1,n k MSw ANOVA Se a variabilidade entre os grupos for suficientemente grande, vou rejeitar H0 Uma vez estabelecido que pelo menos duas médias são diferentes, podemos realizar testes com os grupos 2 a 2 para saber qual delas são diferentes Existem muitas abordagens diferentes para isso, mas não vamos ver agora Entram também as questões para comparações múltiplas que veremos em um outro momento ANOVA Tudo muito bonito, entendi a questão da variabilidade, mas não consigo entender uma coisa Como é que isso pode ser uma generalização do teste t??? Aparentemente são abordagens totalmente diferentes Bem, é que as aparências enganam… A distribuição F com 1 grau de liberdade no numerador é na verdade uma transformação da distribuição t ANOVA Pode-se provar que Se X~tdf 2 X 2~F1,df2 O que “coincidentemente” reduziria a nossa ANOVA se houvesse 2 grupos para: SSDB SSDw 2 1 MS B n2 MSw MS B ~ F1,n 2 MSw ANOVA Se eu pegar a estatística T e elevar ao quadrado, terei T x1 x0 2 0 2 1 s s n0 n1 Mas x x 2 T 2 1 2 0 0 s s12 n0 n1 não posso dizer que o denominador é a variabilidade entre duas médias e o numerador uma variabilidade das observações? ANOVA Está difícil de acreditar? Vamos ver um exemplo rápido com os grupos B e C Welch Two Sample t-test t = 5.5416, df = 37.94, p-value = 2.433e-06 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 35.77373 76.95772 sample estimates: mean of x mean of y 104.96247 48.59674 One-way analysis of means (not assuming equal variances) F = 30.7092, num df = 1.00, denom df = 37.94, p-value = 2.433e-06 Testes de permutação Vamos ver agora um importante teste, baseado em permutações que tem muita utilidade para o nosso tipo de experimento