Considerações estatísticas em
estudos de microarranjos e afins
Parte II
Antonio Guilherme F Pacheco
Dúvidas da Monitoria

Não ficou clara a questão do erro tipo I
 Relembrando



Quando tiro uma e apenas uma amostra de uma
população ela (a amostra) terá uma média
Essa média é uma realização de uma V.A. onde
resultados TEÓRICOS, mas que vimos um exemplo
na prática, garantem que essa V.A. é distribuída
como uma Normal cuja média é igual a da população
e sua variância é igual a da população dividida pelo
tamanho da amostra
Os resultados são teóricos, porque na prática eu
jamais conhecerei a verdadeira distribuição das
médias de todas as amostras, já que apenas uma é
coletada
Dúvidas da Monitoria

No nosso exemplo vimos apenas um grupo


Mas isso se aplica também a 2 grupos


De notas
Na verdade, o que testamos é uma diferença de
distribuições de médias, que é uma Normal menos
uma outra Normal (que dá uma Normal também)
No caso de uma amostra de dois grupos, a
distribuição da média será uma Normal com
média igual a diferença das médias das
populações e a variância será a soma de suas
variâncias
Dúvidas da Monitoria
Em geral, teremos:
2
0
2
1
Se X~N(μ0 ,σ ) e Y~N(μ1,σ )
X  Y~N(μ1  μ0 ,σ  σ )
2
0
2
1
No caso da média amostral,teremos:
 σ 02 
 σ12 
Se X 0 ~N  μ0 ,
e X 1~N  μ1,


n
n
0
1




σ
σ
X 1  X 0 ~N  μ1  μ0 ,


n1
n0 

2
1
2
0
Dúvidas da Monitoria

Aí partimos para a questão do erro
 Se é um erro, para entender melhor, tenho que
assumir que a hipótese nula é correta


Isso é um fato que eu JAMAIS saberei ao certo, a
não ser que eu faça um censo da minha
população!!!
Nesse caso eu conheço a distribuição das
médias amostrais sob H0:
  02  12 

X ~ N  0,

 n0 n1 
Dúvidas da Monitoria

Mas se eu conheço a distribuição das
diferenças sob H0 e sei que vou retirar apenas
uma amostra de cada grupo e então obter
apenas uma diferença, posso afirmar o
seguinte:


Dentre todas as amostras possíveis, existirão
algumas cuja média da diferença será extrema o
suficiente para rejeitar a hipótese nula MESMO QUE
ELA (H0) SEJA VERDADEIRA
A proporção de amostras que se comportam
assim depende do nosso 

Para um  de 0.05, 5% das amostras se comportarão
dessa maneira
Dúvidas da Monitoria
0.10
0.05
0.00
Densidade
0.15
Distribuição teórica das diferenças das médias amostrais
-5
0
5
Dúvidas da Monitoria
 Reparem
que essa probabilidade só existe
ANTES da amostra ser obtida!!!
 Uma
vez obtida, é tudo ou nada: ou você
“deu sorte” e selecionou uma das 95%
das amostras e não errou ou “deu azar” e
acabou selecionando uma das 5% que
ESTARÃO ERRADAS
 Essa
compreensão tem um impacto direto
na interpretação do p-valor e do intervalo
de confiança
Dúvidas da Monitoria
O

p-valor
Se a hipótese nula for verdadeira
• Nunca saberei isso ao certo

É a probabilidade de eu ter escolhido uma
amostra cuja médiax é muito afastada de
zero, ainda que µ seja igual a zero
• Interpretação teórica

Ou, como gostam alguns, se o experimento
for repetido infinitas vezes, em “p-valor”
dessas vezes osx calculados serão muito
afastados de zero, ainda que µ seja igual a
zero
• Essa é uma interpretação empírica
Dúvidas da Monitoria
O





IC
Como eu tinha dito, o IC é calculado sob H1
Para ser mais preciso é calculado assumindo
que o verdadeiro valor de µ é o valor
calculado dex (i.e. uma das infinitas
possíveis hipóteses)
Novamente, dependendo da amostra que eu
tire, posso cometer um erro
Seria possível inclusive calcular um valor
semelhante ao p-valor
Mas o que se faz é reportar logo o IC em
torno dessa média calculada
Dúvidas da Monitoria
 Qual
é a interpretação direta do IC?
)x100% dos intervalos de confiança
obtidos de todas as possíveis amostras
conterão o valor dex
 (1-

Teórica
 Se
o experimento for repetido infinitas
vezes, em “1- ” dessas vezes os ICs
calculados conterão o valor dex

Empírica
Dúvidas da Monitoria
0.10
0.05
0.00
Densidade
0.15
0.20
Distribuição teórica das diferenças das médias amostrais
0
5
10
15
Dúvidas da Monitoria
 EPA!




Mas até aí nada foi dito em relação a rejeitar
H0!
Pois é, é que o IC nesse caso vai se referir
apenas à H1
A questão da H0 vem “por tabela”
Vamos ver outro gráfico para melhorar (ou
piorar) isso...
Dúvidas da Monitoria
0.10
0.05
0.00
Densidade
0.15
0.20
Distribuição teórica das diferenças das médias amostrais
p-valor = 0.007
-5
0
5
10
15
Dúvidas da Monitoria

No caso do IC freqüentista (o nosso caso aqui)

Está ERRADO dizer que a verdadeira média µ tem
95% de probabilidade de estar contido no IC

O que pode ser feito é assumir quex
representa o verdadeiro valor de µ e então
também não seria exatamente uma
probabilidade…

Aí poderíamos dizer


95% dos ICs gerados de todas as possíveis amostras
conterão a verdadeira média µ, assumindo-se
quex é o verdadeiro valor de µ
A interpretação da probabilidade estaria correta
se tivéssemos feito uma inferência Bayesiana
sobre a média
Dúvidas da Monitoria
É
por isso que é sempre bom reportar
tanto o p-valor quanto o intervalo de
confiança do estimador pontual


O p-valor vai dar uma noção da probabilidade
de termos cometido um erro na seleção da
amostra para rejeitar H0
O IC vai dar uma noção da variabilidade do
estimador pontual calculado a partir dessa
amostra selecionada
Objetivo
 Varredura



de um grande número de ‘spots’
Não faz diferença o que tem nesses ‘spots’
Estudar expressão diferencial entre grupos
Geralmente alguma medida contínua
 Resultados
importantes como primeira
abordagem

Não são resultados definitivos
Desenho de estudo
 Vamos
ainda abordar desenho de estudo,
porém agora mais aplicado diretamente
aos métodos laboratoriais
 Vamos
falar de replicatas, pooling e
‘randomização’
Desenho do estudo
Journal of Chromatography B,
849 (2007) 261–272
Replicatas e pooling
 Ainda
em desenho experimental
 Replicatas experimentais X “replicatas
biológicas”

Na verdade as biológicas não são
“replicatas”, são a variação que queremos
estudar
 IMPORTANTE


Variabilidade do método – quero EVITAR
Variabilidade biológica – PRECISO para
estudar o fenômeno
Replicatas e pooling
 Como
tratar isso?
 Replicata técnica (experimental)



Pode fazer um pool
Métodos estatísticos apropriados (modelos
hierárquicos)
Não influencia no tamanho da amostra – não
é considerado amostra diferente
 A biológica


Estudar como está
Fazer pool com essas amostras = JOGAR
DINHEIRO FORA!!!
“Blocking” e “Randomization
 Tratado
no artigo
 Faz sentido se as condições são
diferentes (ou não controladas entre os
blocos)

E.g. Cada 6 amostras são corridas no
MESMO gel
 Devem
ser usados métodos especiais
para análise


Modelos hierárquicos
Se 2 a 2, pode ser teste t pareado
Análise de dados
 Descrição
 Normalização
 Testes
apropriados
 O caso do DIGE
 Mas
antes vamos ver uma outra
distribuição...
Distribuição t de Student
 Como
vimos, se conhecermos a variância
da população, podemos definir totalmente
a distribuição da média amostral
 Mas isso NUNCA acontece!
 Na verdade usamos um estimador dessa
variabilidade – a variância amostral (s2)
 Então deve ter alguma incerteza extra
envolvida
 De fato…
Distribuição t de Student
 No
início do século XX
 William Sealy Gosset



Funcionário da cervejaria Guiness
Preocupação em estimar s2 em amostras
pequenas
Distribuição t de Student
• A empresa proibiu a divulgação do seu nome

Estudada e implementada como conhecemos
por R. A. Fisher
Distribuição t de Student
0.4
Normal X t-Student
0.2
0.1
0.0
Densidade
0.3
df=2
df=3
df=5
df=10
df=20
df=30
-4
-2
0
t
2
4
Distribuição t de Student
 Então,
como fica a distribuição da média
amostral?
X n ~ t n 1
T
x
s2
n
n
1
s2 
xi  x

n  1 i 1


2
Descrição dos dados
 De
maneira geral são descrições como o
número de spots identificados, número de
spots missing, etc
É
conveniente também descrever algumas
médias e desvios ou erros-padrão
 Mas
provavelmente existe alguma
maneira mais usual nessa área
Normalização
 Essa
é uma questão sobre a qual eu
tenho muitas dúvidas
 Não consigo entender por exemplo
transformar os valores em % de alguma
coisa
 O que faria sentido para mim é uma
transformação logarítmica ou de potência
(<1)
 Essas medidas não asseguram as
verdadeiras premissas, mas ajudam nos
cálculos
Análise dos dados
 Como
já comentamos, temos vários
problemas para a análise desses dados
 Além
das transformações, precisamos
achar testes adequados para cada
desenho
 Vamos
ver algumas opções, começando
pelo teste t…
A variância
 Mas
antes de entrar no teste, vamos ver
como se estima a variância da população
a partir da amostra
 A variância é uma medida de dispersão
central, que nos dá uma idéia de quanto
os valores de uma distribuição qualquer
estão distribuídos ao redor da média
dessa distribuição
 Ela é, na verdade, uma média, ou melhor
uma dispersão média
A variância
 Na
verdade, qualquer conta que desse
essa idéia seria suficiente, mas a
variância tem algumas propriedades
ótimas
 Formalmente, a variância de uma V.A. X
que tenha uma PDF f(x) é dada por:
Var ( X )  EX  E ( X )
2
E ( y) 
 yf ( x)dx
Dx
A variância
 Algebricamente,
isso se traduz pela média
dos quadrados dos afastamentos entre
todos os valores da distribuição e sua
média


2
1 n
Var ( X )   xi  x
n i 1
 Vamos
ver isso graficamente
3
2
1
-2
-1
0
x
-2
-1
0
x
1
2
3
A variância
0
20
40
60
Index
80
100
0
20
40
60
Index
80
100
A variância
 Tudo
muito bonito, mas agora vem a
pergunta que não quer calar...
 Por que a variância da amostra é


n
2
1
2
s 
xi  x

n  1 i 1
E
não


n
2
1
2
s   xi  x
n i 1
A variância
 Porque
os estatísticos, como todos os
cientistas têm duas principais
preocupações em relação a estimadores


Acurácia (ausência de viés)
Precisão (em estatística chamada de
eficiência)
 Em
estatística essas características do
estimados possuem definições claras
A variância
Seja ˆ um estimadorde um parâmetro
ˆ será um estimadornão enviesadode  se

E ˆ  


2
1 n
E   xi  x    2
 n i 1



2
 1 n
2
E
xi  x   

 n  1 i 1

A variância
 Para
adiantar o expediente, assim como
vimos a questão da distribuição da média
amostral, também teremos uma
distribuição da variância amostral quando
a população é normal
(n  1)  s 2

 Aqui
2
~  n21
não temos o TLC para ajudar!!!
O teste t
 Voltando
ao teste t...
 Nesse caso vamos testar se existe
diferença entre as médias de duas
populações, como vimos anteriormente
H 0 : 1  0  0
H1 : 1  0  0
 Só
que vamos usar uma distribuição t em
vez da Normal
O teste t

Segue o mesmo raciocínio de antes


A diferença entre as médias das amostras sobre a soma
de suas variâncias
A diferença é que para a conta, devo usar o desvio-padrão
da diferença, também chamado erro padrão da diferença
T
x1  x0
2
0
2
1
s
s

n0 n1
T ~ t n0  n1  2

Isso só é verdade se n0 = n1 e houver
homoscedasticidade
O teste t
 Classicamente,
o problema foi contornado
para ajustar a distribuição de T aos graus
de liberdade no caso de tamanhos de
amostra diferentes, mas sem resolver o
problema da heteroscedasticidade
T
n0  1s
 n1  1s
n0  n1  2
2
0
T ~ t n0  n1  2
x1  x0
2
1
1 1
  
 n0 n1 
O teste t
 Modernamente,
alterou-se os graus de
liberdade, acabando com o problema das
variâncias diferentes
 Aplicação
da chamada equação de
Welch-Satterthwaite
 Conhecido
 Pode
como teste t de Welch
ser aplicado para a ANOVA também
O teste t
T
x1  x0
2
0
2
1
s
s

n0 n1
T ~ t 
2
s
s 
  
n0 n1 

 
2
2
2
2
1  s0 
1  s1 
  
 
n0  1  n0  n1  1  n1 
2
0
2
1
O teste t pareado

Usado quando existe alguma dependência 2 a 2
entre as amostras

Isso acontece quando a mesma medida é feita
na mesma unidade de observação

Tipo antes e depois

Ou quando temos um estudo pareado 1:1 por
uma ou mais variáveis

O nosso teste de hipóteses será sobre a
diferença de cada par e não mais em relação às
diferenças das médias dos grupos
O teste t pareado

É um pouco diferente do que vimos anteriormente
H 0 : d  0
H1 : d  0

E então vamos trabalhar com a média das
diferenças e não mais com a diferença das
médias
O teste t pareado

Também é um pouco diferente do que vimos
anteriormente
T
xd
2
d
s
np
T ~ t n p 1
O teste t pareado

Onde
1
xd 
np
 x
n
i1
i 1
 xi0

n p é o númerode P ARES
n


1
s 
xi1  xi0  xd

n  1 i 1
2
d


2
Claro que isso tem um preço

O meu tamanho de amostra efetivo agora é o número
de pares e não de amostras
ANOVA
 Quando
precisamos comparar mais de 2
grupos, o teste t não é a melhor opção

Pelo menos, não para uma primeira
abordagem
 Usamos
então um teste que pode ser
entendido como uma generalização do
teste t
 Mas
reparem que agora o meu teste de
hipóteses é outro
ANOVA
 Como

fica então o teste de hipóteses?
Aqui o meu objetivo é saber se a média de
algum grupo é diferente de pelo menos uma
das médias de outro(s) grupo(s)
 Vamos
ver como ficaria para 3 grupos
H 0 : 1  2  3
H1 : Pelomenosuma i   j
ANOVA

Bem, mas antes de entrarmos no teste
propriamente dito vamos ver uma outra
distribuição e um teste para comparar variâncias


Eram muito usados, quando precisávamos de
homoscedasticidade!!!
Um teste genérico para duas variâncias pode
ser:
H 0:σ  σ
2
1
H1:σ  σ
2
1
2
2
2
2
ANOVA
 Qual
é o meu problema?
 Eu preciso de uma distribuição que dê
conta dessa diferença

Para a média, foi fácil, já que a Normal (e a t)
se comportam muito bem quando são
somadas ou subtraídas – continuam uma
normal ou uma t, apenas com uma pequena
alteração em seus parâmetros
 Mas
e para a variância?
ANOVA

Bem, nós vimos antes que o melhor estimador
da variância de uma população é o s2 e que
uma pequena modificação seguiria uma
distribuição qui-quadrada:
(n  1)  s 2


2
~  n21
Isso chega a ser intuitivo, se vocês souberem
que é possível demonstrar que a qui-quadrada
com k graus de liberdade é na verdade uma
soma de Normais ao quadrado
ANOVA

Olhando então para o cálculo de s2:


n
2
1
2
s 
xi  x

n  1 i 1

E sabendo queX segue uma normal, e que
está ao quadrado e somada várias vezes nessa
conta, com algum ajuste, ela acaba seguindo
uma qui-quadrada
 Mas notem que tenho um problema: o 2 faz
parte desse ajuste (como também na normal e
na t), só que não posso usar o s2 nesse caso,
pois não faria sentido, certo?
ANOVA
 Muito
bem, mas preciso de alguma coisa
para comparar as variâncias
 Poderia ser uma diferença, mas aí
precisaria conhecer uma distribuição que
descrevesse a diferença de duas quiquadradas
 Tal distribuição não é conhecida (ou pelo
menos não é estudada)
 Mas a razão de duas qui-quadradas,
divididas pelas suas respectivas médias
é…
ANOVA

A distribuição F de Snedecor
 Pode-se provar que
Se X~χ df2 1 e Y~χ df2 2
X
Y

df1
~Fdf1,df2
df2
Mas como isso me ajuda com o meu teste de
hipóteses???

O que fazer com o 2 ???
ANOVA
 Aí
é que vem o “pulo do gato”
 Eu teria o seguinte:
(n1  1)  s

2
1
2
1
(n1  1)
(n2  1)  s 2
2
 22
 Mas,
~ Fn1 1,n2 1
(n2  1)
sob H0, eu não estou assumindo que
12 = 22 ?
ANOVA
 Pois
é, então, sob H0, eu cancelo tudo e
sobra:
2
1
2
2
s
~Fn1 1,n2 1
s
 Aí
fica fácil de fazer o teste!
2

H0 : 1
2

H1 : 1

2
2

2
2
1
1
ANOVA
 Mas

por que eu entrei nisso?
Porque na ANOVA, apesar de testar se as
médias são diferentes, usaremos variâncias
para fazer isso – daí o nome Analysis of
Variance – ANOVA
 Vamos
ver como isso funciona
 Vamos usar um exemplo para começar


Digamos que temos 3 grupos para comparar
uma média qualquer
Vamos ver graficamente
0
50
100
150
200
250
ANOVA
-
A
B
C
ANOVA

Vamos ver como fica o modelo, sem entrar
em detalhes: vocês vão ter que acreditar em
mim!
 A relação entre essas variações é dada por:
 x
k
i 1 i 1


2
n
ij
k
n


2
k
n




 x   xi  x   xij  x
i 1 i 1
2
i 1 i 1
“Simplificando”:
 x
k
n
i 1 i 1
ij

2
k


2
k
n
 x   ni xi  x   xij  x
i 1
i 1 i 1
2
ANOVA

Complicado?


Nem tanto
É que em matemática, é difícil às vezes escrever
coisas que são simples!
 x
k
n
ij  x 
i 1 i 1
 n x
i 1
 x
i
 x
k
n
i 1 i 1

Variabilidade total do sistema (SSDTotal)
2
k
i

2
ij
Variabilidade entre as médias dos
grupos (SSDB)

2
x
Variabilidade entre cada valor e a
média do seu grupo (SSDW)
ANOVA

Mas o nosso objetivo é saber se a
variabilidade do sistema é explicada apenas
pela variabilidade das observações em
relação às médias de seus grupos, ou se a
variabilidade entre as médias dos grupos é
importante o suficiente


Se contribui o suficiente
Ambas as quantidades são estimadores de
variâncias, certo?
 Então posso testar se uma delas é
significativamente maior do que a outra com
o teste F que vimos há pouco, não é?
ANOVA

Só que antes, como vimos para duas
variâncias quaisquer, temos que dividir esses
estimadores de variância pela média das quiquadradas que elas seguem sob H0:
SSDB
SSDw
k 1
 MS B
nk
 MSw
MS B
~ Fk 1,n  k
MSw
ANOVA

Se a variabilidade entre os grupos for
suficientemente grande, vou rejeitar H0
 Uma vez estabelecido que pelo menos duas
médias são diferentes, podemos realizar
testes com os grupos 2 a 2 para saber qual
delas são diferentes
 Existem muitas abordagens diferentes para
isso, mas não vamos ver agora
 Entram também as questões para
comparações múltiplas que veremos em um
outro momento
ANOVA

Tudo muito bonito, entendi a questão da
variabilidade, mas não consigo entender uma
coisa
 Como é que isso pode ser uma
generalização do teste t???
 Aparentemente são abordagens totalmente
diferentes
 Bem, é que as aparências enganam…
 A distribuição F com 1 grau de liberdade no
numerador é na verdade uma transformação
da distribuição t
ANOVA

Pode-se provar que
Se X~tdf 2  X 2~F1,df2

O que “coincidentemente” reduziria a nossa
ANOVA se houvesse 2 grupos para:
SSDB
SSDw
2 1
 MS B
n2
 MSw
MS B
~ F1,n  2
MSw
ANOVA
 Se
eu pegar a estatística T e elevar ao
quadrado, terei
T
x1  x0
2
0
2
1
s
s

n0 n1
 Mas

x x 

2
T
2
1
2
0
0
s
s12

n0 n1
não posso dizer que o
denominador é a variabilidade entre
duas médias e o numerador uma
variabilidade das observações?
ANOVA
 Está

difícil de acreditar?
Vamos ver um exemplo rápido com os
grupos B e C
Welch Two Sample t-test
t = 5.5416, df = 37.94, p-value = 2.433e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
35.77373 76.95772
sample estimates:
mean of x mean of y
104.96247 48.59674
One-way analysis of means (not assuming equal variances)
F = 30.7092, num df = 1.00, denom df = 37.94, p-value = 2.433e-06
Testes de permutação

Vamos ver agora um importante teste,
baseado em permutações que tem muita
utilidade para o nosso tipo de experimento
Download

document