VALIDAÇÃO CRUZADA EM ANÁLISE
BASEADA EM MODELO DE EFEITOS
PRINCIPAIS ADITIVOS E INTERAÇÃO
MULTIPLICATIVA (AMMI)
Carlos Tadeu dos Santos Dias
Escola Superior de Agricultura
“Luiz de Queiroz” / ESALQ /
USP
Departamento de Ciências
Exatas
Introdução
Interação Genótipo/Ambiente (GxE)
Adaptação específica de genótipos em ambientes
Métodos estatísticos tradicionais
-Análise conjunta de ensaios multiambientes
-Regressão linear simples e múltipla (Eberhart & Russel,
1966) – Não é informativa se a linearidade falha
Métodos multivariados
-PCA (Análise de Componentes Principais)
-Análise de Agrupamento
-AMMI
Procedimento AMMI
AMMI  ANOVA e PCA
Modela efeitos principais e interação de uma forma
sequencial
•
Efeitos principais  são estimados usando mínimos quadrados
•
PCA  É conduzida via decomposição em valores singulares
(DVS) aplicado á matriz residual de interação.
Incorpora componentes aditivos e multiplicativos em uma
análise de mínimos quadrados integrada e poderosa
Procedimento AMMI
Problema Geral
Número de componentes multiplicativos a ser retido no
modelo (com o objetivo de adequadamente explicar o
padrão na interação)
Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch &
Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e
Mackenzie (1923).Todas consideram a proporção de variância
acumulada pelos componentes.
Validação-Cruzada – como uma metodologia preditiva.
Problema Específico
Otimizar o processo de validação cruzada
Objetivo
Sumário do modelo AMMI
Sumário da metodologia disponível para selecionar
o número de componentes multiplicativos no modelo
Descrever dois métodos baseados no procedimento
leave-one-out que otimiza o processo de validação cruzada
O modelo AMMI
Supor n genótipos em p ambientes com r repetições.
A média de cada combinação
 y11...y1p 
 y  
Y

n p
 ij 
 y n1...ynp 
modelada por
y ij    g i  e j 

Componente s aditivos
m
 
 jk  ij
k 1


k ik
Componente s Multiplicativos para interação

 ij

NID ( 0 , 2 / r )
O modelo AMMI
Estimativas:
ˆ  y
, gi e e j
gˆ i  yi  y
 De uma ANOVA da matriz nYp
eˆ j  y j  y
gˆ eij  yij  yi  y j  y
Os resíduos dessa matriz constituem a matriz de interação:
n
 
GEp  gˆeij
termos da interação multiplicativa  DVS da matriz nGEp
O modelo AMMI
k
 ik
 jk
através do k-ésimo valor singular de GE
os resíduos dessa matriz constituem a matriz do vetor
…singular k

através do j-ésimo elemento do vetor singular
k
 k' associado
k=1,2,…,s = min{n-1, p-1}, s é o posto de
GE. Se k varia até s o modelo produz um ajuste
exato aos dados. Consequentemente k varia até m
(m<s), e as estimativas são obtidas dos primeiros m
termos da DVS da matriz GE.
com
ij
é um resíduo adicional.
O modelo AMMI
Correspondência entre DVS e PCA

k
 ik
 jk
:raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’
ou (GE)’(GE)
:é o i-ésimo elemento do autovetor de (GE)(GE)’ associado
com 2
k

:é o j-ésimo elemento do autovetor de (GE)’(GE) associado
2
com
k

GE  
(DVS)
Partição ortogonal
GE              
'
1 1 1
'
2 2 2
'
s s s
O modelo AMMI

2 fornece a proporção da variância devido a interação GxE no kk ésimo componente.
 ik e 
representam pesos para o genótipo i e ambiente j
jk naquele componente da interação, respectivamente.
SS(GxE)  k1 λ
s
2
e
k
2
ge
 ij  SS(GxE)
por quê?
devido GE ser por construção uma matriz de desvios centrada
na média e com média nula.
Assim a interação do genótipo i com o ambiente j é descrito por

m
k 1
k ik jk descartando o ruído dado por k m 1 k  ik jk
s
Análise AMMI
Fonte
Genó. (G)
Amb. (E)
Inte.(GxE)
IPCA1
…
IPCAs
Erro médio/r
Total
GL
SQ Gollob
n-1
p-1
(n-1)(p-1)
n+p-1-(2x1)
…
n+p-1-(2xs)
np(r-1)
npr-1
SQ(G)
SQ(E)
SQ(GxE)


…

s
SQ(E.m.)
SQ(Total)
Análise AMMI
Fonte
GL
SQCornelius
Genó. (G)
Amb. (E)
Inte.(GxE)
IPCA1
(n-1-1)(p-1-1) SQ(G×E)- 
IPCA2
(n-1-2)(p-1-2) SQ(G×E)- -2
…
…
…
IPCAs
(n-1-s)(p-1-s)
Erro médio/r
SQ(E.m.)
Total
npr-1
SQ(Total)
Avaliação Preditiva Usando Validação Cruzada
Em geral, ao melhorista de plantas interessa predizer o
comportamento de um genótipo.
Critérios de avaliação:
POS-DICTIVO x Modelo PREDITIVO
(Ajustado-via teste F)
(Predições)
Para fazer Predições: Métodos que são essencialmente
data-based e livres de distribuições teóricas terão maior
generalidades
Avaliação Preditiva Usando Validação Cruzada
Tais métodos envolvem reamostragem de um determinado conjunto
de dados, usando técnicas tais como jacknife, bootstrap e validação
cruzada (Avaliação preditiva)
y111
y112
…
y11r
y121
…
y12r etc.
Aleatoriamente
dividida em
dois subgrupos
(i) Dados para o
ajuste do AMMI
(ii) Dados para
validação
Avaliação Preditiva Usando Validação Cruzada
As respostas são preditas para uma família de modelos AMMI (’s m)
e esses são comparados com os respectivos dados de validação,
calculando as diferenças entre esses valores.
Root Mean Square
Predictive Difference
RMSPD 
Assumimos que
m 2
(
y

y
ij ij ij )
np
dados = padrão + ruído
dados1 = padrão + ruído1
dados2 = padrão + ruído2
Métodos “Leave-one-out”
Para o que segue, queremos predizer o elemento xij da
matriz X por meio do modelo
m
x ij  k 1 d k u ik v jk  ε ij
m
ˆ
x
no qual predizemos o valor ij de xij (i=1,…,n;j=1,…,p)
para cada possível escolha de m, e medir a discrepância
entre o valor atual e predito.
m
2
ˆ
PRESS(m)  i 1  j 1 ( xij  xij )
n
p
Métodos “Leave-one-out”
Entretanto, para evitar viés, o valor xij não deve ser usados nos
cálculos de
xˆ
m. Assim, apelo a alguma forma de validação cruzada é
ij
indicada.
Krzanowski (1982)
- O algoritmo para validação cruzada
X ( i)  U D V T com U  (ust ),V  (vst ), e D  diag(d1 ,..., d p ), e
~
~
~ ~ ~T
~ ~ ~ ~
~
X (  j)  UDV com U  (ust ),V  (vst ), e D  diag(d1 ,..., d(p1) ).
Agora considere o preditor
~
~
xˆ  t 1 (uit d t )( vtj d t )
m
ij
m
Note: é feito o máximo uso dos outros elementos de X.
Métodos “Leave-one-out”
Gabriel (2002)
- Toma uma mistura de regressão e aproximação de uma
matriz de posto-inferior como base para predição.
- O algoritmo para validação cruzada
(1) Para uma matriz X (n x p), use a partição
e aproxime a submatriz
 x11 x 1T. 
X

x .1 X \11 
m
X \11   u (k)d k v T(k)  UDV T
k 1
Então prediga x11 por
ˆx11  x1T. VD 1UT x.1
obtenha o resíduo da validação cruzada,
e11  x11  xˆ 11
Métodos “Leave-one-out”
(2)Similarmente, obtêm-se os valores ajustados xˆ ij
e os resíduos eij  x ij  xˆ ij para todos outros
elementos, xij, i=1,…n;j=1,…,m;(i,j)(1,1). Cada
um irá requerer uma diferente partição de X.
(3) Esses resíduos e valores ajustados podem ser
resumidos por PRESS(m)/np e
PRECORR(m)  Corr(x ij, xˆ ij | i, j)
Métodos “Leave-one-out”
Com cada método, a escolha de m pode ser baseada em
uma apropriada função de PRESS(m)/np.
Discrepância entre os valores atual e predito
0.7
0.6
Grabriel
PRESS(m)
0.5
0.4
0.3
Krzanowski
0.2
0.1
0
0
5
10
m
15
20
Métodos “Leave-one-out”
Krzanowski sugere o uso da estatística
PRESS(m  1)  PRESS(m) PRESS(m)
Wm 

Dm
Dr
Dm: número de GL required para ajustar o m-ésimo
componente. Dm=n+p-2m
Dr: número de GL restante após ajustar o m-ésimo
componente. D1=(n-1)p,
Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1).
Wm : representa o incremento na informação preditiva
fornecida pelo m-ésimo componente, dividido pela
informação preditiva média em cada um dos
componentes restantes.
Exemplo ilustrativo
Tabela 1- Dados de vinte amostras solo e cinco variáveis
(Kendall, 1980, p.20, baseado em Krzanowski, 1988).
Eastment-Krzanowski
________________________Gabriel
_________________________
m PRESS_m PRECORR W
PRESS_m PRECORR W
___________________________________________________________
1
2
3
4
4.36
2.23
2.14
2.13
.9963
.9981
.9982
.9982
27.78
2.14
0.05
0.00
8.08
7.45
5.60
0.21
.9932
.9937
.9952
.9998
13.60
0.18
0.45
10.20
Exemplo ilustrativo
Tabela 2 - Dados de quarenta afídeos e dezenove
variáveis (Jeffers, 1967, baseado em Krzanowski, 1987).
____________________________________
Eastment-Krzanowski
Gabriel
__________________________
___________________________
m PRESS_m PRECORR W
PRESS_m PRECORR
W
________________________________________________________________
1 0.4500
.9799
29.04 0.4240
.9810
31.56
2 0.3391
.9849
3.71
0.2883
.9871
5.34
3 0.3389
.9849
0.00
0.2934
.9869
-0.18
4 0.2865
.9874
1.85
0.2957
.9868
-0.07
 





18
0.2601
.9886
-0.00
0.5778
.9744
0.03
________________________________________________________________
Exemplo ilustrativo
Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos
dados de Hernández e Crossa (2000), para a análise dos cinco primeiros
componentes principal de interação (IPCA).
Fonte de variação Soma de Quadrados F
Fgollob
_________________________________________________________
Bloco
0.2001
2
0.63
Tratamento
108.8393
47
14.65**
Genótipos (G)
42.7587
7
38.65**
Anos (E)
49.1997
5
62.27**
Interação (GxE)
16.8809
35
3.05**
_________________________________________________________
IPCA 1
7.2428
11
4.16**
IPCA 2
5.4232
9
3.81**
IPCA 3
2.9696
7
2.68*
IPCA 4
1.1906
5
1.50
IPCA 5
0.0545
3
0.11
_________________________________________________________
Resíduo
14.8543
94
_________________________________________________________
Total
123.8939
143
Exemplo ilustrativo
Tabela 4- Dados (produção média de grãos) de um ensaio
de variedades de trigo oito genótipos testados durante seis
anos (1990-1995).
Fonte de variação Soma de quadrados GLCornelius FCornelius
_________________________________________________________
Bloco
Tratamentos
Genótipos (G)
Anos (E)
Interação (GxE)
_________________________________________________________
IPCA 1
9.6379
24
2.54**
IPCA 2
4.2147
15
1.78*
IPCA 3
1.2451
8
0.98
IPCA 4
0.0545
3
0.12
IPCA 5
_________________________________________________________
Resíduo
14.8543
94
_________________________________________________________
Total
123.8939
143
Exemplo ilustrativo
Tabela 5- Análise de validação cruzada e métodos “leaveTabela 4. Análise
de validação
cruzada eHernandéz
métodos “leave-one-out”
para os dados
de Hernández e Crossa
one-out”
para
os dados
e Crossa
(2000).
(2000).
Rank m
0
1
2
3
4
5
Validação cruzada
por Aleatorização
RMSPD
PRECORR
0.5040
.8436
0.5149
.8386
0.4968
.8521
0.4830
.8617
0.4776
.8655
0.4812
.8635
Eastment-Krzanowski
Gabriel
PRESS_m
W
PRESS_m
W
0.1861
0.1989
0.1721
0.1615
0.1394
2.8587
-0.1029
0.1167
-0.0218
-0.3171
0.1886
0.2020
0.2610
0.3543
0.5285
2.7882
-0.1057
-0.1695
0.0877
0.6592
Discussão
Teste F distribucional indicou: dois componentes
Validação cruzada por aleatorização: três componentes
Leave-one-out: um componente
Como avaliar estas diferenças?
Discussão
Métodos baseados no teste F dependem pesadamente das
suposições distribucional (normalidade dos dados e
validade das distribuições F para os quadrados médio) o
que pode não ser apropriado em muitos casos.
O teste F pode apresentar recomendações conflitantes
para um particular conjunto de dados.
O teste F seleciona muitos componentes de interação.
Discussão
 Parece que um método de validação cruzada baseado
em dados deve ser mais apropriado.
Validação cruzada por aleatorização tem uma grande
parte dos dados que fica fora do conjunto de validação.
 Métodos “Leave-one-out” faz o mais eficiente uso dos
dados e resulta em modelos mais parsimoniosos (AMMI 1)
Referências bibliográficas
CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the
additive main effects and multiplicative interaction model for cultivar
trials. Crop Sci. 33:1186–1193
EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing
varieties. Crop Science,v.6, n.1, p.36-40, 1966
FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of
different potato varieties. Journal of Agricultural Science, xiii. 311-320
GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive sucess
of statistical analysis of yield trials. Theoretical and Applied Genetics,
New York, v.76, p.1-10, 1988
MANDEL, J. Non-additivity in two-way analysis of variance. Journal of
the American Statistical Association, v.56, p.878-888, 1961
MANDEL, J. The partitioning of interactions in analysis of variance.
Journal of Research of the National Bureau of Standards , Series B,
Washington, v.73, p.309-328, 1969
MANDEL, J. A new analysis of variance model for non-adittive data.
Technometrics, Alexandria,
v.13, n.1, p.1-18, 1971
PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional
yield trials: a comparison to additive main effects and multiplicative
interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654
PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms
in additive main effects and multiplicativeinteraction model for
cultivar trial. Theor. Appl. Genet. 90:438–443
Download

Validação-Cruzada - Departamento de Ciências Exatas