VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO MULTIPLICATIVA (AMMI) Carlos Tadeu dos Santos Dias Escola Superior de Agricultura “Luiz de Queiroz” / ESALQ / USP Departamento de Ciências Exatas Introdução Interação Genótipo/Ambiente (GxE) Adaptação específica de genótipos em ambientes Métodos estatísticos tradicionais -Análise conjunta de ensaios multiambientes -Regressão linear simples e múltipla (Eberhart & Russel, 1966) – Não é informativa se a linearidade falha Métodos multivariados -PCA (Análise de Componentes Principais) -Análise de Agrupamento -AMMI Procedimento AMMI AMMI ANOVA e PCA Modela efeitos principais e interação de uma forma sequencial • Efeitos principais são estimados usando mínimos quadrados • PCA É conduzida via decomposição em valores singulares (DVS) aplicado á matriz residual de interação. Incorpora componentes aditivos e multiplicativos em uma análise de mínimos quadrados integrada e poderosa Procedimento AMMI Problema Geral Número de componentes multiplicativos a ser retido no modelo (com o objetivo de adequadamente explicar o padrão na interação) Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch & Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e Mackenzie (1923).Todas consideram a proporção de variância acumulada pelos componentes. Validação-Cruzada – como uma metodologia preditiva. Problema Específico Otimizar o processo de validação cruzada Objetivo Sumário do modelo AMMI Sumário da metodologia disponível para selecionar o número de componentes multiplicativos no modelo Descrever dois métodos baseados no procedimento leave-one-out que otimiza o processo de validação cruzada O modelo AMMI Supor n genótipos em p ambientes com r repetições. A média de cada combinação y11...y1p y Y n p ij y n1...ynp modelada por y ij g i e j Componente s aditivos m jk ij k 1 k ik Componente s Multiplicativos para interação ij NID ( 0 , 2 / r ) O modelo AMMI Estimativas: ˆ y , gi e e j gˆ i yi y De uma ANOVA da matriz nYp eˆ j y j y gˆ eij yij yi y j y Os resíduos dessa matriz constituem a matriz de interação: n GEp gˆeij termos da interação multiplicativa DVS da matriz nGEp O modelo AMMI k ik jk através do k-ésimo valor singular de GE os resíduos dessa matriz constituem a matriz do vetor …singular k através do j-ésimo elemento do vetor singular k k' associado k=1,2,…,s = min{n-1, p-1}, s é o posto de GE. Se k varia até s o modelo produz um ajuste exato aos dados. Consequentemente k varia até m (m<s), e as estimativas são obtidas dos primeiros m termos da DVS da matriz GE. com ij é um resíduo adicional. O modelo AMMI Correspondência entre DVS e PCA k ik jk :raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’ ou (GE)’(GE) :é o i-ésimo elemento do autovetor de (GE)(GE)’ associado com 2 k :é o j-ésimo elemento do autovetor de (GE)’(GE) associado 2 com k GE (DVS) Partição ortogonal GE ' 1 1 1 ' 2 2 2 ' s s s O modelo AMMI 2 fornece a proporção da variância devido a interação GxE no kk ésimo componente. ik e representam pesos para o genótipo i e ambiente j jk naquele componente da interação, respectivamente. SS(GxE) k1 λ s 2 e k 2 ge ij SS(GxE) por quê? devido GE ser por construção uma matriz de desvios centrada na média e com média nula. Assim a interação do genótipo i com o ambiente j é descrito por m k 1 k ik jk descartando o ruído dado por k m 1 k ik jk s Análise AMMI Fonte Genó. (G) Amb. (E) Inte.(GxE) IPCA1 … IPCAs Erro médio/r Total GL SQ Gollob n-1 p-1 (n-1)(p-1) n+p-1-(2x1) … n+p-1-(2xs) np(r-1) npr-1 SQ(G) SQ(E) SQ(GxE) … s SQ(E.m.) SQ(Total) Análise AMMI Fonte GL SQCornelius Genó. (G) Amb. (E) Inte.(GxE) IPCA1 (n-1-1)(p-1-1) SQ(G×E)- IPCA2 (n-1-2)(p-1-2) SQ(G×E)- -2 … … … IPCAs (n-1-s)(p-1-s) Erro médio/r SQ(E.m.) Total npr-1 SQ(Total) Avaliação Preditiva Usando Validação Cruzada Em geral, ao melhorista de plantas interessa predizer o comportamento de um genótipo. Critérios de avaliação: POS-DICTIVO x Modelo PREDITIVO (Ajustado-via teste F) (Predições) Para fazer Predições: Métodos que são essencialmente data-based e livres de distribuições teóricas terão maior generalidades Avaliação Preditiva Usando Validação Cruzada Tais métodos envolvem reamostragem de um determinado conjunto de dados, usando técnicas tais como jacknife, bootstrap e validação cruzada (Avaliação preditiva) y111 y112 … y11r y121 … y12r etc. Aleatoriamente dividida em dois subgrupos (i) Dados para o ajuste do AMMI (ii) Dados para validação Avaliação Preditiva Usando Validação Cruzada As respostas são preditas para uma família de modelos AMMI (’s m) e esses são comparados com os respectivos dados de validação, calculando as diferenças entre esses valores. Root Mean Square Predictive Difference RMSPD Assumimos que m 2 ( y y ij ij ij ) np dados = padrão + ruído dados1 = padrão + ruído1 dados2 = padrão + ruído2 Métodos “Leave-one-out” Para o que segue, queremos predizer o elemento xij da matriz X por meio do modelo m x ij k 1 d k u ik v jk ε ij m ˆ x no qual predizemos o valor ij de xij (i=1,…,n;j=1,…,p) para cada possível escolha de m, e medir a discrepância entre o valor atual e predito. m 2 ˆ PRESS(m) i 1 j 1 ( xij xij ) n p Métodos “Leave-one-out” Entretanto, para evitar viés, o valor xij não deve ser usados nos cálculos de xˆ m. Assim, apelo a alguma forma de validação cruzada é ij indicada. Krzanowski (1982) - O algoritmo para validação cruzada X ( i) U D V T com U (ust ),V (vst ), e D diag(d1 ,..., d p ), e ~ ~ ~ ~ ~T ~ ~ ~ ~ ~ X ( j) UDV com U (ust ),V (vst ), e D diag(d1 ,..., d(p1) ). Agora considere o preditor ~ ~ xˆ t 1 (uit d t )( vtj d t ) m ij m Note: é feito o máximo uso dos outros elementos de X. Métodos “Leave-one-out” Gabriel (2002) - Toma uma mistura de regressão e aproximação de uma matriz de posto-inferior como base para predição. - O algoritmo para validação cruzada (1) Para uma matriz X (n x p), use a partição e aproxime a submatriz x11 x 1T. X x .1 X \11 m X \11 u (k)d k v T(k) UDV T k 1 Então prediga x11 por ˆx11 x1T. VD 1UT x.1 obtenha o resíduo da validação cruzada, e11 x11 xˆ 11 Métodos “Leave-one-out” (2)Similarmente, obtêm-se os valores ajustados xˆ ij e os resíduos eij x ij xˆ ij para todos outros elementos, xij, i=1,…n;j=1,…,m;(i,j)(1,1). Cada um irá requerer uma diferente partição de X. (3) Esses resíduos e valores ajustados podem ser resumidos por PRESS(m)/np e PRECORR(m) Corr(x ij, xˆ ij | i, j) Métodos “Leave-one-out” Com cada método, a escolha de m pode ser baseada em uma apropriada função de PRESS(m)/np. Discrepância entre os valores atual e predito 0.7 0.6 Grabriel PRESS(m) 0.5 0.4 0.3 Krzanowski 0.2 0.1 0 0 5 10 m 15 20 Métodos “Leave-one-out” Krzanowski sugere o uso da estatística PRESS(m 1) PRESS(m) PRESS(m) Wm Dm Dr Dm: número de GL required para ajustar o m-ésimo componente. Dm=n+p-2m Dr: número de GL restante após ajustar o m-ésimo componente. D1=(n-1)p, Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1). Wm : representa o incremento na informação preditiva fornecida pelo m-ésimo componente, dividido pela informação preditiva média em cada um dos componentes restantes. Exemplo ilustrativo Tabela 1- Dados de vinte amostras solo e cinco variáveis (Kendall, 1980, p.20, baseado em Krzanowski, 1988). Eastment-Krzanowski ________________________Gabriel _________________________ m PRESS_m PRECORR W PRESS_m PRECORR W ___________________________________________________________ 1 2 3 4 4.36 2.23 2.14 2.13 .9963 .9981 .9982 .9982 27.78 2.14 0.05 0.00 8.08 7.45 5.60 0.21 .9932 .9937 .9952 .9998 13.60 0.18 0.45 10.20 Exemplo ilustrativo Tabela 2 - Dados de quarenta afídeos e dezenove variáveis (Jeffers, 1967, baseado em Krzanowski, 1987). ____________________________________ Eastment-Krzanowski Gabriel __________________________ ___________________________ m PRESS_m PRECORR W PRESS_m PRECORR W ________________________________________________________________ 1 0.4500 .9799 29.04 0.4240 .9810 31.56 2 0.3391 .9849 3.71 0.2883 .9871 5.34 3 0.3389 .9849 0.00 0.2934 .9869 -0.18 4 0.2865 .9874 1.85 0.2957 .9868 -0.07 18 0.2601 .9886 -0.00 0.5778 .9744 0.03 ________________________________________________________________ Exemplo ilustrativo Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos dados de Hernández e Crossa (2000), para a análise dos cinco primeiros componentes principal de interação (IPCA). Fonte de variação Soma de Quadrados F Fgollob _________________________________________________________ Bloco 0.2001 2 0.63 Tratamento 108.8393 47 14.65** Genótipos (G) 42.7587 7 38.65** Anos (E) 49.1997 5 62.27** Interação (GxE) 16.8809 35 3.05** _________________________________________________________ IPCA 1 7.2428 11 4.16** IPCA 2 5.4232 9 3.81** IPCA 3 2.9696 7 2.68* IPCA 4 1.1906 5 1.50 IPCA 5 0.0545 3 0.11 _________________________________________________________ Resíduo 14.8543 94 _________________________________________________________ Total 123.8939 143 Exemplo ilustrativo Tabela 4- Dados (produção média de grãos) de um ensaio de variedades de trigo oito genótipos testados durante seis anos (1990-1995). Fonte de variação Soma de quadrados GLCornelius FCornelius _________________________________________________________ Bloco Tratamentos Genótipos (G) Anos (E) Interação (GxE) _________________________________________________________ IPCA 1 9.6379 24 2.54** IPCA 2 4.2147 15 1.78* IPCA 3 1.2451 8 0.98 IPCA 4 0.0545 3 0.12 IPCA 5 _________________________________________________________ Resíduo 14.8543 94 _________________________________________________________ Total 123.8939 143 Exemplo ilustrativo Tabela 5- Análise de validação cruzada e métodos “leaveTabela 4. Análise de validação cruzada eHernandéz métodos “leave-one-out” para os dados de Hernández e Crossa one-out” para os dados e Crossa (2000). (2000). Rank m 0 1 2 3 4 5 Validação cruzada por Aleatorização RMSPD PRECORR 0.5040 .8436 0.5149 .8386 0.4968 .8521 0.4830 .8617 0.4776 .8655 0.4812 .8635 Eastment-Krzanowski Gabriel PRESS_m W PRESS_m W 0.1861 0.1989 0.1721 0.1615 0.1394 2.8587 -0.1029 0.1167 -0.0218 -0.3171 0.1886 0.2020 0.2610 0.3543 0.5285 2.7882 -0.1057 -0.1695 0.0877 0.6592 Discussão Teste F distribucional indicou: dois componentes Validação cruzada por aleatorização: três componentes Leave-one-out: um componente Como avaliar estas diferenças? Discussão Métodos baseados no teste F dependem pesadamente das suposições distribucional (normalidade dos dados e validade das distribuições F para os quadrados médio) o que pode não ser apropriado em muitos casos. O teste F pode apresentar recomendações conflitantes para um particular conjunto de dados. O teste F seleciona muitos componentes de interação. Discussão Parece que um método de validação cruzada baseado em dados deve ser mais apropriado. Validação cruzada por aleatorização tem uma grande parte dos dados que fica fora do conjunto de validação. Métodos “Leave-one-out” faz o mais eficiente uso dos dados e resulta em modelos mais parsimoniosos (AMMI 1) Referências bibliográficas CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci. 33:1186–1193 EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing varieties. Crop Science,v.6, n.1, p.36-40, 1966 FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of different potato varieties. Journal of Agricultural Science, xiii. 311-320 GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive sucess of statistical analysis of yield trials. Theoretical and Applied Genetics, New York, v.76, p.1-10, 1988 MANDEL, J. Non-additivity in two-way analysis of variance. Journal of the American Statistical Association, v.56, p.878-888, 1961 MANDEL, J. The partitioning of interactions in analysis of variance. Journal of Research of the National Bureau of Standards , Series B, Washington, v.73, p.309-328, 1969 MANDEL, J. A new analysis of variance model for non-adittive data. Technometrics, Alexandria, v.13, n.1, p.1-18, 1971 PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional yield trials: a comparison to additive main effects and multiplicative interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654 PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms in additive main effects and multiplicativeinteraction model for cultivar trial. Theor. Appl. Genet. 90:438–443