UNIVERSIDADE DO ALGARVE Faculdade de Engenharia de Recursos Naturais Estatística Experimental Trabalho Prático nº 5: Regressão e Correlação SPSS Analyse o Regression o Linear Analyse o Correlate o Bivariate 1. Fizeram-se determinações da concentração do azoto proteico solúvel e da concentração de clorofila em 7 folhas da variedade de arroz IR22: N solúvel (mg/folha) 0,84 1,24 2,10 2,64 1,31 1,22 0,19 Clorofila (mg/folha) 0,55 1,24 1,56 2,52 1,64 1,17 0,04 [K. A. Gomez & A. A. Gomez (1984). Statistical Procedures for Agricultural Research. (2nd Ed.) Jonh Wiley & Sons, Inc., N.Y.] Utilizando uma calculadora: a) Calcule as estimativas de mínimos quadrados do declive e da intercepção da recta de regressão populacional apropriada para fazer predições da concentração foliar de azoto com base na respectiva concentração de clorofila. Escreva a equação da recta de regressão. b) Explique o significado do coeficiente de regressão b nesta situação concreta. c) Teste a adequação do modelo de regressão, utilizando um teste t ou um teste F. d) Qual é a percentagem da variação ocorrente na variável de resposta (concentração de N) que é explicada pela variável preditora (concentração de clorofila)? Que nome tem? e) Calcule o valor da concentração de N que o modelo prediz para uma folha cuja concentração de clorofila é igual a 0,98 mg. É legitimo utilizar a equação de regressão para predizer a concentração de N corresponde a uma concentração de clorofila de 5,5 mg/folha? Porquê? f) Calcule o coeficiente de correlação de Pearson e averigue a sua significância. Estatística Experimental T.P.nº5: Regressão e Correlação 2. Fez-se uma investigação num fitotrão para estudar a resposta da taxa de fotossíntese da Larrea tridentata à irradiância, à concentração ambiental de CO2 e à resistência da folha à difusão do vapor de água. Os dados obtidos encontram-se num ficheiro SPSS de nome “eatp5-1.sav”. [ R. G. D. Steel & J. H. Torrie (1980). Principles and Procedures of Statistics. (2nd Ed.) McGrawHill International Editions, N.Y.] a) Abra o ficheiro de dados no SPSS e obtenha os diagramas de dispersão da taxa de fotossíntese (variável fotos) relativamente à irradiância (variável par), à concentração ambiental de CO2 (variável co2) e à resistência da folha à difusão do vapor de água (variável resfolha). A resposta da fotossíntese a cada uma das três variáveis parece ser de natureza linear? b) Estime os coeficientes de correlação entre a taxa de fotossíntese e cada uma das outras três variáveis (irradiância, concentração de CO2 e resistência da folha à difusão do vapor de água). Quais destas estão positiva e significativamente correlacionadas com a taxa de fotossíntese? E negativa e significativamente correlacionadas com ela? Qual a variável mais fortemente correlacionada com a taxa de fotossíntese? c) Efectue análises de regressão especificando a taxa de fotossíntese como variável de resposta e, sucessivamente, a irradiância, a concentração ambiental de CO2 e a resistência da folha à difusão do vapor de água como variáveis preditoras. Para cada uma delas, escreva a equação de regressão, indique e interprete os valores do declive, da intercepção e do coeficiente de determinação e conclua sobre a significância (adequação) dos modelos lineares. d) Estabeleça a recta de regressão dos mínimos quadrados adequada para predizer os valores da taxa de fotossíntese com base, simultaneamente, nos valores da irradiância, da concentração ambiental de CO2 e da resistência da folha à difusão do vapor de água (regressão linear múltipla, modelo com três variáveis preditoras). Quais são os valores do coeficiente de determinação e da probabilidade deste modelo linear? O modelo é melhor ou pior que os modelos de predição baseados individualmente em cada uma das variáveis? Soluções 1. a) Declive: b=0,949; intercepção: a=0,180. Equação: y=0,180+0,949x. b) Por cada variação unitária (isto é, de 1mg) na concentração de clorofila é de esperar, em média, uma variação de 0,949 mg na concentração foliar de N. c) t=6,417, com 5 graus de liberdade e p=0,001 ou F=41,181, com 1/5 graus de liberdade e p=0,001 indicam que o modelo de regressão linear ajustado é apropriado para fazer predições da [N] com base em [clorofila]. d) Aproximadamente 89% de variação explicada (r2=0,892). Coeficiente de determinação. e) Para [Clorofila]=0,98 mg, a recta de regressão estima em [N]=1,11 mg. Não é legítimo porque o valor 5,5 mg está for a do intervalo de variação amostral da variável preditora (entre 0,04 e 2,52 mg). f) r=0,944 com p=0,001: a correlação entre as duas variáveis é estatísticamente significativa. 2. b) r(fotos, par)=0,814, p=0,000; r(fotos, co2)=-0,548, p=0,005 e r(fotos, resfolha)=-0,717, p=0,000. A irradiância está positiva e significativamente correlacionada com a taxa de fotossíntese; a concentração de CO2 e a resistência da folha à difusão do vapor de água estão negativa e Estatística Experimental T.P.nº5: Regressão e Correlação significativamente correlacionadas com a taxa de fotossíntese. A irradiância é a variável mais fortemente correlacionada com a taxa de fotossíntese. c) Fotos=429,020+0,471 par, r2=0,663; F=45,273, com 1/23 graus de liberdade e p=0,000. Fotos=3211,803-4,006 co2, r2=0,300; F=9,855, com 1/23 graus de liberdade e p=0,005. Fotos=1284,267-0,226 resfolha, r2=0,514; F=24,363, com 1/23 graus de liberdade e p=0,000. d) Fotos=150,623-0,415 par+1,036 co2-0,154 resfolha, r2=0,858; F=42,303, com 3/21 graus de liberdade e p=0,000. A regressão múltipla é melhor que quaquer das regressões individuais, com o modelo a explicar cerca de 86% da variação da variável de resposta.