UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) 1. Considere que a produção do trigo (Y) é uma função da quantidade de fertilizante (X1) e da quantidade de precipitação (X2). O quadro seguinte apresenta 8 valores daquelas variáveis: Fertilizante (X1) 100 200 300 400 500 600 700 800 Trigo (Y) 1040 1170 1300 1690 1820 1820 2080 2130 Precipitação (X2) 900 825 925 925 850 800 900 850 Coefficientsa Unstandardized Coefficients B Std. Error 293,564 712,478 1,685 ,152 ,665 ,792 Model 1 (Constant) Fertilizante Precipitação Standardized Coefficients Beta ,998 ,076 t ,412 11,056 ,839 Sig. ,697 ,000 ,440 95% Confidence Interval for B Lower Bound Upper Bound -1537,918 2125,047 1,293 2,077 -1,371 2,701 a. Dependent Variable: Produção Model Summaryb Model 1 Adjusted R Square ,947 R R Square ,981a ,962 Std. Error of the Estimate 95,28203 a. Predictors: (Constant), Precipitação, Fertilizante b. Dependent Variable: Produção ANOVAb Model 1 Regression Residual Total Sum of Squares 1151494 45393,329 1196887 df 2 5 7 Mean Square 575747,085 9078,666 F 63,418 Sig. ,000a a. Predictors: (Constant), Precipitação, Fertilizante b. Dependent Variable: Produção Descriptive Statistics Produção Fertilizante Precipitação Mean 1631,2500 450,0000 871,8750 Std. Deviation 413,50203 244,94897 47,12730 N 8 8 8 1 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) Scatterplot Normal P-P Plot of Regression St Dependent Variable: Produção Dependent Variable: Produção 1,0 1,0 ,8 ,5 0,0 -,5 -1,0 -1,5 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 Regression Standardized Predicted Value Expected Cum Prob Regression Standardized Residual 1,5 ,5 ,3 0,0 0,0 ,3 ,5 ,8 1,0 Observed Cum Prob Responda às questões seguintes com base nos outputs anteriores. a) Ajuste uma regressão de mínimos quadrados, Yi = β0 + β1 X i1 + β2 X i 2 + εi aos dados. b) Construa a tabela anova e teste a significância da regressão. c) Determine e interprete o coeficiente de determinação? d) Realize uma análise de resíduos. e) Qual a importância da regressão com X1 somente? Qual o contributo de X2, dado que X1 faz parte da regressão? f) Qual a importância da regressão com X2 somente? Qual o contributo de X1, dado que X2 já faz parte da regressão? 2 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) Model Summaryb Model 1 R ,981a Adjusted R Square ,947 R Square ,962 Std. Error of the Estimate 95,28203 Durbin-W atson 1,906 a. Predictors: (Constant), Fertilizante, Precipitação b. Dependent Variable: Produção Scatterplot One-Sample Kolmogorov-Smirnov Test Most Extreme Differences Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) Exact Sig. (2-tailed) Point Probability Dependent Variable: Produção 1,5 Regression Studentized Residual N Normal Parameters a,b Standardized Residual 8 ,0000000 ,84515425 ,206 ,206 -,159 ,583 ,886 ,998 ,000 1,0 ,5 0,0 -,5 -1,0 -1,5 1000 1200 1400 1600 Collinearity Diagnosticsa Dimension 1 2 3 Eigenvalue 2,850 ,149 ,001 Variance Proportions (Constant) Precipitação Fertilizante ,00 ,00 ,02 ,00 ,00 ,88 1,00 1,00 ,10 Condition Index 1,000 4,379 49,703 a. Dependent Variable: Produção Model Summaryc Model 1 2 R ,981a ,978b R Square ,962 ,957 Adjusted R Square ,947 ,950 Std. Error of the Estimate 95,28203 92,90399 Durbin-W atson 2,004 a. Predictors: (Constant), Precipitação, Fertilizante b. Predictors: (Constant), Fertilizante c. Dependent Variable: Produção ANOVAc Model 1 2 Regression Residual Total Regression Residual Total 2000 2200 Regression Adjusted (Press) Predicted Value a. Test distribution is Normal. b. Calculated from data. Model 1 1800 Sum of Squares 1151494 45393,329 1196887 1145101 51786,905 1196887 df 2 5 7 1 6 7 Mean Square 575747,085 9078,666 F 63,418 Sig. ,000a 1145100,595 8631,151 132,671 ,000b a. Predictors: (Constant), Precipitação, Fertilizante b. Predictors: (Constant), Fertilizante c. Dependent Variable: Produção 2400 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) 2. Pretende-se modelar uma eventual relação entre a á rea foliar (Y) e as variáveis comprimento da nervura esquerda (X1), comprimento da nervura principal (X2) e comprimento da nervura direita (X3), em folhas de videiras de uma determinada casta. Para tal, recolheu-se uma amostra de 20 folhas, tendo-se obtido para cada uma os valores das quatro variáveis. Realizou-se a análise de regressão e obtiveram-se, entre outros, os seguintes outputs: ANOVAb Model 1 Regression Residual Total Sum of Squares ? ? ? df ? ? ? Mean Square ? 198,000 F 40,500 b. Dependent Variable: Área foliar Coefficientsa Model 1 (Constant) Comp.nervura esq. Comp.nervura princ. Comp.nervura dir. Unstandardized Coefficients B Std. Error -146,596 65,588 19,500 4,300 1,000 5,119 14,800 5,800 t ? ? ? ? a. Dependent Variable: Área foliar a) Interprete os coeficientes de regressão do modelo ajustado. b) Teste a significância do modelo ajustado. c) Complete a tabela de análise de regressão. d) Calcule a estimativa do coeficiente de determinação e interprete o valor obtido. e) Determine um intervalo de confiança de nível 95% para β1. f) Poderá prescindir da variável X1 sem que tal afecte significativamente o ajustamento do modelo aos dados? g) Poderá firmar estatisticamente ao nível de 5% que o modelo com as 3 variáveis é significativamente diferente do modelo com as variáveis X1 e X3 quanto ao ajustamento dos dados? 3 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) 3. Admita que se recolheu uma amostra de 10 observações correspondentes à produção de uma determinada cultura agrícola (Y) e à quantidade de fertilizante utilizado (X). Fertilizante Produção (ton/ha) (ton/ha) 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 7,1 7,0 7,9 7,9 8,4 9,4 9,5 10,0 10,6 11,0 a) Averigue, graficamente, a existência de uma relação linear entre as variáveis. b) Admitindo que a relação entre as variáveis X e Y é linear, estime os parâmetros β0 e β1 do modelo de regressão correspondente. Interprete-os. c) Teste, ao nível de significância de 5%, a significância do modelo de regressão. d) Obtenha intervalos de confiança a 95% para β0 e β1. e) Poderá afirmar, estatisticamente ao nível de 5%, que na ausência de fertilizante a produção é superior 0? E superior a 5 ton/ha? f) Poderá afirmar, estatisticamente ao nível de 1%, que existe uma relação linear positiva entre X e Y? g) Determine os coeficientes de correlação e determinação e interprete os seus valores. h) Determine um intervalo de predição a 90% para a produção média da cultura quando a quantidade de fertilizante é igual a 0.5 ton/ha. i) Determine um intervalo de predição a 95% para a produção da cultura quando a quantidade de fertilizante for igual a 1.1 ton/ha. j) Realize uma análise de resíduos e retire as conclusões que entender convenientes. 4 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) Descriptive Statistics Mean 8,8800 ,5500 Produção Fertilizante Std. Deviation 1,42267 ,30277 N 10 10 Model Summary Model 1 R ,988a R Square ,976 Adjusted R Square ,973 Std. Error of the Estimate ,23332 a. Predictors: (Constant), Fertilizante Coefficientsa Unstandardized Coefficients Model 1 B 6,327 4,642 (Constant) Fertilizante Standardized Coefficients Std. Error ,159 ,257 Beta ,988 95% Confidence Interval for B t 39,693 18,072 Sig. ,000 ,000 Lower Bound 5,959 4,050 Upper Bound 6,694 5,235 a. Dependent Variable: Produção Normal P-P Plot of Regression St Scatterplot Dependent Variable: Produção Dependent Variable: Produção 1,0 1,0 ,8 ,5 Expected Cum Prob Regression Standardized Residual 1,5 0,0 -,5 -1,0 -1,5 -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 ,5 ,3 0,0 0,0 2,0 ,3 ,5 ,8 1,0 Observed Cum Prob Regression Standardized Predicted Value Descriptive Statistics N Standardized Residual 10 Mean ,0000000 Std. Deviation ,94280904 Minimum -1,21564 Maximum 1,32474 One-Sample Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) Exact Sig. (2-tailed) Point Probability a. Test distribution is Normal. b. Calculated from data. Standardized Residual 10 ,0000000 ,94280904 ,170 ,170 -,105 ,538 ,934 1,000 ,000 5 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) Exercício 2: Os dados seguintes referem-se a uma amostra de observações sobre a despesa mensal em bens e em serviços culturais (Y) e o rendimento mensal per capita (X) de 14 agregados familiares. Y 0 44 15 52 39 1 40 2 34 46 22 26 1 57 X 50 250 110 480 190 80 210 90 150 310 120 150 70 650 a) Averigúe, graficamente, a existência de uma relação entre as variáveis. despesa mensal em bens e serviços culturais 60 50 40 30 20 10 0 -10 0 100 200 300 400 500 600 700 rendimento mensal per capita b) Admitindo que a relação entre as variáveis X e Y é linear, estime os parâmetros β0 e β1 do modelo de regressão correspondente e interprete os seus valores. Coefficientsa Model 1 (Constant) rendimento mensal per capita Unstandardized Coefficients B Std. Error 6,341 5,015 9,973E-02 ,019 Standardi zed Coefficien ts Beta ,836 t 1,264 Sig. ,230 5,275 ,000 95% Confidence Interval for B Lower Bound Upper Bound -4,585 17,268 ,059 ,141 a. Dependent Variable: despesa mensal em bens e serviços culturais O modelo de regressão é ŷ = 6.3412 + 0.0997x. O parâmetro β1 = 0.0997 significa que por cada acréscimo de uma unidade do rendimento mensal per capita, a despesa mensal em bens e serviços culturais aumenta, em média, 0.0997 unidades. O parâmetro β0=6.3412, neste caso, não tem interpretação, pois não faz grande sentido existir uma 6 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) despesa mensal, em média, igual a 6.3412 em serviços e bens culturais quando o rendimento per capita é nulo. c) Teste, ao nível de 1%, a normalidade dos resíduos utilizando o teste de KolmogorovSmirnov. Utilize também um método gráfico. Normal P-P Plot of Regression St One-Sample Kolmogorov-Smirnov Test Most Extreme Differences Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) Exact Sig. (2-tailed) Point Probability a. Test distribution is Normal. b. Calculated from data. ,8 Expected Cum Prob N Normal Parameters a,b Standardized Residual 14 ,0000000 ,96076892 ,201 ,201 -,157 ,753 ,622 ,899 ,000 Dependent Variable: Despesa 1,0 ,5 ,3 0,0 0,0 ,3 ,5 ,8 1,0 Observed Cum Prob Como o valor de prova é p = 0.899, concluímos que não se rejeita a hipótese de normalidade dos resíduos. Tal conclusão pode ser tirada graficamente, pois os valores estão aproximadamente sob uma recta. d) Construa os intervalos de confiança a 95% para β0 e β1. Pela observação do output anterior concluímos que, ao nível de confiança de 95%, os intervalos de confiança para β1 e β2 são: IC95% (β0 ) = (−4,59; 17, 27) IC95% (β1 ) = (0, 059; 0,141) e) Teste, ao nível de significância de 5%, se o modelo é significativo. Pretendemos testar a hipótese H0: β1 = 0 vs H1: β1 ≠ 0. Pelos intervalos de confiança, através do valor de prova (p=0,000<0,05), ou mesmo mediante o valor da estatística de teste (t=5,275), concluímos que ao nível de 5% rejeitamos a hipótese de β1 ser nulo, ou seja, a regressão entre o rendimento mensal per capita e a despesa mensal em bens e serviços culturais é significativa. 7 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) f) Poderá afirmar, estatisticamente ao nível de 1%, que o declive da recta é positivo, isto é, que X e Y variam linearmente no mesmo sentido? Pretendemos testar a hipótese H0: β1 = 0 vs H1: β1 > 0. De acordo com o output da tabela anterior tem-se p/2=0,000≤α=0,01, pelo que se rejeita H0 ao nível de 1% e podemos concluir que o rendimento e a despesa mensal se relacionam positivamente. g) Teste, ao nível de significância de 5%, a hipótese H0: β0 = 0 vs H1: β0 ≠ 0. Da mesma forma que em d), pela observação do intervalo de confiança, pelo valor de prova (p=0,230>0,05) ou pela estatística de teste (t=1,264) não rejeitamos a hipótese de β1 ser nulo, ou seja, de a recta passar pela origem, o que significa que quando o rendimento mensal per capita é nulo a despesa mensal em bens e serviços culturais também pode ser considerada nula. h) Teste, ao nível de significância de 5%, a hipótese H0: β1 = 0.1 vs H1: β1 ≠0.1. Sob H0 tem-se n βˆ1 − β10 QME Sxx ∩ t n −2 n onde Sxx = ∑ (Xi − X) e QME = 2 i =1 e, atendendo a que ∑e 2 i i =1 n−2 QME = 0,019 (desvio padrão de β1) Sxx o valor da estatística de teste é T = βˆ1 − β10 QME Sxx = 0,09973 − 0,1 = 0,014 , valor que pertence à 0,019 região crítica Rc = (−∞, -t12, 0.975 ∪ t12, 0.975 , +∞) = (−∞, -2.179] ∪ [ 2.179, +∞) , pelo que não se rejeita H0 ao nível de 5%. i) Teste, ao nível de significância de 5%, a hipótese H0: β0 = 6 vs H1: β0 >6. Sob H0 tem-se βˆ0 − β00 1 X 2 QME + n S xx ∩ t n −2 8 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) e, atendendo a que 1 X 2 = 5,015 (igual ao desvio padrão de β0) QME + n Sxx o valor da estatística de teste é T = βˆ0 − β00 1 X QME + n Sxx 2 = 6,341 − 6 = 0,068 , valor que 5,015 pertence à região crítica Rc = t12, 0.95 , +∞) = [1.782, +∞) , pelo que não se rejeita H0 ao nível de 5%. j) Determine os coeficientes de correlação e determinação e interprete os seus valores. Model Summary Model 1 R ,836a R Square ,699 Adjusted R Square ,674 Std. Error of the Estimate 11,6577 a. Predictors: (Constant), rendimento mensal per capita O valor do coeficiente de correlação é R=0,836, pelo que a associação entre as duas variáveis é forte e positiva (o aumento do rendimento per capita origina um aumento da despesa mensal em bens e serviços culturais). O valor do coeficiente de determinação é R2 = 0.699, o que indica um razoável ajustamento da recta aos dados, pois a recta de regressão apenas consegue explicar 69.9% da variabilidade das observações. Portanto, com base na amostra considerada, podemos afirmar que 69.9% da variação total das despesas é explicada pelo rendimento - os demais factores, que não o rendimento, explicam ainda 30.1% das despesas. k) Qual a estimativa pontual da despesa mensal em bens e serviços para uma família que apresenta um rendimento per capita igual a 250? Com a recta de regressão é dada por ŷ =6,3412 + 0,0997x, se x = 250, tem-se ŷ =6,3412+0,0997*250 = 31,2662 Logo, se o rendimento mensal per capita for igual a 250 espera-se que a despesa mensal em bens e serviços seja igual a 31,27 unidades. 9 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) l) Obtenha um intervalo de predição a 95% para a despesa em bens e serviços para um rendimento per capita igual a 250. (Utilize os outputs anteriores e o output seguinte). Descriptive Statistics N despesa mensal em bens e serviços culturais rendimento mensal per capita Valid N (listwise) Mean Std. Deviation 14 27,0714 20,40537 14 207,8571 171,02310 14 Um intervalo de predição a (1-α)100% é dado pela expressão 2 2 1 ( x 0 − x ) 1 ( x 0 − x ) IC95% ( y) = yˆ 0 − t n−2,1−α / 2 QME 1 + + , yˆ 0 + t n−2,1−α / 2 QME 1 + n + s n s xx xx 2 Atendendo a que s xx = (n −1)s '2x = 13×(171,02310) = 380235.71 e a que σˆ = QME = 11.6577 , tem-se 2 2 1 (250 − 207.86) 1 (250 − 207.86) IC95% ( y) = 31.27 − 2.179 135.90 1 + + , 31.27 + 2.179 135.90 1 + + 14 380235.71 14 380235.71 = (4.92,57.62) Podemos concluir, com um nível de confiança de 95%, que a despesa para um rendimento igual a 250 unidades monetárias se situará entre 4.92 e 57.62. m) Em vez dos valores de X foram utilizados os seus logaritmos. Com base nos outputs, escreva a equação do modelo de regressão e comente. Model Summary Model 1 R ,957a R Square ,915 Adjusted R Square ,908 Std. Error of the Estimate 6,17832 a. Predictors: (Constant), VAR00003 Coefficientsa Model 1 (Constant) VAR00003 Unstandardized Coefficients B Std. Error -108,042 11,974 26,622 2,337 Standardized Coefficients Beta ,957 t -9,023 11,393 Sig. ,000 ,000 a. Dependent Variable: VAR00002 10 UNIVERSIDADE DE ÉVORA - Departamento de Matemática DELINEAMENTO EXPERIMENTAL (MESTRADO EM SISTEMAS DE PRODUÇÃO EM AGRICULTURA MEDITERRÂNICA) Foi ajustada uma regressão logarítmica: ŷ = -108.042 + 26.622 ln(x). Podemos concluir, com base na amostra considerada, que 91,5% da variação total é explicada pelo modelo, pelo que o ajustamento obtido é bastante melhor que o conseguido através do modelo de regressão linear. 11