Diagramas de dispersão forma gráfica de visualizar uma possível relação entre duas variáveis Diagramas de dispersão Correlação O coeficiente de correlação de Pearson é uma medida da 'qualidade' da aproximação da relação entre duas variáveis por uma recta, ou seja, a correlação mede a 'força' da associação linear entre duas variáveis. r – coeficiente de correlação de Pearson na amostra - coeficiente de correlação de Pearson na população Correlação O coeficiente de correlação de Pearson varia entre -1 e 1. Quanto mais próximo estiver de 1 ou -1, mais forte é a associação linear entre as duas variáveis Correlação No estudo da relação entre o consumo de vegetais e taxa de mortalidade no sexo masculino, obtém-se uma correlação de r = -0.814 r2 é interpretado como a percentagem de variação explicada por uma das variáveis em relação à outra. No caso estudado, pode-se dizer que o consumo de vegetais explica 66% (0.814)2 da mortalidade no sexo masculino. Correlação Não usar o r quando: -há uma relação não linear entre as variáveis -os dados incluem mais de uma observação por indivíduo -há valores extremos -os dados dividem-se em dois subgrupos Regressão linear simples A regressão linear é um modelo matemático usado para estudar a relação entre duas variáveis - uma contínua e outra contínua ou ordinal - e a partir do qual se tenta prever os valores de uma das variáveis em função da outra. No estudo sobre o consumo de vegetais e taxa de mortalidade por cancro do estômago, a situação mais natural é tentar prever qual a taxa de mortalidade (variável dependente) para um determinado consumo de vegetais (variável independente) e não o contrário. Regressão linear simples tx mortalidade = b0 + b1 * consumo de vegetais b0 e b1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0 e b1 são calculados de forma a minimizar a soma das distâncias à recta. Regressão linear simples tx mortalidade = b0 + b1 * consumo de vegetais b0 e b1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0 e b1 são calculados de forma a minimizar a soma das distâncias à recta. tx mortalidade = 54.503 - 0.102 * consumo de vegetais Coefficientsa Model 1 (Constant) Consumo médio de Vegetais(gr/pessoa/dia) Unstandardized Coefficients B Std. Error 54,503 3,986 -,102 ,018 Standardized Coefficients Beta -,814 t 13,672 Sig . ,000 -5,599 ,000 a. Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do estômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes Regressão linear simples tx mortalidade = b0 + b1 * consumo de vegetais tx mortalidade = 54.503 - 0.102 * consumo de vegetais B0= 54.503 = taxa de mortalidade prevista com um consumo nulo de vegetais. B1= 0.102 = a diminuição (porque o valor de b1 é negativo) prevista da taxa de mortalidade para o aumento de 1 unidade no consumo de vegetais. Regressão linear simples Tabela ANOVA: indicação da quantidade de variação explicada pelo modelo. No caso da taxa de mortalidade do sexo masculino a variação total é de 1036,118 . Quando se considera o consumo de vegetais, a variação da mortalidade explicada é de 685,986; que aparece na tabela com a designação de "Regression" (quantidade de variação explicada pelo modelo). O resíduo (350,132) é simplesmente a variação que fica por explicar, ou seja a diferença da variação total e variação explicada. ANOVAb Model 1 Reg ression Residual Total Sum of Squares 685,986 350,132 1036,118 df 1 16 17 Mean Square 685,986 21,883 F 31,348 a. Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia) b. Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do estômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes Sig . ,000a Regressão linear simples O quociente da variação explicada pela variação total 685,986/1036,118=0.66 é a percentagem de variação explicada Como seria de esperar este valor é igual quadrado do coeficiente de correlação (r2 = 0,81422 = 0,66) que também indica a percentagem de variação explicada. ANOVAb Model 1 Reg ression Residual Total Sum of Squares 685,986 350,132 1036,118 df 1 16 17 Mean Square 685,986 21,883 F 31,348 a. Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia) b. Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do estômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes Sig . ,000a Regressão linear simples Assunções: A variável dependente tem que ser contínua Para cada valor fixo da variável independente, a variável dependente segue uma distribuição normal, e todas estas distribuições normais têm um desvio padrão igual Como verificar? Para cada observação x, chama-se resido ao valor observado de y menos o valor de y calculado com a equação da recta. Podemos usar os resíduos para testar as assumpções Leituras Livro: Medical Statistics at a Glance. Aviva Petrie, Caroline Sabin. Blackwell Science. 2000 Capítulos: 26, 27 e 28 MedStatWeb: http://stat2.med.up.pt Capítulo: Correlação e regressão linear simples