NÚCLEO DE ESTATÍSTICA E METODOLOGIA APLICADAS Desenvolvendo conhecimento para a excelência dos cuidados em saúde mental UNIVERSIDADE FEDERAL DE SÃO PAULO Curso de Análise Estatística Comparação entre variáveis contínuas: correlação e regressão Linear Escolha do método • Sem definir grupos de indivíduos: as variáveis são analisadas para cada indivíduo. • Tipo de variável • dependente: variável resposta. • independente: variável preditora. • Propostas • correlação: avaliar a associação entre as variáveis: se o valor de uma variável tende a ser alto quando aumenta (ou diminui) o valor da outra. • Regressão linear: Para ser capaz de predizer o valor de uma variável a partir do valor da outra. • Para conhecer a concordância entre os valores de duas variáveis. Correlação: coeficientes • Mede a associação entre duas variáveis contínuas • Coeficientes • Pearson: teste paramétrico • Sperman: não paramétrico • Distribuição dos dados • Pearson • Pode ser calculado para qualquer conjunto de dados. • Para teste de hipótese: pelo menos uma variável deve ter distribuição normal, com as duas observadas a partir de uma amostra randômica de indivíduos. • Para cálculo do intervalo de confiança: ambas devem ter distribuição normal. Correlação: gráfico Correlação entre peso e idade 20 e l a E A S I P 0 2 * C 0 . S 4 4 N 10 P P 2 0 * C 0 . S IDADE 4 4 N 0 40 PESO * C ( 50 60 70 80 Correlação: gráficos Correlação: mal uso • Mal uso • Correlação espúria que envolve tempo • dados registrados ao longo do tempo: introduz fontes de erros grosseiras falseando as interpretações. Por exemplo: você pode demonstrar a relação entre preço do petróleo e taxa de divórcio • Amostragem restrita de indivíduos • Especialmente sensível a seleção da amostra porque a variação entre sujeitos em cada variável entra diretamente na análise. • Mistura de amostras • o cálculo pode ser enganoso quando a amostra contém diferentes grupos. • Medida de confiabilidade • o coeficiente mede associação e não concordância Métodos inadequados Correlação A 5 3 0 2 4 2 3 3 5 B 5 3 0 2 4 2 3 3 5 C 7 5 2 4 6 4 5 4 7 8 7 6 observador 5 AeB 4 AeC u 3 2 1 0 0 1 2 3 avaliador 4 5 6 Correlação: mal uso • Mal uso • Mudanças relativas a um valor inicial • a correlação entre x e x-y é 0,70, independente dos valores. • Relação da parte com o todo • relação entre um constituinte e a porção total. • Tempo da fase luteinica e tempo total do ciclo menstrual. • Ingestão de proteína e ingestão de caloria Correlação: estudo da função pulmonar r ip S t d Objetivo: Estudar a função pulmonar de E a t r i r s crianças em relação ao peso e 2 idade 5 1 5 ID M S 3 Desenho: Corte transversal e 9 amostra randômica 0 0 M M 0 0 Tipo de variáveis: numéricas discretas S 1 9 4 6 e contínuas K 1 9 4 1 FEV - Forced expiratory volume 3 3 6 0 P M S 3 5 0 0 M M 0 Indivíduo Idade Peso 0 FEV S 1 9 6 6145 10 60,0 4 2,65 K 8 9 1 21501 10 64,5 8 2,67 45652 11 67,5 8 3,02 6 0 2 F M E 45201 11 67,5 3,10 S 7 1 11341 13 62,0 3,15 7 M 46353 13 66,5 9 3,26 M 7 9 S 6 9 3 6 K 0 9 9 1 Correlação: estudo da função pulmonar Correlação entre FEV e Idade Gráfico entre fev e Idade 6 l a 5 A E I P 0 1 * C 4 0 .S 5 5 N 3 F P 1 0 * C 0 . S 2 FEV 5 5 N * C 1 8 IDADE 10 12 14 16 18 20 Correlação: estudo da função pulmonar Correlação entre FEV e peso Gráfico entre fev e peso 6 l a 5 E E S F P 0 1 * C 4 0 . S 5 5N 3 P P 1 0 * C 0 . S 2 FEV 5 5N 1 50 PESO * C 60 70 80 Regressão linear • Quando queremos descrever a relação entre duas variáveis numéricas contínuas, e ainda predizer o valor de uma delas para um indivíduo quando somente uma é conhecida. • A correlação não é capaz de fazer isso, pois indica a associação com apenas um número. • Regressão linear: dado um conjunto de dados com duas medidas para cada indivíduo, o problema é encontrar uma equação que seja capaz de relacionar as duas medidas. Em termos gráficos, encontrar uma linha reta que minimize as distâncias entre os dados observados e esta linha adequada. Regressão linear: reta Existem várias maneiras de encontrar uma linha que minimize as distâncias, mas o método padrão é a chamada regressão dos mínimos quadrados. IDADE 20 10 0 40 PESO 50 60 70 80 Regressão linear: y equação x • - é a constante que é o intercepto na linha y quando o x = 0. • - é a inclinação da reta • Pré-requisitos • Os valores da variável resposta y deve ter uma distribuição normal para cada valor da variável preditora. • A variabilidade de y, medida pela variância e desvio padrão, deve ser a mesma para cada valor de x. • A relação entre as duas variáveis deve ser linear. • Os pré-requisitos podem ser avaliados por meio do estudo gráfico dos resíduos: se os três pré-requisitos estão presentes então os resíduos devem ter um distribuição normal (com a média zero). Regressão linear: resíduos Scatterplot Dependent Variable: PESO 3 2 1 0 -1 -2 -3 -4 -3 -2 -1 0 1 Regressi on Standardized Predi cted Value 2 3 4 Regressão linear: estudo da função pulmonar Regressão linear entre FEV e peso b u S FEV E u R t s q u R m u M 5 6 a 8 4 3 71 4 a P b D 3 b O 2 e m d u F i a g 1 a 6 1 6 5 0 R 4 2 5 0 40 50 60 70 0 3 PESO R 80 T a P b D R2 = 369,986/ 490,92 e dá a proporção da variação explicada i Regressão linear: estudo da função pulmonar Regressão linear entre FEV e peso a c d a n i a c c p t w p d e B i r u u t g 1 9 0 9 6 ( 3 8 7 0 6 8 P a D Equação da regressão y y x 5.433 (0.132 ) peso Regressão linear: estudo da função pulmonar s a S S t d M x v i e i i m N a m a Regressão linear 2 5 2 5 8 7 4 P entre FEV e 0 5 5 4 0 0 4 S peso: resíduo S 0 5 2 2 2 3 4 P A 2 5 8 5 5 8 4 V 0 5 7 4 5 3 4 R 9 5 7 1 0 9 4 S 0 5 4 2 0 1 4 S 1 5 7 8 4 9 4 D S 0 5 4 3 0 4 4 R 2 5 1 0 8 6 4 M 0 5 0 4 2 5 4 C C 0 5 0 1 2 2 4 V a D Regressão linear: estudo da função pulmon Regressão linear entre FEV e peso: resíduo Scatterplot Dependent Variable: FEV 6 4 2 0 -2 -4 -6 -3 -2 -1 0 1 2 3 Regression Standardized Predicted Value Sdresid x adjpred