Distribuições Bidimensionais MACS Distribuições Bidimensionais (Ano 1) NetProf 1 Regressão e Correlação A análise de correlação é o instrumento estatístico que permite estudar relações quantitativas. – A correlação exprime a forma /a força de ligação das variáveis. – Num extremo podemos ter relações funcionais perfeitas e no outro extremo ter a ausência de correlação. Ao fazer uma análise de regressão, estudam-se as relações existentes entre fenómenos, quando são feitas observações de duas ou mais variáveis, através das suas distribuições. Quando se observam somente duas variáveis, a distribuição diz-se bidimensional. NetProf 2 Exemplos • Relação entre preço e produção de batatas: em média, quanto maior a produção, menor o preço e vice-versa. • Relação entre idade do marido e da esposa: em média, quanto maior a idade da esposa, maior a idade do marido. • Relação entre número de horas de estudo e notas dos alunos de uma turma na disciplina, de matemática: em média, quanto maior o número de horas de estudo, maior o valor da nota obtida. NetProf 3 Correlação A correlação pode ser: • Correlação Simples entre duas variáveis • Correlação Múltipla entre mais do que duas variáveis • Correlação Positiva as duas variáveis variam no mesmo sentido • Correlação Negativa a relação entre as duas variáveis é inversa • Correlação Linear os pontos ajustam-se a uma linha recta • Correlação não linear os pontos ajustam-se a uma linha com outra forma (por exemplo, regressão quadrática, os pontos ajustam-se a uma parábola) NetProf 4 Exemplo Considere-se o conjunto de observações de duas variáveis X e Y: xi , yi ; i 1,2, ,n Considere a relação entre salário e tempo de serviço, de dez operários: N.º de anos Salário NetProf 6 5 6 4 6 6 5 6 7 5 700 750 750 850 850 880 800 790 750 760 5 Diagrama de dispersão Construamos o diagrama de dispersão - representação gráfica de duas variáveis, em que cada par de dados (xi, yi), é representado por um ponto de coordenados (xi , yi), num sistema de eixos coordenados. Utilizando o exemplo anterior, temos: 900 Podemos usar a folha de cálculo Excel ou a máquina de calcular gráfica, para fazer estas representações. 850 800 750 700 650 3,5 NetProf 4 4,5 5 5,5 6 6,5 7 7,5 6 Diagrama de dispersão (cont.) Pela análise do diagrama de dispersão, pode-se concluir, empiricamente, se o grau de correlação linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos em redor de uma recta. Esta recta, empiricamente, constrói-se de modo que os pontos de ajustem o melhor possível a ela. A correlação é tanto maior quanto mais os pontos se concentrem, com pequenos desvios, em relação a essa recta. 900 900 850 850 800 800 750 750 700 700 650 650 3,5 3,5 NetProf 44 4,5 4,5 55 5,5 5,5 6 6 6,5 6,5 77 7,5 7,5 7 Exemplos Correlação positiva forte Correlação negativa forte Não existe correlação Correlação positiva fraca NetProf Correlação negativa fraca 8 Exercício Preço em milhares de euros Estude a relação entre os quilómetros que um carro apresenta e a sua valorização ao longo dos anos de uso. Considere a seguinte tabela: Quilómetros Carros (milhares) 35 30 25 20 15 10 5 0 0 50 100 150 Milhares de Km NetProf 200 250 1 2 3 4 5 6 7 8 9 10 11 12 20 30 200 45 50 150 100 130 40 80 180 90 Preço (milhares de euros) 30 28 1 19 15 8 10 9 20 14 7 13 9 Coeficiente de correlação (linear) O coeficiente de correlação permite-nos quantificar a existência ou não de correlação linear. Para se quantificar esta correlação, Pearson, propôs o seguinte cálculo: n r ( x x )( y y ) i 1 i i n ( xi x ) i 1 NetProf n 2 2 ( y y ) i i 1 Podemos utilizar a máquina de calcular gráfica ou a folha de cálculo Excel para calcular este coeficiente. Prova-se que: 1 r 1 10 Coeficiente de correlação Pode-se utilizar a seguinte escala, para avaliar a intensidade da correlação: NetProf 11 Recta de regressão Existindo correlação linear, os pontos podem ser ajustados através de uma recta, obtendo-se uma expressão do tipo y = a x + b. Iremos determinar esta recta recorrendo à máquina de calcular gráfica e à folha de cálculo Excel. NetProf 12 Folha de cálculo Excel No documento “Texto de apoio n.º 2 – Regressão e correlação com o Excel “ (no mesmo local deste documento), indica-se como construir um gráfico de dispersão e calcular a recta de regressão, bem como o coeficiente de Pearson em dados bivariado, utilizando a folha de cálculo Excel. NetProf 13 Exercícios 1. Um professor decidiu averiguar, junto dos seus alunos, qual a relação entre o número de faltas às aulas da sua disciplina e o número de horas semanais de estudo. Elaborou o seguinte quadro: Alunos Número de faltas Nº de horas semanais de estudo 1 2 3 4 5 6 7 8 9 10 11 12 10 0 2 3 6 12 8 1 1 7 5 10 4 10 9 10 3 1 7 6 5 2 6 14 1.1 Represente, num sistema de eixos, o conjunto de pontos (x,y), correspondente a: (número de faltas, nº de horas semanais de estudo) 1.2 Indique os tipos de correlação e interprete os dados (resultados). 1.3 Determine a recta de regressão e indique o coeficiente de correlação NetProf 14 Exercícios 2. Os coeficientes de correlação correspondentes a cada uma das distribuições representadas são: -0,01; -0,86 e 0,89. Observe-as cuidadosamente e faça corresponder a cada uma delas o seu coeficiente de correlação: A NetProf B C 15