1 2 Correlação e Regressão Bases Computacionais da Ciência (BC-0005) As técnicas de correlação e regressão analisam dados amostrais procurando determinar como duas, ou mais variáveis, estão relacionadas umas com as outras Correlação e Regressão A tabela a seguir mostra alguns exemplos de possíveis relações Qual é o tipo de relação que existe entre as variáveis desta tabela? Por exemplo, quando uma aumenta a outra diminui? Maria das Graças Bruno Marietto [email protected] Centro de Matemática, Computação e Cognição (CMCC) Universidade Federal do ABC (UFABC) 3 Correlação e Regressão A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento Este tipo de estudo é bastante utilizado quando o trabalho/pesquisa/relatório é caracterizado pela pesquisa exploratória Um analista/pesquisador busca determinar quais variáveis são relevantes, e o foco está no grau do relacionamento 4 Gráficos de Dispersão e Correlação Construir o gráfico de dispersão da variável dependente versus variável independente é, usualmente, o primeiro passo em uma análise de correlação A análise de correlação parte de uma hipótese, isto é, um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente Qual a hipótese deste gráfico? 6 5 Gráficos de Dispersão e Correlação Gráficos de Dispersão e Correlação No gráfico de dispersão abaixo o eixo X (variável independente) representa horas de treinamento em uma linha de produção de automóveis, e o eixo Y (variável dependente) representa o número de acidentes na fábrica A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica No gráfico abaixo o eixo X representa o aumento da renda média da população, e o eixo Y representa o consumo de bens duráveis em milhões/ano A análise mostra que há correlação positiva, pois à medida que X cresce, Y também cresce O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta 8 7 Gráficos de Dispersão e Correlação No gráfico abaixo o peso de uma pessoa é representado no eixo X, enquanto seu Q.I. (Quociente de Inteligência) está representado no eixo Y Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I. Correlação Linear e Não Linear Podemos ter dois tipos de correlação entre as variáveis: Correlação linear, em que a relação entre as duas variáveis é expressa adequadamente por uma reta Correlação não-linear. Apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta Nesta aula estudaremos a correlação linear 9 Coeficiente de Correlação Utilizar apenas o mapa/gráfico de dispersão para interpretar a existência de uma correlação pode ser uma tarefa bastante subjetiva 10 Coeficiente de Correlação O Coeficiente de Correlação pode ser calculado pela fórmula: Como medida mais objetiva, utiliza-se medir o grau e o tipo de uma correlação linear entre duas variáveis por meio do cálculo do coeficiente de correlação O intervalo de variação do coeficiente de correlação r varia ente -1 à 1 Valor de r próximo de -1: as variáveis X e Y têm forte correlação linear negativa Valor de r próximo de zero: se não existir, ou se existir pouca correlação linear entre as variáveis X e Y Não pertence a escopo desta disciplina analisar a formulação matemática do cálculo do Coeficiente de Correlação Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva 12 11 Coeficiente de Correlação Como exemplo, vamos analisar o coeficiente de correlação entre o número de faltas dos alunos por semestre, em relação a suas respectivas notas finais em uma determinada disciplina Causalidade e Correlação Correlação não necessariamente implica em causalidade Pesquisadores freqüentemente são tentados a inferir uma relação de causa e efeito entre X e Y, quando eles ajustam um modelo de regressão, ou realizam uma análise de correlação Uma associação significativa entre X e Y não necessariamente implica numa relação de causa e efeito 13 Causalidade e Correlação Correlação não necessariamente implica em causalidade 14 Causalidade e Correlação Correlação não necessariamente implica em causalidade O exame do gráfico pode induzir à interpretação de que existe associação entre X e Y Como exemplo, o gráfico de dispersão a seguir mostra a população de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele ano (X) Freqüentemente, quando duas variáveis parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W Neste exemplo, X e Y aumentam com W, que é a variável tempo 16 15 RETA DE REGRESSÃO LINEAR Depois de constatar que existe uma correlação linear significante, é possível escrever uma equação que descreva a relação linear entre as variáveis X e Y Essa equação chama-se reta de regressão, ou reta do ajuste ótimo Parte Prática 17 Gráfico de Correlação no BrOffice 18 2) Podemos usar diretamente a opção Gráfico da barra de ferramentas, ou a opção Inserir->Gráfico. Em seguida escolhemos o gráfico de dispersão 1) Inserção das informações. Os valores das variáveis independente (X) e dependente (Y ) No exemplo a seguir são as Horas de Treinamento versus Número de Acidentes 19 3) Definimos o intervalo de dados, selecionando todas as colunas de dados 20 4) Inserir a coluna X 21 5) Inserir a coluna Y 22 6) Escolher título do gráfico, subtítulo, nomes das variáveis X e Y 23 7) Após a inserção de todas as informações podemos clicar em “Concluir” e o gráfico será gerado 24 8) Clicando-se duas vezes sobre o gráfico é possível criar a reta de regressão e a equação da reta Após clicar duas vezes sobre o gráfico, vá ate o menu da parte superior “Inserir” e clique em “Linha de Tendência”. Aparecerá a janela denominada “Linhas de tendência”. Clique em “Linear” 25 26 9) O valor do coeficiente de correlação (r) pode ser calculado no BROffice Calc seguindo o mesmo procedimento para calcular outras funções Clique no ícone do assistente de funções ou use o menu Inserir/Função. Selecione o grupo de funções estatísticas e escolha a função CORREL 27 28 10) O próximo passo é selecionar as colunas de dados Finalmente, o valor calculado é inserido na planilha, sendo igual a -0,98 Neste exemplo, para o campo “Dados 1” é selecionada a coluna “Horas Treinamento", e para o campo “Dados 2" é selecionada a coluna “Acidentes" Neste caso, o valor de r é negativo, pois há uma forte correlação negativa 29 Correlação e Regressão