1
2
Correlação e Regressão
Bases Computacionais da Ciência (BC-0005)
As técnicas de correlação e regressão analisam dados amostrais
procurando determinar como duas, ou mais variáveis, estão
relacionadas umas com as outras
Correlação e Regressão
A tabela a seguir mostra alguns exemplos de possíveis relações
Qual é o tipo de relação que existe entre as variáveis desta
tabela? Por exemplo, quando uma aumenta a outra diminui?
Maria das Graças Bruno Marietto
[email protected]
Centro de Matemática, Computação e Cognição (CMCC)
Universidade Federal do ABC (UFABC)
3
Correlação e Regressão
A análise de correlação tem como resultado um
número que expressa o grau de relacionamento entre
duas variáveis
A análise de regressão expressa o resultado em uma
equação matemática, descrevendo o relacionamento
Este tipo de estudo é bastante utilizado quando o
trabalho/pesquisa/relatório é caracterizado pela pesquisa
exploratória
Um analista/pesquisador busca determinar quais variáveis são
relevantes, e o foco está no grau do relacionamento
4
Gráficos de Dispersão e Correlação
Construir o gráfico de dispersão da variável dependente versus
variável independente é, usualmente, o primeiro passo em uma
análise de correlação
A análise de correlação
parte de uma hipótese, isto
é, um enunciado formal das
relações esperadas entre
pelo menos uma variável
independente e uma
variável dependente
Qual a
hipótese deste
gráfico?
6
5
Gráficos de Dispersão e Correlação
Gráficos de Dispersão e Correlação
No gráfico de dispersão abaixo o eixo X (variável independente)
representa horas de treinamento em uma linha de produção de
automóveis, e o eixo Y (variável dependente) representa o
número de acidentes na fábrica
A análise gráfica do
comportamento entre as
variáveis mostra a
existência de correlação
negativa, pois à medida que
X cresce, Y decresce
O gráfico mostra que a
empresa, ao investir em
treinamento, reduz o
número de acidentes na
fábrica
No gráfico abaixo o eixo X representa o aumento da renda média
da população, e o eixo Y representa o consumo de bens duráveis
em milhões/ano
A análise mostra que há
correlação positiva, pois
à medida que X cresce, Y
também cresce
O gráfico mostra que,
com o aumento médio
da renda da população,
o consumo de bens
duráveis aumenta
8
7
Gráficos de Dispersão e Correlação
No gráfico abaixo o peso de uma pessoa é representado no eixo
X, enquanto seu Q.I. (Quociente de Inteligência) está
representado no eixo Y
Não há correlação
linear, o gráfico
mostra que não
existe evidência de
alguma relação
entre o peso de uma
pessoa com seu Q.I.
Correlação Linear e Não Linear
Podemos ter dois tipos de correlação entre as variáveis:
Correlação linear, em que a relação entre as duas variáveis é expressa
adequadamente por uma reta
Correlação não-linear. Apesar de existir uma relação clara entre as
variáveis, esta não pode ser modelada por uma reta
Nesta aula estudaremos a correlação linear
9
Coeficiente de Correlação
Utilizar apenas o mapa/gráfico de dispersão para interpretar a
existência de uma correlação pode ser uma tarefa bastante subjetiva
10
Coeficiente de Correlação
O Coeficiente de Correlação pode ser calculado pela fórmula:
Como medida mais objetiva, utiliza-se medir o grau e o tipo de uma
correlação linear entre duas variáveis
por meio do cálculo do coeficiente de correlação
O intervalo de variação do coeficiente de correlação r varia ente -1 à 1
Valor de r próximo
de -1: as variáveis X e
Y têm forte
correlação linear
negativa
Valor de r próximo de
zero: se não existir, ou
se existir pouca
correlação linear entre
as variáveis X e Y
Não pertence a escopo desta disciplina analisar a formulação
matemática do cálculo do Coeficiente de Correlação
Valor de r próximo de
1: as variáveis X e Y
têm forte correlação
linear positiva
12
11
Coeficiente de Correlação
Como exemplo, vamos analisar o coeficiente de correlação entre
o número de faltas dos alunos por semestre, em relação a suas
respectivas notas finais em uma determinada disciplina
Causalidade e Correlação
Correlação não necessariamente implica em
causalidade
Pesquisadores freqüentemente são tentados a inferir uma
relação de causa e efeito entre X e Y, quando eles ajustam
um modelo de regressão, ou realizam uma análise de
correlação
Uma associação significativa entre X e Y não
necessariamente implica numa relação de causa e
efeito
13
Causalidade e Correlação
Correlação não necessariamente implica em causalidade
14
Causalidade e Correlação
Correlação não necessariamente implica em causalidade
O exame do gráfico pode
induzir à interpretação de que
existe associação entre X e Y
Como exemplo, o gráfico de dispersão a seguir mostra a população de
Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o
número de cegonhas (pássaros) naquele ano (X)
Freqüentemente, quando duas
variáveis parecem estar
fortemente associadas, pode
ser porque X e Y estão, de fato,
associadas com uma terceira
variável, W
Neste exemplo, X e Y aumentam com W, que é a
variável tempo
16
15
RETA DE REGRESSÃO LINEAR
Depois de constatar que existe uma correlação linear significante, é
possível escrever uma equação que descreva a relação linear entre as
variáveis X e Y
Essa equação chama-se reta de regressão, ou reta do ajuste ótimo
Parte Prática
17
Gráfico de Correlação no BrOffice
18
2) Podemos usar diretamente a opção Gráfico da barra de ferramentas,
ou a opção Inserir->Gráfico. Em seguida escolhemos o gráfico
de dispersão
1) Inserção das
informações. Os
valores das
variáveis
independente (X) e
dependente (Y )
No exemplo a
seguir são as
Horas de
Treinamento
versus Número de
Acidentes
19
3) Definimos o intervalo de dados, selecionando todas as colunas de dados
20
4) Inserir a coluna X
21
5) Inserir a coluna Y
22
6) Escolher título do gráfico, subtítulo, nomes das variáveis X e Y
23
7) Após a inserção de todas as informações podemos clicar em “Concluir” e
o gráfico será gerado
24
8) Clicando-se duas vezes sobre o gráfico é possível criar a reta de
regressão e a equação da reta
Após clicar duas vezes sobre o gráfico, vá ate o menu da parte superior
“Inserir” e clique em “Linha de Tendência”. Aparecerá a janela
denominada “Linhas de tendência”. Clique em “Linear”
25
26
9) O valor do coeficiente de correlação (r) pode ser calculado no BROffice
Calc seguindo o mesmo procedimento para calcular outras funções
Clique no ícone do assistente de funções ou use o menu Inserir/Função.
Selecione o grupo de funções estatísticas e escolha a função CORREL
27
28
10) O próximo passo é selecionar as colunas de dados
Finalmente, o valor calculado é inserido na planilha, sendo igual a -0,98
Neste exemplo, para o campo “Dados 1” é selecionada a coluna “Horas
Treinamento", e para o campo “Dados 2" é selecionada a coluna
“Acidentes"
Neste caso, o valor de r é negativo, pois há uma forte correlação negativa
29
Correlação e Regressão
Download

Correlação e Regressão Correlação e Regressão Gráficos