Modelos de Regressão Linear Simples e Múltipla
Fabio Antonio Avilla (Matemática)
Profª Dra. Carine Savalli Redígolo (Orientadora)
Resumo
Diversas áreas do conhecimento científico procuram validar suas hipóteses por meio de
pesquisas quantitativas. Estudos planejados para relacionar duas variáveis quantitativas são bastante
freqüentes em varias áreas de pesquisa, e, para isso utilizamos o Método de Regressão Linear Simples e,
no caso de estudarmos mais do que duas variáveis, é utilizada a generalização desse método que é
chamada de Método da Regressão Linear Múltipla. Mais especificamente esse método de análise permite
com que várias variáveis (características quantitativas e qualitativas) sejam utilizadas para explicar a
variabilidade de uma característica quantitativa de interesse. Os modelos de regressão são considerados
extremamente importantes em trabalhos práticos, pois permitem que se estabeleça uma relação de
casualidade entre várias características, ou seja, uma equação que represente o quanto muda uma
característica quando variamos outra característica.
O objetivo desse trabalho foi aplicar os modelos de Regressão Linear em problemas práticos.
Inicialmente definimos os aspectos teóricos e depois aplicamos a alguns exemplos. Foram selecionados
vários exemplos para aplicar a Regressão Linear Múltipla e Regressão Linear Simples. Nesse artigo será
apresentado somente um desses exemplos cujos dados foram extraídos de livros.
O estudo desse método de análise de dados, além de proporcionar uma oportunidade de
aprendizado e aproximação com diferentes áreas de aplicação da Estatística, é ainda um importante
investimento para quem pretende dar continuidade nos estudos nessa área.
Abstract
Several scientific knowledge’s area are looking for validating their hypotheses by means of
quantitative research. Planned studies to relate two quantitative variable are frequently used in many
research areas and for this reason the Regression Linear Simple Method is used and, in the case where
more then two variable are studied the generalization of this method will be used, which is called
Regression Linear Multiple Method. Specifically this method of analysis allows several variables
(quantitative and qualitative feature) is used to explain the variability of one quantitative feature of
interest. The regression models are considered extremely important in practical research, because it
allows to determine casualty relation between several features, in other words, a equation that represents
how one characteristic changes when others characteristics are altered.
The aim of this paperwork is to apply the Regression Linear Method in practical problems. In the
beginning we define the theoretical aspects and after we apply in some examples. Several examples were
selected to apply a Regression Linear Multiple and Regression Linear Simple, but in this paper we will
present just one of them which data were taken from a book.
The study of these data analysis method besides providing a opportunity learning and approaches
with different areas of statistics is still an important investment for people who intends continue study this
area.
Introdução
O trabalho inicial consistiu em selecionar exemplos de aplicação da análise de Regressão
Múltipla e Simples. O exemplo que será apresentado nesse artigo está descrito abaixo e foi usado para
aplicar o método de regressão linear Simples.
Exemplo: No exemplo apresentado no livro “Estatística Básica” de Wilton de O Bussab (p. 471) buscouse avaliar se renda familiar está relacionada com os gastos de alimentação. Os dados estão apresentados
abaixo na Tabela 1.
Renda Familiar (Salários míninos)
Gasto com a alimentação (Salários mínimos)
3
1,5
5
2
10
6
20
10
30
15
50
20
70
25
100
40
150
60
200
80
Descrição do método
Vamos inicialmente definir o modelo de Regressão Simples. Seja Y uma variável aleatória de
interesse e seja X uma variável regressora, que pretende explicar Y. O modelo de regressão simples
descreve Y como uma soma de uma quantidade determinística e uma quantidade aleatória, a parte
aleatória é denominada erro, que provoca uma distorção sobre a parte determinística. É razoável supor
que, em média, o erro seja nulo. Vamos trabalhar aqui somente com o modelo de reta que é dada pela
equação,
y i = a + bxi + ε i ,
a é o coeficiente linear, b é o coeficiente angular da reta que representa a relação entre x i e y i
em que
,e
εi
é o erro para o i-esimo indivíduo e assume uma distribuição normal de média 0 e variância
Para encontramos os estimadores dos coeficientes
σˆ 2 .
a e b da reta de mínimos quadrados temos
que encontrar os valores da inclinação e intercepto da reta que minimizam a soma dos erros quadráticos
dos pontos em torno da reta e, para tanto, é necessário obter as derivadas parciais de:
n
∑ [ y −(a + bx )]
i =1
com relação a
i
i
n
2
= ∑ε i
2
i =1
a e b e igualá-las a zero. Além de estimar a reta, estudou-se importantes propriedades
dos parâmetros dessa reta e a distribuição dos mesmos, assim como suas esperanças e suas variâncias. Em
seguida, foi feito um teste de hipótese para avaliar se coeficiente angular da reta é diferente de zero, ou
seja, se variável regressora realmente explica a variabilidade da variável resposta, e para tanto, construiuse a Tabela de análise de variância (ANOVA). Por fim o resíduo do modelo de regressão Linear Simples,
que é a diferença entre o valor estimado e o valor observado, foi estudado.
O modelo de regressão linear múltipla (MLRM) também descreve Y como uma soma de parte
determinística e parte aleatória, sendo que a parte determinística pode ser:
•
uma função de várias variáveis regressoras, ou
•
uma função de polinômio de maior grau de uma única variável regressora.
As suposições sobre o erro são as mesmas definidas para o MRLS.
O modelo polinomial com uma variável regressora, por exemplo, é dado por:
Y i= β 0+ β 1x i + K + β k x i +ε i , com ε i~ N (0; σ 2 ) .
k
Nesse modelo,
x i é o valor fixo da variável regressora X para o i-ésimo indivíduo. Os parâmetros β 0 ,
β 1, K, β k
são os coeficientes de polinômio de grau k, que relaciona Y, e X. Note que o MRLS é um
caso particular deste modelo, quando temos k=1. Da mesma forma que podemos testar a hipótese de que
coeficiente angular na Regressão Linear Simples é igual a 0, na Regressão Linear Múltipla também
podemos fazer testes equivalentes para os coeficientes
β 0 , β 1, K, β k
a partir da Tabela de Análise
de Variância. Para o modelo de Regressão Linear Múltipla a notação matricial é a mais indicada sendo
dada por:
 y1 
 x11
y 
x
2

y = Xβ + ε ⇒
=  21
M 
 M
 

 y n  n×1  x n1
em que
ε ~ NM n (0; σ 2 I ) ,e
L x 1k   β 0 
ε 0 



ε 
L x 2k   β 1 
+ 1
M
O M   M 
  
 
L x nk  n×k  β k  k ×1 ε n  n×1
x12
x 22
M
x n2
0 é o vetor nulo de dimensão
n e I é a matriz identidade n × n e
NM n denota a distribuição normal multivariada de dimensão n .
O estimador de mínimos quadrados pode ser obtido na forma matricial, e, é dado por:
βˆ = (X t X ) X t y .
−1
Que pode também ser usado no caso do modelo de Análise de Regressão Linear Simples assumindo uma
única variável regressora X.
Resultados
No exemplo apresentado inicialmente construiu-se um gráfico de dispersão para visualizar a relação entre
a renda familiar e os gastos com a alimentação. O gráfico indica que existe uma relação linear entre as
duas variáveis, e, portanto, o modelo de Regressão linear Simples pode ser aplicado para estimar a reta
que relaciona as duas variáveis.
Gasto com Alimentação e Renda Familiar
90
Gasto com a Alimentação
80
70
60
50
40
30
20
10
0
0
50
Os coeficientes da reta
100
Renda Familiar
150
200
â e b̂ , foram obtidos. As expressões e resultados estão apresentados
abaixo.
n
bˆ =
n
∑ y (x − x ) ∑ y x
i =1
n
i
i
∑ (x − x )
=
2
i
i =1
i =1
i
n
i
− x∑ yi
i =1
2
n
∑ (x − x )
i =1
= 0,392 ,e ,
i
aˆ = y − bˆx
aˆ = 25,95 − 0,39(63,8) = 0,954 .
Assim, a equação da reta estimada é dada por:
yˆ i = 0,954 + 0,392 x i .
O teste de hipótese sobre a inclinação da reta indicou que, de fato, a renda familiar pode ser usada para
explicar os gastos com a alimentação.
Conclusão
O estudo dos modelos de regressão linear simples e múltiplas é muito importante para pesquisa
quantitativa prática, uma vez que permite analisar o quanto uma variável pode ser explicada por uma ou
mais variáveis.
Referencias Bibliográfica:
Bussab, Wilton O. e Morettin, Pedro A. Estatística Básica– 5ª ed. – São Paulo: Saraiva, 2003.
Paula, Giberto A. Modelos de Regressão com apoio computacional - São Paulo: IME-USP, Junho 2004.
Magalhães, Marcos N. e Lima, Antonio C.P, Noções de Probabilidade e Estatística - 6ª ed.- São Paulo:
Editora da Universidade de São Paulo,2004.
Reinaldo Charnet [et al] – Análise de modelos de regressão Linear com Aplicações – Campinas, SP:
Editora da Unicamp, 1999.
Download

Modelos de Regressão Linear Simples e Múltipla Fabio Antonio