Modelos de Regressão Linear Simples e Múltipla Fabio Antonio Avilla (Matemática) Profª Dra. Carine Savalli Redígolo (Orientadora) Resumo Diversas áreas do conhecimento científico procuram validar suas hipóteses por meio de pesquisas quantitativas. Estudos planejados para relacionar duas variáveis quantitativas são bastante freqüentes em varias áreas de pesquisa, e, para isso utilizamos o Método de Regressão Linear Simples e, no caso de estudarmos mais do que duas variáveis, é utilizada a generalização desse método que é chamada de Método da Regressão Linear Múltipla. Mais especificamente esse método de análise permite com que várias variáveis (características quantitativas e qualitativas) sejam utilizadas para explicar a variabilidade de uma característica quantitativa de interesse. Os modelos de regressão são considerados extremamente importantes em trabalhos práticos, pois permitem que se estabeleça uma relação de casualidade entre várias características, ou seja, uma equação que represente o quanto muda uma característica quando variamos outra característica. O objetivo desse trabalho foi aplicar os modelos de Regressão Linear em problemas práticos. Inicialmente definimos os aspectos teóricos e depois aplicamos a alguns exemplos. Foram selecionados vários exemplos para aplicar a Regressão Linear Múltipla e Regressão Linear Simples. Nesse artigo será apresentado somente um desses exemplos cujos dados foram extraídos de livros. O estudo desse método de análise de dados, além de proporcionar uma oportunidade de aprendizado e aproximação com diferentes áreas de aplicação da Estatística, é ainda um importante investimento para quem pretende dar continuidade nos estudos nessa área. Abstract Several scientific knowledge’s area are looking for validating their hypotheses by means of quantitative research. Planned studies to relate two quantitative variable are frequently used in many research areas and for this reason the Regression Linear Simple Method is used and, in the case where more then two variable are studied the generalization of this method will be used, which is called Regression Linear Multiple Method. Specifically this method of analysis allows several variables (quantitative and qualitative feature) is used to explain the variability of one quantitative feature of interest. The regression models are considered extremely important in practical research, because it allows to determine casualty relation between several features, in other words, a equation that represents how one characteristic changes when others characteristics are altered. The aim of this paperwork is to apply the Regression Linear Method in practical problems. In the beginning we define the theoretical aspects and after we apply in some examples. Several examples were selected to apply a Regression Linear Multiple and Regression Linear Simple, but in this paper we will present just one of them which data were taken from a book. The study of these data analysis method besides providing a opportunity learning and approaches with different areas of statistics is still an important investment for people who intends continue study this area. Introdução O trabalho inicial consistiu em selecionar exemplos de aplicação da análise de Regressão Múltipla e Simples. O exemplo que será apresentado nesse artigo está descrito abaixo e foi usado para aplicar o método de regressão linear Simples. Exemplo: No exemplo apresentado no livro “Estatística Básica” de Wilton de O Bussab (p. 471) buscouse avaliar se renda familiar está relacionada com os gastos de alimentação. Os dados estão apresentados abaixo na Tabela 1. Renda Familiar (Salários míninos) Gasto com a alimentação (Salários mínimos) 3 1,5 5 2 10 6 20 10 30 15 50 20 70 25 100 40 150 60 200 80 Descrição do método Vamos inicialmente definir o modelo de Regressão Simples. Seja Y uma variável aleatória de interesse e seja X uma variável regressora, que pretende explicar Y. O modelo de regressão simples descreve Y como uma soma de uma quantidade determinística e uma quantidade aleatória, a parte aleatória é denominada erro, que provoca uma distorção sobre a parte determinística. É razoável supor que, em média, o erro seja nulo. Vamos trabalhar aqui somente com o modelo de reta que é dada pela equação, y i = a + bxi + ε i , a é o coeficiente linear, b é o coeficiente angular da reta que representa a relação entre x i e y i em que ,e εi é o erro para o i-esimo indivíduo e assume uma distribuição normal de média 0 e variância Para encontramos os estimadores dos coeficientes σˆ 2 . a e b da reta de mínimos quadrados temos que encontrar os valores da inclinação e intercepto da reta que minimizam a soma dos erros quadráticos dos pontos em torno da reta e, para tanto, é necessário obter as derivadas parciais de: n ∑ [ y −(a + bx )] i =1 com relação a i i n 2 = ∑ε i 2 i =1 a e b e igualá-las a zero. Além de estimar a reta, estudou-se importantes propriedades dos parâmetros dessa reta e a distribuição dos mesmos, assim como suas esperanças e suas variâncias. Em seguida, foi feito um teste de hipótese para avaliar se coeficiente angular da reta é diferente de zero, ou seja, se variável regressora realmente explica a variabilidade da variável resposta, e para tanto, construiuse a Tabela de análise de variância (ANOVA). Por fim o resíduo do modelo de regressão Linear Simples, que é a diferença entre o valor estimado e o valor observado, foi estudado. O modelo de regressão linear múltipla (MLRM) também descreve Y como uma soma de parte determinística e parte aleatória, sendo que a parte determinística pode ser: • uma função de várias variáveis regressoras, ou • uma função de polinômio de maior grau de uma única variável regressora. As suposições sobre o erro são as mesmas definidas para o MRLS. O modelo polinomial com uma variável regressora, por exemplo, é dado por: Y i= β 0+ β 1x i + K + β k x i +ε i , com ε i~ N (0; σ 2 ) . k Nesse modelo, x i é o valor fixo da variável regressora X para o i-ésimo indivíduo. Os parâmetros β 0 , β 1, K, β k são os coeficientes de polinômio de grau k, que relaciona Y, e X. Note que o MRLS é um caso particular deste modelo, quando temos k=1. Da mesma forma que podemos testar a hipótese de que coeficiente angular na Regressão Linear Simples é igual a 0, na Regressão Linear Múltipla também podemos fazer testes equivalentes para os coeficientes β 0 , β 1, K, β k a partir da Tabela de Análise de Variância. Para o modelo de Regressão Linear Múltipla a notação matricial é a mais indicada sendo dada por: y1 x11 y x 2 y = Xβ + ε ⇒ = 21 M M y n n×1 x n1 em que ε ~ NM n (0; σ 2 I ) ,e L x 1k β 0 ε 0 ε L x 2k β 1 + 1 M O M M L x nk n×k β k k ×1 ε n n×1 x12 x 22 M x n2 0 é o vetor nulo de dimensão n e I é a matriz identidade n × n e NM n denota a distribuição normal multivariada de dimensão n . O estimador de mínimos quadrados pode ser obtido na forma matricial, e, é dado por: βˆ = (X t X ) X t y . −1 Que pode também ser usado no caso do modelo de Análise de Regressão Linear Simples assumindo uma única variável regressora X. Resultados No exemplo apresentado inicialmente construiu-se um gráfico de dispersão para visualizar a relação entre a renda familiar e os gastos com a alimentação. O gráfico indica que existe uma relação linear entre as duas variáveis, e, portanto, o modelo de Regressão linear Simples pode ser aplicado para estimar a reta que relaciona as duas variáveis. Gasto com Alimentação e Renda Familiar 90 Gasto com a Alimentação 80 70 60 50 40 30 20 10 0 0 50 Os coeficientes da reta 100 Renda Familiar 150 200 â e b̂ , foram obtidos. As expressões e resultados estão apresentados abaixo. n bˆ = n ∑ y (x − x ) ∑ y x i =1 n i i ∑ (x − x ) = 2 i i =1 i =1 i n i − x∑ yi i =1 2 n ∑ (x − x ) i =1 = 0,392 ,e , i aˆ = y − bˆx aˆ = 25,95 − 0,39(63,8) = 0,954 . Assim, a equação da reta estimada é dada por: yˆ i = 0,954 + 0,392 x i . O teste de hipótese sobre a inclinação da reta indicou que, de fato, a renda familiar pode ser usada para explicar os gastos com a alimentação. Conclusão O estudo dos modelos de regressão linear simples e múltiplas é muito importante para pesquisa quantitativa prática, uma vez que permite analisar o quanto uma variável pode ser explicada por uma ou mais variáveis. Referencias Bibliográfica: Bussab, Wilton O. e Morettin, Pedro A. Estatística Básica– 5ª ed. – São Paulo: Saraiva, 2003. Paula, Giberto A. Modelos de Regressão com apoio computacional - São Paulo: IME-USP, Junho 2004. Magalhães, Marcos N. e Lima, Antonio C.P, Noções de Probabilidade e Estatística - 6ª ed.- São Paulo: Editora da Universidade de São Paulo,2004. Reinaldo Charnet [et al] – Análise de modelos de regressão Linear com Aplicações – Campinas, SP: Editora da Unicamp, 1999.