XXX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO
Maturidade e desafios da Engenharia de Produção: competitividade das empresas, condições de trabalho, meio ambiente.
São Carlos, SP, Brasil, 12 a15 de outubro de 2010.
ALTERNATIVA AO USO DA
REGRESSÃO LINEAR SIMPLES PARA
GRANDES BASES DE DADOS
Roberta Montello Amaral (PUC-Rio)
[email protected]
Alfredo froner (UNIFESO)
[email protected]
Este artigo tem o objetivo de apresentar uma nova técnica que auxilie
o pesquisador que trabalha com grandes amostras a concentrar sua
atenção em um menor conjunto de dados que sejam, estes sim,
relevantes para a tomada de decisão. Para taanto, apresenta uma
solução alternativa para o problema de calcular um elevado número
de regressões simples a partir de grandes bases de dados. A
ferramenta indica que se compare apenas o quadrado do coeficiente de
correlação de Pearson (coeficiente de determinação R2) com uma
determinada constante g que varia em função do tamanho da amostra.
Adicionalmente, mesmo sem que se calculem as regressões, esta mesma
ferramenta também indica o “sinal” dos coeficientes de correlação das
equações de regressão, cujas estimações deixam de ser necessárias se
não se está interessado na magnitude dos coeficientes beta.
Palavras-chaves: base de dados; regressão linear simples;correlação
1. Introdução
Um grande problema com o qual a maioria dos pesquisadores trabalha é com o tamanho de
sua base de dados. Iniciar uma análise a partir de um número grande informações pode
atrapalhar e dificultar a tomada de decisões, desviando o foco do problema que se deseja
analisar. Trabalhar com bases de dados pequenas, por outro lado, pode gerar resultados
estatisticamente não válidos. Enquanto trabalhar com bases de dados muito grandes pode
acabar gerando confusões a partir do “confundimento” dos resultados possíveis. Para que se
trabalhe com regressões múltiplas, por exemplo, espera-se o menor grau possível de
multicolinearidade entre as variáveis independentes, para que se diminuam as ocorrências de
erros do tipo I e II; na verdade, conforme indicam BUSSAB & MORETTIN (2003),
“procuramos controlar o erro do tipo I (...) a probabilidade do erro do tipo II, na maioria dos
casos, não pode ser calculada”.
Quanto maior a correlação entre duas variáveis
independentes, maior será o impacto da existência de multicolinearidade, cujo problema já se
sabe que é impossível de ser totalmente eliminado (trata-se, na verdade, de um problema de
definição quanto ao grau de multicolinearidade que se está disposto a aceitar).
Técnicas foram desenvolvidas com o intuito de reduzir o trabalho dos pesquisadores, de modo
que seja possível levar o foco para as variáveis mais importantes. São exemplos destas
técnicas a análise fatorial, a análise discriminante, entre outras. Este trabalho tem o objetivo
de apresentar uma nova técnica que auxilie o pesquisador que trabalha com grandes amostras
a concentrar sua atenção em um menor conjunto de dados que sejam, estes sim, relevantes
para a tomada de decisão.
Especificamente, este artigo trata da apresentação de um único valor que substitui toda a
avaliação estatística com relação à significância (individual e global) ou não de betas
estimados a partir de regressões lineares simples pelo método de mínimos quadrados
ordinários (MQO). Para tanto, está dividido em cinco seções além desta introdução: avaliação
de bases de dados (onde se faz uma revisão do que caracteriza uma base de dados e se mostra
a sua importância), a regressão linear simples e o método de MQO (para que sejam
conhecidos os princípios básicos daqueles modelos para o qual a metodologia aqui proposta
se adequa), o método de análise simplificado (com a apresentação do método propriamente
dito), extensão para o modelo de regressão múltipla (onde são apresentados os resultados já
conhecidos para modelos com mais de uma variável explicativa) e conclusões.
2. Avaliação de Bases de Dados
Avaliar uma base de dados é uma tarefa muito difícil de ser descrita tal como uma “receita de
bolo”. Ela sofre inúmeras variações em função do fenômeno que se deseja estudar, do
tamanho da amostra que se dispõe, das variáveis que se consegue observar, da coleta de dados
disponível. Mas, a despeito desta incapacidade de se definir a priori o que se deve avaliar, é
de relevância determinante para o sucesso de muitos dos problemas de pesquisa nas diversas
áreas do conhecimento.
CORRAR et al. (2009) resumem bem a importância de se estudar uma base de dados:
Raríssimos são os ramos do conhecimento e as atividades humanas que podem dispensar o
apoio de técnicas estatísticas em seu desenvolvimento. Um olhar mais acurado em torno de
quase todos os fenômenos que nos cercam nos remete à conclusão de que tais técnicas estão
2
participando cada vez mais do nosso cotidiano. Essa tendência parece se tornar mais
acentuada na medida em que se expandem os recursos oferecidos pela informática, já que
eles facilitam sobremaneira a análise de dados. Se antes o conhecimento estatístico era
privilégio daqueles que tinham inclinação vocacional para lidar com números, hoje se
tornou requisito de primeira ordem no exercício de várias profissões. No estudo de
fenômenos da natureza, no desenvolvimento de recursos medicinais, no planejamento das
atividades governamentais, na avaliação de problemas que ameaçam o bem-estar social, no
controle de eventos relacionados com o mundo corporativo e em muitas outras áreas, a
estatística ocupa posição de destaque.
Segundo LACOMBE (2004) entende-se por dados, em administração, “registro sobre fatos,
passíveis de serem ordenados, analisados e estudados para alcançar conclusões”. A base de
dados pode ser definida, portanto, como um conjunto de valores quantitativos ou qualitativos
a partir do qual se realizam estudos dos mais variados tipos com o intuito de se confirmar ou
rejeitar hipóteses de interesse do pesquisador.
Normalmente se indica que se faça, inicialmente, a partir de uma base de dados já existente ou
montada para um propósito específico, uma investigação que envolve as estatísticas mais
simples, tais como médias (aritmética, ponderada, geométrica, harmônica), medidas
associadas ao segundo momento de variáveis aleatórias (e.g. desvio-padrão, variância, desviomédio, semi-variância), medidas associadas a momentos maiores (tais como curtose e
assimétrica), presença de outliers (valores atípicos, aparentemente inconsistentes com os
demais valores amostrais). Para tanto, recomenda-se a elaborações de gráficos do tipo Boxplot, histogramas, gráficos de dispersão, entre outros.
Destaca-se que, neste estudo preliminar que se recomenda fazer dos dados, é importante
atentar-se para o que WHEELER & CHAMBERS (1992) chamam de “regra empírica”:
The Empirical Rule: Giver a homogeneous set of data:
Part One: Roughly 60% to 75% os the data Will be located within a distance of one sigma
unit on either side of the average.
Part two: Usually 90% to 98% of the data Will be located within a distance of two sigma
units on either side of the average.
Part Three: Approximately 99% to 100% of the data Will be located within a distance of
three sigma units on either side of the average.
Mas as medidas estatísticas e a construção de gráficos, mesmo para amostras grandes que
atendem à regra empírica, não geram um grupo de informações padronizadas e, muitas vezes,
ao invés de ajudar o pesquisador a entender o comportamento de sua base de dados, podem
confundi-los. Por isso, conhecer e empregar adequadamente cada uma das técnicas
disponíveis pode fazer a diferença entre o sucesso e o fracasso de uma análise de dados.
3. A Regressão Linear Simples e o Método de Mínimos Quadrados Ordinários
O avanço da Economia gerou a necessidade de que determinados fatos fossem comprovados
com “provas” matemáticas e estatística de sua existência. Para auxiliar este trabalho
desenvolveu-se a Econometria, “ramo da Economia que trata da mensuração de relações
econômicas” (MATOS, 2000). Uma ferramenta importante da econometria é a construção de
modelos que, também de acordo com o mesmo autor, pode ser descrito como “uma
representação simplificada da realidade, estruturada de forma tal que permita compreender o
funcionamento total ou parcial dessa realidade ou fenômeno.”
3
“A Econometria tem-se tornado um instrumento de pesquisa muito importante em face da
formulação de novas teorias e do avanço das técnicas de processamento de informações,
assim como do progresso da matemática e da estatística, como matérias auxiliares.” (MATOS,
2000)
Os modelos econométricos usualmente são formados por variáveis, equações, coeficientes e
perturbações aleatórias (comumente chamadas de erro). A mais famosa técnica para que se
estime, fundamentada em certos conceitos estatísticos, os coeficientes e, consequentemente,
as equações destes modelos, é a técnica de regressão linear. Quando se deseja conhecer a
equação de variáveis aleatórias que mantêm relação com apenas uma outra variável aleatória
se utiliza um caso particular da regressão linear, a regressão linear simples.
“O modelo linear simples é aquele que contém apenas uma variável explicativa.” (MATOS,
2000)
Assim, a partir de uma base de dados formada por duas outras variáveis, pode-se estimar os
coeficientes  e  da seguinte equação:
Yi =  + Xi + ui
Onde:
Yi: é a variável explicada ou dependente, cujo comportamento se deseja conhecer/estudar;
Xi: é a variável explicativa ou independente;
: é o coeficiente linear do modelo, cujo valor será estimado com a técnica de regressão linear
simples;
: é o coeficiente angular do modelo, cujo valor será estimado com a técnica de regressão
linear simples;
ui: são as perturbações aleatórias;
i = 1, 2, 3, ..., n (n= tamanho da amostra a partir da qual são feitos os cálculos).
Para que os resultados estimados de  e  tenham validade estatística, uma série de
pressupostos deve ser atendida, a saber:
 Erros devem ser: aleatórios, normalmente distribuídos com valor esperado zero e com
variância constante (homocedástico), independentes entre si e independentes da variável
explicativa;
 Não pode haver erro de medição das variáveis independentes;
 No caso de estimação de séries temporais, estas devem ser estacionárias;
 Deve-se minimizar problemas de especificação do modelo.
Uma das técnicas mais empregadas para estimativa dos parâmetros das equações de modelos
econométricos é o método de MQO. Ele consiste em estimar os coeficientes da seguinte
equação:
E(Yi) =
+
Xi
Para tanto, adota-se a hipótese de minimizar a soma ao quadrado dos erros ui2.
Conforme demonstra GUJARATI (2000):
4
ˆ 
 ( X  X )(Y  Y )
(X  X )
i
i
2
e
ˆ  Y  ˆ X
i
O modelo, propriamente dito, pode ser dividido em duas parcelas:
Yi  Yˆi  uˆ i
De modo que se define SQERRO=  uˆ i2 como a parcela dos erros que não pode ser explicada
pelo modelo. E, assim, pode-se decompor a variável dependente em duas somas:
(Yi  Y ) 2  ˆ 2  ( X i  X ) 2   uˆi2  SQREG  SQERRO  SQTOTAL
De modo que se define um coeficiente R2, “uma medida sintética que diz quão bem a reta de
regressão da amostra se ajusta aos dados” (GUJARATI, 2000):
0 ≤ R2 = SQREG/SQTOTAL ≤ 1
Ressalta-se que ambos os estimadores de  e  são, conforme o teorema de Gauss-Markov,
não-viesados e eficientes. Além disso, a relação entre o estimador de beta e seu desvio padrão
segue uma distribuição t-student com n-2 graus de liberdade e, portanto, pode-se calcular um
intervalo de confiança para seu valor.
Adicionalmente, para que o método esteja completo, deve-se verificar, com a ajuda de
gráficos específicos e técnicas de cálculo estatístico se nenhum dos pressupostos anteriores foi
violado.
4. O Método de Análise Simplificado
Simplificar a análise que se deseja fazer não implica em romper com o formalismo da análise
estatística. Conforme a própria definição do dicionário Aurélio (FERREIRA, 1993), a
primeira definição para simplificar é “tornar simples, fácil ou claro”. Não quer dizer que
simplificar implique em perder a qualidade do que se está estudando, mas sim em tornar os
fenômenos mais transparentes, cuja compreensão é mais fácil.
Nesse sentido, um importante teste para que se possa averiguar a significância de uma
regressão linear é o teste global da regressão, onde se levanta a hipótese de que todos os betas,
conjuntamente, são estatisticamente nulos:
H0: 1 = 2 = ... = i = 0
H1: existe pelo menos um j ≠ 0
Segundo GUJARATI (2000),
Essa hipótese nula é uma hipótese conjunta de que 2 e 3 [e qualquer outro i, exceto o
coeficiente linear] são conjunta ou simultaneamente iguais a zero. Um teste de hipótese
assim é chamado de teste de significância global da reta de regressão observada ou
estimada, isto é, se Y tem relação linear tanto com X2 quando com X3 [e com as demais
variáveis independentes consideradas].
Destaca-se que o teste de significância global, em regressões múltiplas, somente é substituído
pelos testes de hipótese individuais de cada i se e só se não existir relação linear entre cada
uma das variáveis Xi e todas forem independentes entre si. Nos demais casos, a correlação
5
existente entre os pares de variáveis independentes consideradas pode, mesmo se for de um
grau relativamente baixo, afetar o resultado do teste de significância global em relação aos
testes de hipótese individuais. Desta forma, para regressões múltiplas, o teste de significância
global não substitui, portanto, os testes de significância individuais.
Pela teórica econométrica, a relação adequada para que se faça este teste é a relação entre a
média dos quadrados da regressão (soma dos quadrados em relação à quantidade de
regressores) e a média dos quadrados dos erros (soma dos erros ao quadrado em relação aos
graus de liberdade do erro). No caso da hipótese nula H0 ser verdadeira, a relação entre estas
médias (MQREGRESSÃO/MQERROS) segue a distribuição F de Fisher
BROWNLEE apud GUJARATI (2000), demonstra que, sob a hipótese de que os erros da
regressão são normalmente distribuídos, se a hipótese nula for verdadeira,
FCALC =
SQREG / GLREG
SQERRO / GLERRO
Tem distribuição F com GLREG e GLERRO graus de liberdade. Este resultado é de extrema
inportância, pois, sob validade testa hipótese, pode-se provar que se os erros da regressão são
normalmente distribuídos, possuem média zero e são homocedásticos, então o estimador da
variância do modelo de regressão linear é não viesado. Completa GUJARATI (2000):
Esta afirmação não deve causar surpresa, já que, se houver uma relação trivial entre Y e X2
e X3 [e as demais variáveis independentes], a única fonte de variação em Y se deve a forças
aleatórias, representadas por ui [erros do modelo]. Porém, se a hipótese nula for falsa, ou
seja, se definitivamente X2 e X3 [e as demais variáveis independentes] influenciarem Y (...)
SQE [SQERRO] será relativamente maior do que SQR [SQREG], levando-se devidamente em
conta seus respectivos gl. Portanto, o valor de F (...) fornece-nos um teste da hipótese nula
de que os verdadeiros coeficientes de inclinação são simultaneamente iguais a zero.
Mas os betas também podem ser testados individualmente usando-se a estatística t-student.
Considerando-se um modelo com teste bilateral e 95% de certeza (ou unilateral com 97,5% de
certeza), para amostras relativamente grandes (n>30), em um modelo significativo, onde se
deseja rejeitar H0: =0, espera-se que stat t>2,04. Para amostras com tamanhos menores,
a estatística t de rejeição de H0 será sempre, em módulo, inferior a 2,04. Assim, para
amostras onde n>30, pode-se adotar o valor 2,04 como limite superior para comparação com a
estatística t tabelada e início da área de rejeição da hipótese nula.
Sabe-se que a distribuição F de Fisher cujo valor tabelado fornece Ft tal que: p(FN1-1,N2-1>Ft) =
p, quando N1=2, é equivalente à distribuição t2com N2 graus de liberdade, ou seja, ao
quadrado da distribuição t-student, também tabelada. Conforme JOHNSTON & DINARDO
(1997), “The F distribution is defined in terms of two independent 2 variables. (...) Thus
t2(n)=F(1,n); that is, the square of a t variable with n degrees of freedom is an F variable with
(1,n) degrees of freedom.”
Assim, para regressões simples, onde se deseja testar um e somente um valor para , os
resultados do teste F e do teste t devem ser equivalentes, sendo fato que o valor calculado de F
é sempre o quadrado do valor calculado da estatística t observada, onde:
stat-tOBS = valor estimado do coeficiente  / erro padrão estimado do coeficiente 
Assim, para as regressões simples, deseja-se que FCALC > 4,1616 = 2,042, mas FCALC =
MQREG
.
MQ ERRO
6
Queremos, então, encontrar regressões significativas, onde
MQREG
> 4,1616.
MQ ERRO
MQREG
SQREG
SQREG (n  2)
> 4,1616 ↔
> 4,1616 ↔
> 4,1616 ↔
MQ ERRO
SQERRO /( n  2)
SQERRO
SQREG
SQREG
SQTOTAL  SQREG
4,1616
4,1616
n2
↔
↔
↔



SQERRO
n2
SQTOTAL  SQREG
n2
SQREG
4,1616
SQTOTAL
1
n2
1
n  2  4,1616
1
n  2,1616
n2
↔ 2 1 
↔ 2 
↔ 2 
↔
1 
4,1616
4,1616
4,1616
SQREG
4,1616
R
R
R
4,1616
R2 
g
n  2,1616
Assim, limita-se a análise da regressão (desde que se possa garantir a inexistência de
heterocedasticidade e autocorrelação, hipótese que, mesmo existente, em alguns casos pode
ser relaxada, e.g. séries do tipo cross-section) à comparação de um único valor (R2) com uma
constante g que varia em função do tamanho da amostra adotado.
Este resultado é extremamente importante, pois facilita que se avaliem bases de dados muito
grandes, como é o caso do mercado de ações. Se determinado pesquisador estiver
interessado, por exemplo, em confirmar a ocorrência do modelo CAPM para cálculo de  de
60 meses de ações da Bovespa, é possível usar apenas a estatística estimada R2 da regressão
entre os retornos de cada ação e o prêmio de risco. Como na Bovespa há, listadas, mais de
300 ações, pode-se rodar as regressões pretendidas e comparar o coeficiente de correlação de
cada uma com o valor 4,1616/(60+2,1616) = 0,067. Ou seja, para aquelas ações onde R2 for
superior a 0,067 pode-se admitir que há indícios para se rejeitar H0: i = 0. Fica claro, por
este exemplo, que o procedimento proposto facilita enormemente o trabalho do pesquisador,
que fica dispensado de rodar qualquer modelo de regressão para identificar se há valores
estatisticamente significativos na sua base de dados.
Adicionalmente, o cálculo do R2 implica, na verdade, em aplicar a metodologia de cálculo do
coeficiente de correlação de Pearson e elevá-lo ao quadrado, conforme a seguinte fórmula:

(X
i
 X )(Yi  Y )
 ( X i  X )2
 (Yi  Y ) 2
i=1, 2, 3,..., n
Onde:
xi são os valores observados da variável independente;
yi são os valores observados da variável dependente;
n: tamanho da amostra.
Este procedimento elimina, portanto, o uso de qualquer pacote estatístico para a análise dos
dados, uma vez que uma simples planilha eletrônica é preparada para calculá-lo com bastante
fidedignidade.
No entanto, com o uso desta metodologia proposta não é possível conhecer o valor estimado
dos betas das regressões simples, mas, ainda assim, conhecendo o “sinal” do coeficiente de
correlação é possível conhecer o “sinal” dos betas, uma vez que, por construção do próprio
modelo de MQO, ambos são idênticos. Assim, mesmo que não se possa avaliar a magnitude
7
da relação, com este procedimento pode-se determinar se as variáveis em questão são positiva
(>0↔>0) ou negativamente (<0↔<0) relacionadas, informação esta que, muitas vezes, é
suficiente para responder aos anseios do pesquisador.
5. Extensão para o Modelo de Regressão Múltipla
No modelo de regressão linear múltipla a comparação entre a regressão obtida torna-se mais
complexa. Além de considerarmos, adicionalmente, a questão da multicolinearidade, há que
se levar em conta não somente o tamanho da amostra, mas também o número de variáveis
independentes do modelo em questão. Para rejeição da hipótese nula H0: 1 = 2 = ... = i = 0
é preciso comparar a estatística F calculada com a estatística F tabelada. Conforme aponta
GUJARATI (2000),
F
R 2 /( k  1)
(1  R 2 ) /( n  k )
Onde:
F: estatística F calculada a partir dos valores da amostra;
R2: coeficiente de determinação da regressão múltipla;
k: número de variáveis independentes (considerando-se o coeficiente linear);
n: número de observações.
Como n, k e a estatística F tabelada variam conforme o caso, não é possível determinar um
único valor que, se comparado a qualquer amostra gera o resultado estatístico do teste de
hipóteses anteriormente apresentado. Assim, há que se apurar, caso a caso, as estatísticas
tabelada e a relação entre esta e o R2 para a efetiva conclusão do teste de hipóteses.
6. Conclusões
O objetivo inicial deste artigo, apresentado já na sua introdução foi de oferecer uma técnica
alternativa às inúmeras regressões lineares simples para avaliação conjunta de grandes bases
de dados. A técnica consiste em calcular um único valor que, se comparado com o quadrado
do coeficiente de correlação de Pearson, indica se o modelo é ou não significativo com 95%
ou 97,5% de certeza (para intervalos de confiança bilaterais ou unilaterais, respectivamente da
estimativa do coeficiente angular estimado) e indica o “sinal” do , desde que respeitadas as
hipóteses de homocedasticidade e independência de resíduos.
De fato, foi possível sugerir o limite g = 4,1616/(n+2,1616) para esta comparação, tendo sido
apresentada, também a fórmula para o teste de significância global de regressões lineares
múltiplas descrita por GUJARATI (2000), mas cuja observação é mais complicada (pois
precisa-se estimar R2 a partir dos diversos coeficientes de correlação calculadas para cada par
de variáveis independentes) e sem resultados conclusivos a respeito dos sinais das variáveis
explicativas consideradas.
Conclui-se, então, que, no caso do investigador desejar conhecer apenas a significância
estatística e o sinal do coeficiente angular, este fica desobrigado a calcular diferentes
regressões lineares pelo método de MQO (desde que as hipóteses desta modelagem sejam
8
atendidas), limitando o seu trabalho ao cálculo do coeficiente de correlação de Pearson, .
Este procedimento garante uma redução significativa no montante de dados a serem avaliados
se estamos diante de grandes bases de dados, poupando tempo e, consequentemente, recursos
financeiros e computacionais.
7. Referências
BUSSAB, W. de O.; MORETTIN, P. A.; Estatística Básica. São Paulo: Editora Saraiva, 2003. 5a edição, 3a
tiragem.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. (Coord.); Análise Multivariada para os Cursos de
Administração, Ciências Contábeis e Economia. São Paulo: Editora Atlas, 2009.
FERREIRA, A. B. de H.; Minidicionário Aurélio da Língua Portuguesa. Rio de Janeiro: Editora Nova
Fronteira, 1993. 3a edição, 11a impressão.
GUJARATI, D.N.; Econometria Básica. São Paulo: Makron Books, 2000. 3ª edição.
JOHNSTON, J. & DINARDO, J.; Econometric Methods.Estados Unidos: McGraw-Hill, 1997. 4ª edição.
LACOMBE, F.; Dicionário de Administração. São Paulo: Editora Saraiva, 2004.
MATOS, O. C. de; Econometria Básica: Teoria e Aplicações. São Paulo : Editora Atlas, 2000.3ª edição.
SILVA, E. M. da et al.; Tabelas de Estatística. São Paulo: Editora Atlas, 1999. 2a edição.
WHEELER, D. & CHAMBERS, D.; Understanding Statistical Process Control. New York: SPC Press, 1992.
9
Download

alternativa ao uso da regressão linear simples para grandes bases