XXX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO Maturidade e desafios da Engenharia de Produção: competitividade das empresas, condições de trabalho, meio ambiente. São Carlos, SP, Brasil, 12 a15 de outubro de 2010. ALTERNATIVA AO USO DA REGRESSÃO LINEAR SIMPLES PARA GRANDES BASES DE DADOS Roberta Montello Amaral (PUC-Rio) [email protected] Alfredo froner (UNIFESO) [email protected] Este artigo tem o objetivo de apresentar uma nova técnica que auxilie o pesquisador que trabalha com grandes amostras a concentrar sua atenção em um menor conjunto de dados que sejam, estes sim, relevantes para a tomada de decisão. Para taanto, apresenta uma solução alternativa para o problema de calcular um elevado número de regressões simples a partir de grandes bases de dados. A ferramenta indica que se compare apenas o quadrado do coeficiente de correlação de Pearson (coeficiente de determinação R2) com uma determinada constante g que varia em função do tamanho da amostra. Adicionalmente, mesmo sem que se calculem as regressões, esta mesma ferramenta também indica o “sinal” dos coeficientes de correlação das equações de regressão, cujas estimações deixam de ser necessárias se não se está interessado na magnitude dos coeficientes beta. Palavras-chaves: base de dados; regressão linear simples;correlação 1. Introdução Um grande problema com o qual a maioria dos pesquisadores trabalha é com o tamanho de sua base de dados. Iniciar uma análise a partir de um número grande informações pode atrapalhar e dificultar a tomada de decisões, desviando o foco do problema que se deseja analisar. Trabalhar com bases de dados pequenas, por outro lado, pode gerar resultados estatisticamente não válidos. Enquanto trabalhar com bases de dados muito grandes pode acabar gerando confusões a partir do “confundimento” dos resultados possíveis. Para que se trabalhe com regressões múltiplas, por exemplo, espera-se o menor grau possível de multicolinearidade entre as variáveis independentes, para que se diminuam as ocorrências de erros do tipo I e II; na verdade, conforme indicam BUSSAB & MORETTIN (2003), “procuramos controlar o erro do tipo I (...) a probabilidade do erro do tipo II, na maioria dos casos, não pode ser calculada”. Quanto maior a correlação entre duas variáveis independentes, maior será o impacto da existência de multicolinearidade, cujo problema já se sabe que é impossível de ser totalmente eliminado (trata-se, na verdade, de um problema de definição quanto ao grau de multicolinearidade que se está disposto a aceitar). Técnicas foram desenvolvidas com o intuito de reduzir o trabalho dos pesquisadores, de modo que seja possível levar o foco para as variáveis mais importantes. São exemplos destas técnicas a análise fatorial, a análise discriminante, entre outras. Este trabalho tem o objetivo de apresentar uma nova técnica que auxilie o pesquisador que trabalha com grandes amostras a concentrar sua atenção em um menor conjunto de dados que sejam, estes sim, relevantes para a tomada de decisão. Especificamente, este artigo trata da apresentação de um único valor que substitui toda a avaliação estatística com relação à significância (individual e global) ou não de betas estimados a partir de regressões lineares simples pelo método de mínimos quadrados ordinários (MQO). Para tanto, está dividido em cinco seções além desta introdução: avaliação de bases de dados (onde se faz uma revisão do que caracteriza uma base de dados e se mostra a sua importância), a regressão linear simples e o método de MQO (para que sejam conhecidos os princípios básicos daqueles modelos para o qual a metodologia aqui proposta se adequa), o método de análise simplificado (com a apresentação do método propriamente dito), extensão para o modelo de regressão múltipla (onde são apresentados os resultados já conhecidos para modelos com mais de uma variável explicativa) e conclusões. 2. Avaliação de Bases de Dados Avaliar uma base de dados é uma tarefa muito difícil de ser descrita tal como uma “receita de bolo”. Ela sofre inúmeras variações em função do fenômeno que se deseja estudar, do tamanho da amostra que se dispõe, das variáveis que se consegue observar, da coleta de dados disponível. Mas, a despeito desta incapacidade de se definir a priori o que se deve avaliar, é de relevância determinante para o sucesso de muitos dos problemas de pesquisa nas diversas áreas do conhecimento. CORRAR et al. (2009) resumem bem a importância de se estudar uma base de dados: Raríssimos são os ramos do conhecimento e as atividades humanas que podem dispensar o apoio de técnicas estatísticas em seu desenvolvimento. Um olhar mais acurado em torno de quase todos os fenômenos que nos cercam nos remete à conclusão de que tais técnicas estão 2 participando cada vez mais do nosso cotidiano. Essa tendência parece se tornar mais acentuada na medida em que se expandem os recursos oferecidos pela informática, já que eles facilitam sobremaneira a análise de dados. Se antes o conhecimento estatístico era privilégio daqueles que tinham inclinação vocacional para lidar com números, hoje se tornou requisito de primeira ordem no exercício de várias profissões. No estudo de fenômenos da natureza, no desenvolvimento de recursos medicinais, no planejamento das atividades governamentais, na avaliação de problemas que ameaçam o bem-estar social, no controle de eventos relacionados com o mundo corporativo e em muitas outras áreas, a estatística ocupa posição de destaque. Segundo LACOMBE (2004) entende-se por dados, em administração, “registro sobre fatos, passíveis de serem ordenados, analisados e estudados para alcançar conclusões”. A base de dados pode ser definida, portanto, como um conjunto de valores quantitativos ou qualitativos a partir do qual se realizam estudos dos mais variados tipos com o intuito de se confirmar ou rejeitar hipóteses de interesse do pesquisador. Normalmente se indica que se faça, inicialmente, a partir de uma base de dados já existente ou montada para um propósito específico, uma investigação que envolve as estatísticas mais simples, tais como médias (aritmética, ponderada, geométrica, harmônica), medidas associadas ao segundo momento de variáveis aleatórias (e.g. desvio-padrão, variância, desviomédio, semi-variância), medidas associadas a momentos maiores (tais como curtose e assimétrica), presença de outliers (valores atípicos, aparentemente inconsistentes com os demais valores amostrais). Para tanto, recomenda-se a elaborações de gráficos do tipo Boxplot, histogramas, gráficos de dispersão, entre outros. Destaca-se que, neste estudo preliminar que se recomenda fazer dos dados, é importante atentar-se para o que WHEELER & CHAMBERS (1992) chamam de “regra empírica”: The Empirical Rule: Giver a homogeneous set of data: Part One: Roughly 60% to 75% os the data Will be located within a distance of one sigma unit on either side of the average. Part two: Usually 90% to 98% of the data Will be located within a distance of two sigma units on either side of the average. Part Three: Approximately 99% to 100% of the data Will be located within a distance of three sigma units on either side of the average. Mas as medidas estatísticas e a construção de gráficos, mesmo para amostras grandes que atendem à regra empírica, não geram um grupo de informações padronizadas e, muitas vezes, ao invés de ajudar o pesquisador a entender o comportamento de sua base de dados, podem confundi-los. Por isso, conhecer e empregar adequadamente cada uma das técnicas disponíveis pode fazer a diferença entre o sucesso e o fracasso de uma análise de dados. 3. A Regressão Linear Simples e o Método de Mínimos Quadrados Ordinários O avanço da Economia gerou a necessidade de que determinados fatos fossem comprovados com “provas” matemáticas e estatística de sua existência. Para auxiliar este trabalho desenvolveu-se a Econometria, “ramo da Economia que trata da mensuração de relações econômicas” (MATOS, 2000). Uma ferramenta importante da econometria é a construção de modelos que, também de acordo com o mesmo autor, pode ser descrito como “uma representação simplificada da realidade, estruturada de forma tal que permita compreender o funcionamento total ou parcial dessa realidade ou fenômeno.” 3 “A Econometria tem-se tornado um instrumento de pesquisa muito importante em face da formulação de novas teorias e do avanço das técnicas de processamento de informações, assim como do progresso da matemática e da estatística, como matérias auxiliares.” (MATOS, 2000) Os modelos econométricos usualmente são formados por variáveis, equações, coeficientes e perturbações aleatórias (comumente chamadas de erro). A mais famosa técnica para que se estime, fundamentada em certos conceitos estatísticos, os coeficientes e, consequentemente, as equações destes modelos, é a técnica de regressão linear. Quando se deseja conhecer a equação de variáveis aleatórias que mantêm relação com apenas uma outra variável aleatória se utiliza um caso particular da regressão linear, a regressão linear simples. “O modelo linear simples é aquele que contém apenas uma variável explicativa.” (MATOS, 2000) Assim, a partir de uma base de dados formada por duas outras variáveis, pode-se estimar os coeficientes e da seguinte equação: Yi = + Xi + ui Onde: Yi: é a variável explicada ou dependente, cujo comportamento se deseja conhecer/estudar; Xi: é a variável explicativa ou independente; : é o coeficiente linear do modelo, cujo valor será estimado com a técnica de regressão linear simples; : é o coeficiente angular do modelo, cujo valor será estimado com a técnica de regressão linear simples; ui: são as perturbações aleatórias; i = 1, 2, 3, ..., n (n= tamanho da amostra a partir da qual são feitos os cálculos). Para que os resultados estimados de e tenham validade estatística, uma série de pressupostos deve ser atendida, a saber: Erros devem ser: aleatórios, normalmente distribuídos com valor esperado zero e com variância constante (homocedástico), independentes entre si e independentes da variável explicativa; Não pode haver erro de medição das variáveis independentes; No caso de estimação de séries temporais, estas devem ser estacionárias; Deve-se minimizar problemas de especificação do modelo. Uma das técnicas mais empregadas para estimativa dos parâmetros das equações de modelos econométricos é o método de MQO. Ele consiste em estimar os coeficientes da seguinte equação: E(Yi) = + Xi Para tanto, adota-se a hipótese de minimizar a soma ao quadrado dos erros ui2. Conforme demonstra GUJARATI (2000): 4 ˆ ( X X )(Y Y ) (X X ) i i 2 e ˆ Y ˆ X i O modelo, propriamente dito, pode ser dividido em duas parcelas: Yi Yˆi uˆ i De modo que se define SQERRO= uˆ i2 como a parcela dos erros que não pode ser explicada pelo modelo. E, assim, pode-se decompor a variável dependente em duas somas: (Yi Y ) 2 ˆ 2 ( X i X ) 2 uˆi2 SQREG SQERRO SQTOTAL De modo que se define um coeficiente R2, “uma medida sintética que diz quão bem a reta de regressão da amostra se ajusta aos dados” (GUJARATI, 2000): 0 ≤ R2 = SQREG/SQTOTAL ≤ 1 Ressalta-se que ambos os estimadores de e são, conforme o teorema de Gauss-Markov, não-viesados e eficientes. Além disso, a relação entre o estimador de beta e seu desvio padrão segue uma distribuição t-student com n-2 graus de liberdade e, portanto, pode-se calcular um intervalo de confiança para seu valor. Adicionalmente, para que o método esteja completo, deve-se verificar, com a ajuda de gráficos específicos e técnicas de cálculo estatístico se nenhum dos pressupostos anteriores foi violado. 4. O Método de Análise Simplificado Simplificar a análise que se deseja fazer não implica em romper com o formalismo da análise estatística. Conforme a própria definição do dicionário Aurélio (FERREIRA, 1993), a primeira definição para simplificar é “tornar simples, fácil ou claro”. Não quer dizer que simplificar implique em perder a qualidade do que se está estudando, mas sim em tornar os fenômenos mais transparentes, cuja compreensão é mais fácil. Nesse sentido, um importante teste para que se possa averiguar a significância de uma regressão linear é o teste global da regressão, onde se levanta a hipótese de que todos os betas, conjuntamente, são estatisticamente nulos: H0: 1 = 2 = ... = i = 0 H1: existe pelo menos um j ≠ 0 Segundo GUJARATI (2000), Essa hipótese nula é uma hipótese conjunta de que 2 e 3 [e qualquer outro i, exceto o coeficiente linear] são conjunta ou simultaneamente iguais a zero. Um teste de hipótese assim é chamado de teste de significância global da reta de regressão observada ou estimada, isto é, se Y tem relação linear tanto com X2 quando com X3 [e com as demais variáveis independentes consideradas]. Destaca-se que o teste de significância global, em regressões múltiplas, somente é substituído pelos testes de hipótese individuais de cada i se e só se não existir relação linear entre cada uma das variáveis Xi e todas forem independentes entre si. Nos demais casos, a correlação 5 existente entre os pares de variáveis independentes consideradas pode, mesmo se for de um grau relativamente baixo, afetar o resultado do teste de significância global em relação aos testes de hipótese individuais. Desta forma, para regressões múltiplas, o teste de significância global não substitui, portanto, os testes de significância individuais. Pela teórica econométrica, a relação adequada para que se faça este teste é a relação entre a média dos quadrados da regressão (soma dos quadrados em relação à quantidade de regressores) e a média dos quadrados dos erros (soma dos erros ao quadrado em relação aos graus de liberdade do erro). No caso da hipótese nula H0 ser verdadeira, a relação entre estas médias (MQREGRESSÃO/MQERROS) segue a distribuição F de Fisher BROWNLEE apud GUJARATI (2000), demonstra que, sob a hipótese de que os erros da regressão são normalmente distribuídos, se a hipótese nula for verdadeira, FCALC = SQREG / GLREG SQERRO / GLERRO Tem distribuição F com GLREG e GLERRO graus de liberdade. Este resultado é de extrema inportância, pois, sob validade testa hipótese, pode-se provar que se os erros da regressão são normalmente distribuídos, possuem média zero e são homocedásticos, então o estimador da variância do modelo de regressão linear é não viesado. Completa GUJARATI (2000): Esta afirmação não deve causar surpresa, já que, se houver uma relação trivial entre Y e X2 e X3 [e as demais variáveis independentes], a única fonte de variação em Y se deve a forças aleatórias, representadas por ui [erros do modelo]. Porém, se a hipótese nula for falsa, ou seja, se definitivamente X2 e X3 [e as demais variáveis independentes] influenciarem Y (...) SQE [SQERRO] será relativamente maior do que SQR [SQREG], levando-se devidamente em conta seus respectivos gl. Portanto, o valor de F (...) fornece-nos um teste da hipótese nula de que os verdadeiros coeficientes de inclinação são simultaneamente iguais a zero. Mas os betas também podem ser testados individualmente usando-se a estatística t-student. Considerando-se um modelo com teste bilateral e 95% de certeza (ou unilateral com 97,5% de certeza), para amostras relativamente grandes (n>30), em um modelo significativo, onde se deseja rejeitar H0: =0, espera-se que stat t>2,04. Para amostras com tamanhos menores, a estatística t de rejeição de H0 será sempre, em módulo, inferior a 2,04. Assim, para amostras onde n>30, pode-se adotar o valor 2,04 como limite superior para comparação com a estatística t tabelada e início da área de rejeição da hipótese nula. Sabe-se que a distribuição F de Fisher cujo valor tabelado fornece Ft tal que: p(FN1-1,N2-1>Ft) = p, quando N1=2, é equivalente à distribuição t2com N2 graus de liberdade, ou seja, ao quadrado da distribuição t-student, também tabelada. Conforme JOHNSTON & DINARDO (1997), “The F distribution is defined in terms of two independent 2 variables. (...) Thus t2(n)=F(1,n); that is, the square of a t variable with n degrees of freedom is an F variable with (1,n) degrees of freedom.” Assim, para regressões simples, onde se deseja testar um e somente um valor para , os resultados do teste F e do teste t devem ser equivalentes, sendo fato que o valor calculado de F é sempre o quadrado do valor calculado da estatística t observada, onde: stat-tOBS = valor estimado do coeficiente / erro padrão estimado do coeficiente Assim, para as regressões simples, deseja-se que FCALC > 4,1616 = 2,042, mas FCALC = MQREG . MQ ERRO 6 Queremos, então, encontrar regressões significativas, onde MQREG > 4,1616. MQ ERRO MQREG SQREG SQREG (n 2) > 4,1616 ↔ > 4,1616 ↔ > 4,1616 ↔ MQ ERRO SQERRO /( n 2) SQERRO SQREG SQREG SQTOTAL SQREG 4,1616 4,1616 n2 ↔ ↔ ↔ SQERRO n2 SQTOTAL SQREG n2 SQREG 4,1616 SQTOTAL 1 n2 1 n 2 4,1616 1 n 2,1616 n2 ↔ 2 1 ↔ 2 ↔ 2 ↔ 1 4,1616 4,1616 4,1616 SQREG 4,1616 R R R 4,1616 R2 g n 2,1616 Assim, limita-se a análise da regressão (desde que se possa garantir a inexistência de heterocedasticidade e autocorrelação, hipótese que, mesmo existente, em alguns casos pode ser relaxada, e.g. séries do tipo cross-section) à comparação de um único valor (R2) com uma constante g que varia em função do tamanho da amostra adotado. Este resultado é extremamente importante, pois facilita que se avaliem bases de dados muito grandes, como é o caso do mercado de ações. Se determinado pesquisador estiver interessado, por exemplo, em confirmar a ocorrência do modelo CAPM para cálculo de de 60 meses de ações da Bovespa, é possível usar apenas a estatística estimada R2 da regressão entre os retornos de cada ação e o prêmio de risco. Como na Bovespa há, listadas, mais de 300 ações, pode-se rodar as regressões pretendidas e comparar o coeficiente de correlação de cada uma com o valor 4,1616/(60+2,1616) = 0,067. Ou seja, para aquelas ações onde R2 for superior a 0,067 pode-se admitir que há indícios para se rejeitar H0: i = 0. Fica claro, por este exemplo, que o procedimento proposto facilita enormemente o trabalho do pesquisador, que fica dispensado de rodar qualquer modelo de regressão para identificar se há valores estatisticamente significativos na sua base de dados. Adicionalmente, o cálculo do R2 implica, na verdade, em aplicar a metodologia de cálculo do coeficiente de correlação de Pearson e elevá-lo ao quadrado, conforme a seguinte fórmula: (X i X )(Yi Y ) ( X i X )2 (Yi Y ) 2 i=1, 2, 3,..., n Onde: xi são os valores observados da variável independente; yi são os valores observados da variável dependente; n: tamanho da amostra. Este procedimento elimina, portanto, o uso de qualquer pacote estatístico para a análise dos dados, uma vez que uma simples planilha eletrônica é preparada para calculá-lo com bastante fidedignidade. No entanto, com o uso desta metodologia proposta não é possível conhecer o valor estimado dos betas das regressões simples, mas, ainda assim, conhecendo o “sinal” do coeficiente de correlação é possível conhecer o “sinal” dos betas, uma vez que, por construção do próprio modelo de MQO, ambos são idênticos. Assim, mesmo que não se possa avaliar a magnitude 7 da relação, com este procedimento pode-se determinar se as variáveis em questão são positiva (>0↔>0) ou negativamente (<0↔<0) relacionadas, informação esta que, muitas vezes, é suficiente para responder aos anseios do pesquisador. 5. Extensão para o Modelo de Regressão Múltipla No modelo de regressão linear múltipla a comparação entre a regressão obtida torna-se mais complexa. Além de considerarmos, adicionalmente, a questão da multicolinearidade, há que se levar em conta não somente o tamanho da amostra, mas também o número de variáveis independentes do modelo em questão. Para rejeição da hipótese nula H0: 1 = 2 = ... = i = 0 é preciso comparar a estatística F calculada com a estatística F tabelada. Conforme aponta GUJARATI (2000), F R 2 /( k 1) (1 R 2 ) /( n k ) Onde: F: estatística F calculada a partir dos valores da amostra; R2: coeficiente de determinação da regressão múltipla; k: número de variáveis independentes (considerando-se o coeficiente linear); n: número de observações. Como n, k e a estatística F tabelada variam conforme o caso, não é possível determinar um único valor que, se comparado a qualquer amostra gera o resultado estatístico do teste de hipóteses anteriormente apresentado. Assim, há que se apurar, caso a caso, as estatísticas tabelada e a relação entre esta e o R2 para a efetiva conclusão do teste de hipóteses. 6. Conclusões O objetivo inicial deste artigo, apresentado já na sua introdução foi de oferecer uma técnica alternativa às inúmeras regressões lineares simples para avaliação conjunta de grandes bases de dados. A técnica consiste em calcular um único valor que, se comparado com o quadrado do coeficiente de correlação de Pearson, indica se o modelo é ou não significativo com 95% ou 97,5% de certeza (para intervalos de confiança bilaterais ou unilaterais, respectivamente da estimativa do coeficiente angular estimado) e indica o “sinal” do , desde que respeitadas as hipóteses de homocedasticidade e independência de resíduos. De fato, foi possível sugerir o limite g = 4,1616/(n+2,1616) para esta comparação, tendo sido apresentada, também a fórmula para o teste de significância global de regressões lineares múltiplas descrita por GUJARATI (2000), mas cuja observação é mais complicada (pois precisa-se estimar R2 a partir dos diversos coeficientes de correlação calculadas para cada par de variáveis independentes) e sem resultados conclusivos a respeito dos sinais das variáveis explicativas consideradas. Conclui-se, então, que, no caso do investigador desejar conhecer apenas a significância estatística e o sinal do coeficiente angular, este fica desobrigado a calcular diferentes regressões lineares pelo método de MQO (desde que as hipóteses desta modelagem sejam 8 atendidas), limitando o seu trabalho ao cálculo do coeficiente de correlação de Pearson, . Este procedimento garante uma redução significativa no montante de dados a serem avaliados se estamos diante de grandes bases de dados, poupando tempo e, consequentemente, recursos financeiros e computacionais. 7. Referências BUSSAB, W. de O.; MORETTIN, P. A.; Estatística Básica. São Paulo: Editora Saraiva, 2003. 5a edição, 3a tiragem. CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. (Coord.); Análise Multivariada para os Cursos de Administração, Ciências Contábeis e Economia. São Paulo: Editora Atlas, 2009. FERREIRA, A. B. de H.; Minidicionário Aurélio da Língua Portuguesa. Rio de Janeiro: Editora Nova Fronteira, 1993. 3a edição, 11a impressão. GUJARATI, D.N.; Econometria Básica. São Paulo: Makron Books, 2000. 3ª edição. JOHNSTON, J. & DINARDO, J.; Econometric Methods.Estados Unidos: McGraw-Hill, 1997. 4ª edição. LACOMBE, F.; Dicionário de Administração. São Paulo: Editora Saraiva, 2004. MATOS, O. C. de; Econometria Básica: Teoria e Aplicações. São Paulo : Editora Atlas, 2000.3ª edição. SILVA, E. M. da et al.; Tabelas de Estatística. São Paulo: Editora Atlas, 1999. 2a edição. WHEELER, D. & CHAMBERS, D.; Understanding Statistical Process Control. New York: SPC Press, 1992. 9