PUC - SP UM ESTUDO DA EVOLUÇÃO HISTÓRICA DOS INDICADORES DAS 500 EMPRESAS MAIS VALIOSAS DO MUNDO E DA POSIÇÃO DOS PAÍSES DO BRICS NO RANKING EDUARDO NOBORU KAWABUCHI MESTRADO EM ADMINISTRAÇÃO DE EMPRESAS MÉTODOS QUANTITATIVOS PROF. DR. ARNOLDO HOYOS SÃO PAULO 2011 Conteúdo 1. INTRODUÇÃO ..................................................................................................................4 2. ENTENDENDO OS DADOS.............................................................................................4 2.1 Os Indivíduos ................................................................................................................4 2.2 As Variáveis ..................................................................................................................4 2.3 A Tabela de Dados........................................................................................................5 2.4 Fonte de Dados..............................................................................................................5 3. ANÁLISE DAS VARIÁVEIS ............................................................................................6 3.1 Variável Market Value $m (Valor de Mercado) .......................................................6 3.2 Variável Turnover $m..................................................................................................7 3.3 Variável Price $ (Preço da Ação) ................................................................................8 3.4 Variável PE ratio ........................................................................................................10 3.5 Variável Dividend yield (%) ......................................................................................11 4. EVOLUÇÃO DOS PAÍSES DO BRICS NO RANKING DAS 500 EMPRESAS MAIS VALIOSAS DO MUNDO.........................................................................................12 5. ESTUDOS COMPLEMENTARES ................................................................................15 5.1 Análise de Tendências ................................................................................................15 5.1.1 Países BRICS .......................................................................................................16 5.1.2 Outros Países........................................................................................................18 5.1.3 Resultado ..............................................................................................................20 5.2 Estatística Descritiva ..................................................................................................21 5.2.1 Variável Market Value $m .................................................................................21 5.2.2 Variável Turnover $m.........................................................................................22 5.2.3 Variável Net Income $m .....................................................................................22 5.2.4 Variável Total Assets $m ....................................................................................23 5.2.5 Variável Employees .............................................................................................24 5.2.6 Variável Price $....................................................................................................25 5.2.7 Variável PE ratio .................................................................................................26 5.2.8 Variável Dividend Yield (%) ..............................................................................27 5.3 Análise de Relação entre Variáveis...........................................................................28 5.4 Regressões Múltiplas ..................................................................................................30 5.5 Amostragem ................................................................................................................32 5.5.1 Variável Market Value $m .................................................................................32 5.5.2 Variável Turnover Value $m..............................................................................36 5.5.3 Variável Turnover Value $m..............................................................................39 5.5.4 Variável Total Assets $m ....................................................................................43 5.5.5 Variável Employees .............................................................................................46 5.5.6 Variável Price $....................................................................................................49 5.5.7 Variável PE ratio .................................................................................................52 5.5.8 Variável Dividend Yield (%) ..............................................................................56 5.5.9 Análise de Correlação e Dendogramas..............................................................59 5.5.10 Considerações ....................................................................................................61 5.6 Análise em Componentes Principais.........................................................................62 5.7 Análise de Conglomerados.........................................................................................64 5.7.1 Estatística Descritiva / Pesquisa por Amostragem ...........................................64 5.7.2 Análise de Conglomerados..................................................................................65 5.8 Análise Discriminante ................................................................................................69 5.8.1 Comparação de Média, Análise de Variância e Intervalo de Confiança........69 5.8.2 Análise Discriminante .........................................................................................72 5.9 Regressão Logística ....................................................................................................75 2 5.10 Árvores de Classificação ..........................................................................................78 5.11 Análise de Correspondências...................................................................................80 6. CONSIDERAÇÕES FINAIS...........................................................................................81 6.1 Evolução Histórica dos Indicadores das 500 Empresas mais valiosas do mundo e da Posição dos Países do BRICS no Ranking ................................................................81 6.2 Estudos Complementares ..........................................................................................82 6.2.1 Análise de Tendências .........................................................................................82 6.2.2 Relação entre Variáveis ......................................................................................83 6.2.3 Regressões Múltiplas ...........................................................................................83 6.2.4 Amostragem .........................................................................................................83 6.2.5 Análise em Componentes Principais..................................................................84 6.2.6 Análise de Conglomerados..................................................................................84 6.2.7 Análise Discriminante .........................................................................................84 6.2.8 Regressão Logística .............................................................................................84 6.2.9 Árvores de Classificação .....................................................................................85 6.2.10 Análise de Correspondências............................................................................85 3 1. INTRODUÇÃO Esse trabalho tem por objetivo efetuar uma análise comparativa das médias e intervalos de confiança, variância da evolução histórica de dados do Ranking das 500 Empresas mais valiosas do mundo publicada pela revista Financial Times e também analisar a evolução da posição dos países do BRICS nesse ranking. O software estatístico utilizado é o MINITAB. 2. ENTENDENDO OS DADOS Os dados são referentes ao ano de 2005 e 2010. As variáveis são indicadores financeiros e relacionados de cada empresa. Já o BRICS é um acrônimo que se refere aos países membros fundadores (Brasil, Rússia, Índia e China) e à África do Sul. A idéia dos BRICS foi formulada pelo economista-chefe da Goldman Sachs, Jim O´Neil, em estudo de 2001, intitulado “Building Better Global Economic BRICs”. Fixou-se como categoria da análise nos meios econômico-financeiros, empresariais, acadêmicos e de comunicação. Em 2006, o conceito deu origem a um agrupamento, propriamente dito, incorporado à política externa de Brasil, Rússia, Índia e China. Em 2011, por ocasião da III Cúpula, a África do Sul passou a fazer parte do agrupamento, que adotou a sigla BRICS. 2.1 Os Indivíduos Os indivíduos desta análise são as empresas reportadas no FT Global 500 2005 e 2010. São 500 empresas, classificadas em função do índice valor de mercado. Os dados analisados de cada empresa são as variáveis que descrevemos a seguir. Os dados foram coletados no banco de dados do Financial Times. 2.2 As Variáveis São n as variáveis desta pesquisa, incluindo o nome das empresas. As mesmas são melhor explicadas na Tabela 1. Tabela 1. As Variáveis Variável Significado Global Rank Ranking Global 2010 2010 Global Rank Ranking Global 2009 2009 Company Nome da Empresa Country País de Origem Continent Continente Sector Setor de Atividade Tipo Variável Quantitativa Variável Quantitativa Variável Categórica Variável Categórica Variável Categórica Variável Categórica Unidade de Medida Número Número N/A N/A N/A N/A 4 Market value Valor de Mercado Variável $m Quantitativa Turnover $m Indicador fundamentalista que mede o grau de Variável liquidez das ações de uma empresa no mercado. Quantitativa Expressa a relação entre a média de volume diário negociado no último mês e o free float da empresa, ambos medidos em números de ações. Free float é definido como a porcentagem do capital numa empresa que não se encontra em mãos de acionistas estratégicos (com participação superior a 5% do capital total da empresa). Assim a fórmula de cálculo do indicador é: Turnover = Volume Médio Diário (30 dias)/ Free float (em número de ações) Net Income $m Lucro Líquido Variável Quantitativa Total Assets $m Ativo Total Variável Quantitativa Employees Número de Empregados Variável Quantitativa Price $ Preço da Ação Variável Quantitativa PE ratio O Price - Earnings Ratio ou PER é um indicador de Variável análise bolsista das empresas. É o coeficiente de Quantitativa capitalização do benefício. O Price - Earnings Ratio ilustra o relacionamento, por ação, entre o valor bolsista da empresa e os seus resultados líquidos. Cálculo: Price – Earnings Ratio = Cotação da ação / Resultado Líquido por Ação Na teoria, o PER representa o número de anos em que recuperaria o seu investimento sob a forma de dividendos. Dividend yield Rendimento dos Dividendos (%). É um índice criado Variável (%) para medir a rentabilidade dos dividendos de uma Quantitativa empresa em relação ao preço de suas ações. Este índice traz o benefício de poder comparar a rentabilidade dos dividendos entre empresas. Year end Fim do Ano Fiscal Variável Quantitativa $m $m $m $m Un $ Indicador % Data 2.3 A Tabela de Dados Vide em anexo arquivo em formato Excel. 2.4 Fonte de Dados Todos os dados desta pesquisa foram obtidos em: 5 http://media.ft.com/cms/66ce3362-68b9-11df-96f1-00144feab49a.pdf 3. ANÁLISE DAS VARIÁVEIS 3.1 Variável Market Value $m (Valor de Mercado) One-way ANOVA: Market value $m 2010; Market value $m 2005 Source Factor Error Total DF 1 510 511 S = 49648 SS 21412072746 1.25710E+12 1.27852E+12 R-Sq = 1.67% Level Market value $m 2010 Market value $m 2005 Level Market value $m 2010 Market value $m 2005 N 256 256 MS 21412072746 2464910481 F 8.69 P 0.003 R-Sq(adj) = 1.48% Mean 53335 40401 StDev 50816 48452 Individual 95% CIs For Mean Based on Pooled StDev -+---------+---------+---------+-------(--------*--------) (--------*-------) -+---------+---------+---------+-------35000 42000 49000 56000 Pooled StDev = 49648 O p-value obtido é de 0,003, abaixo de 0,05, indicando que, com intervalo de confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável são estatisticamente diferentes. Podemos observar que a média populacional de 2010 ($m 40.401) é superior à 2005 (53.555) em 32,56%, demonstrando uma evolução. Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido anteriormente: Two-Sample T-Test and CI: Market value $m 2010; Market value $m 2005 Two-sample T for Market value $m 2010 vs Market value $m 2005 Market value $m 2010 Market value $m 2005 N 256 256 Mean 53335 40401 StDev 50816 48452 SE Mean 3176 3028 Difference = mu (Market value $m 2010) - mu (Market value $m 2005) Estimate for difference: 12934 95% CI for difference: (4312; 21555) T-Test of difference = 0 (vs not =): T-Value = 2.95 P-Value = 0.003 DF = 508 Abaixo o box-plot corroborando a as análises efetuadas acima. 6 Boxplot of Market value $m 2010; Market value $m 2005 400000 Data 300000 200000 100000 0 Market value $m 2010 Market value $m 2005 3.2 Variável Turnover $m One-way ANOVA: Turnover $m 2010; Turnover $m 2005 Source Factor Error Total DF 1 509 510 S = 46167 SS 12578452996 1.08487E+12 1.09745E+12 R-Sq = 1.15% Level Turnover $m 2010 Turnover $m 2005 N 255 256 MS 12578452996 2131380423 F 5.90 P 0.015 R-Sq(adj) = 0.95% Mean 40419 30496 StDev 49562 42517 Individual 95% CIs For Mean Based on Pooled StDev ---------+---------+---------+---------+ (--------*---------) (---------*--------) ---------+---------+---------+---------+ 30000 36000 42000 48000 Pooled StDev = 46167 O p-value obtido é de 0,015, abaixo de 0,05, indicando que, com intervalo de confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável são estatisticamente diferentes. Podemos observar que a média populacional de 2010 ($m 30.496) é superior à 2005 ($m 40.419) em 32.54%, demonstrando uma evolução. Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido anteriormente: 7 Two-Sample T-Test and CI: Turnover $m 2010; Turnover $m 2005 Two-sample T for Turnover $m 2010 vs Turnover $m 2005 Turnover $m 2010 Turnover $m 2005 N 255 256 Mean 40419 30496 StDev 49562 42517 SE Mean 3104 2657 Difference = mu (Turnover $m 2010) - mu (Turnover $m 2005) Estimate for difference: 9923 95% CI for difference: (1895; 17950) T-Test of difference = 0 (vs not =): T-Value = 2.43 P-Value = 0.016 DF = 496 Abaixo o box-plot corroborando a as análises efetuadas acima. Boxplot of Turnover $m 2010; Turnover $m 2005 400000 Data 300000 200000 100000 0 Turnover $m 2010 Turnover $m 2005 3.3 Variável Price $ (Preço da Ação) One-way ANOVA: Price $ 2010; Price $ 2005 Source Factor Error Total DF 1 510 511 S = 862.2 SS 80817 379150411 379231228 MS 80817 743432 R-Sq = 0.02% Level Price $ 2010 Price $ 2005 N 256 256 Mean 153.9 179.0 F 0.11 P 0.742 R-Sq(adj) = 0.00% StDev 769.4 946.0 Individual 95% CIs For Mean Based on Pooled StDev --+---------+---------+---------+------(-----------------*----------------) (-----------------*----------------) 8 --+---------+---------+---------+------60 120 180 240 Pooled StDev = 862.2 O p-value obtido é de 0,742, bastante superior à 0,05, indicando que, com intervalo de confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável não são estatisticamente diferentes. Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido anteriormente: Two-Sample T-Test and CI: Price $ 2010; Price $ 2005 Two-sample T for Price $ 2010 vs Price $ 2005 Price $ 2010 Price $ 2005 N 256 256 Mean 154 179 StDev 769 946 SE Mean 48 59 Difference = mu (Price $ 2010) - mu (Price $ 2005) Estimate for difference: -25.1 95% CI for difference: (-174.9; 124.6) T-Test of difference = 0 (vs not =): T-Value = -0.33 P-Value = 0.742 DF = 489 Abaixo o box-plot corroborando a as análises efetuadas acima. Boxplot of Price $ 2010; Price $ 2005 9000 8000 7000 Data 6000 5000 4000 3000 2000 1000 0 Price $ 2010 Price $ 2005 9 3.4 Variável PE ratio One-way ANOVA: PE ratio 2010; PE ratio 2005 Source Factor Error Total DF 1 510 511 S = 11.04 SS 1 62170 62171 MS 1 122 F 0.01 R-Sq = 0.00% Level PE ratio 2010 PE ratio 2005 N 256 256 Mean 21.15 21.06 P 0.926 R-Sq(adj) = 0.00% StDev 11.73 10.30 Individual 95% CIs For Mean Based on Pooled StDev ----+---------+---------+---------+----(----------------*----------------) (----------------*----------------) ----+---------+---------+---------+----20.00 20.80 21.60 22.40 Pooled StDev = 11.04 O p-value obtido é de 0,926, bastante superior à 0,05, indicando que, com intervalo de confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável não são estatisticamente diferentes. Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido anteriormente: Two-Sample T-Test and CI: PE ratio 2010; PE ratio 2005 Two-sample T for PE ratio 2010 vs PE ratio 2005 PE ratio 2010 PE ratio 2005 N 256 256 Mean 21.2 21.1 StDev 11.7 10.3 SE Mean 0.73 0.64 Difference = mu (PE ratio 2010) - mu (PE ratio 2005) Estimate for difference: 0.090 95% CI for difference: (-1.827; 2.008) T-Test of difference = 0 (vs not =): T-Value = 0.09 P-Value = 0.926 DF = 501 Abaixo o box-plot corroborando a as análises efetuadas acima. 10 Boxplot of PE ratio 2010; PE ratio 2005 80 70 60 Data 50 40 30 20 10 0 PE ratio 2010 PE ratio 2005 3.5 Variável Dividend yield (%) One-way ANOVA: Dividend yield (%) 2010; Dividend yield (%) 2005 Source Factor Error Total DF 1 510 511 S = 11.50 SS 30 67504 67534 MS 30 132 R-Sq = 0.04% F 0.23 P 0.635 R-Sq(adj) = 0.00% Level Dividend yield (%) 2010 Dividend yield (%) 2005 N 256 256 Mean 2.62 3.11 StDev 1.64 16.19 Level Dividend yield (%) 2010 Dividend yield (%) 2005 Individual 95% CIs For Mean Based on Pooled StDev --------+---------+---------+---------+(-------------*-------------) (-------------*-------------) --------+---------+---------+---------+2.0 3.0 4.0 5.0 Pooled StDev = 11.50 O p-value obtido é de 0,635, bastante superior à 0,05, indicando que, com intervalo de confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável não são estatisticamente diferentes. 11 Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido anteriormente: Two-Sample T-Test and CI: Dividend yield (%) 2010; Dividend yield (%) 2005 Two-sample T for Dividend yield (%) 2010 vs Dividend yield (%) 2005 Dividend yield (%) 2010 Dividend yield (%) 2005 N 256 256 Mean 2.62 3.1 StDev 1.64 16.2 SE Mean 0.10 1.0 Difference = mu (Dividend yield (%) 2010) - mu (Dividend yield (%) 2005) Estimate for difference: -0.48 95% CI for difference: (-2.49; 1.52) T-Test of difference = 0 (vs not =): T-Value = -0.48 P-Value = 0.635 DF = 260 Abaixo o box-plot corroborando a as análises efetuadas acima. Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2005 250 Data 200 150 100 50 0 Dividend yield (%) 2010 Dividend yield (%) 2005 4. EVOLUÇÃO DOS PAÍSES DO BRICS NO RANKING DAS 500 EMPRESAS MAIS VALIOSAS DO MUNDO Tabela 2. Evolução dos Países do BRICS no Ranking das 500 Empresas mais valiosas do mundo País Brasil 2005 Qtde % Total % BRICS 5 1.00% 31.25% 2010 Variação Qtde % Total % BRICS 2010/2005 12 2.40% 17.65% 140.0% 12 Rússia Índia China África do Sul Total BRICS Outros Total 4 0.80% 5 1.00% 0 0.00% 2 0.40% 16 3.20% 484 96.80% 500 100.00% 25.00% 31.25% 0.00% 12.50% ‐ ‐ ‐ 11 2.20% 16 3.20% 23 4.60% 6 1.20% 68 13.60% 432 86.40% 500 100.00% 16.18% 23.53% 33.82% 8.82% ‐ ‐ ‐ 175.0% 220.0% ‐ 200.0% 325.0% ‐10.7% ‐ Podemos observar que houve uma evolução muito significativa dos países do BRICS no ranking das 500 empresas mais valiosas do mundo. Houve uma variação positiva de 325%, sendo que em 2005 haviam 16 empresas do BRICS no ranking, que representavam 3,2% e em 2010 há 68 empresas do BRICS entre as 500 empresas mais valiosas do mundo, que representam 13,6%. Pie Chart of BRICS 2005; BRICS 2010 BRICS 2005 BRICS 2010 BRICS 16; 3.2% Outros 484; 96.8% Category BRICS Outros BRICS 68; 13.6% Outros 432; 86.4% Analisando isoladamente os países do BRICS, o país que teve maior evolução no ranking de 2005 para 2010 foi a China, que em 2005 não tinha nenhuma empresa no ranking e em 2010 tem 23 empresas. Sendo também a China o país do BRICS que possui mais empresas no ranking, representando 33,82%, seguido por Índia (16 empresas, 23,53%), Brasil (12 empresas, 17,65%), Russia (11 empresas, 16,18%) e África do Sul (6 empresas, 8,82%). 13 Pie Chart of Country 2005; Country 2010 Country 2005 Country 2010 South A frica 2; 12.5% Brazil 5; 31.3% Brazil 12; 17.6% Category Brazil India Russia South Africa China C hina 23; 33.8% Russia 4; 25.0% India 16; 23.5% India 5; 31.3% South Africa 6; 8.8% Russia 11; 16.2% Tabela 3. Evolução do Market value $m dos Países do BRICS no Ranking das 500 Empresas mais valiosas do mundo País Brasil Rússia Índia China África do Sul Total BRICS Outros Total 2005 Market value $m % Total % BRICS 131,571.50 0.68% 33.61% 140,865.70 0.73% 35.98% 89,731.30 0.46% 22.92% 0.00 0.00% 0.00% 29,311.10 0.15% 7.49% 391,479.60 2.02% ‐ 18,948,604.10 97.98% ‐ 19,340,083.70 100.00% ‐ 2010 Variação Market value $m % Total % BRICS 2010/2005 764,494.90 3.25% 20.93% 481.0% 512,896.70 2.18% 14.04% 264.1% 485,434.70 2.07% 13.29% 441.0% 1,751,832.20 7.45% 47.95% ‐ 138,650.80 0.59% 3.80% 373.0% 3,653,309.30 15.54% ‐ 833.2% 19,849,822.40 84.46% ‐ 4.8% 23,503,131.70 100.00% ‐ ‐ Se analisarmos a evolução em relação ao Market value, podemos observar uma evolução mais significativa ainda dos países do BRICS no ranking das 500 empresas mais valiosas do mundo. Houve uma variação positiva de 833,20%, sendo que em 2005 representavam 2,02% e em 2010 representam 15,54%. A variação da média populacional foi 32,56%. Outro dado muito interessante é que, em 2005 não havia nenhuma empresa do BRICS entre as 25 empresas mais valiosas do mundo e em 2010 existem 5 empresas entre as 25 mais valiosas do mundo, sendo que a empresa mais valiosa do mundo (PetroChina) é uma empresa da China, país pertencente ao BRICS. A China também possui a 4ª e a 11ª mais valiosa do mundo. O Brasil possui a 13ª (Petrobras) e a 22ª (Vale) empresa mais valiosa do mundo. 14 Global Rank 2005 Company 1 General Electric Country US Market value $m 382,233.10 Global Rank 2010 Company 1 PetroChina Country China Market value $m 329,259.70 2 ExxonMobil US 380,567.20 2 Exxon Mobil US 316,230.80 3 Microsoft US 262,974.90 3 Microsoft US 256,864.70 China 246,419.80 213,096.70 4 Citigroup US 234,436.70 Industrial & Commercial 4 Bank of China 5 BP UK 221,365.30 5 Apple US 6 Wal‐Mart Stores US 212,209.0 6 BHP Billiton Australia/UK 209,935.10 7 Royal Dutch/Shell Netherlands/UK 210,630.40 Johnson & 8 Johnson US 199,711.40 9 Pfizer 7 Wal‐Mart Stores US Berkshire 8 Hathaway US 209,000.70 200,620.50 9 General Electric US 194,246.20 US 195,944.60 10 Bank of America US 178,765.40 11 HSBC UK 176,858.40 12 Vodafone UK 171,416.90 12 Nestle Switzerland 13 IBM US 165,787.10 Brazil 186,239.50 14 Total France 148,957.10 US 183,773.40 15 Intel Corporation US 144,695.40 13 Petrobras Procter & 14 Gamble Johnson & 15 Johnson US 179,708.10 American International 16 Group US 144,319.20 179,073.90 17 Altria US 135,246.10 16 Bank of America US JP Morgan 17 Chase US 18 Toyota Motor Japan 134,324.40 19 GlaxoSmithKline Berkshire 20 Hathaway UK US 21 Procter & Gamble US Saudi Basic 22 Industries Saudi Arabia 10 China Mobile China Construction 11 Bank Hong Kong China 192,998.60 191,517.0 187,255.0 177,792.10 UK 177,609.10 134,123.50 18 BP Royal Dutch 19 Shell UK 176,968.10 134,067.20 20 HSBC UK 176,573.50 133,697.0 21 IBM US 166,597.10 128,790.0 Brazil 162,829.90 US 161,454.50 23 Novartis Switzerland 124,610.20 22 Vale Wells Fargo & 23 Co 24 ChevronTexaco US 123,536.30 24 AT&T US 152,509.60 25 JP Morgan Chase US 123,261.10 25 Chevron US 152,293.40 5. ESTUDOS COMPLEMENTARES 5.1 Análise de Tendências 15 Efetuar uma análise de tendência e projeção da evolução das empresas dos países do BRICS no Ranking das 500 empresas mais valiosas do mundo. Time Series Plot of Total BRICS; Outros Países 500 Variable Total BRICS Outros Países 400 Data 300 200 100 0 2005 2006 2007 2008 2009 2010 Ano Podemos observar pelo comportamento histórico das variáveis, que houve um crescimento muito grande na quantidade de empresas dos países do BRICS no ranking das 500 empresas mais valiosas do mundo de 2005 até 2008, em 2009 houve um leve queda e em 2010 o crescimento foi retomado. O mesmo comportamento, só que inverso, podemos observar na quantidade de empresas dos demais países do mundo. Vale observar que os dados divulgados pelo Financial Times tem como data base o ano anterior à divulgação, portanto essa variação no comportamento histórico ocorreu em função da crise financeira de 2008 e o comportamento de 2005 à 2008 deve ser mantido para os anos futuros. 5.1.1 Países BRICS 16 Trend Analysis Plot for Total BRICS Linear Trend Model Yt = 5.93 + 11.1*t Variable Actual Fits Forecasts 140 120 Accuracy Measures MA PE 10.7970 MA D 5.2032 MSD 49.8508 Total BRICS 100 80 60 40 20 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Ano Trend Analysis Plot for Total BRICS Quadratic Trend Model Yt = -5.9 + 20.0*t - 1.27*t**2 80 Variable Actual Fits Forecasts 70 Accuracy Measures MA PE 13.4988 MA D 5.1357 MSD 39.8488 Total BRICS 60 50 40 30 20 10 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Ano 17 Trend Analysis Plot for Total BRICS Growth Curve Model Yt = 13.979 * (1.3447**t) Variable Actual Fits Forecasts 600 Total BRICS 500 Accuracy Measures MA PE 13.736 MA D 7.246 MSD 108.359 400 300 200 100 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Ano O cálculo da Função S-Curve não foi possível para esta série. MAPE MAD MSD Linear 10,7970 5,2032 49,8508 Quadrática 13,4988 5,1357 39,8488 Exponencial 13,736 7,246 108,359 S-Curve - Com base nos resultados acima e considerando a variação do comportamento histórico em função da crise financeira de 2009, a função linear foi a que melhor se adaptou aos dados, pois a projeção da função quadrática sofre grande impacto em função da crise financeira. 5.1.2 Outros Países 18 Trend Analysis Plot for Outros Países Linear Trend Model Yt = 494.07 - 11.1143*t 500 Variable Actual Fits Forecasts Outros Países 475 Accuracy Measures MA PE 1.1745 MA D 5.2032 MSD 49.8508 450 425 400 375 350 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Ano Trend Analysis Plot for Outros Países Quadratic Trend Model Yt = 505.9 - 20.0*t + 1.27*t**2 490 Variable Actual Fits Forecasts 480 Outros Países 470 Accuracy Measures MA PE 1.1380 MA D 5.1357 MSD 39.8488 460 450 440 430 420 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Ano 19 Trend Analysis Plot for Outros Países Growth Curve Model Yt = 495.116 * (0.97597**t) 500 Variable Actual Fits Forecasts 480 Outros Países 460 Accuracy Measures MA PE 1.1568 MA D 5.1306 MSD 47.8719 440 420 400 380 360 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Ano O cálculo da Função S-Curve não foi possível para esta série. MAPE MAD MSD Linear 1,1745 5,2032 49,8508 Quadrática 1,1380 5,1357 39,8488 Exponencial 1,1568 5,1306 47,8719 S-Curve - No caso da projeção dos demais países que não pertencem ao BRICS, também iremos considerar que a função linear foi a que melhor se adaptou aos dados, pois iremos utilizar o mesmo tipo de modelo para realizar as projeções. A projeção da função quadrática sofre grande impacto em função da crise financeira e a projeção da função exponencial não é aplicável para os países do BRICS. 5.1.3 Resultado Analisando a planilha de resultados da análise de tendências abaixo, podemos observar que poderá haver um crescimento de 106% na quantidade de países do BRICS no ranking das 500 empresas mais valiosas do mundo, passando de 68 países em 2010 para 140 países em 2015. Já no caso do outros países, poderá haver uma redução de 17%, passando de 432 países em 2010 para 360 países em 2015. Comportamento Histórico Projeção 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Quantidade Total BRICS 16 25 36 66 58 68 90 103 115 128 140 Outros 484 475 464 434 442 432 410 397 385 372 360 20 Total 500 500 500 500 500 500 500 500 500 500 500 Percentual Total BRICS 3% 5% 7% 13% 12% 14% 18% 21% 23% 26% 28% Outros 97% 95% 93% 87% 88% 86% 82% 79% 77% 74% 72% Total 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 5.2 Estatística Descritiva Começamos com a análise das medidas e gráficos da estatística descritiva de cada uma das variáveis, a saber: Market Value $m, Turnover $m, Net Income $m, Total Assets $m, Employees, Price $, PE ratio e Dividend Yield (%). 5.2.1 Variável Market Value $m Segue abaixo o resumo exploratório desta variável: Summary for Market value $m 2010 A nderson-D arling N ormality Test 60000 120000 180000 240000 A -S quared P -V alue < 25.54 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 53335 50816 2582254479 2.46625 7.25743 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 300000 16048 22466 33589 61229 329260 95% C onfidence Interv al for M ean 47080 59589 95% C onfidence Interv al for M edian 30140 37160 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 46762 55645 Mean Median 30000 35000 40000 45000 50000 55000 60000 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (172.654) entre o valor mínimo (16.048) e o valor máximo (329.260) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 96.907,5 $m. Os maiores valores são a PetroChina (1ª colocada) com 329.260 e a Exxon Mobil (2ª colocada) com 316.231. 21 - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o valor de mercado menor que 33.589 e metade maior que esse valor. A média do valor de mercado é de 53.335, e o desvio padrão é de 50.816 (alto). O valor mínimo foi 16.048 e o valor máximo foi 329.260. Com 95% de confiança, podemos afirmar que a média do valor de mercado das empresas encontra-se entre 47.080 e 59.589. 5.2.2 Variável Turnover $m Segue abaixo o resumo exploratório desta variável: Summary for Turnover $m 2010 A nderson-D arling N ormality Test 0 60000 120000 180000 240000 300000 A -S quared P -V alue < 22.91 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 40419 49562 2456363318 3.4064 16.6408 255 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 360000 1822 11850 22953 48935 405046 95% C onfidence Interv al for M ean 34307 46531 95% C onfidence Interv al for M edian 20258 25276 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 45601 54282 Mean Median 20000 25000 30000 35000 40000 45000 50000 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (203.434) entre o valor mínimo (1.822) e o valor máximo (405.046) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 92.712,5 $m. O maior valor é do Wal-Mart Stores (7ª colocada) com 405.046. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o turnover menor que 22.953 e metade maior que esse valor. A média do turnover é de 40.419, e o desvio padrão é de 49.562 (alto). O valor mínimo foi 1.822 e o valor máximo foi 405.046. Com 95% de confiança, podemos afirmar que a média do turnover das empresas encontra-se entre 34.307 e 46.531. 5.2.3 Variável Net Income $m 22 Segue abaixo o resumo exploratório desta variável: Summary for Net Income $m 2010 A nderson-D arling N ormality Test 0 4000 8000 12000 16000 20000 24000 A -S quared P -V alue < 29.68 0.005 M ean S tDev V ariance S kew ness Kurtosis N 3243.3 3744.2 14019171.1 2.57108 7.29306 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 289.4 1155.5 1796.7 3465.8 24330.9 95% C onfidence Interv al for M ean 2782.4 3704.1 95% C onfidence Interv al for M edian 1592.5 2027.7 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 3445.5 4100.0 Mean Median 1500 2000 2500 3000 3500 4000 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (12.310,15) entre o valor mínimo (289,4) e o valor máximo (24.330,9) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 5.775,75 $m. O maior valor é do Gazprom (33ª colocada) com 24.330,90. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o Net Income menor que 1.796,7 e metade maior que esse valor. A média do Net Income é de 3.243,3, e o desvio padrão é de 3.744,2 (alto). O valor mínimo foi 289,4 e o valor máximo foi 24.330,9. Com 95% de confiança, podemos afirmar que a média do Net Income das empresas encontra-se entre 2.782,4 e 3.704,1. 5.2.4 Variável Total Assets $m Segue abaixo o resumo exploratório desta variável: 23 Summary for Total Assets $m 2010 A nderson-D arling N ormality Test 0 150000 300000 450000 600000 A -S quared P -V alue < 26.61 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 57818 74848 5602174812 4.6414 35.2693 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 750000 2520 18312 34556 65076 781818 95% C onfidence Interv al for M ean 48605 67030 95% C onfidence Interv al for M edian 31264 38599 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 68877 81960 Mean Median 30000 40000 50000 60000 70000 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (392.169) entre o valor mínimo (2.520) e o valor máximo (781.818) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 116.910 $m. O maior valor é da General Eletric (9ª colocada) com 781.818. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o Total Assets menor que 34.556 e metade maior que esse valor. A média do Total Assets é de 57.818, e o desvio padrão é de 74.848 (alto). O valor mínimo foi 2.520 e o valor máximo foi 781.818. Com 95% de confiança, podemos afirmar que a média do Total Assets das empresas encontra-se entre 48.605 e 67.030. 5.2.5 Variável Employees Segue abaixo o resumo exploratório desta variável: 24 Summary for Employees 2010 A nderson-D arling N ormality Test 0 300000 600000 900000 1200000 1500000 1800000 2100000 A -S quared P -V alue < 31.62 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 97210 162659 26457833696 7.8825 90.4131 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 1814 26439 52369 104377 2100000 95% C onfidence Interv al for M ean 77189 117230 95% C onfidence Interv al for M edian 43510 64104 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 149683 178116 Mean Median 40000 60000 80000 100000 120000 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (1.050.907) entre o valor mínimo (1.814) e o valor máximo (2.100.000) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 197.345 $m. O maior valor é do Wal-Mart Stores (7ª colocada) com 2.100.000 empregados. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui quantidade de empregados menor que 52.369 e metade maior que esse valor. A média de empregados é de 97.210, e o desvio padrão é de 162.659 (alto). O valor mínimo foi 1.814 e o valor máximo foi 2.100.000. Com 95% de confiança, podemos afirmar que a média da quantidade de empregados das empresas encontra-se entre 77.189 e 117.230. 5.2.6 Variável Price $ Segue abaixo o resumo exploratório desta variável: 25 Summary for Price $ 2010 A nderson-D arling N ormality Test 0 1500 3000 4500 6000 7500 A -S quared P -V alue < 82.83 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 153.86 769.43 592029.98 8.3506 72.3440 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0.80 24.77 42.35 65.00 7619.90 95% C onfidence Interv al for M ean 59.15 248.56 95% C onfidence Interv al for M edian 37.08 47.78 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 708.06 842.55 Mean Median 50 100 150 200 250 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (3.810,35) entre o valor mínimo (0,80) e o valor máximo (7.619,90) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há diversos valores atípicos no gráfico, com valores acima de 100,575 $m. Os maiores valores são a Central Japan Railway (490ª colocada) com 7.619,90 e a Inpex (465ª colocada) com 7.341,60. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o preço da ação menor que 42.35 e metade maior que esse valor. A média do preço da ação é de 153,86, e o desvio padrão é de 769,43 (alto). O valor mínimo foi 0,80 e o valor máximo foi 7.619,90. Com 95% de confiança, podemos afirmar que a média do preço da ação das empresas encontra-se entre 59,15 e 248,56. 5.2.7 Variável PE ratio Segue abaixo o resumo exploratório desta variável: 26 Summary for PE ratio 2010 A nderson-D arling N ormality Test 15 30 45 60 A -S quared P -V alue < 14.20 0.005 M ean S tDev V ariance S kew ness Kurtosis N 21.154 11.731 137.611 2.24741 6.30172 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 75 5.700 14.350 17.800 23.850 77.700 95% C onfidence Interv al for M ean 19.710 22.597 95% C onfidence Interv al for M edian 17.084 18.800 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 10.795 12.846 Mean Median 17 18 19 20 21 22 23 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (41,700) entre o valor mínimo (5,700) e o valor máximo (77,700) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há diversos valores atípicos no gráfico, com valores acima de 23,750 $m. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o PE ratio menor que 17,800 e metade maior que esse valor. A média do PE ratio é de 21,154, e o desvio padrão é de 11,731 (alto). O valor mínimo foi 5,700 e o valor máximo foi 77,700. Com 95% de confiança, podemos afirmar que a média do PE ratio das empresas encontra-se entre 19,710 e 22,597. 5.2.8 Variável Dividend Yield (%) Segue abaixo o resumo exploratório desta variável: 27 Summary for Dividend yield (%) 2010 A nderson-D arling N ormality Test 0.0 1.5 3.0 4.5 6.0 A -S quared P -V alue < 3.34 0.005 M ean S tDev V ariance S kew ness Kurtosis N 2.6238 1.6447 2.7049 0.816369 0.444275 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 7.5 0.1000 1.4000 2.4000 3.6000 8.4000 95% C onfidence Interv al for M ean 2.4214 2.8263 95% C onfidence Interv al for M edian 2.1000 2.6000 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 1.5135 1.8009 Mean Median 2.0 2.2 2.4 2.6 2.8 As principais observações que podemos fazer são: - Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o ponto médio (4,25) entre o valor mínimo (0,10) e o valor máximo (8,40) registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do gráfico de caixa nos confirma esta afirmativa. - Valores Atípicos: Há 2 valores atípicos no gráfico, com valores acima de 5,50 $m, sendo eles: a France Telecom (91ª colocada) com 8,40 e a Mobile Telesystems (470ª colocada) com 7,70. - Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas possui o Dividend Yield (%) menor que 2,400 e metade maior que esse valor. A média do Dividend Yield (%) é de 2,6238, e o desvio padrão é de 1,6447 (alto). O valor mínimo foi 0,10 e o valor máximo foi 8,40. Com 95% de confiança, podemos afirmar que a média do Dividend Yield (%) das empresas encontra-se entre 2,4214 e 2,8263. 5.3 Análise de Relação entre Variáveis Verificar a relação entre as variáveis de dados de indicadores relacionados ao Ranking das 500 empresas mais valiosas do mundo. 28 Scatterplot of Market value vs Turnover $m ; Net Income $; ... Turnov er $ m 2010 N et Income $ m 2010 Total A ssets $ m 2010 300000 Market value $m 2010 150000 0 0 200000 E mploy ees 2010 4000000 10000 20000 P rice $ 2010 0 400000 P E ratio 2010 800000 300000 150000 0 0 1000000 2000000 0 D iv idend y ield (% ) 2010 4000 8000 0 40 80 300000 150000 0 0 4 8 Podemos observar pela análise dos gráficos de dispersão que a variável Net Income $m possui uma relação linear de associação positiva muito clara. Outras variáveis como o Turnover $m e Total Assets $m também possuem esta relação, porém com dados mais dispersos. Turnover $m Net Income $m Total Assets $m Market Value $m Turnover $m 0,654 0,000 0,870 0,658 0,000 0,612 0,000 0,679 0,608 0,000 0,639 0,000 -0,032 0,607 -0,111 0,076 0,194 0,002 0,000 0,347 0,000 -0,052 0,405 -0,347 0,000 0,235 0,000 0,000 Employees 0,366 0,000 Price $ -0,076 0,228 PE ratio -0,124 0,047 Dividend yield 0,137 0,028 Net Income $m Total Assets $m 0,306 0,000 -0,043 0,498 -0,134 0,032 0,270 0,000 Employees Price $ PE ratio -0,066 0,293 0,005 0,942 0,006 0,920 -0,328 0,000 -0,082 0,190 -0,098 0,116 Cell Contents: Pearson correlation P-Value Quase todas as correlações são significativas de acordo com o P-Value (para este trabalho consideraremos significativo P-Value menor ou igual a 0,10), exceto as correlações com a 29 variável Price $ e PE ratio x Employees, Dividend yield x Employees. Assim como verificado no gráfico de dispersão, as variáveis Turnover $m, NET Income $m e Total Assets $m possuem um coeficiente de correlação alto com a variável dependente Market Value $m, sendo a variável Net Income $m com maior correlação e a variável Price $ com a menor correlação. Dendrogram Single Linkage; Correlation Coefficient Distance Similarity 48.38 65.59 82.79 100.00 k ar M et e lu va $m 10 20 Ne m co n tI e $m 10 20 er ov n r Tu $m 10 20 l ta To ts se s A $m 10 20 Em ee oy l p s 10 20 d en d vi Di d el yi 0 01 2 ) (% PE ra tio 10 20 e ic Pr $ 10 20 Variables Através da observação e análise do Dendograma, podemos observar um maior grau de similaridade da variável Market Value com o Net Income $m. As variáveis Turnover $m e Total Assets $m também também possuem um alto grau de similaridade. A variável Price $ possui o menor grau de similaridade. Essas verificações estão de acordo com o observado previamente nos gráficos de dispersão e análise de correlação. 5.4 Regressões Múltiplas Realizar uma análise de regressões múltiplas com dados de indicadores relacionados ao Ranking das 500 empresas mais valiosas do mundo, buscando encontrar as equações de regressão linear múltipla tendo como variável explicativa o Valor de Mercado. Regression Analysis: Market value versus Turnover $m ; Net Income $; ... The regression equation is Market value $m 2010 = - 1851 + 0.0671 Turnover $m 2010 + 11.3 Net Income $m 2010 + 0.0659 Total Assets $m 2010 + 0.0009 Employees 2010 - 1.06 Price $ 2010 + 739 PE ratio 2010 - 1389 Dividend yield (%) 2010 255 cases used, 1 cases contain missing values 30 Predictor Constant Turnover $m 2010 Net Income $m 2010 Total Assets $m 2010 Employees 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 S = 22815.9 Coef -1851 0.06706 11.3467 0.06594 0.00086 -1.055 739.3 -1389.1 R-Sq = 80.5% SE Coef 4982 0.05373 0.5743 0.02887 0.01182 1.891 139.2 967.7 T -0.37 1.25 19.76 2.28 0.07 -0.56 5.31 -1.44 P 0.711 0.213 0.000 0.023 0.942 0.577 0.000 0.152 R-Sq(adj) = 79.9% Analysis of Variance Source Regression Residual Error Total DF 7 247 254 SS 5.29880E+11 1.28580E+11 6.58461E+11 Source Turnover $m 2010 Net Income $m 2010 Total Assets $m 2010 Employees 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 DF 1 1 1 1 1 1 1 MS 75697213299 520567290 F 145.41 P 0.000 Seq SS 2.82033E+11 2.24561E+11 2595321650 215084037 524894264 18878467084 1072795435 Unusual Observations Obs 1 2 3 4 5 6 8 12 13 15 21 23 25 28 33 49 93 112 127 176 187 242 254 Turnover $m 2010 149303 301500 58437 54661 405046 155777 97084 247788 278188 27823 115246 41825 23252 35127 95037 117216 18808 70168 123156 54135 35919 11052 16127 Market value $m 2010 329260 316231 256865 209935 209001 194246 187255 177609 176968 162830 137996 134040 129041 123130 101072 74014 45868 37243 34038 24709 23230 17315 16383 Fit 200534 261315 183425 101872 209253 193853 135263 224581 182303 91823 301755 76989 83504 71500 99639 152892 126610 34947 65731 62453 27794 16425 16373 SE Fit 5645 11153 6092 3236 18185 17571 3273 8588 9331 2964 10452 2730 3244 2078 7005 4474 5314 7264 7352 7678 9477 13444 13991 Residual 128725 54916 73439 108063 -252 393 51992 -46972 -5334 71007 -163759 57051 45537 51630 1433 -78878 -80742 2296 -31694 -37744 -4564 890 10 St Resid 5.82R 2.76RX 3.34R 4.78R -0.02 X 0.03 X 2.30R -2.22RX -0.26 X 3.14R -8.07RX 2.52R 2.02R 2.27R 0.07 X -3.53R -3.64R 0.11 X -1.47 X -1.76 X -0.22 X 0.05 X 0.00 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 31 O R-Quadrado é de 80,5%, o que significa que 80,5% do comportamento do Market Value está sendo explicado pela equação apresentada. O P-value das variáveis Turnover $m, Employees, Price e Dividend Yield (%) nos leva a descartá-las do modelo do modelo, o que é coerente com a análise do dendograma, exceto pela variável Turnover $m. Stepwise Regression: Market value versus Turnover $m ; Net Income $; ... Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15 Response is Market value $m 2010 on 7 predictors, with N = 255 N(cases with missing observations) = 1 N(all cases) = 256 Step Constant 1 14986 2 -6596 3 -6930 4 -6735 Net Income $m 2010 T-Value P-Value 11.81 28.11 0.000 12.76 30.81 0.000 11.78 22.74 0.000 11.39 19.95 0.000 875 6.62 0.000 835 6.38 0.000 807 6.13 0.000 0.077 3.09 0.002 0.057 2.06 0.040 PE ratio 2010 T-Value P-Value Total Assets $m 2010 T-Value P-Value Turnover $m 2010 T-Value P-Value S R-Sq R-Sq(adj) Mallows Cp 0.069 1.58 0.116 25122 75.75 75.66 55.7 23234 79.34 79.18 12.3 22849 80.10 79.86 4.7 22782 80.29 79.98 4.3 Utilizando a função stepwise, as variáveis Employees, Price $ e Dividend Yield (%) são excluídas, pelos motivos explicados na análise de regressão, com exceção da variável Turnover $m, que foi mantida pela função stepwise. Os demais valores ficaram muito próximos da análise de regressão. O R-Quadrado é de 80,29%, o que significa que 80,29% do comportamento do Market Value está sendo explicado pela equação apresentada. 5.5 Amostragem O presente tópico tem por objetivo efetuar uma pesquisa por amostragem e análise comparativa de médias e intervalos de confiança, variância dos dados de indicadores relacionados ao Ranking das 500 empresas mais valiosas do mundo. 5.5.1 Variável Market Value $m 32 Summary for Market value $m 2010 A nderson-Darling N ormality Test 60000 120000 180000 240000 A -S quared P -V alue < 25.54 0.005 M ean S tD ev V ariance S kew ness Kurtosis N 53335 50816 2582254479 2.46625 7.25743 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 300000 16048 22466 33589 61229 329260 População Total Média: 53.335 Desvio Padrão: 50.816 Mínimo: 16.048 Mediana: 33.589 Máximo: 61.229 95% C onfidence Interv al for M ean 47080 59589 95% C onfidence Interv al for M edian 30140 37160 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 46762 55645 Mean Median 30000 35000 40000 45000 50000 55000 60000 Summary for Market value $m 2010_AM20 A nderson-Darling N ormality Test 40000 80000 120000 A -S quared P -V alue < 1.53 0.005 M ean S tDev V ariance S kew ness Kurtosis N 57779 47371 2243999060 1.36671 0.97440 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 160000 16048 22655 37385 94635 176968 Amostra Tamanho 20 Média: 57.779 Desvio Padrão: 47.371 Mínimo: 16.048 Mediana: 37.385 Máximo: 176.968 95% C onfidence Interv al for M ean 35609 79949 95% C onfidence Interv al for M edian 25546 76199 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 36025 69189 Mean Median 20000 30000 40000 50000 60000 70000 80000 Summary for Market value $m 2010_AM50 A nderson-Darling N ormality Test 30000 60000 90000 120000 150000 A -S quared P -V alue < 3.19 0.005 M ean S tDev V ariance S kew ness Kurtosis N 44948 30838 950979993 1.80517 3.21238 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 16981 23285 33748 53848 152510 Amostra Tamanho 50 Média: 44.958 Desvio Padrão: 30.838 Mínimo: 16.981 Mediana: 33.748 Máximo: 152.510 95% C onfidence Interv al for M ean 36184 53712 95% C onfidence Interv al for M edian 27463 45911 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 25760 38428 Mean Median 30000 35000 40000 45000 50000 55000 33 Summary for Market value $m 2010_AM100 A nderson-Darling N ormality Test 60000 120000 180000 240000 A -S quared P -V alue < 10.45 0.005 M ean S tDev V ariance S kew ness Kurtosis N 54808 55670 3099180572 2.86259 9.93323 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 300000 16048 21681 36813 56498 329260 Amostra Tamanho 100 Média: 54.808 Desvio Padrão: 55.670 Mínimo: 16.048 Mediana: 36.813 Máximo: 329.260 95% C onfidence Interv al for M ean 43762 65854 95% C onfidence Interv al for M edian 27214 43074 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 48879 64671 Mean Median 30000 40000 50000 60000 70000 A amostra que mais representou a população total foi a de maior tamanho (100), cuja média é a mais próxima da população total, sendo, portanto a mais representativa. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Boxplot of Market value $m 2010; Market value $m 2010_AM20 350000 Two-Sample T-Test and CI: Market value $m 2010; Market value $m 2010_AM20 300000 Two-sample T for Market value $m 2010 vs Market value $m 2010_AM20 Data 250000 200000 N 150000 Mean StDev SE Mean Market value $m 2010 53335 50816 3176 Market value $m 2010_AM2 57779 47371 10592 100000 50000 256 20 0 Market value $m 2010 Market value $m 2010_AM20 Difference = mu (Market value $m 2010) - mu (Market value $m 2010_AM20) Estimate for difference: -4444 95% CI for difference: (-27378; 18489) T-Test of difference = 0 (vs not =): T-Value = -0.40 P-Value = 0.692 DF = 22 34 Two-Sample T-Test and CI: Market value $m 2010; Market value $m 2010_AM50 Boxplot of Market value $m 2010; Market value $m 2010_AM50 350000 300000 Two-sample T for Market value $m 2010 vs Market value $m 2010_AM50 Data 250000 200000 N 150000 Mean StDev SE Mean Market value $m 2010 53335 50816 3176 Market value $m 2010_AM5 44948 30838 4361 100000 50000 256 50 0 Market value $m 2010 Market value $m 2010_AM50 Difference = mu (Market value $m 2010) - mu (Market value $m 2010_AM50) Estimate for difference: 8387 95% CI for difference: (-2307; 19081) T-Test of difference = 0 (vs not =): T-Value = 1.55 P-Value = 0.123 DF = 108 Two-Sample T-Test and CI: Market value $m 2010; Market value $m 2010_AM100 Boxplot of Market value $m 2010; Market value $m 2010_AM100 350000 300000 Two-sample T for Market value $m 2010 vs Market value $m 2010_AM100 Data 250000 200000 150000 N Mean StDev SE Mean Market value $m 2010 53335 50816 3176 Market value $m 2010_AM1 54808 55670 5567 100000 50000 0 Market value $m 2010 256 100 Market value $m 2010_AM100 Difference = mu (Market value $m 2010) - mu (Market value $m 2010_AM100) Estimate for difference: -1473 95% CI for difference: (-14127; 11180) T-Test of difference = 0 (vs not =): T-Value = -0.23 P-Value = 0.818 DF = 167 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui. One-way ANOVA: Market value; Market value; Market value; Market value Source Factor Error Total DF 3 422 425 S = 49989 SS 4050595349 1.05453E+12 1.05858E+12 R-Sq = 0.38% MS 1350198450 2498880973 F 0.54 P 0.655 R-Sq(adj) = 0.00% 35 Level Market Market Market Market value value value value Level Market Market Market Market value value value value $m $m $m $m N 256 20 50 100 2010 2010_AM2 2010_AM5 2010_AM1 $m $m $m $m Mean 53335 57779 44948 54808 StDev 50816 47371 30838 55670 Individual 95% CIs For Mean Based on Pooled StDev ---------+---------+---------+---------+ (----*---) (--------------*-------------) (--------*--------) (------*-----) ---------+---------+---------+---------+ 45000 60000 75000 90000 2010 2010_AM2 2010_AM5 2010_AM1 Pooled StDev = 49989 5.5.2 Variável Turnover Value $m Summary for Turnover $m 2010 A nderson-Darling N ormality Test 0 60000 120000 180000 240000 300000 A -S quared P -V alue < 22.91 0.005 M ean S tDev V ariance S kew ness Kurtosis N 40419 49562 2456363318 3.4064 16.6408 255 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 360000 1822 11850 22953 48935 405046 População Total Média: 40.419 Desvio Padrão: 49.562 Mínimo: 1.822 Mediana: 22.953 Máximo: 405.046 95% C onfidence Interv al for M ean 34307 46531 95% C onfidence Interv al for M edian 20258 25276 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 45601 54282 Mean Median 20000 25000 30000 35000 40000 45000 50000 Summary for Turnover $m 2010_AM20 A nderson-Darling N ormality Test 0 50000 100000 150000 200000 250000 300000 A -S quared P -V alue < 2.54 0.005 M ean S tDev V ariance S kew ness Kurtosis N 49455 66011 4357417367 2.61898 7.46294 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 2729 11520 26232 54673 278188 Amostra Tamanho 20 Média: 49.455 Desvio Padrão: 66.011 Mínimo: 2.729 Mediana: 26.232 Máximo: 278.188 95% C onfidence Interv al for M ean 18561 80349 95% C onfidence Interv al for M edian 17195 46228 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 50201 96413 Mean Median 20000 30000 40000 50000 60000 70000 80000 36 Summary for Turnover $m 2010_AM50 A nderson-Darling N ormality Test 0 30000 60000 90000 A -S quared P -V alue < 3.03 0.005 M ean S tDev V ariance S kew ness Kurtosis N 34815 30506 930619969 1.48722 1.67822 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 120000 2748 15233 23424 48102 123156 Amostra Tamanho 50 Média: 34.815 Desvio Padrão: 30.506 Mínimo: 2.748 Mediana: 23.424 Máximo: 123.156 95% C onfidence Interv al for M ean 26145 43484 95% C onfidence Interv al for M edian 18858 30924 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 25483 38015 Mean Median 20000 25000 30000 35000 40000 45000 Summary for Turnover $m 2010_AM100 A nderson-Darling N ormality Test 0 60000 120000 180000 240000 300000 A -S quared P -V alue < 9.46 0.005 M ean S tDev V ariance S kew ness Kurtosis N 46240 55503 3080557458 2.12195 5.22470 99 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 1822 11584 20763 66176 301500 Amostra Tamanho 100 Média: 46.240 Desvio Padrão: 55.503 Mínimo: 1.822 Mediana: 320.763 Máximo: 301.500 95% C onfidence Interv al for M ean 35170 57310 95% C onfidence Interv al for M edian 15893 26776 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 48702 64529 Mean Median 10000 20000 30000 40000 50000 60000 A amostra que mais representou a população total foi a de tamanho 50, cuja média é a mais próxima da população total, sendo, portanto a mais representativa. Talvez a amostra de tamanho 100 tenha contido valores aleatórios muito dispersos que tenham distorcido os seus resultados. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. 37 Boxplot of Turnover $m 2010; Turnover $m 2010_AM20 400000 Two-sample T for Turnover $m 2010 vs Turnover $m 2010_AM20 300000 Data Two-Sample T-Test and CI: Turnover $m 2010; Turnover $m 2010_AM20 200000 StDev SE Mean Turnover $m 2010 49562 3104 Turnover $m 2010_AM20 66011 14760 100000 N Mean 255 40419 20 49455 0 Turnover $m 2010 Turnover $m 2010_AM20 Difference = mu (Turnover $m 2010) - mu (Turnover $m 2010_AM20) Estimate for difference: -9036 95% CI for difference: (-40499; 22427) T-Test of difference = 0 (vs not =): T-Value = -0.60 P-Value = 0.556 DF = 20 Boxplot of Turnover $m 2010; Turnover $m 2010_AM50 400000 Two-sample T for Turnover $m 2010 vs Turnover $m 2010_AM50 300000 Data Two-Sample T-Test and CI: Turnover $m 2010; Turnover $m 2010_AM50 200000 StDev SE Mean Turnover $m 2010 49562 3104 Turnover $m 2010_AM50 30506 4314 100000 N Mean 255 40419 50 34815 0 Turnover $m 2010 Turnover $m 2010_AM50 Difference = mu (Turnover $m 2010) - mu (Turnover $m 2010_AM50) Estimate for difference: 5604 95% CI for difference: (-4931; 16140) T-Test of difference = 0 (vs not =): T-Value = 1.05 P-Value = 0.294 DF = 107 Boxplot of Turnover $m 2010; Turnover $m 2010_AM100 400000 Two-sample T for Turnover $m 2010 vs Turnover $m 2010_AM100 300000 Data Two-Sample T-Test and CI: Turnover $m 2010; Turnover $m 2010_AM100 N 200000 Mean StDev SE Mean Turnover $m 2010 40419 49562 3104 Turnover $m 2010_AM100 46240 55503 5578 100000 255 99 0 Turnover $m 2010 Turnover $m 2010_AM100 Difference = mu (Turnover $m 2010) - mu (Turnover $m 2010_AM100) 38 Estimate for difference: -5821 95% CI for difference: (-18427; 6785) T-Test of difference = 0 (vs not =): T-Value = -0.91 P-Value = 0.363 DF = 162 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que possui média mais próxima da população total. One-way ANOVA: Turnover $m ; Turnover $m ; Turnover $m ; Turnover $m Source Factor Error Total DF 3 420 423 SS 6021976755 1.05420E+12 1.06022E+12 S = 50100 R-Sq = 0.57% Level Turnover Turnover Turnover Turnover 2010 2010_AM20 2010_AM50 2010_AM100 Level Turnover Turnover Turnover Turnover $m $m $m $m $m $m $m $m 2010 2010_AM20 2010_AM50 2010_AM100 MS 2007325585 2510005291 F 0.80 P 0.495 R-Sq(adj) = 0.00% N 255 20 50 99 Mean 40419 49455 34815 46240 StDev 49562 66011 30506 55503 Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(---*---) (--------------*--------------) (--------*--------) (------*-----) ------+---------+---------+---------+--30000 45000 60000 75000 Pooled StDev = 50100 5.5.3 Variável Turnover Value $m 39 Summary for Net Income $m 2010 A nderson-Darling N ormality Test 0 4000 8000 12000 16000 20000 24000 A -S quared P -V alue < 29.68 0.005 M ean S tDev V ariance S kew ness Kurtosis N 3243.3 3744.2 14019171.1 2.57108 7.29306 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 289.4 1155.5 1796.7 3465.8 24330.9 População Total Média: 3.243,3 Desvio Padrão: 3.744,2 Mínimo: 289,4 Mediana: 1.796,7 Máximo: 24.330,9 95% C onfidence Interv al for M ean 2782.4 3704.1 95% C onfidence Interv al for M edian 1592.5 2027.7 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 3445.5 4100.0 Mean Median 1500 2000 2500 3000 3500 4000 Summary for Net Income $m 2010_AM20 A nderson-Darling N ormality Test 0 2000 4000 6000 8000 10000 A -S quared P -V alue < 1.90 0.005 M ean S tDev V ariance S kew ness Kurtosis N 3946.2 4283.1 18344803.4 1.33051 0.48668 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 12000 443.4 903.4 1632.1 6035.5 12855.0 Amostra Tamanho 20 Média: 3.946,2 Desvio Padrão: 4.283,1 Mínimo: 443,4 Mediana: 1.632,1 Máximo: 12.855,0 95% C onfidence Interv al for M ean 1941.6 5950.7 95% C onfidence Interv al for M edian 1093.2 5050.6 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 3257.2 6255.8 Mean Median 1000 2000 3000 4000 5000 6000 Summary for Net Income $m 2010_AM50 A nderson-Darling N ormality Test 0 3000 6000 9000 A -S quared P -V alue < 4.45 0.005 M ean S tDev V ariance S kew ness Kurtosis N 2618.6 2435.2 5930305.9 2.42970 6.61658 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 12000 469.6 1088.6 1734.6 3228.4 12535.0 Amostra Tamanho 50 Média: 2.618,6 Desvio Padrão: 2.435,2 Mínimo: 469,6 Mediana: 1.734,6 Máximo: 12.535,0 95% C onfidence Interv al for M ean 1926.5 3310.7 95% C onfidence Interv al for M edian 1323.3 2236.4 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 2034.2 3034.6 Mean Median 1500 2000 2500 3000 3500 40 Summary for Net Income $m 2010_AM100 A nderson-Darling N ormality Test 0 4000 8000 12000 16000 20000 24000 A -S quared P -V alue < 12.35 0.005 M ean S tDev V ariance S kew ness Kurtosis N 3416.5 4235.6 17940352.4 2.68620 8.06142 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 303.0 1171.7 1707.5 3647.8 24330.9 Amostra Tamanho 100 Média: 3.416,5 Desvio Padrão: 4.235,6 Mínimo: 303,0 Mediana: 1.707,7 Máximo: 24.330,9 95% C onfidence Interv al for M ean 2576.0 4256.9 95% C onfidence Interv al for M edian 1498.1 2156.4 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 3718.9 4920.4 Mean Median 1500 2000 2500 3000 3500 4000 4500 A amostra que mais representou a população total foi a de maior tamanho (100), cuja média é a mais próxima da população total, sendo, portanto a mais representativa. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Boxplot of Net Income $m 2010; Net Income $m 2010_AM20 25000 Two-Sample T-Test and CI: Net Income $m 2010; Net Income $m 2010_AM20 20000 Two-sample T for Net Income $m 2010 vs Net Income $m 2010_AM20 Data 15000 N Mean StDev SE Mean Net Income $m 2010 3243 3744 234 Net Income $m 2010_AM20 3946 4283 958 10000 5000 256 20 0 Net Income $m 2010 Net Income $m 2010_AM20 Difference = mu (Net Income $m 2010) - mu (Net Income $m 2010_AM20) Estimate for difference: -703 95% CI for difference: (-2753; 1347) T-Test of difference = 0 (vs not =): T-Value = -0.71 P-Value = 0.484 DF = 21 41 Boxplot of Net Income $m 2010; Net Income $m 2010_AM50 25000 Two-Sample T-Test and CI: Net Income $m 2010; Net Income $m 2010_AM50 20000 Two-sample T for Net Income $m 2010 vs Net Income $m 2010_AM50 Data 15000 N Mean StDev SE Mean Net Income $m 2010 3243 3744 234 Net Income $m 2010_AM50 2619 2435 344 10000 5000 256 50 0 Net Income $m 2010 Net Income $m 2010_AM50 Difference = mu (Net Income $m 2010) - mu (Net Income $m 2010_AM50) Estimate for difference: 625 95% CI for difference: (-201; 1451) T-Test of difference = 0 (vs not =): T-Value = 1.50 P-Value = 0.137 DF = 100 Boxplot of Net Income $m 2010; Net Income $m 2010_AM100 25000 Two-Sample T-Test and CI: Net Income $m 2010; Net Income $m 2010_AM100 20000 Two-sample T for Net Income $m 2010 vs Net Income $m 2010_AM100 Data 15000 N Mean StDev SE Mean Net Income $m 2010 3243 3744 234 Net Income $m 2010_AM100 3416 4236 424 10000 5000 256 100 0 Net Income $m 2010 Net Income $m 2010_AM100 Difference = mu (Net Income $m 2010) - mu (Net Income $m 2010_AM100) Estimate for difference: -173 95% CI for difference: (-1129; 782) T-Test of difference = 0 (vs not =): T-Value = -0.36 P-Value = 0.721 DF = 162 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que possui média mais próxima da população total. One-way ANOVA: Net Income $; Net Income $; Net Income $; Net Income $ Source Factor Error Total DF 3 422 425 S = 3768 SS 32390802 5990119766 6022510569 R-Sq = 0.54% MS 10796934 14194597 F 0.76 P 0.517 R-Sq(adj) = 0.00% 42 Level Net Income Net Income Net Income Net Income Level Net Income Net Income Net Income Net Income $m $m $m $m $m $m $m $m 2010 2010_AM20 2010_AM50 2010_AM100 2010 2010_AM20 2010_AM50 2010_AM100 N 256 20 50 100 Mean 3243 3946 2619 3416 StDev 3744 4283 2435 4236 Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(---*---) (-------------*-------------) (--------*--------) (-----*------) -------+---------+---------+---------+-2400 3600 4800 6000 Pooled StDev = 3768 5.5.4 Variável Total Assets $m Summary for Total Assets $m 2010 A nderson-Darling N ormality Test 0 150000 300000 450000 600000 A -S quared P -V alue < 26.61 0.005 M ean S tDev V ariance S kew ness Kurtosis N 57818 74848 5602174812 4.6414 35.2693 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 750000 2520 18312 34556 65076 781818 População Total Média: 57.818 Desvio Padrão: 74.848 Mínimo: 2.520 Mediana: 34.556 Máximo: 78.818 95% C onfidence Interv al for M ean 48605 67030 95% C onfidence Interv al for M edian 31264 38599 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 68877 81960 Mean Median 30000 40000 50000 60000 70000 Summary for Total Assets $m 2010_AM20 A nderson-Darling N ormality Test 0 50000 100000 150000 200000 250000 300000 A -S quared P -V alue < 2.45 0.005 M ean S tDev V ariance S kew ness Kurtosis N 81106 88061 7754716653 1.63162 1.44401 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 3125 28339 40335 111319 292181 Amostra Tamanho 20 Média: 81.106 Desvio Padrão: 88.061 Mínimo: 3.125 Mediana: 40.335 Máximo: 292.181 95% C onfidence Interv al for M ean 39892 122320 95% C onfidence Interv al for M edian 30273 96852 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 66969 128619 Mean Median 20000 40000 60000 80000 100000 120000 43 Summary for Total Assets $m 2010_AM50 A nderson-Darling N ormality Test 0 60000 120000 180000 A -S quared P -V alue < 4.78 0.005 M ean S tDev V ariance S kew ness Kurtosis N 46395 49935 2493493567 2.9760 10.2679 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 240000 3007 18188 32820 50847 268752 Amostra Tamanho 50 Média: 46.395 Desvio Padrão: 49.935 Mínimo: 3.007 Mediana: 32.820 Máximo: 268.752 95% C onfidence Interv al for M ean 32203 60586 95% C onfidence Interv al for M edian 27266 44329 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 41712 62226 Mean Median 30000 35000 40000 45000 50000 55000 60000 Summary for Total Assets $m 2010_AM100 A nderson-Darling N ormality Test 0 150000 300000 450000 600000 A -S quared P -V alue < 11.98 0.005 M ean S tDev V ariance S kew ness Kurtosis N 68205 99918 9983509378 4.2504 25.9048 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 750000 2520 18162 33458 69380 781818 Amostra Tamanho 100 Média: 68.205 Desvio Padrão: 99.918 Mínimo: 2.520 Mediana: 33.458 Máximo: 781.818 95% C onfidence Interv al for M ean 48380 88031 95% C onfidence Interv al for M edian 28487 41746 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 87728 116072 Mean Median 30000 40000 50000 60000 70000 80000 90000 A amostra que mais representou a população total foi a de maior tamanho (100), cuja média é a mais próxima da população total, sendo, portanto a mais representativa. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Boxplot of Total Assets $m 2010; Total Assets $m 2010_AM20 800000 700000 600000 Two-sample T for Total Assets $m 2010 vs Total Assets $m 2010_AM20 500000 Data Two-Sample T-Test and CI: Total Assets $m 2010; Total Assets $m 2010_AM20 400000 N Mean StDev SE Mean Total Assets $m 2010 57818 74848 4678 Total Assets $m 2010_AM2 81106 88061 19691 300000 200000 100000 256 20 0 Total Assets $m 2010 Total Assets $m 2010_AM20 Difference = mu (Total Assets $m 44 2010) - mu (Total Assets $m 2010_AM20) Estimate for difference: -23288 95% CI for difference: (-65378; 18801) T-Test of difference = 0 (vs not =): T-Value = -1.15 P-Value = 0.263 DF = 21 Boxplot of Total Assets $m 2010; Total Assets $m 2010_AM50 800000 700000 600000 Two-sample T for Total Assets $m 2010 vs Total Assets $m 2010_AM50 500000 Data Two-Sample T-Test and CI: Total Assets $m 2010; Total Assets $m 2010_AM50 400000 N Mean StDev SE Mean Total Assets $m 2010 57818 74848 4678 Total Assets $m 2010_AM5 46395 49935 7062 300000 200000 100000 256 50 0 Total Assets $m 2010 Total Assets $m 2010_AM50 Difference = mu (Total Assets $m 2010) - mu (Total Assets $m 2010_AM50) Estimate for difference: 11423 95% CI for difference: (-5389; 28235) T-Test of difference = 0 (vs not =): T-Value = 1.35 P-Value = 0.181 DF = 97 Boxplot of Total Assets $m 2010; Total Assets $m 2010_AM100 800000 700000 600000 Two-sample T for Total Assets $m 2010 vs Total Assets $m 2010_AM100 500000 Data Two-Sample T-Test and CI: Total Assets $m 2010; Total Assets $m 2010_AM100 400000 N 300000 Mean StDev SE Mean Total Assets $m 2010 57818 74848 4678 Total Assets $m 2010_AM1 68205 99918 9992 200000 100000 0 Total Assets $m 2010 256 100 Total Assets $m 2010_AM100 Difference = mu (Total Assets $m 2010) - mu (Total Assets $m 2010_AM100) Estimate for difference: -10388 95% CI for difference: (-32194; 11419) T-Test of difference = 0 (vs not =): T-Value = -0.94 P-Value = 0.348 DF = 144 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui. 45 One-way ANOVA: Total Assets; Total Assets; Total Assets; Total Assets Source Factor Error Total DF 3 422 425 S = 79787 Level Total Total Total Total SS 26116613421 2.68644E+12 2.71256E+12 R-Sq = 0.96% Assets Assets Assets Assets Level Total Total Total Total MS 8705537807 6365978214 Assets Assets Assets Assets $m $m $m $m $m $m $m $m 2010 2010_AM2 2010_AM5 2010_AM1 2010 2010_AM2 2010_AM5 2010_AM1 F 1.37 P 0.252 R-Sq(adj) = 0.26% N 256 20 50 100 Mean 57818 81106 46395 68205 StDev 74848 88061 49935 99918 Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+--------(---*---) (-------------*-------------) (--------*-------) (-----*------) +---------+---------+---------+--------25000 50000 75000 100000 Pooled StDev = 79787 5.5.5 Variável Employees Summary for Employees 2010 A nderson-Darling N ormality Test 0 300000 600000 900000 1200000 1500000 1800000 2100000 A -S quared P -V alue < 31.62 0.005 M ean S tDev V ariance S kew ness Kurtosis N 97210 162659 26457833696 7.8825 90.4131 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 1814 26439 52369 104377 2100000 População Total Média: 97.210 Desvio Padrão: 162.659 Mínimo: 1.814 Mediana: 52.369 Máximo: 2.100.000 95% C onfidence Interv al for M ean 77189 117230 95% C onfidence Interv al for M edian 43510 64104 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 149683 178116 Mean Median 40000 60000 80000 100000 120000 46 Summary for Employees 2010_AM20 A nderson-Darling N ormality Test 0 100000 200000 A -S quared P -V alue < 1.72 0.005 M ean S tDev V ariance S kew ness Kurtosis N 83153 93982 8832575281 2.06177 4.28084 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 300000 3827 22384 59994 100750 368500 Amostra Tamanho 20 Média: 83.153 Desvio Padrão: 93.982 Mínimo: 3.827 Mediana: 59.994 Máximo: 368.500 95% C onfidence Interv al for M ean 39168 127138 95% C onfidence Interv al for M edian 26908 95882 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 71472 137267 Mean Median 20000 40000 60000 80000 100000 120000 140000 Summary for Employees 2010_AM50 A nderson-Darling N ormality Test 0 120000 240000 360000 480000 A -S quared P -V alue < 3.81 0.005 M ean S tDev V ariance S kew ness Kurtosis N 106373 121392 14736124349 1.68897 2.22432 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 3219 20066 67685 145000 475976 Amostra Tamanho 50 Média: 106.373 Desvio Padrão: 121.392 Mínimo: 3.219 Mediana: 67.685 Máximo: 475.976 95% C onfidence Interv al for M ean 71874 140872 95% C onfidence Interv al for M edian 32888 96134 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 101403 151271 Mean Median 50000 75000 100000 125000 150000 Summary for Employees 2010_AM100 A nderson-Darling N ormality Test 0 100000 200000 300000 400000 A -S quared P -V alue < 9.48 0.005 M ean S tDev V ariance S kew ness Kurtosis N 104571 126380 15971947715 1.72972 2.22056 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 500000 1814 24381 47442 119506 539168 Amostra Tamanho 100 Média: 104.571 Desvio Padrão: 126.380 Mínimo: 1.814 Mediana: 47.442 Máximo: 539.168 95% C onfidence Interv al for M ean 79494 129647 95% C onfidence Interv al for M edian 33800 78767 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 110963 146813 Mean Median 20000 40000 60000 80000 100000 120000 140000 A amostra que mais representou a população total foi a de maior tamanho (100), cuja média é a mais próxima da população total, sendo, portanto a mais representativa. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. 47 Boxplot of Employees 2010; Employees 2010_AM20 2000000 Two-sample T for Employees 2010 vs Employees 2010_AM20 1500000 Data Two-Sample T-Test and CI: Employees 2010; Employees 2010_AM20 1000000 StDev SE Mean Employees 2010 162659 10166 Employees 2010_AM20 93982 21015 500000 N Mean 256 97210 20 83153 0 Employees 2010 Employees 2010_AM20 Difference = mu (Employees 2010) - mu (Employees 2010_AM20) Estimate for difference: 14057 95% CI for difference: (-33763; 61876) T-Test of difference = 0 (vs not =): T-Value = 0.60 P-Value = 0.552 DF = 28 Boxplot of Employees 2010; Employees 2010_AM50 2000000 Two-sample T for Employees 2010 vs Employees 2010_AM50 1500000 Data Two-Sample T-Test and CI: Employees 2010; Employees 2010_AM50 1000000 StDev SE Employees 162659 Employees 121392 500000 Mean 2010 10166 2010_AM50 17167 N Mean 256 97210 50 106373 0 Employees 2010 Employees 2010_AM50 Difference = mu (Employees 2010) - mu (Employees 2010_AM50) Estimate for difference: -9163 95% CI for difference: (-48820; 30493) T-Test of difference = 0 (vs not =): T-Value = -0.46 P-Value = 0.647 DF = 87 Boxplot of Employees 2010; Employees 2010_AM100 2000000 Two-sample T for Employees 2010 vs Employees 2010_AM100 1500000 Data Two-Sample T-Test and CI: Employees 2010; Employees 2010_AM100 1000000 StDev SE Employees 162659 Employees 126380 500000 Mean 2010 10166 2010_AM100 12638 N Mean 256 97210 100 104571 0 Employees 2010 Employees 2010_AM100 Difference = mu (Employees 2010) - mu (Employees 2010_AM100) 48 Estimate for difference: -7361 95% CI for difference: (-39318; 24596) T-Test of difference = 0 (vs not =): T-Value = -0.45 P-Value = 0.650 DF = 231 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui. One-way ANOVA: Employees 20; Employees 20; Employees 20; Employees 20 Source Factor Error Total DF 3 422 425 S = 147795 Level Employees Employees Employees Employees Level Employees Employees Employees Employees SS 11611466560 9.21786E+12 9.22947E+12 MS 3870488853 21843268814 R-Sq = 0.13% N 256 20 50 100 2010 2010_AM20 2010_AM50 2010_AM100 F 0.18 P 0.912 R-Sq(adj) = 0.00% Mean 97210 83153 106373 104571 StDev 162659 93982 121392 126380 Individual 95% CIs For Mean Based on Pooled StDev -----+---------+---------+---------+---(----*----) (------------------*-----------------) (----------*-----------) (-------*-------) -----+---------+---------+---------+---35000 70000 105000 140000 2010 2010_AM20 2010_AM50 2010_AM100 Pooled StDev = 147795 5.5.6 Variável Price $ Summary for Price $ 2010 A nderson-Darling N ormality Test 0 1500 3000 4500 6000 7500 A -S quared P -V alue < 82.83 0.005 M ean S tDev V ariance S kew ness Kurtosis N 153.86 769.43 592029.98 8.3506 72.3440 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0.80 24.77 42.35 65.00 7619.90 População Total Média: 153,86 Desvio Padrão: 769,43 Mínimo: 0,80 Mediana: 42,35 Máximo: 7.619,90 95% C onfidence Interv al for M ean 59.15 248.56 95% C onfidence Interv al for M edian 37.08 47.78 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 708.06 842.55 Mean Median 50 100 150 200 250 49 Summary for Price $ 2010_AM20 A nderson-Darling N ormality Test 0 100 200 A -S quared P -V alue < 2.01 0.005 M ean S tDev V ariance S kew ness Kurtosis N 67.690 78.675 6189.680 3.0667 11.2323 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 300 1.900 26.600 45.100 85.275 364.400 Amostra Tamanho 20 Média: 67,690 Desvio Padrão: 78,675 Mínimo: 1,90 Mediana: 45,10 Máximo: 364,40 95% C onfidence Interv al for M ean 30.869 104.511 95% C onfidence Interv al for M edian 29.306 74.559 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 59.831 114.910 Mean Median 20 40 60 80 100 Summary for Price $ 2010_AM50 A nderson-Darling N ormality Test 0 100 200 300 A -S quared P -V alue < 6.72 0.005 M ean S tDev V ariance S kew ness Kurtosis N 66.082 75.835 5750.950 4.0617 18.6035 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 400 1.600 30.450 46.800 69.900 466.700 Amostra Tamanho 50 Média: 66,082 Desvio Padrão: 75,835 Mínimo: 1,60 Mediana: 46,80 Máximo: 466,70 95% C onfidence Interv al for M ean 44.530 87.634 95% C onfidence Interv al for M edian 40.936 60.488 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 63.348 94.501 Mean Median 40 50 60 70 80 90 Summary for Price $ 2010_AM100 A nderson-Darling N ormality Test 0 1500 3000 4500 6000 7500 A -S quared P -V alue < 33.80 0.005 M ean S tDev V ariance S kew ness Kurtosis N 253.46 1159.23 1343803.91 5.7861 32.9107 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0.80 24.63 38.50 63.15 7619.90 Amostra Tamanho 100 Média: 253,46 Desvio Padrão: 1.159,23 Mínimo: 0,80 Mediana: 38,50 Máximo: 7.619,90 95% C onfidence Interv al for M ean 23.45 483.48 95% C onfidence Interv al for M edian 32.55 50.45 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 1017.81 1346.64 Mean Median 0 100 200 300 400 500 A amostra que mais representou a população total foi a de tamanho 20, cuja média é a mais próxima da população total, sendo, portanto a mais representativa. Talvez as amostras de maior tamanho tenham contido valores aleatórios muito dispersos que tenham distorcido os seus resultados. 50 O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias somente para a amostra de tamanho 100, que é estatisticamente igual, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Já as amostras 20 e 50 são estatisticamente diferente. Boxplot of Price $ 2010; Price $ 2010_AM20 8000 7000 Two-Sample T-Test and CI: Price $ 2010; Price $ 2010_AM20 Two-sample T for Price $ 2010 vs Price $ 2010_AM20 6000 Data 5000 SE 4000 3000 StDev Mean Price $ 2010 769 48 Price $ 2010_AM20 78.7 18 2000 1000 0 Price $ 2010 N Mean 256 154 20 67.7 Price $ 2010_AM20 Difference = mu (Price $ 2010) mu (Price $ 2010_AM20) Estimate for difference: 86.2 95% CI for difference: (-14.7; 187.0) T-Test of difference = 0 (vs not =): T-Value = 1.68 P-Value = 0.094 DF = 264 Boxplot of Price $ 2010; Price $ 2010_AM50 8000 7000 Two-Sample T-Test and CI: Price $ 2010; Price $ 2010_AM50 Two-sample T for Price $ 2010 vs Price $ 2010_AM50 6000 Data 5000 SE 4000 3000 StDev Mean Price $ 2010 769 48 Price $ 2010_AM50 75.8 11 2000 1000 0 Price $ 2010 N Mean 256 154 50 66.1 Price $ 2010_AM50 Difference = mu (Price $ 2010) mu (Price $ 2010_AM50) Estimate for difference: 87.8 95% CI for difference: (-9.2; 184.8) T-Test of difference = 0 (vs not =): T-Value = 1.78 P-Value = 0.076 DF = 277 51 Two-Sample T-Test and CI: Price $ 2010; Price $ 2010_AM100 Boxplot of Price $ 2010; Price $ 2010_AM100 8000 7000 Two-sample T for Price $ 2010 vs Price $ 2010_AM100 6000 Data 5000 StDev SE Mean Price $ 2010 769 48 Price $ 2010_AM100 1159 116 4000 3000 2000 1000 N Mean 256 154 100 253 0 Price $ 2010 Price $ 2010_AM100 Difference = mu (Price $ 2010) mu (Price $ 2010_AM100) Estimate for difference: -100 95% CI for difference: (-348; 149) T-Test of difference = 0 (vs not =): T-Value = -0.79 P-Value = 0.429 DF = 134 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que possui média mais próxima da população total. One-way ANOVA: Price $ 2010; Price $ 2010; Price $ 2010; Price $ 2010 Source Factor Error Total DF 3 422 425 S = 820.9 Level Price Price Price Price Level Price Price Price Price $ $ $ $ $ $ $ $ SS 1491100 284403633 285894733 MS 497033 673942 R-Sq = 0.52% 2010 2010_AM20 2010_AM50 2010_AM100 2010 2010_AM20 2010_AM50 2010_AM100 N 256 20 50 100 F 0.74 P 0.530 R-Sq(adj) = 0.00% Mean 153.9 67.7 66.1 253.5 StDev 769.4 78.7 75.8 1159.2 Individual 95% CIs For Mean Based on Pooled StDev -----+---------+---------+---------+---(----*----) (-----------------*-----------------) (----------*-----------) (-------*-------) -----+---------+---------+---------+----200 0 200 400 Pooled StDev = 820.9 5.5.7 Variável PE ratio 52 Summary for PE ratio 2010 A nderson-Darling N ormality Test 15 30 45 60 A -S quared P -V alue < 14.20 0.005 M ean S tDev V ariance S kew ness Kurtosis N 21.154 11.731 137.611 2.24741 6.30172 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 75 5.700 14.350 17.800 23.850 77.700 População Total Média: 21,154 Desvio Padrão: 11,731 Mínimo: 5,70 Mediana: 17,80 Máximo: 77,70 95% C onfidence Interv al for M ean 19.710 22.597 95% C onfidence Interv al for M edian 17.084 18.800 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 10.795 12.846 Mean Median 17 18 19 20 21 22 23 Summary for PE ratio 2010_AM20 A nderson-Darling N ormality Test 10 20 30 40 50 60 A -S quared P -V alue < 1.60 0.005 M ean S tDev V ariance S kew ness Kurtosis N 25.335 17.816 317.396 1.42603 0.99165 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 70 6.600 13.125 18.050 28.625 66.100 Amostra Tamanho 20 Média: 25,335 Desvio Padrão: 17,816 Mínimo: 6,60 Mediana: 18,05 Máximo: 66,10 95% C onfidence Interv al for M ean 16.997 33.673 95% C onfidence Interv al for M edian 14.341 27.977 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 13.549 26.021 Mean Median 15 20 25 30 35 Summary for PE ratio 2010_AM50 A nderson-Darling N ormality Test 10 20 30 40 50 60 70 A -S quared P -V alue < 2.66 0.005 M ean S tDev V ariance S kew ness Kurtosis N 21.148 9.868 97.369 2.8595 11.9483 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 9.200 15.375 18.700 24.050 70.000 Amostra Tamanho 50 Média: 21,148 Desvio Padrão: 9,868 Mínimo: 9,20 Mediana: 18,70 Máximo: 70,00 95% C onfidence Interv al for M ean 18.344 23.952 95% C onfidence Interv al for M edian 17.102 22.433 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 8.243 12.296 Mean Median 18.0 19.5 21.0 22.5 24.0 53 Summary for PE ratio 2010_AM100 A nderson-Darling N ormality Test 10 20 30 40 50 60 A -S quared P -V alue < 5.36 0.005 M ean S tDev V ariance S kew ness Kurtosis N 21.827 12.398 153.719 1.96460 4.37429 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 70 5.700 14.375 18.250 25.800 70.000 Amostra Tamanho 100 Média: 21,827 Desvio Padrão: 12,398 Mínimo: 5,70 Mediana: 18.25 Máximo: 70,00 95% C onfidence Interv al for M ean 19.367 24.287 95% C onfidence Interv al for M edian 16.874 20.006 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 10.886 14.403 Mean Median 16 18 20 22 24 A amostra que mais representou a população total foi a de tamanho 50, cuja média é a mais próxima da população total, sendo, portanto a mais representativa. Talvez a amostra de maior tamanho tenha contido valores aleatórios muito dispersos que tenham distorcido os seus resultados. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Boxplot of PE ratio 2010; PE ratio 2010_AM20 80 70 Two-Sample T-Test and CI: PE ratio 2010; PE ratio 2010_AM20 Two-sample T for PE ratio 2010 vs PE ratio 2010_AM20 60 Data 50 StDev SE Mean PE ratio 2010 11.7 0.73 PE ratio 2010_AM20 17.8 4.0 40 30 20 N Mean 256 21.2 20 25.3 10 0 PE ratio 2010 PE ratio 2010_AM20 Difference = mu (PE ratio 2010) mu (PE ratio 2010_AM20) Estimate for difference: -4.18 95% CI for difference: (-12.63; 4.27) T-Test of difference = 0 (vs not =): T-Value = -1.03 P-Value = 0.314 DF = 20 54 Boxplot of PE ratio 2010; PE ratio 2010_AM50 80 70 Two-Sample T-Test and CI: PE ratio 2010; PE ratio 2010_AM50 Two-sample T for PE ratio 2010 vs PE ratio 2010_AM50 60 Data 50 StDev SE Mean PE ratio 2010 11.7 0.73 PE ratio 2010_AM50 9.87 1.4 40 30 20 N Mean 256 21.2 50 21.15 10 0 PE ratio 2010 PE ratio 2010_AM50 Boxplot of PE ratio 2010; PE ratio 2010_AM100 80 70 Difference = mu (PE ratio 2010) mu (PE ratio 2010_AM50) Estimate for difference: 0.01 95% CI for difference: (-3.13; 3.14) T-Test of difference = 0 (vs not =): T-Value = 0.00 P-Value = 0.997 DF = 78 Two-Sample T-Test and CI: PE ratio 2010; PE ratio 2010_AM100 Two-sample T for PE ratio 2010 vs PE ratio 2010_AM100 60 Data 50 StDev SE Mean PE ratio 2010 11.7 0.73 PE ratio 2010_AM100 12.4 1.2 40 30 20 N Mean 256 21.2 100 21.8 10 0 PE ratio 2010 PE ratio 2010_AM100 Difference = mu (PE ratio 2010) mu (PE ratio 2010_AM100) Estimate for difference: -0.67 95% CI for difference: (-3.52; 2.17) T-Test of difference = 0 (vs not =): T-Value = -0.47 P-Value = 0.641 DF = 172 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que possui média mais próxima da população total. One-way ANOVA: PE ratio 201; PE ratio 201; PE ratio 201; PE ratio 201 Source Factor Error Total DF 3 422 425 S = 12.03 SS 342 61111 61453 MS 114 145 R-Sq = 0.56% F 0.79 P 0.502 R-Sq(adj) = 0.00% 55 Level PE ratio PE ratio PE ratio PE ratio Level PE ratio PE ratio PE ratio PE ratio N 256 20 50 100 2010 2010_AM20 2010_AM50 2010_AM100 Mean 21.15 25.34 21.15 21.83 StDev 11.73 17.82 9.87 12.40 Individual 95% CIs For Mean Based on Pooled StDev ---------+---------+---------+---------+ (---*----) (--------------*--------------) (--------*---------) (-----*------) ---------+---------+---------+---------+ 21.0 24.5 28.0 31.5 2010 2010_AM20 2010_AM50 2010_AM100 Pooled StDev = 12.03 5.5.8 Variável Dividend Yield (%) Summary for Dividend yield (%) 2010 A nderson-Darling N ormality Test 0.0 1.5 3.0 4.5 6.0 A -S quared P -V alue < 3.34 0.005 M ean S tDev V ariance S kew ness Kurtosis N 2.6238 1.6447 2.7049 0.816369 0.444275 256 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 7.5 0.1000 1.4000 2.4000 3.6000 8.4000 População Total Média: 2,6238 Desvio Padrão: 1,6447 Mínimo: 0,10 Mediana: 2,40 Máximo: 8,40 95% C onfidence Interv al for M ean 2.4214 2.8263 95% C onfidence Interv al for M edian 2.1000 2.6000 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 1.5135 1.8009 Mean Median 2.0 2.2 2.4 2.6 2.8 Summary for Dividend yield (%) 2010_AM20 A nderson-Darling N ormality Test 0 1 2 3 4 5 A -S quared P -V alue 0.30 0.538 M ean S tDev V ariance S kew ness Kurtosis N 3.1750 1.9262 3.7104 -0.06257 -1.00816 20 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 6 0.1000 1.7500 3.1000 4.6000 6.4000 Amostra Tamanho 20 Média: 3,1750 Desvio Padrão: 1,9262 Mínimo: 0,10 Mediana: 3,10 Máximo: 6,40 95% C onfidence Interv al for M ean 2.2735 4.0765 95% C onfidence Interv al for M edian 2.2470 4.5294 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 1.4649 2.8134 Mean Median 2.0 2.5 3.0 3.5 4.0 4.5 56 Summary for Dividend yield (%) 2010_AM50 A nderson-Darling N ormality Test 0.0 1.6 3.2 4.8 A -S quared P -V alue 0.74 0.051 M ean S tDev V ariance S kew ness Kurtosis N 2.4520 1.5392 2.3691 0.720544 0.041965 50 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 6.4 0.1000 1.3000 2.2000 3.4000 6.4000 Amostra Tamanho 50 Média: 2,4520 Desvio Padrão: 1,5392 Mínimo: 0,10 Mediana: 2,20 Máximo: 6,40 95% C onfidence Interv al for M ean 2.0146 2.8894 95% C onfidence Interv al for M edian 1.7672 2.7000 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 1.2857 1.9180 Mean Median 1.8 2.0 2.2 2.4 2.6 2.8 3.0 Summary for Dividend yield (%) 2010_AM100 A nderson-Darling N ormality Test 0.0 1.5 3.0 4.5 6.0 7.5 A -S quared P -V alue < 1.52 0.005 M ean S tDev V ariance S kew ness Kurtosis N 2.6190 1.7653 3.1163 0.657493 -0.323071 100 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0.1000 1.2000 2.4000 3.7000 7.7000 Amostra Tamanho 100 Média: 2,6190 Desvio Padrão: 1,7653 Mínimo: 0,10 Mediana: 2,40 Máximo: 7,70 95% C onfidence Interv al for M ean 2.2687 2.9693 95% C onfidence Interv al for M edian 1.8742 2.8000 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 1.5499 2.0507 Mean Median 2.0 2.2 2.4 2.6 2.8 3.0 A amostra que mais representou a população total foi a de maior tamanho (100), cuja média é a mais próxima da população total, sendo, portanto a mais representativa. O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2010_AM20 9 8 7 Two-sample T for Dividend yield (%) 2010 vs Dividend yield (%) 2010_AM20 6 Data Two-Sample T-Test and CI: Dividend yield (%) 2010; Dividend yield (%) 2010_AM20 5 4 N 3 Mean StDev SE Mean Dividend yield (%) 2010 2.62 1.64 0.10 Dividend yield (%) 2010_ 3.18 1.93 0.43 2 1 0 Dividend yield (%) 2010 256 20 Dividend yield (%) 2010_AM20 57 Difference = mu (Dividend yield (%) 2010) - mu (Dividend yield (%) 2010_AM20) Estimate for difference: -0.551 95% CI for difference: (-1.472; 0.370) T-Test of difference = 0 (vs not =): T-Value = -1.24 P-Value = 0.227 DF = 21 Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2010_AM50 9 8 7 Two-sample T for Dividend yield (%) 2010 vs Dividend yield (%) 2010_AM50 6 Data Two-Sample T-Test and CI: Dividend yield (%) 2010; Dividend yield (%) 2010_AM50 5 4 N 3 Mean StDev SE Mean Dividend yield (%) 2010 2.62 1.64 0.10 Dividend yield (%) 2010_ 2.45 1.54 0.22 2 1 0 Dividend yield (%) 2010 256 50 Dividend yield (%) 2010_AM50 Difference = mu (Dividend yield (%) 2010) - mu (Dividend yield (%) 2010_AM50) Estimate for difference: 0.172 95% CI for difference: (-0.308; 0.652) T-Test of difference = 0 (vs not =): T-Value = 0.71 P-Value = 0.478 DF = 72 Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2010_AM100 9 8 7 Two-sample T for Dividend yield (%) 2010 vs Dividend yield (%) 2010_AM100 6 Data Two-Sample T-Test and CI: Dividend yield (%) 2010; Dividend yield (%) 2010_ 5 4 N 3 Mean StDev SE Mean Dividend yield (%) 2010 2.62 1.64 0.10 Dividend yield (%) 2010_ 2.62 1.77 0.18 2 1 0 Dividend yield (%) 2010 256 100 Dividend yield (%) 2010_AM100 Difference = mu (Dividend yield (%) 2010) - mu (Dividend yield (%) 2010_AM100) Estimate for difference: 0.005 95% CI for difference: (-0.398; 0.408) T-Test of difference = 0 (vs not =): T-Value = 0.02 P-Value = 0.981 DF = 169 Podemos também observar pelo teste One-way Anova que, conforme o tamanho das amostras aumenta, o desvio padrão diminui. 58 One-way ANOVA: Dividend yie; Dividend yie; Dividend yie; Dividend yie Source Factor Error Total DF 3 422 425 S = 1.676 Level Dividend Dividend Dividend Dividend Level Dividend Dividend Dividend Dividend SS 7.55 1184.84 1192.39 MS 2.52 2.81 R-Sq = 0.63% yield yield yield yield yield yield yield yield (%) (%) (%) (%) (%) (%) (%) (%) 2010 2010_ 2010_ 2010_ 2010 2010_ 2010_ 2010_ F 0.90 P 0.443 R-Sq(adj) = 0.00% N 256 20 50 100 Mean 2.624 3.175 2.452 2.619 StDev 1.645 1.926 1.539 1.765 Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+--------(---*----) (--------------*-------------) (--------*--------) (-----*------) +---------+---------+---------+--------2.00 2.50 3.00 3.50 Pooled StDev = 1.676 5.5.9 Análise de Correlação e Dendogramas População Total Market Value $m Turnover $m Net Income $m Total Assets $m Turnover $m Net Income $m 0,654 0,000 0,870 0,658 0,000 0,612 0,000 0,679 0,608 0,000 0,639 0,000 -0,032 0,607 -0,111 0,076 0,194 0,002 0,000 0,347 0,000 -0,052 0,405 -0,347 0,000 0,235 0,000 0,000 Employees 0,366 0,000 Price $ -0,076 0,228 PE ratio -0,124 0,047 Dividend yield 0,137 0,028 Amostra Tamanho 20 Market Turnover Value $m $m Net Income $m Total Assets $m 0,306 0,000 -0,043 0,498 -0,134 0,032 0,270 0,000 Total Assets $m Employees Price $ PE ratio -0,066 0,293 0,005 0,942 0,006 0,920 -0,328 0,000 -0,082 0,190 -0,098 0,116 Employees Price $ PE ratio 59 Turnover $m Net Income $m Total Assets $m 0,691 0,001 0,952 0,571 0,000 0,740 0,009 0,899 0,689 0,000 0,580 0,007 -0,176 0,457 -0,160 0,500 0,433 0,057 0,001 0,389 0,090 -0,228 0,333 -0,575 0,008 0,709 0,000 0,000 0,460 0,041 Price $ -0,264 0,261 PE ratio -0,486 0,030 Dividend yield 0,651 0,002 Employees Amostra Tamanho 50 Market Turnover Value $m $m Turnover $m Net Income $m Total Assets $m 0,387 0,006 0,783 0,321 0,000 0,633 0,023 0,700 0,594 0,000 0,650 0,000 -0,123 0,395 0,272 0,056 0,388 0,005 0,000 0,057 0,694 -0,017 0,905 -0,344 0,014 0,470 0,001 0,000 Employees 0,123 0,396 Price $ -0,072 0,617 PE ratio -0,045 0,756 Dividend yield 0,338 0,016 Amostra Tamanho 100 Market Turnover Value $m $m Turnover $m Net Income $m Total Assets $m Net Income $m 0,757 0,000 0,855 0,724 0,000 0,625 0,000 0,704 Net Income $m 0,752 0,000 -0,173 0,466 -0,318 0,172 0,565 0,009 Total Assets $m 0,295 0,038 -0,119 0,409 -0,034 0,815 0,587 0,000 Total Assets $m -0,116 0,627 -0,153 0,520 0,293 0,210 -0,062 0,796 -0,295 0,206 -0,641 0,002 Employees Price $ PE ratio -0,224 0,118 0,328 0,020 0,206 0,150 -0,065 0,654 -0,196 0,173 -0,036 0,804 Employees Price $ PE ratio 0,590 60 0,000 Employees 0,439 0,000 Price $ -0,120 0,235 PE ratio -0,209 0,037 Dividend yield 0,228 0,023 0,000 0,539 0,000 -0,093 0,358 -0,138 0,172 0,275 0,006 0,000 0,390 0,000 -0,081 0,422 -0,382 0,000 0,274 0,006 0,425 0,000 -0,066 0,512 -0,160 0,112 0,258 0,010 -0,134 0,184 0,094 0,354 0,030 0,766 -0,147 0,145 -0,121 0,232 -0,377 0,000 Comentários: • As variáveis nem sempre mantiveram o grau de correlação, na amostra aleatória, porém a correlação vai melhorando conforme o maior tamanho da amostra. Dendrogram Dendrogram Single Linkage; Correlation Coefficient Distance Single Linkage; Correlation Coefficient Distance 44.22 Similarity Similarity 48.38 65.59 62.81 81.41 82.79 100.00 100.00 ke ar M ue al tv $m 10 20 t Ne m co In e $m 10 20 T r ve no ur $m 10 20 l ta To ts se As $m 10 20 Em ee oy pl s vi Di 10 20 nd de d el yi ) (% 10 20 PE ra tio 10 20 ic Pr e $ 20 20 20 20 20 20 20 20 M M M M M M M M _A _A _A _A _A _A _A _A 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 01 20 20 20 20 20 20 20 )2 $ m es tio $m $m $m (% ye ra r$ ice e s e t r o d e l u l E P m p e P se al ov co yi As rn tv Em In nd al ke Tu et ot de ar N i T v M Di 10 20 Variables Variables Dendrogram Dendrogram Single Linkage; Correlation Coefficient Distance Single Linkage; Correlation Coefficient Distance 46.82 Similarity Similarity 49.13 66.09 83.04 100.00 64.55 82.27 100.00 50 50 50 50 50 50 50 M M M M M M M _A _A _A _A _A _A _A 0 0 0 0 0 0 0 1 1 1 1 1 1 1 01 20 20 20 20 20 20 20 )2 $ m es tio $m $m $m (% ra ye ice r$ e s e r t d o e l l u E P m e p P se al ov yi co rn As tv Em In nd al ke Tu et de ot ar i N T v M Di 50 AM 0_ Variables 0 0 0 0 0 0 0 0 10 10 10 10 10 10 10 10 AM AM AM AM AM AM AM AM 0_ 0_ 0_ 0_ 0_ 0_ 0_ 0_ 1 1 1 1 1 1 1 1 0 20 20 20 20 20 20 20 )2 s $ tio e $m $m $m $m ee (% ra e ric ts d oy er l l ue E P e l v m p P a o o yi e ss rn nc tv Em d lA tI ke Tu en ta ar Ne vi d To i M D Variables Comentários: • O dendograma das amostras aleatórias nem sempre manteve a mesma disposição das variáveis quando comparado ao dendograma da população, porém conforme o tamanho da amostra aumenta, a disposição se torna cada vez mais parecida com a população. 5.5.10 Considerações 61 Era esperado que à medida que o tamanho da amostra aleatória aumenta, os valores da análise exploratória de dados também aumenta. Na maior parte dos casos foi possível verificar esta premissa, pela comparação dos valores de média, desvio padrão, mediana, mínimo e máximo entre os dados da população e da amostra, nas variáveis analisadas. No caso de P-Value, podemos observar que a variável Price $ apresentou valores abaixo de 0,10 nas amostras tamanho 20 e 50, portanto são estatísticamente diferentes da população. No caso das variáveis Market Value $m, Net Income $m, Total Assets $m, Employees, Price $ e Divident Yield (%), o P-Value é maior conforme o tamanho da amostra é maior. Nos demais casos, todas as amostras são estatísticamente iguais à população, porém nem sempre o P-Value é maior conforme o tamanho da amostra é maior. P-Value do Teste – T para três Amostras Variáveis Market Value $m Turnover $m Net Income $m Total Assets $m Employees Price $ PE ratio Dividend Yield (%) Amostra Aleatória 0.692 0,556 0,484 0,263 0,552 0,094 0,314 0,227 20 Amostra 50 Amostra Estratificada Aleatória 0,123 0,818 0,294 0,363 0,137 0,721 0,181 0,348 0,647 0,650 0,076 0,429 0,997 0,641 0,478 0,981 100 Na análise do teste One-way Anova, foi observado que o desvio padrão diminui conforme o tamanho da amostra aumenta e que a média das amostras vai se aproximando da média da população também conforme a amostra aumenta. Na análise das correlações das variáveis, as amostras ficaram mais próximas das correlações da população total conforme o tamanho da amostra aumenta. Porém mesmo na amostra maior, de tamanho 100, algumas correlações não foram mantidas conforme a população. No Dendograma as variáveis em geral mantiveram a diposição nas amostras. E foram ficando mais próximas da população conforme o tamanho da amostra aumenta. Assim, podemos concluir que conforme o tamanho da amostra aumenta, melhor representa a população total. Porém no caso estudado, mesmo a maior amostra, de tamanho 100, não representa a população total, apresentando resultados diferentes em algumas análises. 5.6 Análise em Componentes Principais O objetivo deste tópico é, através da análise dos componentes principais, tentarmos reduzir o número de variáveis, ou seja, percebermos as relações entre as variáveis e a possibilidade de agruparmos as mesmas. A análise de correlações e dendogramas realizada anteriormente já nos dão uma idéia de que a possibilidade de agrupamento existe pelos índices de correlação entre todas as variáveis: Segue abaixo o resultado das análises dos componentes principais juntamente com o gráfico Scree Plot. 62 Principal Component Analysis: Market value; Turnover $m ; Net Income $; Total A Eigenanalysis of the Correlation Matrix 255 cases used, 1 cases contain missing values Eigenvalue Proportion Cumulative 3.4884 0.436 0.436 1.3087 0.164 0.600 1.0378 0.130 0.729 Variable Market value $m 2010 Turnover $m 2010 Net Income $m 2010 Total Assets $m 2010 Employees 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 PC1 0.462 0.467 0.476 0.432 0.310 -0.048 -0.156 0.180 Variable Market value $m 2010 Turnover $m 2010 Net Income $m 2010 Total Assets $m 2010 Employees 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 PC8 -0.657 -0.064 0.728 0.028 0.022 0.002 0.179 -0.019 0.7628 0.095 0.825 PC2 0.088 0.191 -0.092 -0.016 0.402 -0.096 0.659 -0.585 0.6946 0.087 0.912 PC3 0.033 0.053 0.064 -0.009 0.025 0.932 -0.164 -0.308 0.4052 0.051 0.962 PC4 -0.422 0.237 -0.332 -0.125 0.687 0.104 -0.135 0.372 0.2034 0.025 0.988 PC5 -0.036 0.071 -0.174 0.387 -0.260 0.300 0.627 0.513 0.0990 0.012 1.000 PC6 0.384 -0.163 0.298 -0.707 0.147 0.130 0.267 0.357 PC7 0.138 -0.807 0.026 0.383 0.424 0.041 0.002 0.029 Scree Plot of Market value $m 2010; ...; Dividend yield (%) 2010 3.5 3.0 Eigenvalue 2.5 2.0 1.5 1.0 0.5 0.0 1 2 3 4 5 Component Number 6 7 8 Pela análise dos detalhes e gráfico acima percebemos que se juntarmos as 6 variáveis em apenas 1 (PC1) teremos um proporção de 43,6%, com 2 (PC1 e PC2) chegamos a 60,0% com 3 (PC1, PC2 e PC3) chegamos a 72,9% e assim por diante. Isto é algo extremamente significativo, pois ao invés de trabalharmos com 8 variáveis poderíamos trabalhar com 3 63 (índice PC1, PC2 e PC3) que já explica 72,9% das variáveis. Se trabalharmos com 5 variáeis ao invés de 8, o nível de explicação chegará a 91,2%. Pela análise dos valores / participação de cada variável no índice PC1, poderíamos denominá-lo índice complementado do valor de mercado. O índice PC2, poderíamos denominá-lo de contraste PE ratio versus rendimento de divivdendos. Já o índice PC3, poderíamos denominá-lo de índice complementado do preço da ação. 5.7 Análise de Conglomerados O objetivo deste tópico é efetuar uma análise de conglomerados através de uma pesquisa por amostragem de dados de indicadores relacionados ao Ranking das 500 Empresas mais valiosas do mundo. Para isso foi criada uma amostragem arbitrada de tamanho 60 e excluído posteriormente 3 outliers. Para viabilizar essa análise, a quantidade de variáveis foi reduzida para 5, sendo elas: Market Value $m, Turnover $m, Price $, PE Ratio e Dividend Yield (%). 5.7.1 Estatística Descritiva / Pesquisa por Amostragem A pesquisa por amostragem foi feita em uma de 60 indivíduos inicialmente, e reduzida para 57, excluindo 3 outliers. Essa amostra foi arbitrada para viabilizar esta análise, sendo selecionados 20 empresas de maior valor, 20 empresas intermediárias e 20 empresas de menor valor. Começamos com a análise das medidas e gráficos da estatística descritiva de cada variável da população total e por amostra. Sumário População Histogram of Market value; Turnover $m ; Price $ 2010; ... Normal M arket v alue $ m 2010 P rice $ 2010 240 75 75 180 50 50 120 25 25 60 100 Frequency Turnov er $ m 2010 100 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 12 0 18 0 24 0 30 0 00 00 -6 P E ratio 2010 80 40 60 30 40 20 20 10 0 0 0 0 0 0 0 0 00 0 0 0 0 00 8 0 16 0 2 40 32 0 4 00 0 D iv idend y ield (% ) 2010 15 30 45 60 75 0 50 -1 0 0 0 0 0 0 0 00 00 1 5 3 0 4 5 60 75 Price $ 2010 Mean 154.4 StDev 770.9 N 255 PE ratio 2010 Mean 21.13 StDev 11.75 N 255 0 0 Turnov er $m 2010 Mean 40419 StDev 49562 N 255 0 00 00 -8 Mark et v alue $m 2010 Mean 53350 StDev 50915 N 255 0 5 0 5 0 5 0. 1. 3. 4. 6. 7 . Div idend y ield (%) 2010 Mean 2.631 StDev 1.644 N 255 64 No caso da população, nenhuma das variáveis apresenta curvas próximas à curva normal. Histogram of Market value; Turnover $m ; Price $ 2010; ... Normal Frequency M arket v alue $ m 2010 Turnov er $ m 2010 40 20 60 30 15 45 20 10 30 10 5 15 0 0 -6 P E ratio 2010 0 00 -2 0 0 0 0 0 0 0 0 0 0 00 6 0 12 0 1 80 2 40 0 00 00 -6 0 0 0 0 0 0 0 00 20 40 60 80 Div idend y ield (% ) 2010 16 12 12 6 4 3 Div idend y ield (%) 2010 Mean 3.023 StDev 1.764 N 57 0 0 0 15 30 45 60 Price $ 2010 Mean 307.9 StDev 1381 N 57 PE ratio 2010 Mean 21.61 StDev 14.42 N 57 9 8 Mark et v alue $m 2010 Mean 70196 StDev 72020 N 57 Turnov er $m 2010 Mean 46798 StDev 55908 N 57 0 0 0 0 0 0 0 0 00 00 0 0 6 0 1 20 1 80 2 40 0 0 00 P rice $ 2010 0 2 4 6 8 Para a amostra de 57 indivíduos observamos um resultado similar às curvas da população, isso demonstra que a amostra representa bem a população. Com exceção da variável Dividend Yield (%), que nessa amostra apresenta curva próxima à curva normal, ao contrário do observado na população. 5.7.2 Análise de Conglomerados Cluster Analysis of Observations: Market value; Turnover $m ; Price $ 2010; ... Euclidean Distance, Single Linkage Amalgamation Steps Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Number of clusters 56 55 54 53 52 51 50 49 48 47 46 45 44 43 Similarity level 99.9221 99.8983 99.8791 99.7996 99.7691 99.7033 99.6801 99.5813 99.5757 99.5742 99.5616 99.5198 99.5025 99.4498 Distance level 248 324 385 638 735 944 1018 1333 1351 1355 1395 1529 1583 1751 Clusters joined 53 54 26 27 40 46 50 52 41 50 51 53 51 56 35 37 23 26 40 45 22 29 44 47 28 31 44 51 New cluster 53 26 40 50 41 51 51 35 23 40 22 44 28 44 Number of obs. in new cluster 2 2 2 2 3 3 4 2 3 3 2 2 2 6 65 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 99.4392 99.4246 99.4169 99.3950 99.3650 99.3346 99.2943 99.2529 99.1128 99.1033 98.9832 98.9809 98.9232 98.8495 98.8403 98.8134 98.7049 98.3856 98.3767 98.3607 98.1455 97.7384 97.6952 97.5471 96.6146 96.2411 95.7148 95.6184 95.0270 94.2228 93.5668 93.4960 91.4186 90.4463 90.3590 88.5729 88.0396 86.7700 85.2074 76.0844 71.1086 66.8502 1785 1831 1856 1926 2021 2118 2246 2378 2824 2854 3236 3244 3427 3662 3691 3777 4122 5138 5167 5217 5903 7198 7336 7807 10775 11964 13639 13946 15828 18388 20475 20701 27312 30407 30685 36370 38067 42108 47081 76118 91954 105508 48 44 40 30 20 15 38 23 20 19 19 18 41 15 20 18 18 38 43 28 18 18 38 5 39 38 18 4 4 4 2 2 12 9 2 2 2 2 1 18 1 1 57 49 44 32 21 16 40 33 25 30 22 19 42 17 36 20 34 41 55 35 28 23 43 6 48 39 38 8 7 5 4 11 15 10 13 14 12 3 2 24 9 18 48 44 40 30 20 15 38 23 20 19 19 18 41 15 20 18 18 38 43 28 18 18 38 5 39 38 18 4 4 4 2 2 12 9 2 2 2 2 1 18 1 1 2 7 10 2 2 2 11 4 3 3 5 6 4 3 4 10 11 15 2 4 15 19 17 2 3 20 39 2 3 5 6 7 4 2 8 9 13 14 15 40 17 57 Final Partition Number of clusters: 2 Cluster1 Cluster2 Number of observations 17 40 Within cluster sum of squares 9.45724E+10 1.99600E+10 Average distance from centroid 60842.8 17056.6 Maximum distance from centroid 175039 100716 Cluster Centroids Variable Market value $m 2010 Turnover $m 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 Cluster1 176575 103149 49 17 4 Cluster2 24984.3 22848.3 418.0 23.7 2.8 Grand centroid 70195.6 46797.6 307.9 21.6 3.0 Distances Between Cluster Centroids 66 Cluster1 Cluster2 Cluster1 0 171546 Cluster2 171546 0 Dendrogram Single Linkage; Euclidean Distance Similarity 66.85 77.90 88.95 100.00 1 2 4 8 7 5 6 11 13 14 12 15 16 17 3 910181930 32 22 29 20 21 25 36342831353723 26 27 33 38 40 46 45444751535456 49 41 50 52 42 43 5539485724 Observations Podemos notar que para o número de conglomerados igual a 2 distribui de forma adequada a amostra de 57 indivíduos. O conglomerado 1 possui 17 observações e o conglomerado 2 possui 40 observações. No conglomerado 1 se encontram as empresas mais valiosas e no conglomerado 2 se encontram as empresas intermediárias e menos valiosas. Foram realizados vários testes aumentando o número de conglomerados, porém as empresas intermediárias e menos valiosas não foram divididas. 67 Histogram of Cluster 40 Frequency 30 20 10 0 1 2 Cluster O histograma mostra que o grupo mais importante é o 2. Boxplot of PC1 7.5 PC1 5.0 2.5 0.0 1 2 Cluster O Box plot mostra que existe uma diferença visível entre os dois conglomerados. 68 Scatterplot of Cluster vs PC1 2.0 Cluster 1.8 1.6 1.4 1.2 1.0 0.0 2.5 5.0 7.5 PC1 Observamos nitidamente através do gráfico de dispersão a divisão entre os 2 conglomerados. 5.8 Análise Discriminante O objetivo deste tópico é efetuar uma análise comparativa de médias, intervalos de confiança e regressões de dados de indicadores relacionados ao Ranking das 500 Empresas mais valiosas do mundo. Para isso foi criada uma amostragem arbitrada de tamanho 60 e excluído posteriormente 3 outliers. O principal propósito é comparar os conglomerados da amostra. 5.8.1 Comparação de Média, Análise de Variância e Intervalo de Confiança One-way ANOVA: Market value $m 2010 versus Cluster Source Cluster Error Total DF 1 55 56 S = 17224 Level 1 2 N 17 40 SS 2.74145E+11 16316476275 2.90462E+11 R-Sq = 94.38% Mean 176575 24984 StDev 29315 8112 MS 2.74145E+11 296663205 F 924.10 P 0.000 R-Sq(adj) = 94.28% Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(*-) (*) ------+---------+---------+---------+--50000 100000 150000 200000 Pooled StDev = 17224 69 One-way ANOVA: Turnover $m 2010 versus Cluster Source Cluster Error Total DF 1 55 56 S = 42235 Level 1 2 N 17 40 SS 76926169587 98110777945 1.75037E+11 MS 76926169587 1783832326 R-Sq = 43.95% Mean 103149 22848 StDev 71073 21055 F 43.12 P 0.000 R-Sq(adj) = 42.93% Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(-----*------) (----*---) -------+---------+---------+---------+-30000 60000 90000 120000 Pooled StDev = 42235 One-way ANOVA: Price $ 2010 versus Cluster Source Cluster Error Total DF 1 55 56 S = 1383 Level 1 2 SS 1624001 105186768 106810770 MS 1624001 1912487 R-Sq = 1.52% N 17 40 Mean 49 418 StDev 42 1642 F 0.85 P 0.361 R-Sq(adj) = 0.00% Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(----------------*----------------) (----------*----------) ------+---------+---------+---------+---400 0 400 800 Pooled StDev = 1383 One-way ANOVA: PE ratio 2010 versus Cluster Source Cluster Error Total DF 1 55 56 S = 14.17 Level 1 2 N 17 40 SS 601 11045 11646 MS 601 201 R-Sq = 5.16% Mean 16.62 23.72 StDev 6.28 16.34 F 2.99 P 0.089 R-Sq(adj) = 3.44% Individual 95% CIs For Mean Based on Pooled StDev -+---------+---------+---------+-------(-------------*-------------) (--------*--------) -+---------+---------+---------+-------10.0 15.0 20.0 25.0 Pooled StDev = 14.17 One-way ANOVA: Dividend yield (%) 2010 versus Cluster 70 Source Cluster Error Total DF 1 55 56 S = 1.751 Level 1 2 N 17 40 SS 5.79 168.55 174.34 MS 5.79 3.06 R-Sq = 3.32% Mean 3.512 2.815 StDev 1.489 1.847 F 1.89 P 0.175 R-Sq(adj) = 1.56% Individual 95% CIs For Mean Based on Pooled StDev --+---------+---------+---------+------(--------------*-------------) (--------*--------) --+---------+---------+---------+------2.40 3.00 3.60 4.20 Pooled StDev = 1.751 Os valores P-value das análises de variância acima nos confirmam que: Tendo como parâmetro o p-value menor ou igual a 5% para a rejeição da hipótese nula, podemos considerar que a média populacional das variáveis dos conglomerados são diferentes, com exceção das variáveis Price $, Pe Ratio e Dividend Yield (%). Pela análise do valor F, percebemos que a maior diferença aparece na variável Market Value $m. Veremos abaixo o Box-Plot que nos permite visualizar mais claramente estas grandes diferenças entre os dois conglomerados. Boxplot of Market value; Turnover $m ; Price $ 2010; PE ratio 201; ... 1 Mark et v alue $m 2010 250000 200000 300000 2 Turnov er $m 2010 Price $ 2010 8000 6000 200000 150000 4000 100000 100000 2000 50000 0 0 PE ratio 2010 Div idend y ield (%) 2010 1 2 8 60 6 40 4 2 20 0 1 2 Cluster 71 Fica bastante notória as diferenças que separam os dois conglomerados nas 5 variáveis analisadas, com exceção das variáveis Price $, PE ratio e Dividend Yield (%), conforme já explicado anteriormente. Dendrogram Single Linkage; Correlation Coefficient Distance Similarity 44.14 62.76 81.38 100.00 a M a tv e rk e lu $m 10 20 er ov n r Tu $m 10 20 d en iv d Di d el yi 0 01 2 ) (% PE ra tio 10 20 e ic Pr $ 10 20 Variables Pelo dendrograma podemos observar que as variáveis Market Value $m e Turnover $m estão correlacionadas, e as variáveis Dividend Yield (%), PE ratio e Price $ possui baixa correlação com as outras variáveis. 5.8.2 Análise Discriminante A variável dependente de nossa análise será o conglomerado e para tentar explicar em qual conglomerado uma determinada empresa cai, utilizamos as 5 variáveis de indicadores relacionados ao ranking das 500 empresas mais valiosas do mundo. Discriminant Analysis: Cluster versus Market value; Turnover $m ; ... Linear Method for Response: Cluster Predictors: Market value $m 2010; Turnover $m 2010; Price $ 2010; PE ratio 2010; Dividend yield (%) 2010 Group Count 1 17 2 40 Summary of classification True Group 72 Put into Group 1 2 Total N N correct Proportion 1 17 0 17 17 1.000 N = 57 2 0 40 40 40 1.000 N Correct = 57 Proportion Correct = 1.000 Squared Distance Between Groups 1 2 1 0.0000 84.2623 2 84.2623 0.0000 Linear Discriminant Function for Groups Constant Market value $m 2010 Turnover $m 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 1 -60.382 0.001 0.000 0.001 0.059 2.113 2 -5.764 0.000 -0.000 0.001 0.181 1.707 Discriminant Analysis: Cluster versus Market value; Turnover $m ; ... Quadratic Method for Response: Cluster Predictors: Market value $m 2010; Turnover $m 2010; Price $ 2010; PE ratio 2010; Dividend yield (%) 2010 Group Count 1 17 2 40 Summary of classification Put into Group 1 2 Total N N correct Proportion N = 57 From Group 1 2 True Group 1 2 17 0 0 40 17 40 17 40 1.000 1.000 N Correct = 57 Proportion Correct = 1.000 Generalized Squared Distance to Group 1 53.19 142.99 2 462.98 58.91 A utilização de ambas as funções ajustou os dados a uma proporção de acerto de 100%, por isso vamos utilizar a função linear que é mais simples. 73 Veremos o que ocorre se excluirmos as variáveis com alto valor de p, utilizando a função quadrática: Discriminant Analysis: Cluster versus Market value $m ; Turnover $m 2010 Linear Method for Response: Cluster Predictors: Market value $m 2010; Turnover $m 2010 Group Count 1 17 2 40 Summary of classification Put into Group 1 2 Total N N correct Proportion N = 57 True Group 1 2 17 0 0 40 17 40 17 40 1.000 1.000 N Correct = 57 Proportion Correct = 1.000 Squared Distance Between Groups 1 2 1 0.0000 79.7746 2 79.7746 0.0000 Linear Discriminant Function for Groups Constant Market value $m 2010 Turnover $m 2010 1 -54.548 0.001 0.000 2 -1.167 0.000 0.000 Não houve mudança no poder explicativo e o modelo fica mais simples, com duas variáveis ao invés de cinco. Veremos o que acontece se considerarmos apenas a variável Market Value $m, variável com maior diferença entre os conglomerados. O objetivo é termos um modelo ainda mais simples e intuitivo: Discriminant Analysis: Cluster versus Market value $m 2010 Linear Method for Response: Cluster Predictors: Market value $m 2010 Group Count 1 17 2 40 Summary of classification Put into Group True Group 1 2 74 1 2 Total N N correct Proportion 17 0 17 17 1.000 N = 57 0 40 40 40 1.000 N Correct = 57 Proportion Correct = 1.000 Squared Distance Between Groups 1 2 1 0.0000 77.4609 2 77.4609 0.0000 Linear Discriminant Function for Groups Constant Market value $m 2010 1 -52.549 0.001 2 -1.052 0.000 O poder explicativo se manteve em 100% e a análise fica ainda mais simples com apenas uma variável explicativa. 5.9 Regressão Logística O objetivo deste tópico é efetuar uma análise de regressões múltiplas, logísticas binárias, logísticas ordinais de dados de indicadores relacionados ao Ranking das 500 Empresas mais valiosas do mundo. O principal propósito é comparar os conglomerados da amostra. Binary Logistic Regression: Cluster versus Market value; Turnover $m ; ... * WARNING * Algorithm has not converged after 20 iterations. * WARNING * Convergence has not been reached for the parameter estimates criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. Link Function: Logit Response Information Variable Cluster Value 2 1 Total Count 40 17 57 (Event) Logistic Regression Table Predictor Constant Market value $m 2010 Turnover $m 2010 Price $ 2010 PE ratio 2010 Coef 32.4754 -0.0003777 0.0000313 -0.0006903 0.0125430 SE Coef 11872.5 0.0826762 0.135609 2.73929 281.823 Z 0.00 -0.00 0.00 -0.00 0.00 P 0.998 0.996 1.000 1.000 1.000 Odds Ratio 95% CI Lower 1.00 1.00 1.00 1.01 0.85 0.77 0.00 0.00 75 Dividend yield (%) 2010 Predictor Constant Market value $m 2010 Turnover $m 2010 Price $ 2010 PE ratio 2010 Dividend yield (%) 2010 -0.111252 1783.43 -0.00 1.000 0.89 0.00 Upper 1.18 1.30 214.48 7.82247E+239 * Log-Likelihood = -0.000 Test that all slopes are zero: G = 69.468, DF = 5, P-Value = 0.000 Goodness-of-Fit Tests Method Pearson Deviance Hosmer-Lemeshow Chi-Square 0.0000000 0.0000001 0.0000000 DF 51 51 8 P 1.000 1.000 1.000 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value 2 Obs Exp 1 Obs Exp Total Group 5 6 1 2 3 4 0 0.0 0 0.0 0 0.0 5 5.0 6 6.0 5 5.0 5 6 6.0 6 6 6.0 6 0 0.0 5 0 0.0 6 7 8 9 10 Total 6 6.0 5 5.0 6 6.0 6 6.0 6 6.0 40 0 0.0 6 0 0.0 5 0 0.0 6 0 0.0 6 0 0.0 6 17 57 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Number 680 0 0 680 Percent 100.0 0.0 0.0 100.0 Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 1.00 1.00 0.43 A utilização da regressão logística binária chegou a um percentual de concordância de 100%, porém alguns erros ocorreram, o que torna o resultado não confiável. Veremos o que ocorre se excluirmos as variáveis com alto valor de p: Binary Logistic Regression: Cluster versus Market value; Turnover $m * WARNING * Algorithm has not converged after 20 iterations. * WARNING * Convergence has not been reached for the parameter estimates criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. Link Function: Logit 76 Response Information Variable Cluster Value 2 1 Total Count 40 17 57 (Event) Logistic Regression Table Predictor Constant Market value $m 2010 Turnover $m 2010 Coef 32.4047 -0.0003788 0.0000299 SE Coef 5092.39 0.0806930 0.138088 Z 0.01 -0.00 0.00 P 0.995 0.996 1.000 Odds Ratio 95% CI Lower Upper 1.00 1.00 0.85 0.76 1.17 1.31 Log-Likelihood = -0.000 Test that all slopes are zero: G = 69.468, DF = 2, P-Value = 0.000 Goodness-of-Fit Tests Method Pearson Deviance Hosmer-Lemeshow Chi-Square 0.0000000 0.0000001 0.0000000 DF 54 54 8 P 1.000 1.000 1.000 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value 2 Obs Exp 1 Obs Exp Total Group 5 6 1 2 3 4 0 0.0 0 0.0 0 0.0 5 5.0 6 6.0 5 5.0 5 6 6.0 6 6 6.0 6 0 0.0 5 0 0.0 6 7 8 9 10 Total 6 6.0 5 5.0 6 6.0 6 6.0 6 6.0 40 0 0.0 6 0 0.0 5 0 0.0 6 0 0.0 6 0 0.0 6 17 57 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Number 680 0 0 680 Percent 100.0 0.0 0.0 100.0 Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 1.00 1.00 0.43 Não houve mudança no poder explicativo e o modelo fica mais simples, com duas variáveis ao invés de cinco, porém novamente alguns erros ocorreram, o que torna o resultado não confiável. Veremos o que acontece se considerarmos apenas a variável Market Value $m, variável com maior diferença entre os conglomerados. O objetivo é termos um modelo válido e ainda mais simples e intuitivo: Binary Logistic Regression: Cluster versus Market value $m 2010 * WARNING * Algorithm has not converged after 20 iterations. * WARNING * Convergence has not been reached for the parameter estimates 77 criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. Link Function: Logit Response Information Variable Cluster Value 2 1 Total Count 40 17 57 (Event) Logistic Regression Table Predictor Constant Market value $m 2010 Coef 32.7155 -0.0003695 SE Coef 5082.36 0.0566962 Z 0.01 -0.01 P 0.995 0.995 Odds Ratio 95% CI Lower Upper 1.00 0.89 1.12 Log-Likelihood = -0.000 Test that all slopes are zero: G = 69.468, DF = 1, P-Value = 0.000 Goodness-of-Fit Tests Method Pearson Deviance Hosmer-Lemeshow Chi-Square 0.0000000 0.0000001 0.0000000 DF 55 55 8 P 1.000 1.000 1.000 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value 2 Obs Exp 1 Obs Exp Total Group 5 6 1 2 3 4 0 0.0 0 0.0 0 0.0 5 5.0 6 6.0 5 5.0 5 6 6.0 6 6 6.0 6 0 0.0 5 0 0.0 6 7 8 9 10 Total 6 6.0 5 5.0 6 6.0 6 6.0 6 6.0 40 0 0.0 6 0 0.0 5 0 0.0 6 0 0.0 6 0 0.0 6 17 57 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Number 680 0 0 680 Percent 100.0 0.0 0.0 100.0 Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 1.00 1.00 0.43 O poder explicativo se manteve em 100% e análise fica ainda mais simples com apenas uma variável explicativa. Porém novamente alguns erros ocorreram, o que torna o resultado não confiável, não sendo possível utilizar a regressão logística binária na amostra. 5.10 Árvores de Classificação 78 O objetivo deste tópico é efetuar uma análise de árvores de classificação de dados de indicadores relacionados ao Ranking das 500 Empresas mais valiosas do mundo. O principal propósito é comparar os conglomerados da amostra e verificar qual modelo oferece melhor análise de classificação. Estatísticas descritivas: Variável Categorias Freqüências % Cluster 1 17 29.825 2 40 70.175 Estrutura da árvore: Nó p‐valor Objetos % 1 1.000 57 100.00% 2 0.000 40 70.18% 3 0.000 17 29.82% Nó pai 1 1 Filhos Variável de separação Valores Pureza 2; 3 70.18% Market value $m 2010 [16048.4; 86626.1[ 100.00% [86626.1; Market value $m 2010 256864.7[ 100.00% Foi possível observar pelo aplicativo XLSTAT (Árvore de classificação e regressão) que a única variável que apresenta importância na separação dos grupos é o Market Value $m. A proporção de acerto foi de 100,0% (57 de 57 corretas). Mesmo assim, a melhor opção ainda é a análise discriminante, pois também alcança 100% de proporção de acerto, utilizando somente uma variável (Market Value $m) e o seu cálculo é mais simples que a árvore de classificação e regressão. A análise logística apresenta erros que tornam os resultados não confiáveis. 79 5.11 Análise de Correspondências Realizar uma análise de correspondência (AC) – análise multivariada - com dados de indicadores relacionados ao Ranking das 500 empresas mais valiosas do mundo. A análise de correspondência é um método de análise fatorial para variáveis categóricas. A AC, basicamente, converte uma tabela de dados não negativos de duas ou múltiplas entradas em um tipo de representação gráfica em que as linhas e as colunas são simultaneamente representadas em dimensão reduzida, isto é, por pontos no gráfico. Este método permite mostrar como as variáveis dispostas em linhas e colunas estão relacionadas e não somente se a relação existe. A seguir, é apresentado o resultado da análise de correspondência para a tabela 5 x 6. Simple Correspondence Analysis: Carbon dioxi; Expected Yea; Expenditure ; GDP p Analysis of Contingency Table Axis 1 2 3 4 Total Inertia 0.0024 0.0001 0.0000 0.0000 0.0025 Proportion 0.9531 0.0397 0.0050 0.0022 Cumulative 0.9531 0.9928 0.9978 1.0000 Histogram ****************************** * Row Contributions ID 1 2 3 4 5 Name BR CH IN RU SA Qual 0.985 0.976 0.999 0.990 0.957 Mass 0.229 0.153 0.072 0.331 0.214 Inert 0.028 0.097 0.658 0.165 0.052 Component Coord Corr 0.003 0.024 -0.039 0.958 -0.152 0.999 0.035 0.988 0.021 0.747 1 Contr 0.001 0.097 0.690 0.171 0.041 Component Coord Corr -0.017 0.961 0.005 0.019 0.002 0.000 0.001 0.002 0.011 0.210 2 Contr 0.667 0.046 0.004 0.007 0.276 Inert 0.041 0.082 0.000 0.008 0.843 0.025 Component Coord Corr 0.147 0.119 -0.384 0.941 -0.437 0.645 0.004 0.994 -0.554 0.999 -0.257 0.806 1 Contr 0.005 0.081 0.000 0.008 0.884 0.021 Component Coord Corr 0.399 0.875 0.037 0.009 0.048 0.008 -0.000 0.006 -0.001 0.000 0.095 0.109 2 Contr 0.913 0.018 0.000 0.001 0.000 0.068 Column Contributions ID 1 2 3 4 5 6 Name CDE EYS EE GDP LEB MYS Qual 0.993 0.949 0.653 1.000 0.999 0.915 Mass 0.001 0.001 0.000 0.990 0.007 0.001 Gráfico Symmetric Plot – Mostra a associação entre a categoria linha e coluna conforme a proximidade dos seus pontos no Biplot. 80 Symmetric Plot 2.5 PR 2.0 Component 2 1.5 1.0 VALE PETR NI MVDY 0.5 0.0 TAB CC BNKC PEC H EM -0.5 -1.0 -1.0 -0.5 0.0 0.5 1.0 1.5 Component 1 2.0 2.5 A análise da tabela de contingência mostra uma decomposição da inércia (χ2/n). Do total da inércia da matriz de dados, 95,31% é contabilizada no primeiro componente, 3,97% é contabilizada no segundo componente e assim por diante. No Symmetric Plot observa-se: 1. A empresa PetroChina, 1ª colocada no ranking está próxima ao Employees (Número de Empregados); 2. As empresas Industrial & Commercial Bank of China e China Construction Bank (4ª e 13ª colocadas no ranking estão próximas ao indicador Total Assets $m. 3. As empresas Petrobras e Vale (13ª e 22ª colocadas no ranking estão entre os indicadores Market Value $m, Net Income $m e Dividend Yield (%). 4. Todas as empresas estão distantes do indicador Price $. 6. CONSIDERAÇÕES FINAIS 6.1 Evolução Histórica dos Indicadores das 500 Empresas mais valiosas do mundo e da Posição dos Países do BRICS no Ranking O presente trabalho efetuou uma análise das médias amostrais, intervalos de confiança para a média populacional e análise de variância referente a 5 variáveis do Ranking 2010 das 500 Empresas mais valiosas do mundo publicada pela revista Financial Times. Constatamos que houve uma evolução em duas dessas variáveis, sendo elas: Market value $m (Valor de Mercado) e Turnover $m. No caso do Valor de Mercado, o valor médio passou de $m 40.401 para $m 53.555 (acréscimo de 32,56%) e no caso do Turnover, o valor médio passou de $m 30.496 para $m 40.419 (acréscimo de 32,54%). Isso demonstra que as 81 empresas se tornaram mais valiosas de 2005 para 2010. No caso das demais variáveis (Price $ (Preço da Ação), PE ratio e Dividend yield %) foi constatado que as médias populacionais dos anos de 2010 e 2005 não são estatisticamente diferentes. Já na análise da evolução dos países do BRICS no ranking das 500 empresas mais valiosas do mundo pudemos observar que houve uma evolução muito significativa. Houve uma variação positiva de 325% de 2005 para 2010, sendo que em 2005 haviam 16 empresas do BRICS no ranking, que representavam 3,2% e em 2010 há 68 empresas do BRICS entre as 500 empresas mais valiosas do mundo, que representam 13,6%. Analisando isoladamente os países do BRICS, o país que teve maior evolução no ranking de 2005 para 2010 foi a China, que em 2005 não tinha nenhuma empresa no ranking e em 2010 tem 23 empresas. Sendo também a China o país do BRICS que possui mais empresas no ranking, representando 33,82%, seguido por Índia (16 empresas, 23,53%), Brasil (12 empresas, 17,65%), Russia (11 empresas, 16,18%) e África do Sul (6 empresas, 8,82%). Se analisarmos a evolução dos países do BRICS em relação ao Valor de Mercado, podemos observar uma evolução mais significativa ainda. Houve uma variação positiva de 833,20%, sendo que em 2005 representavam 2,02% e em 2010 representam 15,54%. Outro dado muito interessante é que, em 2005 não havia nenhuma empresa do BRICS entre as 25 empresas mais valiosas do mundo e em 2010 existem 5 empresas entre as 25 mais valiosas do mundo, sendo que a empresa mais valiosa do mundo (PetroChina) é uma empresa da China, país pertencente ao BRICS. A China também possui a 4ª e a 11ª mais valiosa do mundo. O Brasil possui a 13ª (Petrobras) e a 22ª (Vale) empresa mais valiosa do mundo. 6.2 Estudos Complementares 6.2.1 Análise de Tendências Analisando a planilha de resultados da análise de tendências abaixo, podemos observar que poderá haver um crescimento de 106% na quantidade de países do BRICS no ranking das 500 empresas mais valiosas do mundo, passando de 68 países em 2010 para 140 países em 2015. Já no caso do outros países, poderá haver uma redução de 17%, passando de 432 países em 2010 para 360 países em 2015. Quantidade Total BRICS Outros Total Percentual Total BRICS Outros Total 2005 16 484 500 3% 97% 100% Comportamento Histórico 2006 2007 2008 2009 25 36 66 58 475 464 434 442 500 500 500 500 5% 7% 13% 12% 95% 93% 87% 88% 100% 100% 100% 100% 2010 68 432 500 14% 86% 100% 2011 90 410 500 18% 82% 100% Projeção 2012 2013 2014 103 115 128 397 385 372 500 500 500 21% 23% 26% 79% 77% 74% 100% 100% 100% 2015 140 360 500 28% 72% 100% 82 6.2.2 Relação entre Variáveis A maior relação entre variáveis foi encontrada entre o Valor de Mercado e o Lucro Líquido. Isso é coerente, pois o Lucro Líquido é um indicador que tem um alto grau de influência no valor de mercado da empresa. Já a menor relação entre variáveis contínuas foi encontrada entre o PE ratio e o Preço da Ação. Esse resultado sugere que o indicador PE ratio não tem muita influência sobre o preço da ação no mercado. 6.2.3 Regressões Múltiplas Foi encontrado um valor de R-Quadrado por volta de 80%, considerando a variável dependente Valor de Mercado. Esse valor parece ser condizente com os tipos de dados, pois as demais variáveis estão diretamente relacionadas com o valor de mercado da empresa. Com isso é possível realizar inferências satisfatórias mediante a utilização da equação encontrada. 6.2.4 Amostragem Era esperado que à medida que o tamanho da amostra aleatória aumenta, os valores da análise exploratória de dados também aumenta. Na maior parte dos casos foi possível verificar esta premissa, pela comparação dos valores de média, desvio padrão, mediana, mínimo e máximo entre os dados da população e da amostra, nas variáveis analisadas. No caso de P-Value, podemos observar que a variável Price $ apresentou valores abaixo de 0,10 nas amostras tamanho 20 e 50, portanto são estatísticamente diferentes da população. No caso das variáveis Market Value $m, Net Income $m, Total Assets $m, Employees, Price $ e Divident Yield (%), o P-Value é maior conforme o tamanho da amostra é maior. Nos demais casos, todas as amostras são estatísticamente iguais à população, porém nem sempre o P-Value é maior conforme o tamanho da amostra é maior. P-Value do Teste – T para três Amostras Variáveis Market Value $m Turnover $m Net Income $m Total Assets $m Employees Price $ PE ratio Dividend Yield (%) Amostra Aleatória 0.692 0,556 0,484 0,263 0,552 0,094 0,314 0,227 20 Amostra 50 Amostra Estratificada Aleatória 0,123 0,818 0,294 0,363 0,137 0,721 0,181 0,348 0,647 0,650 0,076 0,429 0,997 0,641 0,478 0,981 100 Na análise do teste One-way Anova, foi observado que o desvio padrão diminui conforme o tamanho da amostra aumenta e que a média das amostras vai se aproximando da média da população também conforme a amostra aumenta. 83 Na análise das correlações das variáveis, as amostras ficaram mais próximas das correlações da população total conforme o tamanho da amostra aumenta. Porém mesmo na amostra maior, de tamanho 100, algumas correlações não foram mantidas conforme a população. No Dendograma as variáveis em geral mantiveram a diposição nas amostras. E foram ficando mais próximas da população conforme o tamanho da amostra aumenta. Assim, podemos concluir que conforme o tamanho da amostra aumenta, melhor representa a população total. Porém no caso estudado, mesmo a maior amostra, de tamanho 100, não representa a população total, apresentando resultados diferentes em algumas análises. 6.2.5 Análise em Componentes Principais De acordo com todas as análises efetuadas, percebemos que o agrupamento de variáveis é pertinente no caso das variáveis do Ranking das 500 empresas mais valiosas do mundo. Isto pôde ser observado inicialmente pelas matrizes de correlação e dendogramas e depois comprovados pela análise dos componentes principais. Assim, ao invés de trabalharmos com um grupo grande de variáveis (8) poderíamos utilizar apenas três índices (PC1, PC2 e PC3) que as represente satisfatoriamente (72,9%). 6.2.6 Análise de Conglomerados Foi possível agrupar as empresas da amostra em 2 conglomerados. Podemos observar que as empresas mais valiosas se encontram no conglomerado 1, enquanto as empresas intermediárias e menos valiosas não eram divididas e se encontram no conglomerado 2. As empresas intermediárias e menos valiosas não foram divididas em conglomerados, mesmo quando se aumentava o número de conglomerados. Isso pode acontecer em função das empresas intermediárias e menos valiosas não terem muita diferença de valor, ao contrário das empresas mais valiosas. 6.2.7 Análise Discriminante De acordo com todas as análises realizadas, podemos constatar que a função linear se mostrou mais adequada para a amostra, pois apesar de ter obtido os mesmos resultados da função quadrática, ela é mais simples. Também foi possível constatar que utilizando-se somente a variável Market Value $m para divisão das empresas da amostra em conglomerados chegou-se a índices de proporção de acerto de 100%. Portanto podemos concluir que entre as variáveis de indicadores do ranking das 500 empresas mais valiosas do mundo, a variável Market Value $m é a mais significativa e somente a sua utilização já é suficiente para dividir as empresas da amostra em conglomerados. As demais variáveis muito pouco ou nada acrescentam. 6.2.8 Regressão Logística 84 De acordo com todas as análises realizadas, podemos constatar que a análise discriminante é uma opção melhor que a análise de regressão logística binária, pois na última, ocorreram erros que tornaram os resultados não confiáveis, o que não ocorreu na análise discriminante. Dentro da análise discriminante, a função linear se mostrou mais adequada. Também foi possível constatar que utilizando-se somente a variável Market Value $m para divisão das empresas da amostra em conglomerados chegou-se a índices de proporção de acerto de 100%. Portanto podemos concluir que entre as variáveis de indicadores das 500 empresas mais valiosas do mundo, a variável Valor de Mercado é a mais significativa e somente a sua utilização já é suficiente para dividir as empresas da amostra em conglomerados. As demais variáveis muito pouco ou nada acrescentam. 6.2.9 Árvores de Classificação De acordo com todas as análises realizadas, podemos constatar que a análise discriminante e a árvore de classificação e regressãosão uma opção melhor que a análise de regressão logística ordinal, pois na última, ocorreram erros que tornaram os resultados não confiáveis, o que não ocorreu nas demais análises. A melhor opção fica empatada entre a análise logística (linear) e a árvore de classificação e regressão, pois ambas alcançam 100% de proporção de acerto e utiliza somente uma variável (Market Value $m). Como o cálculo da análise logística linear é mais simples, esta se torna a melhor opção. A análise logística apresenta erros que tornam os resultados não confiáveis. A análise pela árvore de classificação e regressão também chegou ao resultado de que a variável Market Value $m é a que apresenta maior importância na separação de grupos, o que reforça a conclusão de que é a variável mais significativa e somente a sua utilização já é suficiente para dividir os países das amostras em conglomerados. As demais variáveis muito pouco ou nada acrescentam. 6.2.10 Análise de Correspondências A análise da tabela de contingência mostra uma decomposição da inércia (χ2/n). Do total da inércia da matriz de dados, 95,31% é contabilizada no primeiro componente, 3,97% é contabilizada no segundo componente e assim por diante. De acordo com as análises efetuadas, observa-se: 1. A empresa PetroChina, 1ª colocada no ranking está próxima ao Employees (Número de Empregados); 2. As empresas Industrial & Commercial Bank of China e China Construction Bank (4ª e 13ª colocadas no ranking estão próximas ao indicador Total Assets $m. 3. As empresas Petrobras e Vale (13ª e 22ª colocadas no ranking estão entre os indicadores Market Value $m, Net Income $m e Dividend Yield (%). 4. Todas as empresas estão distantes do indicador Price $. 85