PUC - SP
UM ESTUDO DA EVOLUÇÃO HISTÓRICA DOS
INDICADORES DAS 500 EMPRESAS MAIS VALIOSAS DO
MUNDO E DA POSIÇÃO DOS PAÍSES DO BRICS NO
RANKING
EDUARDO NOBORU KAWABUCHI
MESTRADO EM ADMINISTRAÇÃO DE EMPRESAS
MÉTODOS QUANTITATIVOS
PROF. DR. ARNOLDO HOYOS
SÃO PAULO
2011
Conteúdo 1. INTRODUÇÃO ..................................................................................................................4 2. ENTENDENDO OS DADOS.............................................................................................4 2.1 Os Indivíduos ................................................................................................................4 2.2 As Variáveis ..................................................................................................................4 2.3 A Tabela de Dados........................................................................................................5 2.4 Fonte de Dados..............................................................................................................5 3. ANÁLISE DAS VARIÁVEIS ............................................................................................6 3.1 Variável Market Value $m (Valor de Mercado) .......................................................6 3.2 Variável Turnover $m..................................................................................................7 3.3 Variável Price $ (Preço da Ação) ................................................................................8 3.4 Variável PE ratio ........................................................................................................10 3.5 Variável Dividend yield (%) ......................................................................................11 4. EVOLUÇÃO DOS PAÍSES DO BRICS NO RANKING DAS 500 EMPRESAS
MAIS VALIOSAS DO MUNDO.........................................................................................12 5. ESTUDOS COMPLEMENTARES ................................................................................15 5.1 Análise de Tendências ................................................................................................15 5.1.1 Países BRICS .......................................................................................................16 5.1.2 Outros Países........................................................................................................18 5.1.3 Resultado ..............................................................................................................20 5.2 Estatística Descritiva ..................................................................................................21 5.2.1 Variável Market Value $m .................................................................................21 5.2.2 Variável Turnover $m.........................................................................................22 5.2.3 Variável Net Income $m .....................................................................................22 5.2.4 Variável Total Assets $m ....................................................................................23 5.2.5 Variável Employees .............................................................................................24 5.2.6 Variável Price $....................................................................................................25 5.2.7 Variável PE ratio .................................................................................................26 5.2.8 Variável Dividend Yield (%) ..............................................................................27 5.3 Análise de Relação entre Variáveis...........................................................................28 5.4 Regressões Múltiplas ..................................................................................................30 5.5 Amostragem ................................................................................................................32 5.5.1 Variável Market Value $m .................................................................................32 5.5.2 Variável Turnover Value $m..............................................................................36 5.5.3 Variável Turnover Value $m..............................................................................39 5.5.4 Variável Total Assets $m ....................................................................................43 5.5.5 Variável Employees .............................................................................................46 5.5.6 Variável Price $....................................................................................................49 5.5.7 Variável PE ratio .................................................................................................52 5.5.8 Variável Dividend Yield (%) ..............................................................................56 5.5.9 Análise de Correlação e Dendogramas..............................................................59 5.5.10 Considerações ....................................................................................................61 5.6 Análise em Componentes Principais.........................................................................62 5.7 Análise de Conglomerados.........................................................................................64 5.7.1 Estatística Descritiva / Pesquisa por Amostragem ...........................................64 5.7.2 Análise de Conglomerados..................................................................................65 5.8 Análise Discriminante ................................................................................................69 5.8.1 Comparação de Média, Análise de Variância e Intervalo de Confiança........69 5.8.2 Análise Discriminante .........................................................................................72 5.9 Regressão Logística ....................................................................................................75 2
5.10 Árvores de Classificação ..........................................................................................78 5.11 Análise de Correspondências...................................................................................80 6. CONSIDERAÇÕES FINAIS...........................................................................................81 6.1 Evolução Histórica dos Indicadores das 500 Empresas mais valiosas do mundo e
da Posição dos Países do BRICS no Ranking ................................................................81 6.2 Estudos Complementares ..........................................................................................82 6.2.1 Análise de Tendências .........................................................................................82 6.2.2 Relação entre Variáveis ......................................................................................83 6.2.3 Regressões Múltiplas ...........................................................................................83 6.2.4 Amostragem .........................................................................................................83 6.2.5 Análise em Componentes Principais..................................................................84 6.2.6 Análise de Conglomerados..................................................................................84 6.2.7 Análise Discriminante .........................................................................................84 6.2.8 Regressão Logística .............................................................................................84 6.2.9 Árvores de Classificação .....................................................................................85 6.2.10 Análise de Correspondências............................................................................85 3
1. INTRODUÇÃO
Esse trabalho tem por objetivo efetuar uma análise comparativa das médias e intervalos de
confiança, variância da evolução histórica de dados do Ranking das 500 Empresas mais
valiosas do mundo publicada pela revista Financial Times e também analisar a evolução da
posição dos países do BRICS nesse ranking. O software estatístico utilizado é o MINITAB.
2. ENTENDENDO OS DADOS
Os dados são referentes ao ano de 2005 e 2010. As variáveis são indicadores financeiros e
relacionados de cada empresa.
Já o BRICS é um acrônimo que se refere aos países membros fundadores (Brasil, Rússia,
Índia e China) e à África do Sul. A idéia dos BRICS foi formulada pelo economista-chefe da
Goldman Sachs, Jim O´Neil, em estudo de 2001, intitulado “Building Better Global
Economic BRICs”. Fixou-se como categoria da análise nos meios econômico-financeiros,
empresariais, acadêmicos e de comunicação. Em 2006, o conceito deu origem a um
agrupamento, propriamente dito, incorporado à política externa de Brasil, Rússia, Índia e
China. Em 2011, por ocasião da III Cúpula, a África do Sul passou a fazer parte do
agrupamento, que adotou a sigla BRICS.
2.1 Os Indivíduos
Os indivíduos desta análise são as empresas reportadas no FT Global 500 2005 e 2010. São
500 empresas, classificadas em função do índice valor de mercado. Os dados analisados de
cada empresa são as variáveis que descrevemos a seguir. Os dados foram coletados no banco
de dados do Financial Times.
2.2 As Variáveis
São n as variáveis desta pesquisa, incluindo o nome das empresas. As mesmas são melhor
explicadas na Tabela 1.
Tabela 1. As Variáveis
Variável
Significado
Global
Rank Ranking Global 2010
2010
Global
Rank Ranking Global 2009
2009
Company
Nome da Empresa
Country
País de Origem
Continent
Continente
Sector
Setor de Atividade
Tipo
Variável
Quantitativa
Variável
Quantitativa
Variável
Categórica
Variável
Categórica
Variável
Categórica
Variável
Categórica
Unidade
de Medida
Número
Número
N/A
N/A
N/A
N/A
4
Market
value Valor de Mercado
Variável
$m
Quantitativa
Turnover $m
Indicador fundamentalista que mede o grau de
Variável
liquidez das ações de uma empresa no mercado. Quantitativa
Expressa a relação entre a média de volume diário
negociado no último mês e o free float da empresa,
ambos medidos em números de ações.
Free float é definido como a porcentagem do capital
numa empresa que não se encontra em mãos de
acionistas estratégicos (com participação superior a
5% do capital total da empresa). Assim a fórmula de
cálculo do indicador é:
Turnover = Volume Médio Diário (30 dias)/ Free
float (em número de ações)
Net Income $m Lucro Líquido
Variável
Quantitativa
Total Assets $m Ativo Total
Variável
Quantitativa
Employees
Número de Empregados
Variável
Quantitativa
Price $
Preço da Ação
Variável
Quantitativa
PE ratio
O Price - Earnings Ratio ou PER é um indicador de
Variável
análise bolsista das empresas. É o coeficiente de Quantitativa
capitalização do benefício.
O Price - Earnings Ratio ilustra o relacionamento,
por ação, entre o valor bolsista da empresa e os seus
resultados líquidos.
Cálculo: Price – Earnings Ratio = Cotação da ação /
Resultado Líquido por Ação
Na teoria, o PER representa o número de anos em
que recuperaria o seu investimento sob a forma de
dividendos.
Dividend yield Rendimento dos Dividendos (%). É um índice criado
Variável
(%)
para medir a rentabilidade dos dividendos de uma Quantitativa
empresa em relação ao preço de suas ações. Este
índice traz o benefício de poder comparar a
rentabilidade dos dividendos entre empresas.
Year end
Fim do Ano Fiscal
Variável
Quantitativa
$m
$m
$m
$m
Un
$
Indicador
%
Data
2.3 A Tabela de Dados
Vide em anexo arquivo em formato Excel.
2.4 Fonte de Dados
Todos os dados desta pesquisa foram obtidos em:
5
http://media.ft.com/cms/66ce3362-68b9-11df-96f1-00144feab49a.pdf
3. ANÁLISE DAS VARIÁVEIS
3.1 Variável Market Value $m (Valor de Mercado)
One-way ANOVA: Market value $m 2010; Market value $m 2005
Source
Factor
Error
Total
DF
1
510
511
S = 49648
SS
21412072746
1.25710E+12
1.27852E+12
R-Sq = 1.67%
Level
Market value $m 2010
Market value $m 2005
Level
Market value $m 2010
Market value $m 2005
N
256
256
MS
21412072746
2464910481
F
8.69
P
0.003
R-Sq(adj) = 1.48%
Mean
53335
40401
StDev
50816
48452
Individual 95% CIs For Mean Based on Pooled StDev
-+---------+---------+---------+-------(--------*--------)
(--------*-------)
-+---------+---------+---------+-------35000
42000
49000
56000
Pooled StDev = 49648
O p-value obtido é de 0,003, abaixo de 0,05, indicando que, com intervalo de confiança de
95%, as médias populacionais dos anos 2010 e 2005 da variável são estatisticamente
diferentes. Podemos observar que a média populacional de 2010 ($m 40.401) é superior à
2005 (53.555) em 32,56%, demonstrando uma evolução.
Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido
anteriormente:
Two-Sample T-Test and CI: Market value $m 2010; Market value $m 2005
Two-sample T for Market value $m 2010 vs Market value $m 2005
Market value $m 2010
Market value $m 2005
N
256
256
Mean
53335
40401
StDev
50816
48452
SE Mean
3176
3028
Difference = mu (Market value $m 2010) - mu (Market value $m 2005)
Estimate for difference: 12934
95% CI for difference: (4312; 21555)
T-Test of difference = 0 (vs not =): T-Value = 2.95 P-Value = 0.003
DF = 508
Abaixo o box-plot corroborando a as análises efetuadas acima.
6
Boxplot of Market value $m 2010; Market value $m 2005
400000
Data
300000
200000
100000
0
Market value $m 2010
Market value $m 2005
3.2 Variável Turnover $m
One-way ANOVA: Turnover $m 2010; Turnover $m 2005
Source
Factor
Error
Total
DF
1
509
510
S = 46167
SS
12578452996
1.08487E+12
1.09745E+12
R-Sq = 1.15%
Level
Turnover $m 2010
Turnover $m 2005
N
255
256
MS
12578452996
2131380423
F
5.90
P
0.015
R-Sq(adj) = 0.95%
Mean
40419
30496
StDev
49562
42517
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(--------*---------)
(---------*--------)
---------+---------+---------+---------+
30000
36000
42000
48000
Pooled StDev = 46167
O p-value obtido é de 0,015, abaixo de 0,05, indicando que, com intervalo de confiança de
95%, as médias populacionais dos anos 2010 e 2005 da variável são estatisticamente
diferentes. Podemos observar que a média populacional de 2010 ($m 30.496) é superior à
2005 ($m 40.419) em 32.54%, demonstrando uma evolução.
Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido
anteriormente:
7
Two-Sample T-Test and CI: Turnover $m 2010; Turnover $m 2005
Two-sample T for Turnover $m 2010 vs Turnover $m 2005
Turnover $m 2010
Turnover $m 2005
N
255
256
Mean
40419
30496
StDev
49562
42517
SE Mean
3104
2657
Difference = mu (Turnover $m 2010) - mu (Turnover $m 2005)
Estimate for difference: 9923
95% CI for difference: (1895; 17950)
T-Test of difference = 0 (vs not =): T-Value = 2.43 P-Value = 0.016
DF = 496
Abaixo o box-plot corroborando a as análises efetuadas acima.
Boxplot of Turnover $m 2010; Turnover $m 2005
400000
Data
300000
200000
100000
0
Turnover $m 2010
Turnover $m 2005
3.3 Variável Price $ (Preço da Ação)
One-way ANOVA: Price $ 2010; Price $ 2005
Source
Factor
Error
Total
DF
1
510
511
S = 862.2
SS
80817
379150411
379231228
MS
80817
743432
R-Sq = 0.02%
Level
Price $ 2010
Price $ 2005
N
256
256
Mean
153.9
179.0
F
0.11
P
0.742
R-Sq(adj) = 0.00%
StDev
769.4
946.0
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(-----------------*----------------)
(-----------------*----------------)
8
--+---------+---------+---------+------60
120
180
240
Pooled StDev = 862.2
O p-value obtido é de 0,742, bastante superior à 0,05, indicando que, com intervalo de
confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável não são
estatisticamente diferentes.
Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido
anteriormente:
Two-Sample T-Test and CI: Price $ 2010; Price $ 2005
Two-sample T for Price $ 2010 vs Price $ 2005
Price $ 2010
Price $ 2005
N
256
256
Mean
154
179
StDev
769
946
SE
Mean
48
59
Difference = mu (Price $ 2010) - mu (Price $ 2005)
Estimate for difference: -25.1
95% CI for difference: (-174.9; 124.6)
T-Test of difference = 0 (vs not =): T-Value = -0.33
P-Value = 0.742
DF = 489
Abaixo o box-plot corroborando a as análises efetuadas acima.
Boxplot of Price $ 2010; Price $ 2005
9000
8000
7000
Data
6000
5000
4000
3000
2000
1000
0
Price $ 2010
Price $ 2005
9
3.4 Variável PE ratio
One-way ANOVA: PE ratio 2010; PE ratio 2005
Source
Factor
Error
Total
DF
1
510
511
S = 11.04
SS
1
62170
62171
MS
1
122
F
0.01
R-Sq = 0.00%
Level
PE ratio 2010
PE ratio 2005
N
256
256
Mean
21.15
21.06
P
0.926
R-Sq(adj) = 0.00%
StDev
11.73
10.30
Individual 95% CIs For Mean Based on
Pooled StDev
----+---------+---------+---------+----(----------------*----------------)
(----------------*----------------)
----+---------+---------+---------+----20.00
20.80
21.60
22.40
Pooled StDev = 11.04
O p-value obtido é de 0,926, bastante superior à 0,05, indicando que, com intervalo de
confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável não são
estatisticamente diferentes.
Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido
anteriormente:
Two-Sample T-Test and CI: PE ratio 2010; PE ratio 2005
Two-sample T for PE ratio 2010 vs PE ratio 2005
PE ratio 2010
PE ratio 2005
N
256
256
Mean
21.2
21.1
StDev
11.7
10.3
SE Mean
0.73
0.64
Difference = mu (PE ratio 2010) - mu (PE ratio 2005)
Estimate for difference: 0.090
95% CI for difference: (-1.827; 2.008)
T-Test of difference = 0 (vs not =): T-Value = 0.09 P-Value = 0.926
DF = 501
Abaixo o box-plot corroborando a as análises efetuadas acima.
10
Boxplot of PE ratio 2010; PE ratio 2005
80
70
60
Data
50
40
30
20
10
0
PE ratio 2010
PE ratio 2005
3.5 Variável Dividend yield (%)
One-way ANOVA: Dividend yield (%) 2010; Dividend yield (%) 2005
Source
Factor
Error
Total
DF
1
510
511
S = 11.50
SS
30
67504
67534
MS
30
132
R-Sq = 0.04%
F
0.23
P
0.635
R-Sq(adj) = 0.00%
Level
Dividend yield (%) 2010
Dividend yield (%) 2005
N
256
256
Mean
2.62
3.11
StDev
1.64
16.19
Level
Dividend yield (%) 2010
Dividend yield (%) 2005
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(-------------*-------------)
(-------------*-------------)
--------+---------+---------+---------+2.0
3.0
4.0
5.0
Pooled StDev = 11.50
O p-value obtido é de 0,635, bastante superior à 0,05, indicando que, com intervalo de
confiança de 95%, as médias populacionais dos anos 2010 e 2005 da variável não são
estatisticamente diferentes.
11
Segue abaixo a análise do Two-Sample T-Test, que confirma o resultado obtido
anteriormente:
Two-Sample T-Test and CI: Dividend yield (%) 2010; Dividend yield (%) 2005
Two-sample T for Dividend yield (%) 2010 vs Dividend yield (%) 2005
Dividend yield (%) 2010
Dividend yield (%) 2005
N
256
256
Mean
2.62
3.1
StDev
1.64
16.2
SE Mean
0.10
1.0
Difference = mu (Dividend yield (%) 2010) - mu (Dividend yield (%) 2005)
Estimate for difference: -0.48
95% CI for difference: (-2.49; 1.52)
T-Test of difference = 0 (vs not =): T-Value = -0.48 P-Value = 0.635 DF = 260
Abaixo o box-plot corroborando a as análises efetuadas acima.
Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2005
250
Data
200
150
100
50
0
Dividend yield (%) 2010
Dividend yield (%) 2005
4. EVOLUÇÃO DOS PAÍSES DO BRICS NO RANKING DAS 500 EMPRESAS
MAIS VALIOSAS DO MUNDO
Tabela 2. Evolução dos Países do BRICS no Ranking das 500 Empresas mais valiosas do
mundo
País Brasil 2005 Qtde % Total % BRICS
5 1.00% 31.25%
2010 Variação Qtde % Total % BRICS 2010/2005 12
2.40% 17.65% 140.0%
12
Rússia Índia China África do Sul Total BRICS Outros Total 4 0.80%
5 1.00%
0 0.00%
2 0.40%
16 3.20%
484 96.80%
500 100.00%
25.00%
31.25%
0.00%
12.50%
‐ ‐ ‐ 11
2.20%
16
3.20%
23
4.60%
6
1.20%
68 13.60%
432 86.40%
500 100.00%
16.18% 23.53% 33.82% 8.82% ‐ ‐ ‐ 175.0%
220.0%
‐ 200.0%
325.0%
‐10.7%
‐ Podemos observar que houve uma evolução muito significativa dos países do BRICS no
ranking das 500 empresas mais valiosas do mundo. Houve uma variação positiva de 325%,
sendo que em 2005 haviam 16 empresas do BRICS no ranking, que representavam 3,2% e
em 2010 há 68 empresas do BRICS entre as 500 empresas mais valiosas do mundo, que
representam 13,6%.
Pie Chart of BRICS 2005; BRICS 2010
BRICS 2005
BRICS 2010
BRICS
16; 3.2%
Outros
484; 96.8%
Category
BRICS
Outros
BRICS
68; 13.6%
Outros
432; 86.4%
Analisando isoladamente os países do BRICS, o país que teve maior evolução no ranking de
2005 para 2010 foi a China, que em 2005 não tinha nenhuma empresa no ranking e em 2010
tem 23 empresas. Sendo também a China o país do BRICS que possui mais empresas no
ranking, representando 33,82%, seguido por Índia (16 empresas, 23,53%), Brasil (12
empresas, 17,65%), Russia (11 empresas, 16,18%) e África do Sul (6 empresas, 8,82%).
13
Pie Chart of Country 2005; Country 2010
Country 2005
Country 2010
South A frica
2; 12.5%
Brazil
5; 31.3%
Brazil
12; 17.6%
Category
Brazil
India
Russia
South Africa
China
C hina
23; 33.8%
Russia
4; 25.0%
India
16; 23.5%
India
5; 31.3%
South Africa
6; 8.8%
Russia
11; 16.2%
Tabela 3. Evolução do Market value $m dos Países do BRICS no Ranking das 500
Empresas mais valiosas do mundo
País Brasil Rússia Índia China África do Sul Total BRICS Outros Total 2005 Market value $m % Total % BRICS
131,571.50 0.68% 33.61%
140,865.70 0.73% 35.98%
89,731.30 0.46% 22.92%
0.00 0.00%
0.00%
29,311.10 0.15%
7.49%
391,479.60 2.02%
‐ 18,948,604.10 97.98%
‐ 19,340,083.70 100.00%
‐ 2010 Variação Market value $m % Total % BRICS 2010/2005 764,494.90
3.25% 20.93% 481.0%
512,896.70
2.18% 14.04% 264.1%
485,434.70
2.07% 13.29% 441.0%
1,751,832.20
7.45% 47.95% ‐ 138,650.80
0.59% 3.80% 373.0%
3,653,309.30 15.54% ‐ 833.2%
19,849,822.40 84.46% ‐ 4.8%
23,503,131.70 100.00% ‐ ‐ Se analisarmos a evolução em relação ao Market value, podemos observar uma evolução
mais significativa ainda dos países do BRICS no ranking das 500 empresas mais valiosas do
mundo. Houve uma variação positiva de 833,20%, sendo que em 2005 representavam 2,02%
e em 2010 representam 15,54%. A variação da média populacional foi 32,56%.
Outro dado muito interessante é que, em 2005 não havia nenhuma empresa do BRICS entre
as 25 empresas mais valiosas do mundo e em 2010 existem 5 empresas entre as 25 mais
valiosas do mundo, sendo que a empresa mais valiosa do mundo (PetroChina) é uma
empresa da China, país pertencente ao BRICS. A China também possui a 4ª e a 11ª mais valiosa do mundo. O Brasil possui a 13ª (Petrobras) e a 22ª (Vale) empresa mais valiosa do mundo.
14
Global Rank 2005 Company 1 General Electric Country US Market value $m 382,233.10
Global Rank 2010 Company 1 PetroChina Country China Market value $m 329,259.70
2 ExxonMobil US 380,567.20
2 Exxon Mobil US 316,230.80
3 Microsoft US 262,974.90
3 Microsoft US 256,864.70
China 246,419.80
213,096.70
4 Citigroup US 234,436.70
Industrial & Commercial 4 Bank of China 5 BP UK 221,365.30
5 Apple US 6 Wal‐Mart Stores US 212,209.0
6 BHP Billiton Australia/UK 209,935.10
7 Royal Dutch/Shell Netherlands/UK 210,630.40
Johnson & 8 Johnson US 199,711.40
9 Pfizer 7 Wal‐Mart Stores US Berkshire 8 Hathaway US 209,000.70
200,620.50
9 General Electric US 194,246.20
US 195,944.60
10 Bank of America US 178,765.40
11 HSBC UK 176,858.40
12 Vodafone UK 171,416.90
12 Nestle Switzerland 13 IBM US 165,787.10
Brazil 186,239.50
14 Total France 148,957.10
US 183,773.40
15 Intel Corporation US 144,695.40
13 Petrobras Procter & 14 Gamble Johnson & 15 Johnson US 179,708.10
American International 16 Group US 144,319.20
179,073.90
17 Altria US 135,246.10
16 Bank of America US JP Morgan 17 Chase US 18 Toyota Motor Japan 134,324.40
19 GlaxoSmithKline Berkshire 20 Hathaway UK US 21 Procter & Gamble US Saudi Basic 22 Industries Saudi Arabia 10 China Mobile China Construction 11 Bank Hong Kong China 192,998.60
191,517.0
187,255.0
177,792.10
UK 177,609.10
134,123.50
18 BP Royal Dutch 19 Shell UK 176,968.10
134,067.20
20 HSBC UK 176,573.50
133,697.0
21 IBM US 166,597.10
128,790.0
Brazil 162,829.90
US 161,454.50
23 Novartis Switzerland 124,610.20
22 Vale Wells Fargo & 23 Co 24 ChevronTexaco US 123,536.30
24 AT&T US 152,509.60
25 JP Morgan Chase US 123,261.10
25 Chevron US 152,293.40
5. ESTUDOS COMPLEMENTARES
5.1 Análise de Tendências
15
Efetuar uma análise de tendência e projeção da evolução das empresas dos países do BRICS
no Ranking das 500 empresas mais valiosas do mundo.
Time Series Plot of Total BRICS; Outros Países
500
Variable
Total BRICS
Outros Países
400
Data
300
200
100
0
2005
2006
2007
2008
2009
2010
Ano
Podemos observar pelo comportamento histórico das variáveis, que houve um crescimento
muito grande na quantidade de empresas dos países do BRICS no ranking das 500 empresas
mais valiosas do mundo de 2005 até 2008, em 2009 houve um leve queda e em 2010 o
crescimento foi retomado. O mesmo comportamento, só que inverso, podemos observar na
quantidade de empresas dos demais países do mundo. Vale observar que os dados
divulgados pelo Financial Times tem como data base o ano anterior à divulgação, portanto
essa variação no comportamento histórico ocorreu em função da crise financeira de 2008 e o
comportamento de 2005 à 2008 deve ser mantido para os anos futuros.
5.1.1 Países BRICS
16
Trend Analysis Plot for Total BRICS
Linear Trend Model
Yt = 5.93 + 11.1*t
Variable
Actual
Fits
Forecasts
140
120
Accuracy Measures
MA PE
10.7970
MA D
5.2032
MSD
49.8508
Total BRICS
100
80
60
40
20
0
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Ano
Trend Analysis Plot for Total BRICS
Quadratic Trend Model
Yt = -5.9 + 20.0*t - 1.27*t**2
80
Variable
Actual
Fits
Forecasts
70
Accuracy Measures
MA PE
13.4988
MA D
5.1357
MSD
39.8488
Total BRICS
60
50
40
30
20
10
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Ano
17
Trend Analysis Plot for Total BRICS
Growth Curve Model
Yt = 13.979 * (1.3447**t)
Variable
Actual
Fits
Forecasts
600
Total BRICS
500
Accuracy Measures
MA PE
13.736
MA D
7.246
MSD
108.359
400
300
200
100
0
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Ano
O cálculo da Função S-Curve não foi possível para esta série.
MAPE
MAD
MSD
Linear
10,7970
5,2032
49,8508
Quadrática
13,4988
5,1357
39,8488
Exponencial
13,736
7,246
108,359
S-Curve
-
Com base nos resultados acima e considerando a variação do comportamento histórico em
função da crise financeira de 2009, a função linear foi a que melhor se adaptou aos dados,
pois a projeção da função quadrática sofre grande impacto em função da crise financeira.
5.1.2 Outros Países
18
Trend Analysis Plot for Outros Países
Linear Trend Model
Yt = 494.07 - 11.1143*t
500
Variable
Actual
Fits
Forecasts
Outros Países
475
Accuracy Measures
MA PE
1.1745
MA D
5.2032
MSD
49.8508
450
425
400
375
350
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Ano
Trend Analysis Plot for Outros Países
Quadratic Trend Model
Yt = 505.9 - 20.0*t + 1.27*t**2
490
Variable
Actual
Fits
Forecasts
480
Outros Países
470
Accuracy Measures
MA PE
1.1380
MA D
5.1357
MSD
39.8488
460
450
440
430
420
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Ano
19
Trend Analysis Plot for Outros Países
Growth Curve Model
Yt = 495.116 * (0.97597**t)
500
Variable
Actual
Fits
Forecasts
480
Outros Países
460
Accuracy Measures
MA PE
1.1568
MA D
5.1306
MSD
47.8719
440
420
400
380
360
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Ano
O cálculo da Função S-Curve não foi possível para esta série.
MAPE
MAD
MSD
Linear
1,1745
5,2032
49,8508
Quadrática
1,1380
5,1357
39,8488
Exponencial
1,1568
5,1306
47,8719
S-Curve
-
No caso da projeção dos demais países que não pertencem ao BRICS, também iremos
considerar que a função linear foi a que melhor se adaptou aos dados, pois iremos utilizar o
mesmo tipo de modelo para realizar as projeções. A projeção da função quadrática sofre
grande impacto em função da crise financeira e a projeção da função exponencial não é
aplicável para os países do BRICS.
5.1.3 Resultado
Analisando a planilha de resultados da análise de tendências abaixo, podemos observar que
poderá haver um crescimento de 106% na quantidade de países do BRICS no ranking das
500 empresas mais valiosas do mundo, passando de 68 países em 2010 para 140 países em
2015. Já no caso do outros países, poderá haver uma redução de 17%, passando de 432
países em 2010 para 360 países em 2015.
Comportamento Histórico Projeção 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Quantidade Total BRICS 16
25 36
66
58
68
90
103 115 128
140
Outros 484
475 464
434
442
432
410
397 385 372
360
20
Total 500
500 500
500
500
500
500
500 500 500
500
Percentual Total BRICS 3%
5% 7% 13% 12% 14% 18% 21% 23% 26% 28%
Outros 97% 95% 93% 87% 88% 86% 82% 79% 77% 74% 72%
Total 100% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100%
5.2 Estatística Descritiva
Começamos com a análise das medidas e gráficos da estatística descritiva de cada uma das
variáveis, a saber: Market Value $m, Turnover $m, Net Income $m, Total Assets $m,
Employees, Price $, PE ratio e Dividend Yield (%).
5.2.1 Variável Market Value $m
Segue abaixo o resumo exploratório desta variável:
Summary for Market value $m 2010
A nderson-D arling N ormality Test
60000
120000
180000
240000
A -S quared
P -V alue <
25.54
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
53335
50816
2582254479
2.46625
7.25743
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
300000
16048
22466
33589
61229
329260
95% C onfidence Interv al for M ean
47080
59589
95% C onfidence Interv al for M edian
30140
37160
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
46762
55645
Mean
Median
30000
35000
40000
45000
50000
55000
60000
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (172.654) entre o valor mínimo (16.048) e o valor máximo (329.260)
registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta
assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado
principal do gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 96.907,5 $m. Os
maiores valores são a PetroChina (1ª colocada) com 329.260 e a Exxon Mobil (2ª colocada) com 316.231.
21
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o valor de mercado menor que 33.589 e metade maior que esse valor. A média do
valor de mercado é de 53.335, e o desvio padrão é de 50.816 (alto). O valor mínimo foi
16.048 e o valor máximo foi 329.260. Com 95% de confiança, podemos afirmar que a média
do valor de mercado das empresas encontra-se entre 47.080 e 59.589.
5.2.2 Variável Turnover $m
Segue abaixo o resumo exploratório desta variável:
Summary for Turnover $m 2010
A nderson-D arling N ormality Test
0
60000
120000
180000
240000
300000
A -S quared
P -V alue <
22.91
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
40419
49562
2456363318
3.4064
16.6408
255
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
360000
1822
11850
22953
48935
405046
95% C onfidence Interv al for M ean
34307
46531
95% C onfidence Interv al for M edian
20258
25276
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
45601
54282
Mean
Median
20000
25000
30000
35000
40000
45000
50000
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (203.434) entre o valor mínimo (1.822) e o valor máximo (405.046) registrado.
O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da
distribuição. A posição da linha da mediana longe do centro do quadrado principal do
gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 92.712,5 $m. O
maior valor é do Wal-Mart Stores (7ª colocada) com 405.046.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o turnover menor que 22.953 e metade maior que esse valor. A média do turnover é
de 40.419, e o desvio padrão é de 49.562 (alto). O valor mínimo foi 1.822 e o valor máximo
foi 405.046. Com 95% de confiança, podemos afirmar que a média do turnover das
empresas encontra-se entre 34.307 e 46.531.
5.2.3 Variável Net Income $m
22
Segue abaixo o resumo exploratório desta variável:
Summary for Net Income $m 2010
A nderson-D arling N ormality Test
0
4000
8000
12000
16000
20000
24000
A -S quared
P -V alue <
29.68
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
3243.3
3744.2
14019171.1
2.57108
7.29306
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
289.4
1155.5
1796.7
3465.8
24330.9
95% C onfidence Interv al for M ean
2782.4
3704.1
95% C onfidence Interv al for M edian
1592.5
2027.7
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
3445.5
4100.0
Mean
Median
1500
2000
2500
3000
3500
4000
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (12.310,15) entre o valor mínimo (289,4) e o valor máximo (24.330,9)
registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta
assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado
principal do gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 5.775,75 $m. O
maior valor é do Gazprom (33ª colocada) com 24.330,90.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o Net Income menor que 1.796,7 e metade maior que esse valor. A média do Net
Income é de 3.243,3, e o desvio padrão é de 3.744,2 (alto). O valor mínimo foi 289,4 e o
valor máximo foi 24.330,9. Com 95% de confiança, podemos afirmar que a média do Net
Income das empresas encontra-se entre 2.782,4 e 3.704,1.
5.2.4 Variável Total Assets $m
Segue abaixo o resumo exploratório desta variável:
23
Summary for Total Assets $m 2010
A nderson-D arling N ormality Test
0
150000
300000
450000
600000
A -S quared
P -V alue <
26.61
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
57818
74848
5602174812
4.6414
35.2693
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
750000
2520
18312
34556
65076
781818
95% C onfidence Interv al for M ean
48605
67030
95% C onfidence Interv al for M edian
31264
38599
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
68877
81960
Mean
Median
30000
40000
50000
60000
70000
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (392.169) entre o valor mínimo (2.520) e o valor máximo (781.818) registrado.
O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da
distribuição. A posição da linha da mediana longe do centro do quadrado principal do
gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 116.910 $m. O
maior valor é da General Eletric (9ª colocada) com 781.818.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o Total Assets menor que 34.556 e metade maior que esse valor. A média do Total
Assets é de 57.818, e o desvio padrão é de 74.848 (alto). O valor mínimo foi 2.520 e o valor
máximo foi 781.818. Com 95% de confiança, podemos afirmar que a média do Total Assets
das empresas encontra-se entre 48.605 e 67.030.
5.2.5 Variável Employees
Segue abaixo o resumo exploratório desta variável:
24
Summary for Employees 2010
A nderson-D arling N ormality Test
0
300000
600000
900000
1200000
1500000
1800000
2100000
A -S quared
P -V alue <
31.62
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
97210
162659
26457833696
7.8825
90.4131
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
1814
26439
52369
104377
2100000
95% C onfidence Interv al for M ean
77189
117230
95% C onfidence Interv al for M edian
43510
64104
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
149683
178116
Mean
Median
40000
60000
80000
100000
120000
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (1.050.907) entre o valor mínimo (1.814) e o valor máximo (2.100.000)
registrado. O gráfico de caixa e a análise dos 5 números também nos deixa claro esta
assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado
principal do gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há valores atípicos no gráfico, com valores acima de 197.345 $m. O
maior valor é do Wal-Mart Stores (7ª colocada) com 2.100.000 empregados.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui quantidade de empregados menor que 52.369 e metade maior que esse valor. A média
de empregados é de 97.210, e o desvio padrão é de 162.659 (alto). O valor mínimo foi 1.814
e o valor máximo foi 2.100.000. Com 95% de confiança, podemos afirmar que a média da
quantidade de empregados das empresas encontra-se entre 77.189 e 117.230.
5.2.6 Variável Price $
Segue abaixo o resumo exploratório desta variável:
25
Summary for Price $ 2010
A nderson-D arling N ormality Test
0
1500
3000
4500
6000
7500
A -S quared
P -V alue <
82.83
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
153.86
769.43
592029.98
8.3506
72.3440
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.80
24.77
42.35
65.00
7619.90
95% C onfidence Interv al for M ean
59.15
248.56
95% C onfidence Interv al for M edian
37.08
47.78
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
708.06
842.55
Mean
Median
50
100
150
200
250
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (3.810,35) entre o valor mínimo (0,80) e o valor máximo (7.619,90) registrado.
O gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da
distribuição. A posição da linha da mediana longe do centro do quadrado principal do
gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há diversos valores atípicos no gráfico, com valores acima de 100,575
$m. Os maiores valores são a Central Japan Railway (490ª colocada) com 7.619,90 e a
Inpex (465ª colocada) com 7.341,60.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o preço da ação menor que 42.35 e metade maior que esse valor. A média do preço da
ação é de 153,86, e o desvio padrão é de 769,43 (alto). O valor mínimo foi 0,80 e o valor
máximo foi 7.619,90. Com 95% de confiança, podemos afirmar que a média do preço da
ação das empresas encontra-se entre 59,15 e 248,56.
5.2.7 Variável PE ratio
Segue abaixo o resumo exploratório desta variável:
26
Summary for PE ratio 2010
A nderson-D arling N ormality Test
15
30
45
60
A -S quared
P -V alue <
14.20
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
21.154
11.731
137.611
2.24741
6.30172
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
75
5.700
14.350
17.800
23.850
77.700
95% C onfidence Interv al for M ean
19.710
22.597
95% C onfidence Interv al for M edian
17.084
18.800
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
10.795
12.846
Mean
Median
17
18
19
20
21
22
23
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (41,700) entre o valor mínimo (5,700) e o valor máximo (77,700) registrado. O
gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da
distribuição. A posição da linha da mediana longe do centro do quadrado principal do
gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há diversos valores atípicos no gráfico, com valores acima de 23,750
$m.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o PE ratio menor que 17,800 e metade maior que esse valor. A média do PE ratio é de
21,154, e o desvio padrão é de 11,731 (alto). O valor mínimo foi 5,700 e o valor máximo foi
77,700. Com 95% de confiança, podemos afirmar que a média do PE ratio das empresas
encontra-se entre 19,710 e 22,597.
5.2.8 Variável Dividend Yield (%)
Segue abaixo o resumo exploratório desta variável:
27
Summary for Dividend yield (%) 2010
A nderson-D arling N ormality Test
0.0
1.5
3.0
4.5
6.0
A -S quared
P -V alue <
3.34
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
2.6238
1.6447
2.7049
0.816369
0.444275
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
7.5
0.1000
1.4000
2.4000
3.6000
8.4000
95% C onfidence Interv al for M ean
2.4214
2.8263
95% C onfidence Interv al for M edian
2.1000
2.6000
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
1.5135
1.8009
Mean
Median
2.0
2.2
2.4
2.6
2.8
As principais observações que podemos fazer são:
- Forma: o histograma permite verificar que trata-se de uma distribuição assimétrica para a
direita, ou seja, a maior parte das empresas se concentra em uma faixa mais baixa que o
ponto médio (4,25) entre o valor mínimo (0,10) e o valor máximo (8,40) registrado. O
gráfico de caixa e a análise dos 5 números também nos deixa claro esta assimetria da
distribuição. A posição da linha da mediana longe do centro do quadrado principal do
gráfico de caixa nos confirma esta afirmativa.
- Valores Atípicos: Há 2 valores atípicos no gráfico, com valores acima de 5,50 $m, sendo
eles: a France Telecom (91ª colocada) com 8,40 e a Mobile Telesystems (470ª colocada) com 7,70.
- Centro e Dispersão: a mediana nos indica que aproximadamente metade das empresas
possui o Dividend Yield (%) menor que 2,400 e metade maior que esse valor. A média do
Dividend Yield (%) é de 2,6238, e o desvio padrão é de 1,6447 (alto). O valor mínimo foi
0,10 e o valor máximo foi 8,40. Com 95% de confiança, podemos afirmar que a média do
Dividend Yield (%) das empresas encontra-se entre 2,4214 e 2,8263.
5.3 Análise de Relação entre Variáveis
Verificar a relação entre as variáveis de dados de indicadores relacionados ao Ranking das
500 empresas mais valiosas do mundo.
28
Scatterplot of Market value vs Turnover $m ; Net Income $; ...
Turnov er $ m 2010
N et Income $ m 2010
Total A ssets $ m 2010
300000
Market value $m 2010
150000
0
0
200000
E mploy ees 2010
4000000
10000
20000
P rice $ 2010
0
400000
P E ratio 2010
800000
300000
150000
0
0
1000000
2000000 0
D iv idend y ield (% ) 2010
4000
8000
0
40
80
300000
150000
0
0
4
8
Podemos observar pela análise dos gráficos de dispersão que a variável Net Income $m
possui uma relação linear de associação positiva muito clara. Outras variáveis como o
Turnover $m e Total Assets $m também possuem esta relação, porém com dados mais
dispersos.
Turnover $m
Net Income
$m
Total Assets
$m
Market
Value $m
Turnover
$m
0,654
0,000
0,870
0,658
0,000
0,612
0,000
0,679
0,608
0,000
0,639
0,000
-0,032
0,607
-0,111
0,076
0,194
0,002
0,000
0,347
0,000
-0,052
0,405
-0,347
0,000
0,235
0,000
0,000
Employees
0,366
0,000
Price $
-0,076
0,228
PE ratio
-0,124
0,047
Dividend yield 0,137
0,028
Net
Income
$m
Total
Assets $m
0,306
0,000
-0,043
0,498
-0,134
0,032
0,270
0,000
Employees Price $
PE ratio
-0,066
0,293
0,005
0,942
0,006
0,920
-0,328
0,000
-0,082
0,190
-0,098
0,116
Cell Contents: Pearson correlation
P-Value
Quase todas as correlações são significativas de acordo com o P-Value (para este trabalho
consideraremos significativo P-Value menor ou igual a 0,10), exceto as correlações com a
29
variável Price $ e PE ratio x Employees, Dividend yield x Employees. Assim como
verificado no gráfico de dispersão, as variáveis Turnover $m, NET Income $m e Total
Assets $m possuem um coeficiente de correlação alto com a variável dependente Market
Value $m, sendo a variável Net Income $m com maior correlação e a variável Price $ com a
menor correlação.
Dendrogram
Single Linkage; Correlation Coefficient Distance
Similarity
48.38
65.59
82.79
100.00
k
ar
M
et
e
lu
va
$m
10
20
Ne
m
co
n
tI
e
$m
10
20
er
ov
n
r
Tu
$m
10
20
l
ta
To
ts
se
s
A
$m
10
20
Em
ee
oy
l
p
s
10
20
d
en
d
vi
Di
d
el
yi
0
01
2
)
(%
PE
ra
tio
10
20
e
ic
Pr
$
10
20
Variables
Através da observação e análise do Dendograma, podemos observar um maior grau de
similaridade da variável Market Value com o Net Income $m. As variáveis Turnover $m e
Total Assets $m também também possuem um alto grau de similaridade. A variável Price $
possui o menor grau de similaridade. Essas verificações estão de acordo com o observado
previamente nos gráficos de dispersão e análise de correlação.
5.4 Regressões Múltiplas
Realizar uma análise de regressões múltiplas com dados de indicadores relacionados ao
Ranking das 500 empresas mais valiosas do mundo, buscando encontrar as equações de
regressão linear múltipla tendo como variável explicativa o Valor de Mercado.
Regression Analysis: Market value versus Turnover $m ; Net Income $; ...
The regression equation is
Market value $m 2010 = - 1851 + 0.0671 Turnover $m 2010
+ 11.3 Net Income $m 2010 + 0.0659 Total Assets $m 2010
+ 0.0009 Employees 2010 - 1.06 Price $ 2010
+ 739 PE ratio 2010 - 1389 Dividend yield (%) 2010
255 cases used, 1 cases contain missing values
30
Predictor
Constant
Turnover $m 2010
Net Income $m 2010
Total Assets $m 2010
Employees 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
S = 22815.9
Coef
-1851
0.06706
11.3467
0.06594
0.00086
-1.055
739.3
-1389.1
R-Sq = 80.5%
SE Coef
4982
0.05373
0.5743
0.02887
0.01182
1.891
139.2
967.7
T
-0.37
1.25
19.76
2.28
0.07
-0.56
5.31
-1.44
P
0.711
0.213
0.000
0.023
0.942
0.577
0.000
0.152
R-Sq(adj) = 79.9%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
7
247
254
SS
5.29880E+11
1.28580E+11
6.58461E+11
Source
Turnover $m 2010
Net Income $m 2010
Total Assets $m 2010
Employees 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
DF
1
1
1
1
1
1
1
MS
75697213299
520567290
F
145.41
P
0.000
Seq SS
2.82033E+11
2.24561E+11
2595321650
215084037
524894264
18878467084
1072795435
Unusual Observations
Obs
1
2
3
4
5
6
8
12
13
15
21
23
25
28
33
49
93
112
127
176
187
242
254
Turnover
$m 2010
149303
301500
58437
54661
405046
155777
97084
247788
278188
27823
115246
41825
23252
35127
95037
117216
18808
70168
123156
54135
35919
11052
16127
Market
value
$m 2010
329260
316231
256865
209935
209001
194246
187255
177609
176968
162830
137996
134040
129041
123130
101072
74014
45868
37243
34038
24709
23230
17315
16383
Fit
200534
261315
183425
101872
209253
193853
135263
224581
182303
91823
301755
76989
83504
71500
99639
152892
126610
34947
65731
62453
27794
16425
16373
SE Fit
5645
11153
6092
3236
18185
17571
3273
8588
9331
2964
10452
2730
3244
2078
7005
4474
5314
7264
7352
7678
9477
13444
13991
Residual
128725
54916
73439
108063
-252
393
51992
-46972
-5334
71007
-163759
57051
45537
51630
1433
-78878
-80742
2296
-31694
-37744
-4564
890
10
St Resid
5.82R
2.76RX
3.34R
4.78R
-0.02 X
0.03 X
2.30R
-2.22RX
-0.26 X
3.14R
-8.07RX
2.52R
2.02R
2.27R
0.07 X
-3.53R
-3.64R
0.11 X
-1.47 X
-1.76 X
-0.22 X
0.05 X
0.00 X
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
31
O R-Quadrado é de 80,5%, o que significa que 80,5% do comportamento do Market Value
está sendo explicado pela equação apresentada. O P-value das variáveis Turnover $m,
Employees, Price e Dividend Yield (%) nos leva a descartá-las do modelo do modelo, o que
é coerente com a análise do dendograma, exceto pela variável Turnover $m.
Stepwise Regression: Market value versus Turnover $m ; Net Income $; ...
Alpha-to-Enter: 0.15
Alpha-to-Remove: 0.15
Response is Market value $m 2010 on 7 predictors, with N = 255
N(cases with missing observations) = 1 N(all cases) = 256
Step
Constant
1
14986
2
-6596
3
-6930
4
-6735
Net Income $m 2010
T-Value
P-Value
11.81
28.11
0.000
12.76
30.81
0.000
11.78
22.74
0.000
11.39
19.95
0.000
875
6.62
0.000
835
6.38
0.000
807
6.13
0.000
0.077
3.09
0.002
0.057
2.06
0.040
PE ratio 2010
T-Value
P-Value
Total Assets $m 2010
T-Value
P-Value
Turnover $m 2010
T-Value
P-Value
S
R-Sq
R-Sq(adj)
Mallows Cp
0.069
1.58
0.116
25122
75.75
75.66
55.7
23234
79.34
79.18
12.3
22849
80.10
79.86
4.7
22782
80.29
79.98
4.3
Utilizando a função stepwise, as variáveis Employees, Price $ e Dividend Yield (%) são
excluídas, pelos motivos explicados na análise de regressão, com exceção da variável
Turnover $m, que foi mantida pela função stepwise. Os demais valores ficaram muito
próximos da análise de regressão. O R-Quadrado é de 80,29%, o que significa que 80,29%
do comportamento do Market Value está sendo explicado pela equação apresentada.
5.5 Amostragem
O presente tópico tem por objetivo efetuar uma pesquisa por amostragem e análise
comparativa de médias e intervalos de confiança, variância dos dados de indicadores
relacionados ao Ranking das 500 empresas mais valiosas do mundo.
5.5.1 Variável Market Value $m
32
Summary for Market value $m 2010
A nderson-Darling N ormality Test
60000
120000
180000
240000
A -S quared
P -V alue <
25.54
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
53335
50816
2582254479
2.46625
7.25743
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
300000
16048
22466
33589
61229
329260
População Total
Média: 53.335
Desvio Padrão: 50.816
Mínimo: 16.048
Mediana: 33.589
Máximo: 61.229
95% C onfidence Interv al for M ean
47080
59589
95% C onfidence Interv al for M edian
30140
37160
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
46762
55645
Mean
Median
30000
35000
40000
45000
50000
55000
60000
Summary for Market value $m 2010_AM20
A nderson-Darling N ormality Test
40000
80000
120000
A -S quared
P -V alue <
1.53
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
57779
47371
2243999060
1.36671
0.97440
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
160000
16048
22655
37385
94635
176968
Amostra Tamanho 20
Média: 57.779
Desvio Padrão: 47.371
Mínimo: 16.048
Mediana: 37.385
Máximo: 176.968
95% C onfidence Interv al for M ean
35609
79949
95% C onfidence Interv al for M edian
25546
76199
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
36025
69189
Mean
Median
20000
30000
40000
50000
60000
70000
80000
Summary for Market value $m 2010_AM50
A nderson-Darling N ormality Test
30000
60000
90000
120000
150000
A -S quared
P -V alue <
3.19
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
44948
30838
950979993
1.80517
3.21238
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
16981
23285
33748
53848
152510
Amostra Tamanho 50
Média: 44.958
Desvio Padrão: 30.838
Mínimo: 16.981
Mediana: 33.748
Máximo: 152.510
95% C onfidence Interv al for M ean
36184
53712
95% C onfidence Interv al for M edian
27463
45911
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
25760
38428
Mean
Median
30000
35000
40000
45000
50000
55000
33
Summary for Market value $m 2010_AM100
A nderson-Darling N ormality Test
60000
120000
180000
240000
A -S quared
P -V alue <
10.45
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
54808
55670
3099180572
2.86259
9.93323
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
300000
16048
21681
36813
56498
329260
Amostra Tamanho 100
Média: 54.808
Desvio Padrão: 55.670
Mínimo: 16.048
Mediana: 36.813
Máximo: 329.260
95% C onfidence Interv al for M ean
43762
65854
95% C onfidence Interv al for M edian
27214
43074
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
48879
64671
Mean
Median
30000
40000
50000
60000
70000
A amostra que mais representou a população total foi a de maior tamanho (100), cuja média
é a mais próxima da população total, sendo, portanto a mais representativa.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
Boxplot of Market value $m 2010; Market value $m 2010_AM20
350000
Two-Sample T-Test and CI:
Market value $m 2010; Market
value $m 2010_AM20
300000
Two-sample T for Market value $m
2010 vs Market value $m 2010_AM20
Data
250000
200000
N
150000
Mean StDev SE Mean
Market value $m 2010
53335 50816
3176
Market value $m 2010_AM2
57779 47371
10592
100000
50000
256
20
0
Market value $m 2010
Market value $m 2010_AM20
Difference = mu (Market value $m
2010) - mu (Market value $m
2010_AM20)
Estimate for difference: -4444
95% CI for difference: (-27378;
18489)
T-Test of difference = 0 (vs not
=): T-Value = -0.40 P-Value =
0.692 DF = 22
34
Two-Sample T-Test and CI:
Market value $m 2010; Market
value $m 2010_AM50
Boxplot of Market value $m 2010; Market value $m 2010_AM50
350000
300000
Two-sample T for Market value $m
2010 vs Market value $m 2010_AM50
Data
250000
200000
N
150000
Mean StDev SE Mean
Market value $m 2010
53335 50816
3176
Market value $m 2010_AM5
44948 30838
4361
100000
50000
256
50
0
Market value $m 2010
Market value $m 2010_AM50
Difference = mu (Market value $m
2010) - mu (Market value $m
2010_AM50)
Estimate for difference: 8387
95% CI for difference: (-2307;
19081)
T-Test of difference = 0 (vs not
=): T-Value = 1.55 P-Value =
0.123 DF = 108
Two-Sample T-Test and CI:
Market value $m 2010; Market
value $m 2010_AM100
Boxplot of Market value $m 2010; Market value $m 2010_AM100
350000
300000
Two-sample T for Market value $m
2010 vs Market value $m
2010_AM100
Data
250000
200000
150000
N
Mean StDev SE Mean
Market value $m 2010
53335 50816
3176
Market value $m 2010_AM1
54808 55670
5567
100000
50000
0
Market value $m 2010
256
100
Market value $m 2010_AM100
Difference = mu (Market value $m
2010) - mu (Market value $m
2010_AM100)
Estimate for difference: -1473
95% CI for difference: (-14127;
11180)
T-Test of difference = 0 (vs not
=): T-Value = -0.23 P-Value =
0.818 DF = 167
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui.
One-way ANOVA: Market value; Market value; Market value; Market value
Source
Factor
Error
Total
DF
3
422
425
S = 49989
SS
4050595349
1.05453E+12
1.05858E+12
R-Sq = 0.38%
MS
1350198450
2498880973
F
0.54
P
0.655
R-Sq(adj) = 0.00%
35
Level
Market
Market
Market
Market
value
value
value
value
Level
Market
Market
Market
Market
value
value
value
value
$m
$m
$m
$m
N
256
20
50
100
2010
2010_AM2
2010_AM5
2010_AM1
$m
$m
$m
$m
Mean
53335
57779
44948
54808
StDev
50816
47371
30838
55670
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(----*---)
(--------------*-------------)
(--------*--------)
(------*-----)
---------+---------+---------+---------+
45000
60000
75000
90000
2010
2010_AM2
2010_AM5
2010_AM1
Pooled StDev = 49989
5.5.2 Variável Turnover Value $m
Summary for Turnover $m 2010
A nderson-Darling N ormality Test
0
60000
120000
180000
240000
300000
A -S quared
P -V alue <
22.91
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
40419
49562
2456363318
3.4064
16.6408
255
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
360000
1822
11850
22953
48935
405046
População Total
Média: 40.419
Desvio Padrão: 49.562
Mínimo: 1.822
Mediana: 22.953
Máximo: 405.046
95% C onfidence Interv al for M ean
34307
46531
95% C onfidence Interv al for M edian
20258
25276
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
45601
54282
Mean
Median
20000
25000
30000
35000
40000
45000
50000
Summary for Turnover $m 2010_AM20
A nderson-Darling N ormality Test
0
50000
100000
150000
200000
250000
300000
A -S quared
P -V alue <
2.54
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
49455
66011
4357417367
2.61898
7.46294
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
2729
11520
26232
54673
278188
Amostra Tamanho 20
Média: 49.455
Desvio Padrão: 66.011
Mínimo: 2.729
Mediana: 26.232
Máximo: 278.188
95% C onfidence Interv al for M ean
18561
80349
95% C onfidence Interv al for M edian
17195
46228
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
50201
96413
Mean
Median
20000
30000
40000
50000
60000
70000
80000
36
Summary for Turnover $m 2010_AM50
A nderson-Darling N ormality Test
0
30000
60000
90000
A -S quared
P -V alue <
3.03
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
34815
30506
930619969
1.48722
1.67822
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
120000
2748
15233
23424
48102
123156
Amostra Tamanho 50
Média: 34.815
Desvio Padrão: 30.506
Mínimo: 2.748
Mediana: 23.424
Máximo: 123.156
95% C onfidence Interv al for M ean
26145
43484
95% C onfidence Interv al for M edian
18858
30924
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
25483
38015
Mean
Median
20000
25000
30000
35000
40000
45000
Summary for Turnover $m 2010_AM100
A nderson-Darling N ormality Test
0
60000
120000
180000
240000
300000
A -S quared
P -V alue <
9.46
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
46240
55503
3080557458
2.12195
5.22470
99
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
1822
11584
20763
66176
301500
Amostra Tamanho 100
Média: 46.240
Desvio Padrão: 55.503
Mínimo: 1.822
Mediana: 320.763
Máximo: 301.500
95% C onfidence Interv al for M ean
35170
57310
95% C onfidence Interv al for M edian
15893
26776
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
48702
64529
Mean
Median
10000
20000
30000
40000
50000
60000
A amostra que mais representou a população total foi a de tamanho 50, cuja média é a mais
próxima da população total, sendo, portanto a mais representativa. Talvez a amostra de
tamanho 100 tenha contido valores aleatórios muito dispersos que tenham distorcido os seus
resultados.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
37
Boxplot of Turnover $m 2010; Turnover $m 2010_AM20
400000
Two-sample T for Turnover $m 2010
vs Turnover $m 2010_AM20
300000
Data
Two-Sample T-Test and CI:
Turnover $m 2010; Turnover $m
2010_AM20
200000
StDev SE Mean
Turnover $m 2010
49562
3104
Turnover $m 2010_AM20
66011
14760
100000
N
Mean
255
40419
20
49455
0
Turnover $m 2010
Turnover $m 2010_AM20
Difference = mu (Turnover $m
2010) - mu (Turnover $m
2010_AM20)
Estimate for difference: -9036
95% CI for difference: (-40499;
22427)
T-Test of difference = 0 (vs not
=): T-Value = -0.60 P-Value =
0.556 DF = 20
Boxplot of Turnover $m 2010; Turnover $m 2010_AM50
400000
Two-sample T for Turnover $m 2010
vs Turnover $m 2010_AM50
300000
Data
Two-Sample T-Test and CI:
Turnover $m 2010; Turnover $m
2010_AM50
200000
StDev SE Mean
Turnover $m 2010
49562
3104
Turnover $m 2010_AM50
30506
4314
100000
N
Mean
255
40419
50
34815
0
Turnover $m 2010
Turnover $m 2010_AM50
Difference = mu (Turnover $m
2010) - mu (Turnover $m
2010_AM50)
Estimate for difference: 5604
95% CI for difference: (-4931;
16140)
T-Test of difference = 0 (vs not
=): T-Value = 1.05 P-Value =
0.294 DF = 107
Boxplot of Turnover $m 2010; Turnover $m 2010_AM100
400000
Two-sample T for Turnover $m 2010
vs Turnover $m 2010_AM100
300000
Data
Two-Sample T-Test and CI:
Turnover $m 2010; Turnover $m
2010_AM100
N
200000
Mean StDev SE Mean
Turnover $m 2010
40419 49562
3104
Turnover $m 2010_AM100
46240 55503
5578
100000
255
99
0
Turnover $m 2010
Turnover $m 2010_AM100
Difference = mu (Turnover $m
2010) - mu (Turnover $m
2010_AM100)
38
Estimate for difference: -5821
95% CI for difference: (-18427;
6785)
T-Test of difference = 0 (vs not
=): T-Value = -0.91 P-Value =
0.363 DF = 162
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que
possui média mais próxima da população total.
One-way ANOVA: Turnover $m ; Turnover $m ; Turnover $m ; Turnover $m
Source
Factor
Error
Total
DF
3
420
423
SS
6021976755
1.05420E+12
1.06022E+12
S = 50100
R-Sq = 0.57%
Level
Turnover
Turnover
Turnover
Turnover
2010
2010_AM20
2010_AM50
2010_AM100
Level
Turnover
Turnover
Turnover
Turnover
$m
$m
$m
$m
$m
$m
$m
$m
2010
2010_AM20
2010_AM50
2010_AM100
MS
2007325585
2510005291
F
0.80
P
0.495
R-Sq(adj) = 0.00%
N
255
20
50
99
Mean
40419
49455
34815
46240
StDev
49562
66011
30506
55503
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(---*---)
(--------------*--------------)
(--------*--------)
(------*-----)
------+---------+---------+---------+--30000
45000
60000
75000
Pooled StDev = 50100
5.5.3 Variável Turnover Value $m
39
Summary for Net Income $m 2010
A nderson-Darling N ormality Test
0
4000
8000
12000
16000
20000
24000
A -S quared
P -V alue <
29.68
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
3243.3
3744.2
14019171.1
2.57108
7.29306
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
289.4
1155.5
1796.7
3465.8
24330.9
População Total
Média: 3.243,3
Desvio Padrão: 3.744,2
Mínimo: 289,4
Mediana: 1.796,7
Máximo: 24.330,9
95% C onfidence Interv al for M ean
2782.4
3704.1
95% C onfidence Interv al for M edian
1592.5
2027.7
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
3445.5
4100.0
Mean
Median
1500
2000
2500
3000
3500
4000
Summary for Net Income $m 2010_AM20
A nderson-Darling N ormality Test
0
2000
4000
6000
8000
10000
A -S quared
P -V alue <
1.90
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
3946.2
4283.1
18344803.4
1.33051
0.48668
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
12000
443.4
903.4
1632.1
6035.5
12855.0
Amostra Tamanho 20
Média: 3.946,2
Desvio Padrão: 4.283,1
Mínimo: 443,4
Mediana: 1.632,1
Máximo: 12.855,0
95% C onfidence Interv al for M ean
1941.6
5950.7
95% C onfidence Interv al for M edian
1093.2
5050.6
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
3257.2
6255.8
Mean
Median
1000
2000
3000
4000
5000
6000
Summary for Net Income $m 2010_AM50
A nderson-Darling N ormality Test
0
3000
6000
9000
A -S quared
P -V alue <
4.45
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
2618.6
2435.2
5930305.9
2.42970
6.61658
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
12000
469.6
1088.6
1734.6
3228.4
12535.0
Amostra Tamanho 50
Média: 2.618,6
Desvio Padrão: 2.435,2
Mínimo: 469,6
Mediana: 1.734,6
Máximo: 12.535,0
95% C onfidence Interv al for M ean
1926.5
3310.7
95% C onfidence Interv al for M edian
1323.3
2236.4
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
2034.2
3034.6
Mean
Median
1500
2000
2500
3000
3500
40
Summary for Net Income $m 2010_AM100
A nderson-Darling N ormality Test
0
4000
8000
12000
16000
20000
24000
A -S quared
P -V alue <
12.35
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
3416.5
4235.6
17940352.4
2.68620
8.06142
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
303.0
1171.7
1707.5
3647.8
24330.9
Amostra Tamanho 100
Média: 3.416,5
Desvio Padrão: 4.235,6
Mínimo: 303,0
Mediana: 1.707,7
Máximo: 24.330,9
95% C onfidence Interv al for M ean
2576.0
4256.9
95% C onfidence Interv al for M edian
1498.1
2156.4
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
3718.9
4920.4
Mean
Median
1500
2000
2500
3000
3500
4000
4500
A amostra que mais representou a população total foi a de maior tamanho (100), cuja média
é a mais próxima da população total, sendo, portanto a mais representativa.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
Boxplot of Net Income $m 2010; Net Income $m 2010_AM20
25000
Two-Sample T-Test and CI: Net
Income $m 2010; Net Income $m
2010_AM20
20000
Two-sample T for Net Income $m
2010 vs Net Income $m 2010_AM20
Data
15000
N
Mean StDev SE Mean
Net Income $m 2010
3243
3744
234
Net Income $m 2010_AM20
3946
4283
958
10000
5000
256
20
0
Net Income $m 2010
Net Income $m 2010_AM20
Difference = mu (Net Income $m
2010) - mu (Net Income $m
2010_AM20)
Estimate for difference: -703
95% CI for difference: (-2753;
1347)
T-Test of difference = 0 (vs not
=): T-Value = -0.71 P-Value =
0.484 DF = 21
41
Boxplot of Net Income $m 2010; Net Income $m 2010_AM50
25000
Two-Sample T-Test and CI: Net
Income $m 2010; Net Income $m
2010_AM50
20000
Two-sample T for Net Income $m
2010 vs Net Income $m 2010_AM50
Data
15000
N
Mean StDev SE Mean
Net Income $m 2010
3243
3744
234
Net Income $m 2010_AM50
2619
2435
344
10000
5000
256
50
0
Net Income $m 2010
Net Income $m 2010_AM50
Difference = mu (Net Income $m
2010) - mu (Net Income $m
2010_AM50)
Estimate for difference: 625
95% CI for difference: (-201;
1451)
T-Test of difference = 0 (vs not
=): T-Value = 1.50 P-Value =
0.137 DF = 100
Boxplot of Net Income $m 2010; Net Income $m 2010_AM100
25000
Two-Sample T-Test and CI: Net
Income $m 2010; Net Income $m
2010_AM100
20000
Two-sample T for Net Income $m
2010 vs Net Income $m 2010_AM100
Data
15000
N
Mean StDev SE Mean
Net Income $m 2010
3243
3744
234
Net Income $m 2010_AM100
3416
4236
424
10000
5000
256
100
0
Net Income $m 2010
Net Income $m 2010_AM100
Difference = mu (Net Income $m
2010) - mu (Net Income $m
2010_AM100)
Estimate for difference: -173
95% CI for difference: (-1129;
782)
T-Test of difference = 0 (vs not
=): T-Value = -0.36 P-Value =
0.721 DF = 162
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que
possui média mais próxima da população total.
One-way ANOVA: Net Income $; Net Income $; Net Income $; Net Income $
Source
Factor
Error
Total
DF
3
422
425
S = 3768
SS
32390802
5990119766
6022510569
R-Sq = 0.54%
MS
10796934
14194597
F
0.76
P
0.517
R-Sq(adj) = 0.00%
42
Level
Net Income
Net Income
Net Income
Net Income
Level
Net Income
Net Income
Net Income
Net Income
$m
$m
$m
$m
$m
$m
$m
$m
2010
2010_AM20
2010_AM50
2010_AM100
2010
2010_AM20
2010_AM50
2010_AM100
N
256
20
50
100
Mean
3243
3946
2619
3416
StDev
3744
4283
2435
4236
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(---*---)
(-------------*-------------)
(--------*--------)
(-----*------)
-------+---------+---------+---------+-2400
3600
4800
6000
Pooled StDev = 3768
5.5.4 Variável Total Assets $m
Summary for Total Assets $m 2010
A nderson-Darling N ormality Test
0
150000
300000
450000
600000
A -S quared
P -V alue <
26.61
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
57818
74848
5602174812
4.6414
35.2693
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
750000
2520
18312
34556
65076
781818
População Total
Média: 57.818
Desvio Padrão: 74.848
Mínimo: 2.520
Mediana: 34.556
Máximo: 78.818
95% C onfidence Interv al for M ean
48605
67030
95% C onfidence Interv al for M edian
31264
38599
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
68877
81960
Mean
Median
30000
40000
50000
60000
70000
Summary for Total Assets $m 2010_AM20
A nderson-Darling N ormality Test
0
50000
100000
150000
200000
250000
300000
A -S quared
P -V alue <
2.45
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
81106
88061
7754716653
1.63162
1.44401
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
3125
28339
40335
111319
292181
Amostra Tamanho 20
Média: 81.106
Desvio Padrão: 88.061
Mínimo: 3.125
Mediana: 40.335
Máximo: 292.181
95% C onfidence Interv al for M ean
39892
122320
95% C onfidence Interv al for M edian
30273
96852
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
66969
128619
Mean
Median
20000
40000
60000
80000
100000
120000
43
Summary for Total Assets $m 2010_AM50
A nderson-Darling N ormality Test
0
60000
120000
180000
A -S quared
P -V alue <
4.78
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
46395
49935
2493493567
2.9760
10.2679
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
240000
3007
18188
32820
50847
268752
Amostra Tamanho 50
Média: 46.395
Desvio Padrão: 49.935
Mínimo: 3.007
Mediana: 32.820
Máximo: 268.752
95% C onfidence Interv al for M ean
32203
60586
95% C onfidence Interv al for M edian
27266
44329
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
41712
62226
Mean
Median
30000
35000
40000
45000
50000
55000
60000
Summary for Total Assets $m 2010_AM100
A nderson-Darling N ormality Test
0
150000
300000
450000
600000
A -S quared
P -V alue <
11.98
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
68205
99918
9983509378
4.2504
25.9048
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
750000
2520
18162
33458
69380
781818
Amostra Tamanho 100
Média: 68.205
Desvio Padrão: 99.918
Mínimo: 2.520
Mediana: 33.458
Máximo: 781.818
95% C onfidence Interv al for M ean
48380
88031
95% C onfidence Interv al for M edian
28487
41746
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
87728
116072
Mean
Median
30000
40000
50000
60000
70000
80000
90000
A amostra que mais representou a população total foi a de maior tamanho (100), cuja média
é a mais próxima da população total, sendo, portanto a mais representativa.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
Boxplot of Total Assets $m 2010; Total Assets $m 2010_AM20
800000
700000
600000
Two-sample T for Total Assets $m
2010 vs Total Assets $m 2010_AM20
500000
Data
Two-Sample T-Test and CI: Total
Assets $m 2010; Total Assets $m
2010_AM20
400000
N
Mean StDev SE Mean
Total Assets $m 2010
57818 74848
4678
Total Assets $m 2010_AM2
81106 88061
19691
300000
200000
100000
256
20
0
Total Assets $m 2010
Total Assets $m 2010_AM20
Difference = mu (Total Assets $m
44
2010) - mu (Total Assets $m
2010_AM20)
Estimate for difference: -23288
95% CI for difference: (-65378;
18801)
T-Test of difference = 0 (vs not
=): T-Value = -1.15 P-Value =
0.263 DF = 21
Boxplot of Total Assets $m 2010; Total Assets $m 2010_AM50
800000
700000
600000
Two-sample T for Total Assets $m
2010 vs Total Assets $m 2010_AM50
500000
Data
Two-Sample T-Test and CI: Total
Assets $m 2010; Total Assets $m
2010_AM50
400000
N
Mean StDev SE Mean
Total Assets $m 2010
57818 74848
4678
Total Assets $m 2010_AM5
46395 49935
7062
300000
200000
100000
256
50
0
Total Assets $m 2010
Total Assets $m 2010_AM50
Difference = mu (Total Assets $m
2010) - mu (Total Assets $m
2010_AM50)
Estimate for difference: 11423
95% CI for difference: (-5389;
28235)
T-Test of difference = 0 (vs not
=): T-Value = 1.35 P-Value =
0.181 DF = 97
Boxplot of Total Assets $m 2010; Total Assets $m 2010_AM100
800000
700000
600000
Two-sample T for Total Assets $m
2010 vs Total Assets $m
2010_AM100
500000
Data
Two-Sample T-Test and CI: Total
Assets $m 2010; Total Assets $m
2010_AM100
400000
N
300000
Mean StDev SE Mean
Total Assets $m 2010
57818 74848
4678
Total Assets $m 2010_AM1
68205 99918
9992
200000
100000
0
Total Assets $m 2010
256
100
Total Assets $m 2010_AM100
Difference = mu (Total Assets $m
2010) - mu (Total Assets $m
2010_AM100)
Estimate for difference: -10388
95% CI for difference: (-32194;
11419)
T-Test of difference = 0 (vs not
=): T-Value = -0.94 P-Value =
0.348 DF = 144
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui.
45
One-way ANOVA: Total Assets; Total Assets; Total Assets; Total Assets
Source
Factor
Error
Total
DF
3
422
425
S = 79787
Level
Total
Total
Total
Total
SS
26116613421
2.68644E+12
2.71256E+12
R-Sq = 0.96%
Assets
Assets
Assets
Assets
Level
Total
Total
Total
Total
MS
8705537807
6365978214
Assets
Assets
Assets
Assets
$m
$m
$m
$m
$m
$m
$m
$m
2010
2010_AM2
2010_AM5
2010_AM1
2010
2010_AM2
2010_AM5
2010_AM1
F
1.37
P
0.252
R-Sq(adj) = 0.26%
N
256
20
50
100
Mean
57818
81106
46395
68205
StDev
74848
88061
49935
99918
Individual 95% CIs For Mean Based on Pooled StDev
+---------+---------+---------+--------(---*---)
(-------------*-------------)
(--------*-------)
(-----*------)
+---------+---------+---------+--------25000
50000
75000
100000
Pooled StDev = 79787
5.5.5 Variável Employees
Summary for Employees 2010
A nderson-Darling N ormality Test
0
300000
600000
900000
1200000
1500000
1800000
2100000
A -S quared
P -V alue <
31.62
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
97210
162659
26457833696
7.8825
90.4131
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
1814
26439
52369
104377
2100000
População Total
Média: 97.210
Desvio Padrão: 162.659
Mínimo: 1.814
Mediana: 52.369
Máximo: 2.100.000
95% C onfidence Interv al for M ean
77189
117230
95% C onfidence Interv al for M edian
43510
64104
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
149683
178116
Mean
Median
40000
60000
80000
100000
120000
46
Summary for Employees 2010_AM20
A nderson-Darling N ormality Test
0
100000
200000
A -S quared
P -V alue <
1.72
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
83153
93982
8832575281
2.06177
4.28084
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
300000
3827
22384
59994
100750
368500
Amostra Tamanho 20
Média: 83.153
Desvio Padrão: 93.982
Mínimo: 3.827
Mediana: 59.994
Máximo: 368.500
95% C onfidence Interv al for M ean
39168
127138
95% C onfidence Interv al for M edian
26908
95882
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
71472
137267
Mean
Median
20000
40000
60000
80000
100000
120000
140000
Summary for Employees 2010_AM50
A nderson-Darling N ormality Test
0
120000
240000
360000
480000
A -S quared
P -V alue <
3.81
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
106373
121392
14736124349
1.68897
2.22432
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
3219
20066
67685
145000
475976
Amostra Tamanho 50
Média: 106.373
Desvio Padrão: 121.392
Mínimo: 3.219
Mediana: 67.685
Máximo: 475.976
95% C onfidence Interv al for M ean
71874
140872
95% C onfidence Interv al for M edian
32888
96134
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
101403
151271
Mean
Median
50000
75000
100000
125000
150000
Summary for Employees 2010_AM100
A nderson-Darling N ormality Test
0
100000
200000
300000
400000
A -S quared
P -V alue <
9.48
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
104571
126380
15971947715
1.72972
2.22056
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
500000
1814
24381
47442
119506
539168
Amostra Tamanho 100
Média: 104.571
Desvio Padrão: 126.380
Mínimo: 1.814
Mediana: 47.442
Máximo: 539.168
95% C onfidence Interv al for M ean
79494
129647
95% C onfidence Interv al for M edian
33800
78767
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
110963
146813
Mean
Median
20000
40000
60000
80000
100000
120000
140000
A amostra que mais representou a população total foi a de maior tamanho (100), cuja média
é a mais próxima da população total, sendo, portanto a mais representativa.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
47
Boxplot of Employees 2010; Employees 2010_AM20
2000000
Two-sample T for Employees 2010
vs Employees 2010_AM20
1500000
Data
Two-Sample T-Test and CI:
Employees 2010; Employees
2010_AM20
1000000
StDev SE Mean
Employees 2010
162659
10166
Employees 2010_AM20
93982
21015
500000
N
Mean
256
97210
20
83153
0
Employees 2010
Employees 2010_AM20
Difference = mu (Employees 2010)
- mu (Employees 2010_AM20)
Estimate for difference: 14057
95% CI for difference: (-33763;
61876)
T-Test of difference = 0 (vs not
=): T-Value = 0.60 P-Value =
0.552 DF = 28
Boxplot of Employees 2010; Employees 2010_AM50
2000000
Two-sample T for Employees 2010
vs Employees 2010_AM50
1500000
Data
Two-Sample T-Test and CI:
Employees 2010; Employees
2010_AM50
1000000
StDev SE
Employees
162659
Employees
121392
500000
Mean
2010
10166
2010_AM50
17167
N
Mean
256
97210
50
106373
0
Employees 2010
Employees 2010_AM50
Difference = mu (Employees 2010)
- mu (Employees 2010_AM50)
Estimate for difference: -9163
95% CI for difference: (-48820;
30493)
T-Test of difference = 0 (vs not
=): T-Value = -0.46 P-Value =
0.647 DF = 87
Boxplot of Employees 2010; Employees 2010_AM100
2000000
Two-sample T for Employees 2010
vs Employees 2010_AM100
1500000
Data
Two-Sample T-Test and CI:
Employees 2010; Employees
2010_AM100
1000000
StDev SE
Employees
162659
Employees
126380
500000
Mean
2010
10166
2010_AM100
12638
N
Mean
256
97210
100
104571
0
Employees 2010
Employees 2010_AM100
Difference = mu (Employees 2010)
- mu (Employees 2010_AM100)
48
Estimate for difference: -7361
95% CI for difference: (-39318;
24596)
T-Test of difference = 0 (vs not
=): T-Value = -0.45 P-Value =
0.650 DF = 231
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui.
One-way ANOVA: Employees 20; Employees 20; Employees 20; Employees 20
Source
Factor
Error
Total
DF
3
422
425
S = 147795
Level
Employees
Employees
Employees
Employees
Level
Employees
Employees
Employees
Employees
SS
11611466560
9.21786E+12
9.22947E+12
MS
3870488853
21843268814
R-Sq = 0.13%
N
256
20
50
100
2010
2010_AM20
2010_AM50
2010_AM100
F
0.18
P
0.912
R-Sq(adj) = 0.00%
Mean
97210
83153
106373
104571
StDev
162659
93982
121392
126380
Individual 95% CIs For Mean Based on
Pooled StDev
-----+---------+---------+---------+---(----*----)
(------------------*-----------------)
(----------*-----------)
(-------*-------)
-----+---------+---------+---------+---35000
70000
105000
140000
2010
2010_AM20
2010_AM50
2010_AM100
Pooled StDev = 147795
5.5.6 Variável Price $
Summary for Price $ 2010
A nderson-Darling N ormality Test
0
1500
3000
4500
6000
7500
A -S quared
P -V alue <
82.83
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
153.86
769.43
592029.98
8.3506
72.3440
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.80
24.77
42.35
65.00
7619.90
População Total
Média: 153,86
Desvio Padrão: 769,43
Mínimo: 0,80
Mediana: 42,35
Máximo: 7.619,90
95% C onfidence Interv al for M ean
59.15
248.56
95% C onfidence Interv al for M edian
37.08
47.78
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
708.06
842.55
Mean
Median
50
100
150
200
250
49
Summary for Price $ 2010_AM20
A nderson-Darling N ormality Test
0
100
200
A -S quared
P -V alue <
2.01
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
67.690
78.675
6189.680
3.0667
11.2323
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
300
1.900
26.600
45.100
85.275
364.400
Amostra Tamanho 20
Média: 67,690
Desvio Padrão: 78,675
Mínimo: 1,90
Mediana: 45,10
Máximo: 364,40
95% C onfidence Interv al for M ean
30.869
104.511
95% C onfidence Interv al for M edian
29.306
74.559
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
59.831
114.910
Mean
Median
20
40
60
80
100
Summary for Price $ 2010_AM50
A nderson-Darling N ormality Test
0
100
200
300
A -S quared
P -V alue <
6.72
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
66.082
75.835
5750.950
4.0617
18.6035
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
400
1.600
30.450
46.800
69.900
466.700
Amostra Tamanho 50
Média: 66,082
Desvio Padrão: 75,835
Mínimo: 1,60
Mediana: 46,80
Máximo: 466,70
95% C onfidence Interv al for M ean
44.530
87.634
95% C onfidence Interv al for M edian
40.936
60.488
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
63.348
94.501
Mean
Median
40
50
60
70
80
90
Summary for Price $ 2010_AM100
A nderson-Darling N ormality Test
0
1500
3000
4500
6000
7500
A -S quared
P -V alue <
33.80
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
253.46
1159.23
1343803.91
5.7861
32.9107
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.80
24.63
38.50
63.15
7619.90
Amostra Tamanho 100
Média: 253,46
Desvio Padrão: 1.159,23
Mínimo: 0,80
Mediana: 38,50
Máximo: 7.619,90
95% C onfidence Interv al for M ean
23.45
483.48
95% C onfidence Interv al for M edian
32.55
50.45
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
1017.81
1346.64
Mean
Median
0
100
200
300
400
500
A amostra que mais representou a população total foi a de tamanho 20, cuja média é a mais
próxima da população total, sendo, portanto a mais representativa. Talvez as amostras de
maior tamanho tenham contido valores aleatórios muito dispersos que tenham distorcido os
seus resultados.
50
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias
somente para a amostra de tamanho 100, que é estatisticamente igual, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10. Já as amostras 20
e 50 são estatisticamente diferente.
Boxplot of Price $ 2010; Price $ 2010_AM20
8000
7000
Two-Sample T-Test and CI: Price
$ 2010; Price $ 2010_AM20
Two-sample T for Price $ 2010 vs
Price $ 2010_AM20
6000
Data
5000
SE
4000
3000
StDev Mean
Price $ 2010
769
48
Price $ 2010_AM20
78.7
18
2000
1000
0
Price $ 2010
N
Mean
256
154
20
67.7
Price $ 2010_AM20
Difference = mu (Price $ 2010) mu (Price $ 2010_AM20)
Estimate for difference: 86.2
95% CI for difference: (-14.7;
187.0)
T-Test of difference = 0 (vs not
=): T-Value = 1.68 P-Value =
0.094 DF = 264
Boxplot of Price $ 2010; Price $ 2010_AM50
8000
7000
Two-Sample T-Test and CI: Price
$ 2010; Price $ 2010_AM50
Two-sample T for Price $ 2010 vs
Price $ 2010_AM50
6000
Data
5000
SE
4000
3000
StDev Mean
Price $ 2010
769
48
Price $ 2010_AM50
75.8
11
2000
1000
0
Price $ 2010
N
Mean
256
154
50
66.1
Price $ 2010_AM50
Difference = mu (Price $ 2010) mu (Price $ 2010_AM50)
Estimate for difference: 87.8
95% CI for difference: (-9.2;
184.8)
T-Test of difference = 0 (vs not
=): T-Value = 1.78 P-Value =
0.076 DF = 277
51
Two-Sample T-Test and CI: Price
$ 2010; Price $ 2010_AM100
Boxplot of Price $ 2010; Price $ 2010_AM100
8000
7000
Two-sample T for Price $ 2010 vs
Price $ 2010_AM100
6000
Data
5000
StDev SE Mean
Price $ 2010
769
48
Price $ 2010_AM100
1159
116
4000
3000
2000
1000
N
Mean
256
154
100
253
0
Price $ 2010
Price $ 2010_AM100
Difference = mu (Price $ 2010) mu (Price $ 2010_AM100)
Estimate for difference: -100
95% CI for difference: (-348;
149)
T-Test of difference = 0 (vs not
=): T-Value = -0.79 P-Value =
0.429 DF = 134
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que
possui média mais próxima da população total.
One-way ANOVA: Price $ 2010; Price $ 2010; Price $ 2010; Price $ 2010
Source
Factor
Error
Total
DF
3
422
425
S = 820.9
Level
Price
Price
Price
Price
Level
Price
Price
Price
Price
$
$
$
$
$
$
$
$
SS
1491100
284403633
285894733
MS
497033
673942
R-Sq = 0.52%
2010
2010_AM20
2010_AM50
2010_AM100
2010
2010_AM20
2010_AM50
2010_AM100
N
256
20
50
100
F
0.74
P
0.530
R-Sq(adj) = 0.00%
Mean
153.9
67.7
66.1
253.5
StDev
769.4
78.7
75.8
1159.2
Individual 95% CIs For Mean Based on
Pooled StDev
-----+---------+---------+---------+---(----*----)
(-----------------*-----------------)
(----------*-----------)
(-------*-------)
-----+---------+---------+---------+----200
0
200
400
Pooled StDev = 820.9
5.5.7 Variável PE ratio
52
Summary for PE ratio 2010
A nderson-Darling N ormality Test
15
30
45
60
A -S quared
P -V alue <
14.20
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
21.154
11.731
137.611
2.24741
6.30172
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
75
5.700
14.350
17.800
23.850
77.700
População Total
Média: 21,154
Desvio Padrão: 11,731
Mínimo: 5,70
Mediana: 17,80
Máximo: 77,70
95% C onfidence Interv al for M ean
19.710
22.597
95% C onfidence Interv al for M edian
17.084
18.800
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
10.795
12.846
Mean
Median
17
18
19
20
21
22
23
Summary for PE ratio 2010_AM20
A nderson-Darling N ormality Test
10
20
30
40
50
60
A -S quared
P -V alue <
1.60
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
25.335
17.816
317.396
1.42603
0.99165
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
70
6.600
13.125
18.050
28.625
66.100
Amostra Tamanho 20
Média: 25,335
Desvio Padrão: 17,816
Mínimo: 6,60
Mediana: 18,05
Máximo: 66,10
95% C onfidence Interv al for M ean
16.997
33.673
95% C onfidence Interv al for M edian
14.341
27.977
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
13.549
26.021
Mean
Median
15
20
25
30
35
Summary for PE ratio 2010_AM50
A nderson-Darling N ormality Test
10
20
30
40
50
60
70
A -S quared
P -V alue <
2.66
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
21.148
9.868
97.369
2.8595
11.9483
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
9.200
15.375
18.700
24.050
70.000
Amostra Tamanho 50
Média: 21,148
Desvio Padrão: 9,868
Mínimo: 9,20
Mediana: 18,70
Máximo: 70,00
95% C onfidence Interv al for M ean
18.344
23.952
95% C onfidence Interv al for M edian
17.102
22.433
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
8.243
12.296
Mean
Median
18.0
19.5
21.0
22.5
24.0
53
Summary for PE ratio 2010_AM100
A nderson-Darling N ormality Test
10
20
30
40
50
60
A -S quared
P -V alue <
5.36
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
21.827
12.398
153.719
1.96460
4.37429
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
70
5.700
14.375
18.250
25.800
70.000
Amostra Tamanho 100
Média: 21,827
Desvio Padrão: 12,398
Mínimo: 5,70
Mediana: 18.25
Máximo: 70,00
95% C onfidence Interv al for M ean
19.367
24.287
95% C onfidence Interv al for M edian
16.874
20.006
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
10.886
14.403
Mean
Median
16
18
20
22
24
A amostra que mais representou a população total foi a de tamanho 50, cuja média é a mais
próxima da população total, sendo, portanto a mais representativa. Talvez a amostra de
maior tamanho tenha contido valores aleatórios muito dispersos que tenham distorcido os
seus resultados.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
Boxplot of PE ratio 2010; PE ratio 2010_AM20
80
70
Two-Sample T-Test and CI: PE
ratio 2010; PE ratio 2010_AM20
Two-sample T for PE ratio 2010 vs
PE ratio 2010_AM20
60
Data
50
StDev SE Mean
PE ratio 2010
11.7
0.73
PE ratio 2010_AM20
17.8
4.0
40
30
20
N
Mean
256
21.2
20
25.3
10
0
PE ratio 2010
PE ratio 2010_AM20
Difference = mu (PE ratio 2010) mu (PE ratio 2010_AM20)
Estimate for difference: -4.18
95% CI for difference: (-12.63;
4.27)
T-Test of difference = 0 (vs not
=): T-Value = -1.03 P-Value =
0.314 DF = 20
54
Boxplot of PE ratio 2010; PE ratio 2010_AM50
80
70
Two-Sample T-Test and CI: PE
ratio 2010; PE ratio 2010_AM50
Two-sample T for PE ratio 2010 vs
PE ratio 2010_AM50
60
Data
50
StDev SE Mean
PE ratio 2010
11.7
0.73
PE ratio 2010_AM50
9.87
1.4
40
30
20
N
Mean
256
21.2
50
21.15
10
0
PE ratio 2010
PE ratio 2010_AM50
Boxplot of PE ratio 2010; PE ratio 2010_AM100
80
70
Difference = mu (PE ratio 2010) mu (PE ratio 2010_AM50)
Estimate for difference: 0.01
95% CI for difference: (-3.13;
3.14)
T-Test of difference = 0 (vs not
=): T-Value = 0.00 P-Value =
0.997 DF = 78
Two-Sample T-Test and CI: PE
ratio 2010; PE ratio 2010_AM100
Two-sample T for PE ratio 2010 vs
PE ratio 2010_AM100
60
Data
50
StDev SE Mean
PE ratio 2010
11.7
0.73
PE ratio 2010_AM100
12.4
1.2
40
30
20
N
Mean
256
21.2
100
21.8
10
0
PE ratio 2010
PE ratio 2010_AM100
Difference = mu (PE ratio 2010) mu (PE ratio 2010_AM100)
Estimate for difference: -0.67
95% CI for difference: (-3.52;
2.17)
T-Test of difference = 0 (vs not
=): T-Value = -0.47 P-Value =
0.641 DF = 172
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui, porém neste caso, a amostra maior não foi a que
possui média mais próxima da população total.
One-way ANOVA: PE ratio 201; PE ratio 201; PE ratio 201; PE ratio 201
Source
Factor
Error
Total
DF
3
422
425
S = 12.03
SS
342
61111
61453
MS
114
145
R-Sq = 0.56%
F
0.79
P
0.502
R-Sq(adj) = 0.00%
55
Level
PE ratio
PE ratio
PE ratio
PE ratio
Level
PE ratio
PE ratio
PE ratio
PE ratio
N
256
20
50
100
2010
2010_AM20
2010_AM50
2010_AM100
Mean
21.15
25.34
21.15
21.83
StDev
11.73
17.82
9.87
12.40
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(---*----)
(--------------*--------------)
(--------*---------)
(-----*------)
---------+---------+---------+---------+
21.0
24.5
28.0
31.5
2010
2010_AM20
2010_AM50
2010_AM100
Pooled StDev = 12.03
5.5.8 Variável Dividend Yield (%)
Summary for Dividend yield (%) 2010
A nderson-Darling N ormality Test
0.0
1.5
3.0
4.5
6.0
A -S quared
P -V alue <
3.34
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
2.6238
1.6447
2.7049
0.816369
0.444275
256
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
7.5
0.1000
1.4000
2.4000
3.6000
8.4000
População Total
Média: 2,6238
Desvio Padrão: 1,6447
Mínimo: 0,10
Mediana: 2,40
Máximo: 8,40
95% C onfidence Interv al for M ean
2.4214
2.8263
95% C onfidence Interv al for M edian
2.1000
2.6000
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
1.5135
1.8009
Mean
Median
2.0
2.2
2.4
2.6
2.8
Summary for Dividend yield (%) 2010_AM20
A nderson-Darling N ormality Test
0
1
2
3
4
5
A -S quared
P -V alue
0.30
0.538
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
3.1750
1.9262
3.7104
-0.06257
-1.00816
20
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
6
0.1000
1.7500
3.1000
4.6000
6.4000
Amostra Tamanho 20
Média: 3,1750
Desvio Padrão: 1,9262
Mínimo: 0,10
Mediana: 3,10
Máximo: 6,40
95% C onfidence Interv al for M ean
2.2735
4.0765
95% C onfidence Interv al for M edian
2.2470
4.5294
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
1.4649
2.8134
Mean
Median
2.0
2.5
3.0
3.5
4.0
4.5
56
Summary for Dividend yield (%) 2010_AM50
A nderson-Darling N ormality Test
0.0
1.6
3.2
4.8
A -S quared
P -V alue
0.74
0.051
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
2.4520
1.5392
2.3691
0.720544
0.041965
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
6.4
0.1000
1.3000
2.2000
3.4000
6.4000
Amostra Tamanho 50
Média: 2,4520
Desvio Padrão: 1,5392
Mínimo: 0,10
Mediana: 2,20
Máximo: 6,40
95% C onfidence Interv al for M ean
2.0146
2.8894
95% C onfidence Interv al for M edian
1.7672
2.7000
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
1.2857
1.9180
Mean
Median
1.8
2.0
2.2
2.4
2.6
2.8
3.0
Summary for Dividend yield (%) 2010_AM100
A nderson-Darling N ormality Test
0.0
1.5
3.0
4.5
6.0
7.5
A -S quared
P -V alue <
1.52
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
2.6190
1.7653
3.1163
0.657493
-0.323071
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.1000
1.2000
2.4000
3.7000
7.7000
Amostra Tamanho 100
Média: 2,6190
Desvio Padrão: 1,7653
Mínimo: 0,10
Mediana: 2,40
Máximo: 7,70
95% C onfidence Interv al for M ean
2.2687
2.9693
95% C onfidence Interv al for M edian
1.8742
2.8000
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
1.5499
2.0507
Mean
Median
2.0
2.2
2.4
2.6
2.8
3.0
A amostra que mais representou a população total foi a de maior tamanho (100), cuja média
é a mais próxima da população total, sendo, portanto a mais representativa.
O Box-Plot do Teste para as amostras confirma a hipótese nula de diferença de médias, para
todas as amostras. As amostras 20, 50 e 100 são estatisticamente iguais, assumindo um
intervalo de confiança igual a 95%, por que o valor de P é superior a 0,10.
Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2010_AM20
9
8
7
Two-sample T for Dividend yield
(%) 2010 vs Dividend yield (%)
2010_AM20
6
Data
Two-Sample T-Test and CI:
Dividend yield (%) 2010; Dividend
yield (%) 2010_AM20
5
4
N
3
Mean StDev SE Mean
Dividend yield (%) 2010
2.62
1.64
0.10
Dividend yield (%) 2010_
3.18
1.93
0.43
2
1
0
Dividend yield (%) 2010
256
20
Dividend yield (%) 2010_AM20
57
Difference = mu (Dividend yield
(%) 2010) - mu (Dividend yield
(%) 2010_AM20)
Estimate for difference: -0.551
95% CI for difference: (-1.472;
0.370)
T-Test of difference = 0 (vs not
=): T-Value = -1.24 P-Value =
0.227 DF = 21
Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2010_AM50
9
8
7
Two-sample T for Dividend yield
(%) 2010 vs Dividend yield (%)
2010_AM50
6
Data
Two-Sample T-Test and CI:
Dividend yield (%) 2010; Dividend
yield (%) 2010_AM50
5
4
N
3
Mean StDev SE Mean
Dividend yield (%) 2010
2.62
1.64
0.10
Dividend yield (%) 2010_
2.45
1.54
0.22
2
1
0
Dividend yield (%) 2010
256
50
Dividend yield (%) 2010_AM50
Difference = mu (Dividend yield
(%) 2010) - mu (Dividend yield
(%) 2010_AM50)
Estimate for difference: 0.172
95% CI for difference: (-0.308;
0.652)
T-Test of difference = 0 (vs not
=): T-Value = 0.71 P-Value =
0.478 DF = 72
Boxplot of Dividend yield (%) 2010; Dividend yield (%) 2010_AM100
9
8
7
Two-sample T for Dividend yield
(%) 2010 vs Dividend yield (%)
2010_AM100
6
Data
Two-Sample T-Test and CI:
Dividend yield (%) 2010; Dividend
yield (%) 2010_
5
4
N
3
Mean StDev SE Mean
Dividend yield (%) 2010
2.62
1.64
0.10
Dividend yield (%) 2010_
2.62
1.77
0.18
2
1
0
Dividend yield (%) 2010
256
100
Dividend yield (%) 2010_AM100
Difference = mu (Dividend yield
(%) 2010) - mu (Dividend yield
(%) 2010_AM100)
Estimate for difference: 0.005
95% CI for difference: (-0.398;
0.408)
T-Test of difference = 0 (vs not
=): T-Value = 0.02 P-Value =
0.981 DF = 169
Podemos também observar pelo teste One-way Anova que, conforme o tamanho das
amostras aumenta, o desvio padrão diminui.
58
One-way ANOVA: Dividend yie; Dividend yie; Dividend yie; Dividend yie
Source
Factor
Error
Total
DF
3
422
425
S = 1.676
Level
Dividend
Dividend
Dividend
Dividend
Level
Dividend
Dividend
Dividend
Dividend
SS
7.55
1184.84
1192.39
MS
2.52
2.81
R-Sq = 0.63%
yield
yield
yield
yield
yield
yield
yield
yield
(%)
(%)
(%)
(%)
(%)
(%)
(%)
(%)
2010
2010_
2010_
2010_
2010
2010_
2010_
2010_
F
0.90
P
0.443
R-Sq(adj) = 0.00%
N
256
20
50
100
Mean
2.624
3.175
2.452
2.619
StDev
1.645
1.926
1.539
1.765
Individual 95% CIs For Mean Based on Pooled StDev
+---------+---------+---------+--------(---*----)
(--------------*-------------)
(--------*--------)
(-----*------)
+---------+---------+---------+--------2.00
2.50
3.00
3.50
Pooled StDev = 1.676
5.5.9 Análise de Correlação e Dendogramas
População Total
Market
Value $m
Turnover $m
Net Income
$m
Total Assets
$m
Turnover
$m
Net
Income
$m
0,654
0,000
0,870
0,658
0,000
0,612
0,000
0,679
0,608
0,000
0,639
0,000
-0,032
0,607
-0,111
0,076
0,194
0,002
0,000
0,347
0,000
-0,052
0,405
-0,347
0,000
0,235
0,000
0,000
Employees
0,366
0,000
Price $
-0,076
0,228
PE ratio
-0,124
0,047
Dividend yield 0,137
0,028
Amostra Tamanho 20
Market
Turnover
Value $m $m
Net
Income
$m
Total
Assets $m
0,306
0,000
-0,043
0,498
-0,134
0,032
0,270
0,000
Total
Assets $m
Employees Price $
PE ratio
-0,066
0,293
0,005
0,942
0,006
0,920
-0,328
0,000
-0,082
0,190
-0,098
0,116
Employees Price $
PE ratio
59
Turnover $m
Net Income
$m
Total Assets
$m
0,691
0,001
0,952
0,571
0,000
0,740
0,009
0,899
0,689
0,000
0,580
0,007
-0,176
0,457
-0,160
0,500
0,433
0,057
0,001
0,389
0,090
-0,228
0,333
-0,575
0,008
0,709
0,000
0,000
0,460
0,041
Price $
-0,264
0,261
PE ratio
-0,486
0,030
Dividend yield 0,651
0,002
Employees
Amostra Tamanho 50
Market
Turnover
Value $m $m
Turnover $m
Net Income
$m
Total Assets
$m
0,387
0,006
0,783
0,321
0,000
0,633
0,023
0,700
0,594
0,000
0,650
0,000
-0,123
0,395
0,272
0,056
0,388
0,005
0,000
0,057
0,694
-0,017
0,905
-0,344
0,014
0,470
0,001
0,000
Employees
0,123
0,396
Price $
-0,072
0,617
PE ratio
-0,045
0,756
Dividend yield 0,338
0,016
Amostra Tamanho 100
Market
Turnover
Value $m $m
Turnover $m
Net Income
$m
Total Assets
$m
Net
Income
$m
0,757
0,000
0,855
0,724
0,000
0,625
0,000
0,704
Net
Income
$m
0,752
0,000
-0,173
0,466
-0,318
0,172
0,565
0,009
Total
Assets $m
0,295
0,038
-0,119
0,409
-0,034
0,815
0,587
0,000
Total
Assets $m
-0,116
0,627
-0,153
0,520
0,293
0,210
-0,062
0,796
-0,295
0,206
-0,641
0,002
Employees Price $
PE ratio
-0,224
0,118
0,328
0,020
0,206
0,150
-0,065
0,654
-0,196
0,173
-0,036
0,804
Employees Price $
PE ratio
0,590
60
0,000
Employees
0,439
0,000
Price $
-0,120
0,235
PE ratio
-0,209
0,037
Dividend yield 0,228
0,023
0,000
0,539
0,000
-0,093
0,358
-0,138
0,172
0,275
0,006
0,000
0,390
0,000
-0,081
0,422
-0,382
0,000
0,274
0,006
0,425
0,000
-0,066
0,512
-0,160
0,112
0,258
0,010
-0,134
0,184
0,094
0,354
0,030
0,766
-0,147
0,145
-0,121
0,232
-0,377
0,000
Comentários:
•
As variáveis nem sempre mantiveram o grau de correlação, na amostra aleatória,
porém a correlação vai melhorando conforme o maior tamanho da amostra.
Dendrogram
Dendrogram
Single Linkage; Correlation Coefficient Distance
Single Linkage; Correlation Coefficient Distance
44.22
Similarity
Similarity
48.38
65.59
62.81
81.41
82.79
100.00
100.00
ke
ar
M
ue
al
tv
$m
10
20
t
Ne
m
co
In
e
$m
10
20
T
r
ve
no
ur
$m
10
20
l
ta
To
ts
se
As
$m
10
20
Em
ee
oy
pl
s
vi
Di
10
20
nd
de
d
el
yi
)
(%
10
20
PE
ra
tio
10
20
ic
Pr
e
$
20
20
20
20
20
20
20
20
M
M
M
M
M
M
M
M
_A
_A
_A
_A
_A
_A
_A
_A
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
01
20
20
20
20
20
20
20
)2
$
m
es
tio
$m
$m
$m
(%
ye
ra
r$
ice
e
s
e
t
r
o
d
e
l
u
l
E
P
m
p
e
P
se
al
ov
co
yi
As
rn
tv
Em
In
nd
al
ke
Tu
et
ot
de
ar
N
i
T
v
M
Di
10
20
Variables
Variables
Dendrogram
Dendrogram
Single Linkage; Correlation Coefficient Distance
Single Linkage; Correlation Coefficient Distance
46.82
Similarity
Similarity
49.13
66.09
83.04
100.00
64.55
82.27
100.00
50
50
50
50
50
50
50
M
M
M
M
M
M
M
_A
_A
_A
_A
_A
_A
_A
0
0
0
0
0
0
0
1
1
1
1
1
1
1
01
20
20
20
20
20
20
20
)2
$
m
es
tio
$m
$m
$m
(%
ra
ye
ice
r$
e
s
e
r
t
d
o
e
l
l
u
E
P
m
e
p
P
se
al
ov
yi
co
rn
As
tv
Em
In
nd
al
ke
Tu
et
de
ot
ar
i
N
T
v
M
Di
50
AM
0_
Variables
0
0
0
0
0
0
0
0
10
10
10
10
10
10
10
10
AM
AM
AM
AM
AM
AM
AM
AM
0_
0_
0_
0_
0_
0_
0_
0_
1
1
1
1
1
1
1
1
0
20
20
20
20
20
20
20
)2
s
$
tio
e
$m
$m
$m
$m
ee
(%
ra
e
ric
ts
d
oy
er
l
l
ue
E
P
e
l
v
m
p
P
a
o
o
yi e
ss
rn
nc
tv
Em
d
lA
tI
ke
Tu
en
ta
ar
Ne
vi d
To
i
M
D
Variables
Comentários:
•
O dendograma das amostras aleatórias nem sempre manteve a mesma disposição das
variáveis quando comparado ao dendograma da população, porém conforme o tamanho da
amostra aumenta, a disposição se torna cada vez mais parecida com a população.
5.5.10 Considerações
61
Era esperado que à medida que o tamanho da amostra aleatória aumenta, os valores da
análise exploratória de dados também aumenta. Na maior parte dos casos foi possível
verificar esta premissa, pela comparação dos valores de média, desvio padrão, mediana,
mínimo e máximo entre os dados da população e da amostra, nas variáveis analisadas.
No caso de P-Value, podemos observar que a variável Price $ apresentou valores abaixo de
0,10 nas amostras tamanho 20 e 50, portanto são estatísticamente diferentes da população.
No caso das variáveis Market Value $m, Net Income $m, Total Assets $m, Employees, Price
$ e Divident Yield (%), o P-Value é maior conforme o tamanho da amostra é maior. Nos
demais casos, todas as amostras são estatísticamente iguais à população, porém nem sempre
o P-Value é maior conforme o tamanho da amostra é maior.
P-Value do Teste – T para três Amostras
Variáveis
Market Value $m
Turnover $m
Net Income $m
Total Assets $m
Employees
Price $
PE ratio
Dividend Yield (%)
Amostra
Aleatória
0.692
0,556
0,484
0,263
0,552
0,094
0,314
0,227
20 Amostra
50 Amostra
Estratificada
Aleatória
0,123
0,818
0,294
0,363
0,137
0,721
0,181
0,348
0,647
0,650
0,076
0,429
0,997
0,641
0,478
0,981
100
Na análise do teste One-way Anova, foi observado que o desvio padrão diminui conforme o
tamanho da amostra aumenta e que a média das amostras vai se aproximando da média da
população também conforme a amostra aumenta.
Na análise das correlações das variáveis, as amostras ficaram mais próximas das correlações
da população total conforme o tamanho da amostra aumenta. Porém mesmo na amostra
maior, de tamanho 100, algumas correlações não foram mantidas conforme a população.
No Dendograma as variáveis em geral mantiveram a diposição nas amostras. E foram
ficando mais próximas da população conforme o tamanho da amostra aumenta.
Assim, podemos concluir que conforme o tamanho da amostra aumenta, melhor representa a
população total. Porém no caso estudado, mesmo a maior amostra, de tamanho 100, não
representa a população total, apresentando resultados diferentes em algumas análises.
5.6 Análise em Componentes Principais
O objetivo deste tópico é, através da análise dos componentes principais, tentarmos reduzir o
número de variáveis, ou seja, percebermos as relações entre as variáveis e a possibilidade de
agruparmos as mesmas. A análise de correlações e dendogramas realizada anteriormente já
nos dão uma idéia de que a possibilidade de agrupamento existe pelos índices de correlação
entre todas as variáveis:
Segue abaixo o resultado das análises dos componentes principais juntamente com o gráfico
Scree Plot.
62
Principal Component Analysis: Market value; Turnover $m ; Net Income $; Total A
Eigenanalysis of the Correlation Matrix
255 cases used, 1 cases contain missing values
Eigenvalue
Proportion
Cumulative
3.4884
0.436
0.436
1.3087
0.164
0.600
1.0378
0.130
0.729
Variable
Market value $m 2010
Turnover $m 2010
Net Income $m 2010
Total Assets $m 2010
Employees 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
PC1
0.462
0.467
0.476
0.432
0.310
-0.048
-0.156
0.180
Variable
Market value $m 2010
Turnover $m 2010
Net Income $m 2010
Total Assets $m 2010
Employees 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
PC8
-0.657
-0.064
0.728
0.028
0.022
0.002
0.179
-0.019
0.7628
0.095
0.825
PC2
0.088
0.191
-0.092
-0.016
0.402
-0.096
0.659
-0.585
0.6946
0.087
0.912
PC3
0.033
0.053
0.064
-0.009
0.025
0.932
-0.164
-0.308
0.4052
0.051
0.962
PC4
-0.422
0.237
-0.332
-0.125
0.687
0.104
-0.135
0.372
0.2034
0.025
0.988
PC5
-0.036
0.071
-0.174
0.387
-0.260
0.300
0.627
0.513
0.0990
0.012
1.000
PC6
0.384
-0.163
0.298
-0.707
0.147
0.130
0.267
0.357
PC7
0.138
-0.807
0.026
0.383
0.424
0.041
0.002
0.029
Scree Plot of Market value $m 2010; ...; Dividend yield (%) 2010
3.5
3.0
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
2
3
4
5
Component Number
6
7
8
Pela análise dos detalhes e gráfico acima percebemos que se juntarmos as 6 variáveis em
apenas 1 (PC1) teremos um proporção de 43,6%, com 2 (PC1 e PC2) chegamos a 60,0%
com 3 (PC1, PC2 e PC3) chegamos a 72,9% e assim por diante. Isto é algo extremamente
significativo, pois ao invés de trabalharmos com 8 variáveis poderíamos trabalhar com 3
63
(índice PC1, PC2 e PC3) que já explica 72,9% das variáveis. Se trabalharmos com 5 variáeis
ao invés de 8, o nível de explicação chegará a 91,2%.
Pela análise dos valores / participação de cada variável no índice PC1, poderíamos
denominá-lo índice complementado do valor de mercado. O índice PC2, poderíamos
denominá-lo de contraste PE ratio versus rendimento de divivdendos. Já o índice PC3,
poderíamos denominá-lo de índice complementado do preço da ação.
5.7 Análise de Conglomerados
O objetivo deste tópico é efetuar uma análise de conglomerados através de uma pesquisa por
amostragem de dados de indicadores relacionados ao Ranking das 500 Empresas mais
valiosas do mundo. Para isso foi criada uma amostragem arbitrada de tamanho 60 e excluído
posteriormente 3 outliers. Para viabilizar essa análise, a quantidade de variáveis foi reduzida
para 5, sendo elas: Market Value $m, Turnover $m, Price $, PE Ratio e Dividend Yield (%).
5.7.1 Estatística Descritiva / Pesquisa por Amostragem
A pesquisa por amostragem foi feita em uma de 60 indivíduos inicialmente, e reduzida para
57, excluindo 3 outliers. Essa amostra foi arbitrada para viabilizar esta análise, sendo
selecionados 20 empresas de maior valor, 20 empresas intermediárias e 20 empresas de
menor valor.
Começamos com a análise das medidas e gráficos da estatística descritiva de cada variável
da população total e por amostra.
Sumário População
Histogram of Market value; Turnover $m ; Price $ 2010; ...
Normal
M arket v alue $ m 2010
P rice $ 2010
240
75
75
180
50
50
120
25
25
60
100
Frequency
Turnov er $ m 2010
100
0
0
0 00 0 0 0 0 0 0 0 0
0 0 0 0 0
6 0 12 0 18 0 24 0 30 0
00
00
-6
P E ratio 2010
80
40
60
30
40
20
20
10
0
0 0 0 0
0
0 0 00 0 0 0 0 00
8 0 16 0 2 40 32 0 4 00
0
D iv idend y ield (% ) 2010
15
30
45
60
75
0
50
-1
0 0 0 0 0 0 0 00 00
1 5 3 0 4 5 60 75
Price $ 2010
Mean 154.4
StDev 770.9
N
255
PE ratio 2010
Mean 21.13
StDev 11.75
N
255
0
0
Turnov er $m 2010
Mean 40419
StDev 49562
N
255
0
00
00
-8
Mark et v alue $m 2010
Mean 53350
StDev 50915
N
255
0 5 0 5 0 5
0. 1. 3. 4. 6. 7 .
Div idend y ield (%) 2010
Mean 2.631
StDev 1.644
N
255
64
No caso da população, nenhuma das variáveis apresenta curvas próximas à curva normal.
Histogram of Market value; Turnover $m ; Price $ 2010; ...
Normal
Frequency
M arket v alue $ m 2010
Turnov er $ m 2010
40
20
60
30
15
45
20
10
30
10
5
15
0
0
-6
P E ratio 2010
0
00
-2
0 0
0 0
0 0 0 0 0 0 00
6 0 12 0 1 80 2 40
0
00
00
-6
0
0 0 0 0 0 0 00
20 40 60 80
Div idend y ield (% ) 2010
16
12
12
6
4
3
Div idend y ield (%) 2010
Mean 3.023
StDev 1.764
N
57
0
0
0
15
30
45
60
Price $ 2010
Mean 307.9
StDev 1381
N
57
PE ratio 2010
Mean 21.61
StDev 14.42
N
57
9
8
Mark et v alue $m 2010
Mean 70196
StDev 72020
N
57
Turnov er $m 2010
Mean 46798
StDev 55908
N
57
0
0
0 0 0 0
0 0 00 00 0 0
6 0 1 20 1 80 2 40
0
0
00
P rice $ 2010
0
2
4
6
8
Para a amostra de 57 indivíduos observamos um resultado similar às curvas da população,
isso demonstra que a amostra representa bem a população. Com exceção da variável
Dividend Yield (%), que nessa amostra apresenta curva próxima à curva normal, ao
contrário do observado na população.
5.7.2 Análise de Conglomerados
Cluster Analysis of Observations: Market value; Turnover $m ; Price $ 2010; ...
Euclidean Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Number of
clusters
56
55
54
53
52
51
50
49
48
47
46
45
44
43
Similarity
level
99.9221
99.8983
99.8791
99.7996
99.7691
99.7033
99.6801
99.5813
99.5757
99.5742
99.5616
99.5198
99.5025
99.4498
Distance
level
248
324
385
638
735
944
1018
1333
1351
1355
1395
1529
1583
1751
Clusters
joined
53
54
26
27
40
46
50
52
41
50
51
53
51
56
35
37
23
26
40
45
22
29
44
47
28
31
44
51
New
cluster
53
26
40
50
41
51
51
35
23
40
22
44
28
44
Number
of obs.
in new
cluster
2
2
2
2
3
3
4
2
3
3
2
2
2
6
65
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
99.4392
99.4246
99.4169
99.3950
99.3650
99.3346
99.2943
99.2529
99.1128
99.1033
98.9832
98.9809
98.9232
98.8495
98.8403
98.8134
98.7049
98.3856
98.3767
98.3607
98.1455
97.7384
97.6952
97.5471
96.6146
96.2411
95.7148
95.6184
95.0270
94.2228
93.5668
93.4960
91.4186
90.4463
90.3590
88.5729
88.0396
86.7700
85.2074
76.0844
71.1086
66.8502
1785
1831
1856
1926
2021
2118
2246
2378
2824
2854
3236
3244
3427
3662
3691
3777
4122
5138
5167
5217
5903
7198
7336
7807
10775
11964
13639
13946
15828
18388
20475
20701
27312
30407
30685
36370
38067
42108
47081
76118
91954
105508
48
44
40
30
20
15
38
23
20
19
19
18
41
15
20
18
18
38
43
28
18
18
38
5
39
38
18
4
4
4
2
2
12
9
2
2
2
2
1
18
1
1
57
49
44
32
21
16
40
33
25
30
22
19
42
17
36
20
34
41
55
35
28
23
43
6
48
39
38
8
7
5
4
11
15
10
13
14
12
3
2
24
9
18
48
44
40
30
20
15
38
23
20
19
19
18
41
15
20
18
18
38
43
28
18
18
38
5
39
38
18
4
4
4
2
2
12
9
2
2
2
2
1
18
1
1
2
7
10
2
2
2
11
4
3
3
5
6
4
3
4
10
11
15
2
4
15
19
17
2
3
20
39
2
3
5
6
7
4
2
8
9
13
14
15
40
17
57
Final Partition
Number of clusters: 2
Cluster1
Cluster2
Number of
observations
17
40
Within cluster
sum of squares
9.45724E+10
1.99600E+10
Average
distance
from
centroid
60842.8
17056.6
Maximum
distance
from
centroid
175039
100716
Cluster Centroids
Variable
Market value $m 2010
Turnover $m 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
Cluster1
176575
103149
49
17
4
Cluster2
24984.3
22848.3
418.0
23.7
2.8
Grand
centroid
70195.6
46797.6
307.9
21.6
3.0
Distances Between Cluster Centroids
66
Cluster1
Cluster2
Cluster1
0
171546
Cluster2
171546
0
Dendrogram
Single Linkage; Euclidean Distance
Similarity
66.85
77.90
88.95
100.00
1 2 4 8 7 5 6 11 13 14 12 15 16 17 3 910181930 32 22 29 20 21 25 36342831353723 26 27 33 38 40 46 45444751535456 49 41 50 52 42 43 5539485724
Observations
Podemos notar que para o número de conglomerados igual a 2 distribui de forma adequada a
amostra de 57 indivíduos.
O conglomerado 1 possui 17 observações e o conglomerado 2 possui 40 observações.
No conglomerado 1 se encontram as empresas mais valiosas e no conglomerado 2 se
encontram as empresas intermediárias e menos valiosas. Foram realizados vários testes
aumentando o número de conglomerados, porém as empresas intermediárias e menos
valiosas não foram divididas.
67
Histogram of Cluster
40
Frequency
30
20
10
0
1
2
Cluster
O histograma mostra que o grupo mais importante é o 2.
Boxplot of PC1
7.5
PC1
5.0
2.5
0.0
1
2
Cluster
O Box plot mostra que existe uma diferença visível entre os dois conglomerados.
68
Scatterplot of Cluster vs PC1
2.0
Cluster
1.8
1.6
1.4
1.2
1.0
0.0
2.5
5.0
7.5
PC1
Observamos nitidamente através do gráfico de dispersão a divisão entre os 2 conglomerados.
5.8 Análise Discriminante
O objetivo deste tópico é efetuar uma análise comparativa de médias, intervalos de
confiança e regressões de dados de indicadores relacionados ao Ranking das 500 Empresas
mais valiosas do mundo. Para isso foi criada uma amostragem arbitrada de tamanho 60 e
excluído posteriormente 3 outliers. O principal propósito é comparar os conglomerados da
amostra.
5.8.1 Comparação de Média, Análise de Variância e Intervalo de Confiança
One-way ANOVA: Market value $m 2010 versus Cluster
Source
Cluster
Error
Total
DF
1
55
56
S = 17224
Level
1
2
N
17
40
SS
2.74145E+11
16316476275
2.90462E+11
R-Sq = 94.38%
Mean
176575
24984
StDev
29315
8112
MS
2.74145E+11
296663205
F
924.10
P
0.000
R-Sq(adj) = 94.28%
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(*-)
(*)
------+---------+---------+---------+--50000
100000
150000
200000
Pooled StDev = 17224
69
One-way ANOVA: Turnover $m 2010 versus Cluster
Source
Cluster
Error
Total
DF
1
55
56
S = 42235
Level
1
2
N
17
40
SS
76926169587
98110777945
1.75037E+11
MS
76926169587
1783832326
R-Sq = 43.95%
Mean
103149
22848
StDev
71073
21055
F
43.12
P
0.000
R-Sq(adj) = 42.93%
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(-----*------)
(----*---)
-------+---------+---------+---------+-30000
60000
90000
120000
Pooled StDev = 42235
One-way ANOVA: Price $ 2010 versus Cluster
Source
Cluster
Error
Total
DF
1
55
56
S = 1383
Level
1
2
SS
1624001
105186768
106810770
MS
1624001
1912487
R-Sq = 1.52%
N
17
40
Mean
49
418
StDev
42
1642
F
0.85
P
0.361
R-Sq(adj) = 0.00%
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(----------------*----------------)
(----------*----------)
------+---------+---------+---------+---400
0
400
800
Pooled StDev = 1383
One-way ANOVA: PE ratio 2010 versus Cluster
Source
Cluster
Error
Total
DF
1
55
56
S = 14.17
Level
1
2
N
17
40
SS
601
11045
11646
MS
601
201
R-Sq = 5.16%
Mean
16.62
23.72
StDev
6.28
16.34
F
2.99
P
0.089
R-Sq(adj) = 3.44%
Individual 95% CIs For Mean Based on Pooled StDev
-+---------+---------+---------+-------(-------------*-------------)
(--------*--------)
-+---------+---------+---------+-------10.0
15.0
20.0
25.0
Pooled StDev = 14.17
One-way ANOVA: Dividend yield (%) 2010 versus Cluster
70
Source
Cluster
Error
Total
DF
1
55
56
S = 1.751
Level
1
2
N
17
40
SS
5.79
168.55
174.34
MS
5.79
3.06
R-Sq = 3.32%
Mean
3.512
2.815
StDev
1.489
1.847
F
1.89
P
0.175
R-Sq(adj) = 1.56%
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(--------------*-------------)
(--------*--------)
--+---------+---------+---------+------2.40
3.00
3.60
4.20
Pooled StDev = 1.751
Os valores P-value das análises de variância acima nos confirmam que:
Tendo como parâmetro o p-value menor ou igual a 5% para a rejeição da hipótese
nula, podemos considerar que a média populacional das variáveis dos conglomerados são
diferentes, com exceção das variáveis Price $, Pe Ratio e Dividend Yield (%).
Pela análise do valor F, percebemos que a maior diferença aparece na variável
Market Value $m.
Veremos abaixo o Box-Plot que nos permite visualizar mais claramente estas grandes
diferenças entre os dois conglomerados.
Boxplot of Market value; Turnover $m ; Price $ 2010; PE ratio 201; ...
1
Mark et v alue $m 2010
250000
200000
300000
2
Turnov er $m 2010
Price $ 2010
8000
6000
200000
150000
4000
100000
100000
2000
50000
0
0
PE ratio 2010
Div idend y ield (%) 2010
1
2
8
60
6
40
4
2
20
0
1
2
Cluster
71
Fica bastante notória as diferenças que separam os dois conglomerados nas 5 variáveis
analisadas, com exceção das variáveis Price $, PE ratio e Dividend Yield (%), conforme já
explicado anteriormente.
Dendrogram
Single Linkage; Correlation Coefficient Distance
Similarity
44.14
62.76
81.38
100.00
a
M
a
tv
e
rk
e
lu
$m
10
20
er
ov
n
r
Tu
$m
10
20
d
en
iv d
Di
d
el
yi
0
01
2
)
(%
PE
ra
tio
10
20
e
ic
Pr
$
10
20
Variables
Pelo dendrograma podemos observar que as variáveis Market Value $m e Turnover $m
estão correlacionadas, e as variáveis Dividend Yield (%), PE ratio e Price $ possui baixa
correlação com as outras variáveis.
5.8.2 Análise Discriminante
A variável dependente de nossa análise será o conglomerado e para tentar explicar em qual
conglomerado uma determinada empresa cai, utilizamos as 5 variáveis de indicadores
relacionados ao ranking das 500 empresas mais valiosas do mundo.
Discriminant Analysis: Cluster versus Market value; Turnover $m ; ...
Linear Method for Response: Cluster
Predictors: Market value $m 2010; Turnover $m 2010; Price $ 2010;
PE ratio 2010; Dividend yield (%) 2010
Group
Count
1
17
2
40
Summary of classification
True Group
72
Put into Group
1
2
Total N
N correct
Proportion
1
17
0
17
17
1.000
N = 57
2
0
40
40
40
1.000
N Correct = 57
Proportion Correct = 1.000
Squared Distance Between Groups
1
2
1
0.0000
84.2623
2
84.2623
0.0000
Linear Discriminant Function for Groups
Constant
Market value $m 2010
Turnover $m 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
1
-60.382
0.001
0.000
0.001
0.059
2.113
2
-5.764
0.000
-0.000
0.001
0.181
1.707
Discriminant Analysis: Cluster versus Market value; Turnover $m ; ...
Quadratic Method for Response:
Cluster
Predictors: Market value $m 2010; Turnover $m 2010; Price $ 2010;
PE ratio 2010; Dividend yield (%) 2010
Group
Count
1
17
2
40
Summary of classification
Put into Group
1
2
Total N
N correct
Proportion
N = 57
From
Group
1
2
True Group
1
2
17
0
0
40
17
40
17
40
1.000 1.000
N Correct = 57
Proportion Correct = 1.000
Generalized Squared Distance to Group
1
53.19
142.99
2
462.98
58.91
A utilização de ambas as funções ajustou os dados a uma proporção de acerto de 100%, por
isso vamos utilizar a função linear que é mais simples.
73
Veremos o que ocorre se excluirmos as variáveis com alto valor de p, utilizando a função
quadrática:
Discriminant Analysis: Cluster versus Market value $m ; Turnover $m 2010
Linear Method for Response: Cluster
Predictors: Market value $m 2010; Turnover $m 2010
Group
Count
1
17
2
40
Summary of classification
Put into Group
1
2
Total N
N correct
Proportion
N = 57
True Group
1
2
17
0
0
40
17
40
17
40
1.000 1.000
N Correct = 57
Proportion Correct = 1.000
Squared Distance Between Groups
1
2
1
0.0000
79.7746
2
79.7746
0.0000
Linear Discriminant Function for Groups
Constant
Market value $m 2010
Turnover $m 2010
1
-54.548
0.001
0.000
2
-1.167
0.000
0.000
Não houve mudança no poder explicativo e o modelo fica mais simples, com duas variáveis
ao invés de cinco. Veremos o que acontece se considerarmos apenas a variável Market
Value $m, variável com maior diferença entre os conglomerados. O objetivo é termos um
modelo ainda mais simples e intuitivo:
Discriminant Analysis: Cluster versus Market value $m 2010
Linear Method for Response: Cluster
Predictors: Market value $m 2010
Group
Count
1
17
2
40
Summary of classification
Put into Group
True Group
1
2
74
1
2
Total N
N correct
Proportion
17
0
17
17
1.000
N = 57
0
40
40
40
1.000
N Correct = 57
Proportion Correct = 1.000
Squared Distance Between Groups
1
2
1
0.0000
77.4609
2
77.4609
0.0000
Linear Discriminant Function for Groups
Constant
Market value $m 2010
1
-52.549
0.001
2
-1.052
0.000
O poder explicativo se manteve em 100% e a análise fica ainda mais simples com apenas
uma variável explicativa.
5.9 Regressão Logística
O objetivo deste tópico é efetuar uma análise de regressões múltiplas, logísticas binárias,
logísticas ordinais de dados de indicadores relacionados ao Ranking das 500 Empresas mais
valiosas do mundo. O principal propósito é comparar os conglomerados da amostra.
Binary Logistic Regression: Cluster versus Market value; Turnover $m ; ...
* WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
Response Information
Variable
Cluster
Value
2
1
Total
Count
40
17
57
(Event)
Logistic Regression Table
Predictor
Constant
Market value $m 2010
Turnover $m 2010
Price $ 2010
PE ratio 2010
Coef
32.4754
-0.0003777
0.0000313
-0.0006903
0.0125430
SE Coef
11872.5
0.0826762
0.135609
2.73929
281.823
Z
0.00
-0.00
0.00
-0.00
0.00
P
0.998
0.996
1.000
1.000
1.000
Odds
Ratio
95%
CI
Lower
1.00
1.00
1.00
1.01
0.85
0.77
0.00
0.00
75
Dividend yield (%) 2010
Predictor
Constant
Market value $m 2010
Turnover $m 2010
Price $ 2010
PE ratio 2010
Dividend yield (%) 2010
-0.111252
1783.43
-0.00
1.000
0.89
0.00
Upper
1.18
1.30
214.48
7.82247E+239
*
Log-Likelihood = -0.000
Test that all slopes are zero: G = 69.468, DF = 5, P-Value = 0.000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow
Chi-Square
0.0000000
0.0000001
0.0000000
DF
51
51
8
P
1.000
1.000
1.000
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
2
Obs
Exp
1
Obs
Exp
Total
Group
5
6
1
2
3
4
0
0.0
0
0.0
0
0.0
5
5.0
6
6.0
5
5.0
5
6
6.0
6
6
6.0
6
0
0.0
5
0
0.0
6
7
8
9
10
Total
6
6.0
5
5.0
6
6.0
6
6.0
6
6.0
40
0
0.0
6
0
0.0
5
0
0.0
6
0
0.0
6
0
0.0
6
17
57
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
680
0
0
680
Percent
100.0
0.0
0.0
100.0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
1.00
1.00
0.43
A utilização da regressão logística binária chegou a um percentual de concordância de
100%, porém alguns erros ocorreram, o que torna o resultado não confiável.
Veremos o que ocorre se excluirmos as variáveis com alto valor de p:
Binary Logistic Regression: Cluster versus Market value; Turnover $m
* WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
76
Response Information
Variable
Cluster
Value
2
1
Total
Count
40
17
57
(Event)
Logistic Regression Table
Predictor
Constant
Market value $m 2010
Turnover $m 2010
Coef
32.4047
-0.0003788
0.0000299
SE Coef
5092.39
0.0806930
0.138088
Z
0.01
-0.00
0.00
P
0.995
0.996
1.000
Odds
Ratio
95% CI
Lower Upper
1.00
1.00
0.85
0.76
1.17
1.31
Log-Likelihood = -0.000
Test that all slopes are zero: G = 69.468, DF = 2, P-Value = 0.000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow
Chi-Square
0.0000000
0.0000001
0.0000000
DF
54
54
8
P
1.000
1.000
1.000
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
2
Obs
Exp
1
Obs
Exp
Total
Group
5
6
1
2
3
4
0
0.0
0
0.0
0
0.0
5
5.0
6
6.0
5
5.0
5
6
6.0
6
6
6.0
6
0
0.0
5
0
0.0
6
7
8
9
10
Total
6
6.0
5
5.0
6
6.0
6
6.0
6
6.0
40
0
0.0
6
0
0.0
5
0
0.0
6
0
0.0
6
0
0.0
6
17
57
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
680
0
0
680
Percent
100.0
0.0
0.0
100.0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
1.00
1.00
0.43
Não houve mudança no poder explicativo e o modelo fica mais simples, com duas variáveis
ao invés de cinco, porém novamente alguns erros ocorreram, o que torna o resultado não
confiável. Veremos o que acontece se considerarmos apenas a variável Market Value $m,
variável com maior diferença entre os conglomerados. O objetivo é termos um modelo
válido e ainda mais simples e intuitivo:
Binary Logistic Regression: Cluster versus Market value $m 2010
* WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
77
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
Response Information
Variable
Cluster
Value
2
1
Total
Count
40
17
57
(Event)
Logistic Regression Table
Predictor
Constant
Market value $m 2010
Coef
32.7155
-0.0003695
SE Coef
5082.36
0.0566962
Z
0.01
-0.01
P
0.995
0.995
Odds
Ratio
95% CI
Lower Upper
1.00
0.89
1.12
Log-Likelihood = -0.000
Test that all slopes are zero: G = 69.468, DF = 1, P-Value = 0.000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow
Chi-Square
0.0000000
0.0000001
0.0000000
DF
55
55
8
P
1.000
1.000
1.000
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
2
Obs
Exp
1
Obs
Exp
Total
Group
5
6
1
2
3
4
0
0.0
0
0.0
0
0.0
5
5.0
6
6.0
5
5.0
5
6
6.0
6
6
6.0
6
0
0.0
5
0
0.0
6
7
8
9
10
Total
6
6.0
5
5.0
6
6.0
6
6.0
6
6.0
40
0
0.0
6
0
0.0
5
0
0.0
6
0
0.0
6
0
0.0
6
17
57
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
680
0
0
680
Percent
100.0
0.0
0.0
100.0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
1.00
1.00
0.43
O poder explicativo se manteve em 100% e análise fica ainda mais simples com apenas uma
variável explicativa. Porém novamente alguns erros ocorreram, o que torna o resultado não
confiável, não sendo possível utilizar a regressão logística binária na amostra.
5.10 Árvores de Classificação
78
O objetivo deste tópico é efetuar uma análise de árvores de classificação de dados de
indicadores relacionados ao Ranking das 500 Empresas mais valiosas do mundo. O principal
propósito é comparar os conglomerados da amostra e verificar qual modelo oferece melhor
análise de classificação.
Estatísticas descritivas: Variável Categorias Freqüências % Cluster 1 17 29.825
2 40 70.175
Estrutura da árvore: Nó p‐valor Objetos % 1 1.000 57 100.00% 2 0.000 40 70.18% 3 0.000 17 29.82% Nó pai 1 1 Filhos Variável de separação
Valores Pureza 2; 3 70.18% Market value $m 2010 [16048.4; 86626.1[ 100.00%
[86626.1; Market value $m 2010
256864.7[ 100.00%
Foi possível observar pelo aplicativo XLSTAT (Árvore de classificação e regressão) que a
única variável que apresenta importância na separação dos grupos é o Market Value $m. A
proporção de acerto foi de 100,0% (57 de 57 corretas).
Mesmo assim, a melhor opção ainda é a análise discriminante, pois também alcança 100%
de proporção de acerto, utilizando somente uma variável (Market Value $m) e o seu cálculo
é mais simples que a árvore de classificação e regressão. A análise logística apresenta erros
que tornam os resultados não confiáveis.
79
5.11 Análise de Correspondências
Realizar uma análise de correspondência (AC) – análise multivariada - com dados de
indicadores relacionados ao Ranking das 500 empresas mais valiosas do mundo.
A análise de correspondência é um método de análise fatorial para variáveis categóricas. A
AC, basicamente, converte uma tabela de dados não negativos de duas ou múltiplas entradas
em um tipo de representação gráfica em que as linhas e as colunas são simultaneamente
representadas em dimensão reduzida, isto é, por pontos no gráfico. Este método permite
mostrar como as variáveis dispostas em linhas e colunas estão relacionadas e não somente se
a relação existe. A seguir, é apresentado o resultado da análise de correspondência para a
tabela 5 x 6.
Simple Correspondence Analysis: Carbon dioxi; Expected Yea; Expenditure ; GDP p
Analysis of Contingency Table
Axis
1
2
3
4
Total
Inertia
0.0024
0.0001
0.0000
0.0000
0.0025
Proportion
0.9531
0.0397
0.0050
0.0022
Cumulative
0.9531
0.9928
0.9978
1.0000
Histogram
******************************
*
Row Contributions
ID
1
2
3
4
5
Name
BR
CH
IN
RU
SA
Qual
0.985
0.976
0.999
0.990
0.957
Mass
0.229
0.153
0.072
0.331
0.214
Inert
0.028
0.097
0.658
0.165
0.052
Component
Coord
Corr
0.003 0.024
-0.039 0.958
-0.152 0.999
0.035 0.988
0.021 0.747
1
Contr
0.001
0.097
0.690
0.171
0.041
Component
Coord
Corr
-0.017 0.961
0.005 0.019
0.002 0.000
0.001 0.002
0.011 0.210
2
Contr
0.667
0.046
0.004
0.007
0.276
Inert
0.041
0.082
0.000
0.008
0.843
0.025
Component
Coord
Corr
0.147 0.119
-0.384 0.941
-0.437 0.645
0.004 0.994
-0.554 0.999
-0.257 0.806
1
Contr
0.005
0.081
0.000
0.008
0.884
0.021
Component
Coord
Corr
0.399 0.875
0.037 0.009
0.048 0.008
-0.000 0.006
-0.001 0.000
0.095 0.109
2
Contr
0.913
0.018
0.000
0.001
0.000
0.068
Column Contributions
ID
1
2
3
4
5
6
Name
CDE
EYS
EE
GDP
LEB
MYS
Qual
0.993
0.949
0.653
1.000
0.999
0.915
Mass
0.001
0.001
0.000
0.990
0.007
0.001
Gráfico Symmetric Plot – Mostra a associação entre a categoria
linha e coluna conforme a proximidade dos seus pontos no
Biplot.
80
Symmetric Plot
2.5
PR
2.0
Component 2
1.5
1.0
VALE
PETR
NI
MVDY
0.5
0.0
TAB
CC
BNKC
PEC H
EM
-0.5
-1.0
-1.0
-0.5
0.0 0.5 1.0 1.5
Component 1
2.0
2.5
A análise da tabela de contingência mostra uma decomposição da inércia (χ2/n). Do total da
inércia da matriz de dados, 95,31% é contabilizada no primeiro componente, 3,97% é
contabilizada no segundo componente e assim por diante.
No Symmetric Plot observa-se:
1. A empresa PetroChina, 1ª colocada no ranking está próxima ao Employees (Número de Empregados); 2. As empresas Industrial & Commercial Bank of China e China Construction Bank (4ª e 13ª colocadas no ranking estão próximas ao indicador Total Assets $m.
3. As empresas Petrobras e Vale (13ª e 22ª colocadas no ranking estão entre os indicadores Market Value $m, Net Income $m e Dividend Yield (%).
4. Todas as empresas estão distantes do indicador Price $.
6. CONSIDERAÇÕES FINAIS
6.1 Evolução Histórica dos Indicadores das 500 Empresas mais valiosas do mundo e da
Posição dos Países do BRICS no Ranking
O presente trabalho efetuou uma análise das médias amostrais, intervalos de confiança para
a média populacional e análise de variância referente a 5 variáveis do Ranking 2010 das 500
Empresas mais valiosas do mundo publicada pela revista Financial Times.
Constatamos que houve uma evolução em duas dessas variáveis, sendo elas: Market value
$m (Valor de Mercado) e Turnover $m. No caso do Valor de Mercado, o valor médio passou
de $m 40.401 para $m 53.555 (acréscimo de 32,56%) e no caso do Turnover, o valor médio
passou de $m 30.496 para $m 40.419 (acréscimo de 32,54%). Isso demonstra que as
81
empresas se tornaram mais valiosas de 2005 para 2010. No caso das demais variáveis (Price
$ (Preço da Ação), PE ratio e Dividend yield %) foi constatado que as médias populacionais
dos anos de 2010 e 2005 não são estatisticamente diferentes.
Já na análise da evolução dos países do BRICS no ranking das 500 empresas mais valiosas
do mundo pudemos observar que houve uma evolução muito significativa. Houve uma
variação positiva de 325% de 2005 para 2010, sendo que em 2005 haviam 16 empresas do
BRICS no ranking, que representavam 3,2% e em 2010 há 68 empresas do BRICS entre as
500 empresas mais valiosas do mundo, que representam 13,6%.
Analisando isoladamente os países do BRICS, o país que teve maior evolução no ranking de
2005 para 2010 foi a China, que em 2005 não tinha nenhuma empresa no ranking e em 2010
tem 23 empresas. Sendo também a China o país do BRICS que possui mais empresas no
ranking, representando 33,82%, seguido por Índia (16 empresas, 23,53%), Brasil (12
empresas, 17,65%), Russia (11 empresas, 16,18%) e África do Sul (6 empresas, 8,82%).
Se analisarmos a evolução dos países do BRICS em relação ao Valor de Mercado, podemos
observar uma evolução mais significativa ainda. Houve uma variação positiva de 833,20%,
sendo que em 2005 representavam 2,02% e em 2010 representam 15,54%.
Outro dado muito interessante é que, em 2005 não havia nenhuma empresa do BRICS entre
as 25 empresas mais valiosas do mundo e em 2010 existem 5 empresas entre as 25 mais
valiosas do mundo, sendo que a empresa mais valiosa do mundo (PetroChina) é uma
empresa da China, país pertencente ao BRICS. A China também possui a 4ª e a 11ª mais
valiosa do mundo. O Brasil possui a 13ª (Petrobras) e a 22ª (Vale) empresa mais valiosa do
mundo.
6.2 Estudos Complementares
6.2.1 Análise de Tendências
Analisando a planilha de resultados da análise de tendências abaixo, podemos observar que
poderá haver um crescimento de 106% na quantidade de países do BRICS no ranking das
500 empresas mais valiosas do mundo, passando de 68 países em 2010 para 140 países em
2015. Já no caso do outros países, poderá haver uma redução de 17%, passando de 432
países em 2010 para 360 países em 2015.
Quantidade Total BRICS Outros Total Percentual Total BRICS Outros Total 2005 16
484
500
3%
97%
100%
Comportamento Histórico 2006 2007 2008 2009 25 36
66
58
475 464
434
442
500 500
500
500
5% 7% 13% 12%
95% 93% 87% 88%
100% 100% 100% 100%
2010 68
432
500
14%
86%
100%
2011 90
410
500
18%
82%
100%
Projeção 2012 2013 2014 103 115 128
397 385 372
500 500 500
21% 23% 26%
79% 77% 74%
100% 100% 100%
2015 140
360
500
28%
72%
100%
82
6.2.2 Relação entre Variáveis
A maior relação entre variáveis foi encontrada entre o Valor de Mercado e o Lucro Líquido.
Isso é coerente, pois o Lucro Líquido é um indicador que tem um alto grau de influência no
valor de mercado da empresa.
Já a menor relação entre variáveis contínuas foi encontrada entre o PE ratio e o Preço da
Ação. Esse resultado sugere que o indicador PE ratio não tem muita influência sobre o preço
da ação no mercado.
6.2.3 Regressões Múltiplas
Foi encontrado um valor de R-Quadrado por volta de 80%, considerando a variável
dependente Valor de Mercado. Esse valor parece ser condizente com os tipos de dados, pois
as demais variáveis estão diretamente relacionadas com o valor de mercado da empresa.
Com isso é possível realizar inferências satisfatórias mediante a utilização da equação
encontrada.
6.2.4 Amostragem
Era esperado que à medida que o tamanho da amostra aleatória aumenta, os valores da
análise exploratória de dados também aumenta. Na maior parte dos casos foi possível
verificar esta premissa, pela comparação dos valores de média, desvio padrão, mediana,
mínimo e máximo entre os dados da população e da amostra, nas variáveis analisadas.
No caso de P-Value, podemos observar que a variável Price $ apresentou valores abaixo de
0,10 nas amostras tamanho 20 e 50, portanto são estatísticamente diferentes da população.
No caso das variáveis Market Value $m, Net Income $m, Total Assets $m, Employees, Price
$ e Divident Yield (%), o P-Value é maior conforme o tamanho da amostra é maior. Nos
demais casos, todas as amostras são estatísticamente iguais à população, porém nem sempre
o P-Value é maior conforme o tamanho da amostra é maior.
P-Value do Teste – T para três Amostras
Variáveis
Market Value $m
Turnover $m
Net Income $m
Total Assets $m
Employees
Price $
PE ratio
Dividend Yield (%)
Amostra
Aleatória
0.692
0,556
0,484
0,263
0,552
0,094
0,314
0,227
20 Amostra
50 Amostra
Estratificada
Aleatória
0,123
0,818
0,294
0,363
0,137
0,721
0,181
0,348
0,647
0,650
0,076
0,429
0,997
0,641
0,478
0,981
100
Na análise do teste One-way Anova, foi observado que o desvio padrão diminui conforme o
tamanho da amostra aumenta e que a média das amostras vai se aproximando da média da
população também conforme a amostra aumenta.
83
Na análise das correlações das variáveis, as amostras ficaram mais próximas das correlações
da população total conforme o tamanho da amostra aumenta. Porém mesmo na amostra
maior, de tamanho 100, algumas correlações não foram mantidas conforme a população.
No Dendograma as variáveis em geral mantiveram a diposição nas amostras. E foram
ficando mais próximas da população conforme o tamanho da amostra aumenta.
Assim, podemos concluir que conforme o tamanho da amostra aumenta, melhor representa a
população total. Porém no caso estudado, mesmo a maior amostra, de tamanho 100, não
representa a população total, apresentando resultados diferentes em algumas análises.
6.2.5 Análise em Componentes Principais
De acordo com todas as análises efetuadas, percebemos que o agrupamento de variáveis é
pertinente no caso das variáveis do Ranking das 500 empresas mais valiosas do mundo. Isto
pôde ser observado inicialmente pelas matrizes de correlação e dendogramas e depois
comprovados pela análise dos componentes principais.
Assim, ao invés de trabalharmos com um grupo grande de variáveis (8) poderíamos utilizar
apenas três índices (PC1, PC2 e PC3) que as represente satisfatoriamente (72,9%).
6.2.6 Análise de Conglomerados
Foi possível agrupar as empresas da amostra em 2 conglomerados. Podemos observar que as
empresas mais valiosas se encontram no conglomerado 1, enquanto as empresas
intermediárias e menos valiosas não eram divididas e se encontram no conglomerado 2. As
empresas intermediárias e menos valiosas não foram divididas em conglomerados, mesmo
quando se aumentava o número de conglomerados. Isso pode acontecer em função das
empresas intermediárias e menos valiosas não terem muita diferença de valor, ao contrário
das empresas mais valiosas.
6.2.7 Análise Discriminante
De acordo com todas as análises realizadas, podemos constatar que a função linear se
mostrou mais adequada para a amostra, pois apesar de ter obtido os mesmos resultados da
função quadrática, ela é mais simples.
Também foi possível constatar que utilizando-se somente a variável Market Value $m para
divisão das empresas da amostra em conglomerados chegou-se a índices de proporção de
acerto de 100%. Portanto podemos concluir que entre as variáveis de indicadores do ranking
das 500 empresas mais valiosas do mundo, a variável Market Value $m é a mais
significativa e somente a sua utilização já é suficiente para dividir as empresas da amostra
em conglomerados. As demais variáveis muito pouco ou nada acrescentam.
6.2.8 Regressão Logística
84
De acordo com todas as análises realizadas, podemos constatar que a análise discriminante é
uma opção melhor que a análise de regressão logística binária, pois na última, ocorreram
erros que tornaram os resultados não confiáveis, o que não ocorreu na análise discriminante.
Dentro da análise discriminante, a função linear se mostrou mais adequada.
Também foi possível constatar que utilizando-se somente a variável Market Value $m para
divisão das empresas da amostra em conglomerados chegou-se a índices de proporção de
acerto de 100%. Portanto podemos concluir que entre as variáveis de indicadores das 500
empresas mais valiosas do mundo, a variável Valor de Mercado é a mais significativa e
somente a sua utilização já é suficiente para dividir as empresas da amostra em
conglomerados. As demais variáveis muito pouco ou nada acrescentam.
6.2.9 Árvores de Classificação
De acordo com todas as análises realizadas, podemos constatar que a análise discriminante e
a árvore de classificação e regressãosão uma opção melhor que a análise de regressão
logística ordinal, pois na última, ocorreram erros que tornaram os resultados não confiáveis,
o que não ocorreu nas demais análises.
A melhor opção fica empatada entre a análise logística (linear) e a árvore de classificação e
regressão, pois ambas alcançam 100% de proporção de acerto e utiliza somente uma variável
(Market Value $m). Como o cálculo da análise logística linear é mais simples, esta se torna a
melhor opção. A análise logística apresenta erros que tornam os resultados não confiáveis.
A análise pela árvore de classificação e regressão também chegou ao resultado de que a
variável Market Value $m é a que apresenta maior importância na separação de grupos, o
que reforça a conclusão de que é a variável mais significativa e somente a sua utilização já é
suficiente para dividir os países das amostras em conglomerados. As demais variáveis muito
pouco ou nada acrescentam.
6.2.10 Análise de Correspondências
A análise da tabela de contingência mostra uma decomposição da inércia (χ2/n). Do total da
inércia da matriz de dados, 95,31% é contabilizada no primeiro componente, 3,97% é
contabilizada no segundo componente e assim por diante.
De acordo com as análises efetuadas, observa-se:
1. A empresa PetroChina, 1ª colocada no ranking está próxima ao Employees (Número de Empregados); 2. As empresas Industrial & Commercial Bank of China e China Construction Bank (4ª e 13ª colocadas no ranking estão próximas ao indicador Total Assets $m.
3. As empresas Petrobras e Vale (13ª e 22ª colocadas no ranking estão entre os indicadores Market Value $m, Net Income $m e Dividend Yield (%).
4. Todas as empresas estão distantes do indicador Price $.
85
Download

Eduardo Noboru Kawabuchi - PUC-SP