PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO
PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM
ADMINISTRAÇÃO
PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICPAL NO BRASIL
Focando principalmente indicadores relacionados a Habitação, Educação,
Trabalho e muito particularmente EMPREGO e RENDA.
MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA
Professor: Dr. Arnoldo José de Hoyos
José Felipe Ferreira de Souza
2
SUMÁRIO
1 – INTRODUÇÃO .................................................................................................................... 5
2 – OS DADOS .......................................................................................................................... 5
2.1 Os Indivíduos .................................................................................................................... 5
2.2 As Variáveis ..................................................................................................................... 6
3. ANÁLISE DAS VARIÁVEIS................................................................................................ 8
3.1 Variáveis Categóricas ....................................................................................................... 8
3.1.1 Variável: “Estados” ................................................................................................... 8
4. ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................ 11
4.1 Histograma ..................................................................................................................... 11
4.1.1 ISDM ....................................................................................................................... 11
4.1.2 EMPREGO E RENDA ............................................................................................ 13
4.1.3 R1 ............................................................................................................................ 14
4.1.4 T1_2 ......................................................................................................................... 15
4.1.5 H6 ............................................................................................................................ 16
4.1.6 EDUCAÇÃO ........................................................................................................... 17
4.1.7 E2_4 ......................................................................................................................... 18
4.1.8 SAÚDE .................................................................................................................... 19
4.1.9 S1_1 ......................................................................................................................... 20
4.1.10 LIQUIDEZ ............................................................................................................ 21
5. RELAÇÃO ENTRE AS VARIÁVEIS ................................................................................. 22
5.1 Correlações ..................................................................................................................... 22
5.2 Dendograma ................................................................................................................... 23
5.3 Gráficos Scaterplot e Regressão de mínimos quadrados................................................ 24
5.3.1 ISDM versus EMPREGO E RENDA...................................................................... 24
5.3.2 ISDM versus R1 ...................................................................................................... 26
5.3.3 ISDM versus T1_2 .................................................................................................. 27
5.3.4 ISDM versus H6 ...................................................................................................... 28
5.3.5 ISDM versus EDUCAÇÃO ..................................................................................... 29
5.3.6 ISDM versus E2_4 .................................................................................................. 31
5.3.7 ISDM versus SAÚDE.............................................................................................. 32
5.3.8 ISDM versus S1_1 ................................................................................................... 33
3
5.3.9 ISDM versus LIQUIDEZ ........................................................................................ 34
6. MODELO DE REGRESSÃO LINEAR ............................................................................... 35
6.1 ISDM versus Emprego e Renda; Educação; e Saúde ..................................................... 35
6.2 ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez .................................................... 36
7. TESTE DE COMPARAÇÕES ............................................................................................. 37
7.1 Variável ISDM ............................................................................................................... 37
7.2 Variável Emprego e Renda ............................................................................................. 38
7.3 Variável Educação .......................................................................................................... 40
7.4 Variável Saúde................................................................................................................ 41
7.5 Variável E2_4 ................................................................................................................. 43
7.6 Variável T1_2 ................................................................................................................. 44
7.7 Variável S1_1 ................................................................................................................. 46
7.8 Variável R1 ..................................................................................................................... 47
7.9 Variável H6 .................................................................................................................... 49
7.10 Variável Liquidez ......................................................................................................... 50
8. AMOSTRAGEM .................................................................................................................. 52
8.1 VARIÁVEL ISDM ......................................................................................................... 52
8.2 VARIÁVEL EMPREGO E RENDA ............................................................................. 54
8.3 VARIÁVEL EDUCAÇÃO............................................................................................. 57
9. ANÁLISE MULTIVARIADA ............................................................................................. 59
9.1 Dendograma dos agrupamentos das variáveis por similaridade..................................... 59
9.2 Principais Componentes ................................................................................................. 60
10. ANÁLISE DE CONGLOMERADOS ............................................................................... 62
10.1 ANOVA ........................................................................................................................ 62
10.1.1 ANOVA de ISDM por Estado ............................................................................... 62
10.1.2 ANOVA de Emprego e Renda por Estado ............................................................ 64
10.1.3 ANOVA de R1 por Estado .................................................................................... 65
10.1.4 ANOVA de T1_2 por Estado ................................................................................ 66
10.1.5 ANOVA de H6 por Estado .................................................................................... 67
10.1.6 ANOVA de Educação por Estado ......................................................................... 68
10.1.7 ANOVA de E2_4 por Estado ................................................................................ 69
10.1.8 ANOVA de Saúde por Estado ............................................................................... 71
10.1.9 ANOVA de S1_1 por Estado ................................................................................ 72
10.1.10 ANOVA de Liquidez por Estado......................................................................... 73
4
10.2 DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS
MÉDIAS ............................................................................................................................... 75
11. ANÁLISE DISCRIMINANTE .......................................................................................... 77
11.1 DENDOGRAMA DAS REGIÕES BRASILEIRAS.................................................... 77
11.2 ANÁLISE DESCRIMINANTE DAS CINCO REGIÕES VERSUS ISDM, EMPREGO
E RENDA, EDUCAÇÃO E SAÚDE ................................................................................... 77
12. REGRESSÃO LOGÍSTICA ............................................................................................... 79
13. ÁRVORES DE CLASSIFICAÇÃO ................................................................................... 80
13.1 Os três brasis ................................................................................................................. 80
13.2 Árvore de classificação das variáveis: ISDM, Educação, E2_4, Saúde, H6, T1_2,
Emprego e Renda, Liquidez, R1 e S1_1............................................................................... 81
13.3 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6,
T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis .............................................. 82
13.4 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4,
Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis ........................... 83
13.5 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6,
T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região ..................................................... 85
13.6 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4,
Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região .................................. 87
14. CONSIDERAÇÕES FINAIS ............................................................................................. 89
5
1 – INTRODUÇÃO
O presente trabalho propõe trabalhar com os 12 exercícios que foram realizados ao
longo da disciplina, com a incrementação de seis novas variáveis: E2_4 (Proporção de
crianças de 7 a 14 anos na série adequada para sua idade); T1_2 (Taxa de formalização entre
os empregados); S1_1 (Taxa de mortalidade infantil, por mil nascidos vivos); R1 (Proporção
de pessoas com renda domiciliar per capita abaixo da linha de pobreza); H6 (Proporção de
pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a
2); e Liquidez. Somam-se a essas 6 variáveis as outras 5 variáveis que vem sido trabalhadas
ao longo da disciplina: ISDM; Emprego e Renda; Educação; e Saúde mais as cinco regiões
brasileiras: Norte, Nordeste, Centro-Oeste, Sul e Sudeste.
Neste novo momento as 16 variáveis foram trabalhadas com os exercícios de: Análise
exploratória de dados; relação entre variáveis, correlação, regressão linear, teste de
comparação, análise multivariada, analise de conglomerados, análise discriminante, regressão
logística, análise de correspondência e árvore de classificação.
Para tanto serão utilizados os dados da Pesquisa Firjan/FGV sobre o Desenvolvimento
dos Municípios nos períodos de 2000 e 2010 e utilizará a classificação por regiões brasileiras:
Norte, Nordeste, Centro-Oeste, Sudeste e Sul.
O software estatístico a ser utilizado é o MINITAB16 e o SPSS.
2 – OS DADOS
2.1 Os Indivíduos
Os indivíduos desta análise são os 5565 Municípios brasileiros classificados em suas
regiões cujas prefeituras disponibilizaram os dados referentes ao ISDM, IFDM, IFGF,
Emprego e Renda, Educação e Saúde.
Fonte:
Tabela
http://www.firjan.org.br
ISDM,
IFDM
e
IFGF
por
municípios
brasileiros;
e
6
2.2 As Variáveis
Para o objetivo do presente trabalho, foram trabalhados os dados de 16 variáveis:
ISDM, Emprego e Renda, Educação, Saúde, E2_4 (Proporção de crianças de 7 a 14 anos na
série adequada para sua idade); T1_2 (Taxa de formalização entre os empregados); S1_1
(Taxa de mortalidade infantil, por mil nascidos vivos); R1 (Proporção de pessoas com renda
domiciliar per capita abaixo da linha de pobreza); H6 (Proporção de pessoas que vivem em
domicílio que tem densidade de moradores por dormitório inferior a 2); e Liquidez, e as
regiões Norte, Nordeste, Centro-Oeste, Sudeste e Sul.
Variável
Significado
Tipo
Unidade
de Medida
ISDM
Indicador Social de Desenvolvimento dos
Municípios
(ISDM).
Consiste
na
Variável
Numérico
média Quantitativa
ponderada dos indicadores das dimensões
Habitação, Renda, Trabalho, Saúde e Segurança
e Educação (H, R, T, S e E) padronizada pela
média do Brasil.
Renda
(R)
Média ponderada dos indicadores da dimensão
Variável
Numérico
Renda (R1 e R2) padronizada pela média do Quantitativa
Brasil.
R1
Proporção de pessoas com renda domiciliar per
capita abaixo da linha de pobreza
Emprego/Trabalho
(T)
Média ponderada dos indicadores da dimensão
Variável
Numérico
Quantitativa
Variável
Numérico
Trabalho (T1_1, T1_2 e T2_1) padronizada pela Quantitativa
média do Brasil.
T1_2
Taxa de formalização entre os empregados.
Variável
Numérico
Quantitativa
H6
Proporção de pessoas que vivem em domicílio
Variável
Numérico
que tem densidade de moradores por dormitório Quantitativa
inferior a 2.
Educação
(E)
Média ponderada dos indicadores da dimensão
Variável
Educação (E1_1, E1_2, E2_1, E2_2, E2_3, Quantitativa
E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3)
Numérico
7
padronizada pela média do Brasil.
E2_4
Proporção de crianças de 7 a 14 anos na série
adequada para sua idade.
Saúde
Variável
Numérico
Quantitativa
Média ponderada dos indicadores da dimensão
Variável
Numérico
Saúde e Segurança (S1_1, S1_2, S1_3, S2_1, Quantitativa
S2_2 e S3_1) padronizada pela média do Brasil.
S1_1
Taxa de mortalidade infantil, por mil nascidos
vivos.
Liquidez
Variável
Numérico
Quantitativa
Refere-se à velocidade e facilidade com a qual
Variável
Numérico
um ativo pode ser convertido em caixa. O Quantitativa
indicador procura verificar se o município
possui recursos financeiros suficientes para
fazer frente ao montante de restos a pagar. Se o
município apresentar mais restos a pagar do que
ativos financeiros disponíveis a pontuação será
zero. Na leitura dos resultados, quanto mais
próximo de 1,00, menos o município está
postergando pagamentos para o exercício
seguinte sem a devida cobertura.
Norte
A Região Norte é a região que possui a maior
Variável
Numérico
área (3 869 637,9 km², ou 45% do território Quantitativa
nacional) e com população de 16,3 milhões de
habitantes. É a região com a menor densidade
demográfica
(3,77 hab./km²,
segundo
o
censo IBGE 2010). A cidade mais populosa da
região, Manaus, com 1,8 milhão de habitantes, é
a sétima mais populosa do Brasil.
Nordeste
A Região Nordeste possui um território de 1
Variável
556 001 km² (18,2% do território nacional), Quantitativa
dentro dos quais está localizado o Polígono das
secas. Sua população é pouco superior a 50
milhões de habitantes. A região possui nove
estados.
Numérico
8
Centro-Oeste
Ocupa 18,86% do território brasileiro, com uma
Variável
Numérico
área de 2.612.077,2 km2. Sua população é de Quantitativa
cerca de 12 milhões de habitantes. A região
possui três estados mais um distrito federal.
Sudeste
Possui um território de 927 286 km² (10,6% do
Variável
Numérico
território nacional). Sua população é de cerca de Quantitativa
77
milhões
de
habitantes.
Possui
o
maior PIB bem como as duas cidades mais
populosas do Brasil: São Paulo, com pouco
mais de 11 milhões de habitantes e Rio de
Janeiro com cerca de 6 milhões.
Sul
A Região Sul é a que possui a menor área (575
Variável
Numérico
316 km², ou 6,8% do território nacional) e sua Quantitativa
população é de mais de 26 milhões de
habitantes, é a segunda região mais rica do país,
depois da Região Sudeste, e a que possui o
maior IDH, a maior taxa de alfabetização e os
melhores níveis de educação, saúde e bem estar
social do país. A região possui três estados.
3. ANÁLISE DAS VARIÁVEIS
3.1 Variáveis Categóricas
Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos
do tipo pie chart e barras.
3.1.1 Variável: “Estados”
Fazem parte desta pesquisa os 27 Estados brasileiros e seus 5565 municípios
classificados em 5 regiões brasileiras. Nos gráficos abaixo é possível visualizar a distribuição
de municípios por Estado brasileiro e as cinco regiões brasileiras.
9
Distribuição dos Estados brasileiros com Municípios participantes
E stado
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
O ther
10
Municípios por Estado brasileiro
900
Numero de Municípios
800
700
600
500
400
300
200
100
0
I B A E E N T A
L J S S E
C P R F
G P S A R C
M S R B P S GO P P M P C R M P TO A R E M S AM RO A A R D
Estados
Os dados dos gráficos nos permite visualizar que, os Estados com maior participação
de municípios são: Minas Gerais (852 cidades), São Paulo (647 cidades), Rio Grande do Sul
(497 cidades), Bahia (416 cidades) e Paraná (399 cidades).
11
Já entre os Estados com menor número de cidades participantes, temos: Distrito
Federal (1 cidade), Roraima (15 cidades), Amapá (16 cidades) e Acre (22 cidades).
4. ANÁLISE EXPLORATÓRIA DE DADOS
Para iniciar a análise exploratória dos dados, foi realizada a analise descritiva das
variáveis para verificar se existem “lacunas”, como resultado foi obtido o seguinte:
Descriptive Statistics: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; ...
Variable
ISDM
Emprego e Renda
R1
T1_2
H6
Educação
E2_4
Saúde
S1_1
Liquidez
Total
Count
5565
5565
5565
5565
5565
5565
5565
5565
5567
5565
N*
0
0
0
0
0
0
0
0
1
304
Minimum
0,5476
0,00000
0,073
6,400
4,735
0,37456
45,722
0,44212
0,000
0,00000
Q1
3,5973
0,30631
8,618
41,272
45,035
0,66324
79,528
0,72978
4,294
0,19358
Median
4,6446
0,37576
19,990
57,421
55,297
0,74595
87,510
0,81027
12,579
0,69333
Q3
5,3454
0,47111
39,479
71,384
64,616
0,82305
92,529
0,87642
20,059
0,91435
Maximum
6,2778
1,00000
78,801
94,914
89,335
1,00000
100,000
1,00000
333,333
1,00000
É possível observar que as variáveis S1_1 e a Liquidez apresentaram “lacunas”, para
preenche-las, foram utilizados os valores do primeiro quartil (Q1), o resultado foi:
Descriptive Statistics: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; ...
Total
Variable
ISDM
Emprego e Renda
R1
T1_2
H6
Educação
E2_4
Saúde
S1_1
Liquidez
Count
5565
5565
5565
5565
5565
5565
5565
5565
5567
5565
N*
0
0
0
0
0
0
0
0
0
0
Minimum
0,5476
0,00000
0,073
6,400
4,735
0,37456
45,722
0,44212
0,000
0,00000
Q1
3,5973
0,30631
8,618
41,272
45,035
0,66324
79,528
0,72978
4,294
0,19358
Median
4,6446
0,37576
19,990
57,421
55,297
0,74595
87,510
0,81027
12,579
0,65578
Q3
5,3454
0,47111
39,479
71,384
64,616
0,82305
92,529
0,87642
20,050
0,90601
Maximum
6,2778
1,00000
78,801
94,914
89,335
1,00000
100,000
1,00000
333,333
1,00000
Uma vez que todas as lacunas foram preenchidas foi feito o histograma de todas as
variáveis.
4.1 Histograma
4.1.1 ISDM
12
Summary for ISDM
A nderson-D arling N ormality Test
0,8
1,6
2,4
3,2
4,0
4,8
A -S quared
P -V alue <
75,76
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
4,4324
1,0929
1,1945
-0,541209
-0,522196
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
5,6
0,5476
3,5973
4,6446
5,3454
6,2778
95% C onfidence Interv al for M ean
4,4037
4,4612
95% C onfidence Interv al for M edian
4,5898
4,7046
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
1,0730
1,1136
Mean
Median
4,40
4,45
4,50
4,55
4,60
4,65
4,70
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem
ganhos, receitas, salários, etc.
• Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados
abaixo de 0,8, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA.
• Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ISDM menor do que 4,64446. O ISDM médio é de 4,4324, mas o desviopadrão (medida de dispersão) é de 1,0929, que implica em uma dispersão grande da
população e uma variação grande entre os diversos municípios do Brasil.
13
4.1.2 EMPREGO E RENDA
Summary for Emprego e Renda
A nderson-D arling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
105,84
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,40375
0,15524
0,02410
0,88857
1,32253
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,30631
0,37576
0,47111
1,00000
95% C onfidence Interv al for M ean
0,39967
0,40783
95% C onfidence Interv al for M edian
0,37169
0,37957
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
0,15241
0,15818
Mean
Median
0,37
0,38
0,39
0,40
0,41
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a esquerda.
• Centro e Dispersão: A mediana nos indica que muitos municípios apresentam
Emprego e Renda menor do que 0,37576. A média é de 0,40375, e o desvio-padrão
(medida de dispersão) é de 0,15524.
14
4.1.3 R1
Summary for R1
A nderson-Darling N ormality Test
0
12
24
36
48
60
A -S quared
P -V alue <
154,22
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
24,525
17,698
313,215
0,512744
-0,931901
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
72
0,073
8,618
19,990
39,479
78,801
95% C onfidence Interv al for M ean
24,060
24,990
95% C onfidence Interv al for M edian
19,062
20,991
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
17,375
18,033
Mean
Median
19
20
21
22
23
24
25
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a esquerda.
• Centro e Dispersão: A mediana nos indica que muitos municípios apresentam
R1 menor do que 19,990. A média é de 24,525, e o desvio-padrão (medida de dispersão)
é de 17,698.
15
4.1.4 T1_2
Summary for T1_2
A nderson-Darling N ormality Test
12
24
36
48
60
72
84
96
A -S quared
P -V alue <
41,12
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
56,304
18,234
332,476
-0,132478
-0,993222
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
6,400
41,272
57,421
71,384
94,914
95% C onfidence Interv al for M ean
55,824
56,783
95% C onfidence Interv al for M edian
56,580
58,208
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
17,901
18,579
Mean
Median
56,0
56,5
57,0
57,5
58,0
58,5
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente simétrica.
• Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios apresentam T1_2 menor do que 57,421. A média é de 56,304, e o desviopadrão (medida de dispersão) é de 18,234.
16
4.1.5 H6
Summary for H6
A nderson-Darling N ormality Test
12
24
36
48
60
72
A -S quared
P -V alue <
15,83
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
54,319
13,553
183,682
-0,400642
-0,053800
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
84
4,735
45,035
55,297
64,616
89,335
95% C onfidence Interv al for M ean
53,963
54,675
95% C onfidence Interv al for M edian
54,880
55,797
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
13,306
13,810
Mean
Median
54,0
54,5
55,0
55,5
56,0
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica.
• Centro e Dispersão: A mediana nos indica que uma quantidade significativa dos
municípios apresentam H6 maior do que 55,297. A média é de 54,319, e o desvio-padrão
(medida de dispersão) é de 13,553.
17
4.1.6 EDUCAÇÃO
Summary for Educação
A nderson-Darling N ormality Test
0,45
0,54
0,63
0,72
0,81
0,90
0,99
A -S quared
P -V alue <
7,27
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,74125
0,11237
0,01263
-0,172334
-0,489371
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,37456
0,66324
0,74595
0,82305
1,00000
95% C onfidence Interv al for M ean
0,73830
0,74420
95% C onfidence Interv al for M edian
0,74212
0,75047
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
0,11032
0,11449
Mean
Median
0,7400
0,7425
0,7450
0,7475
0,7500
Observações:
• Forma: O Histograma permite verificar que se trata de uma distribuição
assimétrica. A posição da linha da mediana mais a direita do quadrado principal do BoxPlot também indica esta assimetria. Considerando que o valor mínimo apresentado é de 0
em alguns municípios e o valor máximo é de 1 nos municípios de Araucária (PR) e
Ipojuca (PE), e a mediana ser apresentada pelo valor 0,74595, pode-se dizer que a maior
parte dos Estados brasileiros possuem um bom índice de educação por município.
• Centro e Dispersão: A mediana nos indica que grande parte dos municípios
brasileiros apresentam os valores de sua distribuição de Educação acima da média
ponderada brasileira. Isso é bom, pois indica que há boa frequência de crianças do ensino
infantil, fundamental e médio/geral indo a escola e uma pequena proporção de crianças
do ensino fundamental e médio sofrem de analfabetismo. Na pesquisa não foram
apurados os dados referentes a educação superior.
18
4.1.7 E2_4
Summary for E2_4
A nderson-Darling N ormality Test
48
56
64
72
80
88
A -S quared
P -V alue <
95,44
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
85,481
8,881
78,880
-0,835199
0,263592
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
96
45,722
79,528
87,510
92,529
100,000
95% C onfidence Interv al for M ean
85,247
85,714
95% C onfidence Interv al for M edian
87,165
87,883
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
8,719
9,050
Mean
Median
85,0
85,5
86,0
86,5
87,0
87,5
88,0
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a direita.
• Centro e Dispersão: A mediana nos indica que mais da metade dos municípios
apresentam E2_4 maior do que 87,510. A média é de 85,481, e o desvio-padrão (medida
de dispersão) é de 8,881.
19
4.1.8 SAÚDE
Summary for Saúde
A nderson-Darling N ormality Test
0,48
0,56
0,64
0,72
0,80
0,88
A -S quared
P -V alue <
34,12
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,79828
0,10036
0,01007
-0,460218
-0,367873
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,96
0,44212
0,72978
0,81027
0,87642
1,00000
95% C onfidence Interv al for M ean
0,79564
0,80092
95% C onfidence Interv al for M edian
0,80620
0,81410
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,09853
0,10226
Mean
Median
0,795
0,800
0,805
0,810
0,815
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a direita.
• Centro e Dispersão: A mediana nos indica que mais da metade dos municípios
apresentam SAÚDE maior do que 0,81027. A média é de 0,79828, e o desvio-padrão
(medida de dispersão) é de 0,10036.
20
4.1.9 S1_1
Summary for S1_1
A nderson-D arling N ormality Test
0
45
90
135
180
225
270
315
A -S quared
P -V alue <
160,67
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
14,259
14,280
203,915
4,2583
59,4424
5567
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,000
4,294
12,579
20,050
333,333
95% C onfidence Interv al for M ean
13,883
14,634
95% C onfidence Interv al for M edian
12,295
12,912
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
14,020
14,550
Mean
Median
12,0
12,5
13,0
13,5
14,0
14,5
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica para a esquerda.
• Centro e Dispersão: A mediana nos indica que mais da metade dos municípios
apresentam S1_1 menor do que 12,579. A média é de 14,259, e o desvio-padrão (medida
de dispersão) é de 14,280.
21
4.1.10 LIQUIDEZ
Summary for Liquidez
A nderson-D arling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
257,10
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,55146
0,37328
0,13934
-0,32363
-1,46781
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,19358
0,65578
0,90601
1,00000
95% C onfidence Interv al for M ean
0,54165
0,56127
95% C onfidence Interv al for M edian
0,63410
0,67418
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,36648
0,38035
Mean
Median
0,550
0,575
0,600
0,625
0,650
0,675
Observações:
• Forma: O Histograma nos permite verificar que trata-se de uma distribuição
visivelmente assimétrica.
• Centro e Dispersão: A mediana nos indica que mais da metade dos municípios
apresentam LIQUIDEZ maior do que 0,65578. A média é de 0,55146, e o desvio-padrão
(medida de dispersão) é de 0,37328. Esse dado indica que ao menos metade dos
município estão postergando pagamentos para o exercício seguinte sem a devida
cobertura.
22
5. RELAÇÃO ENTRE AS VARIÁVEIS
O presente capítulo fez uma analise das variáveis com relação ao ISDM. Abaixo segue
os resultados obtidos.
5.1 Correlações
Sobre as correlações das variáveis estudadas, obteve-se o seguinte:
Correlations: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; Saúde; ...
ISDM
0,525
0,000
Emprego e Renda
-0,951
0,000
-0,509
0,000
T1_2
0,806
0,000
0,586
0,000
-0,782
0,000
H6
0,695
0,000
0,211
0,000
-0,709
0,000
Educação
0,782
0,000
0,377
0,000
-0,753
0,000
E2_4
0,764
0,000
0,363
0,000
-0,768
0,000
Saúde
0,697
0,000
0,345
0,000
-0,713
0,000
-0,147
0,000
-0,077
0,000
0,140
0,000
0,276
0,000
0,197
0,000
-0,308
0,000
T1_2
0,449
0,000
H6
Educação
Educação
0,609
0,000
0,552
0,000
E2_4
0,599
0,000
0,613
0,000
0,765
0,000
Saúde
0,559
0,000
0,590
0,000
0,654
0,000
-0,112
0,000
-0,115
0,000
-0,122
0,000
0,302
0,000
0,260
0,000
0,233
0,000
Emprego e Renda
R1
S1_1
Liquidez
H6
S1_1
Liquidez
R1
23
Saúde
S1_1
Liquidez
E2_4
0,640
0,000
Saúde
-0,128
0,000
-0,268
0,000
0,263
0,000
0,259
0,000
S1_1
-0,049
0,000
Cell Contents: Pearson correlation
P-Value
Sobre os resultados obtidos, é possível notar que ISDM x T1_2, ISDM x Educação,
ISDM x E2_4, ISDM x Saúde, T1_2 x Educação, E2_4 x Saúde, H6 x E2_4, Educação x
E2_4, e Educação x Saúde são as variáveis que apresentam as maiores correlações, enquanto
ISDM x R1, T1_2 x R1, Educação x R1, e E2_4 x R1 apresentam as menores correlações.
Na próxima etapa foram retiradas, do total de 5565 municípios, 50 amostras para a
elaboração dos gráficos de Scatterplot. Foi realizado o dendograma e o cruzamentos entre
ISDM com as demais variáveis para verificar o grau de proximidade entre elas.
5.2 Dendograma
O dendograma permite uma melhor visualização sobre a proximidade das variáveis
estudadas. Abaixo segue o resultado do dendograma:
Dendrogram
Single Linkage; Correlation Coefficient Distance
Similarity
47,80
65,20
82,60
100,00
DM
IS
50
_A
aç
uc
Ed
50
_A
ão
50
50
_A
_A
4
e
_
úd
E2
Sa
0
0
0
50
A5
A5
A5
_A
z_
2_
a_
e
_
d
H6
n
id
T1
qu
Re
Li
e
o
eg
pr
Em
Variables
0
50
A5
_A
1_
_
R1
S1
24
Nesta amostra é possível observar a existência de 3 grupos principais, sendo um
primeiro grupo: ISDM, Educação, E2_4, Saúde, H6 e T1_2 um grupo com similaridade acima
de 85%. Um segundo grupo composto por Emprego e renda e Liquidez, com um grau de
similaridade acima de 65% e um terceiro grupo com baixo grau de similaridade com os
demais composto por R1 e S1_1 que possuem similaridade acima de 45%
Cluster Analysis of Variables: ISDM_A50; Emprego e Re; R1_A50; T1_2_A50; ...
Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
Number of
clusters
9
8
7
6
5
4
3
2
1
Similarity
level
92,8941
91,6434
88,2285
86,6548
85,7641
79,0191
64,1737
59,7530
47,7985
Distance
level
0,14212
0,16713
0,23543
0,26690
0,28472
0,41962
0,71653
0,80494
1,04403
Clusters
joined
1
6
1
7
1
8
1
5
1
4
1
2
1
10
3
9
1
3
New
cluster
1
1
1
1
1
1
1
3
1
Number
of obs.
in new
cluster
2
3
4
5
6
7
8
2
10
5.3 Gráficos Scaterplot e Regressão de mínimos quadrados
5.3.1 ISDM versus EMPREGO E RENDA
Scatterplot of ISDM_A50 vs Emprego e Renda_A50
6
ISDM_A50
5
4
3
2
0,0
0,1
0,2
0,3
0,4
0,5
0,6
Emprego e Renda_A50
0,7
0,8
0,9
25
Observações:
Direção: Da análise das correlações acima percebemos que algumas possuem
associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento
da outra.
Intensidade: O gráfico acima parece indicar pouca existência de relações lineares,
sendo que há grande disparidade entre os pontos.
Forma: O gráfico apresenta conglomerados que sugerem relações pouco lineares.
Regression Analysis: ISDM_A50 versus Emprego e Renda_A50
The regression equation is
ISDM_A50 = 3,67 + 2,82 Emprego e Renda_A50
Predictor
Constant
Emprego e Renda_A50
S = 0,924961
Coef
3,6671
2,8192
R-Sq = 16,8%
SE Coef
0,3896
0,9048
T
9,41
3,12
P
0,000
0,003
R-Sq(adj) = 15,1%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
8,3066
41,0666
49,3731
MS
8,3066
0,8556
F
9,71
P
0,003
Unusual Observations
Obs
4
9
16
23
34
Emprego e
Renda_A50
0,817
0,932
0,896
0,360
0,337
ISDM_A50
6,026
6,157
5,942
2,557
2,259
Fit
5,972
6,294
6,194
4,682
4,617
SE Fit
0,395
0,494
0,463
0,137
0,145
Residual
0,054
-0,137
-0,252
-2,126
-2,358
St Resid
0,06 X
-0,18 X
-0,31 X
-2,32R
-2,58R
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
26
5.3.2 ISDM versus R1
Scatterplot of ISDM_A50 vs R1_A50
6
ISDM_A50
5
4
3
2
0
10
20
30
R1_A50
40
50
60
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
negativas, apesar de manter características de linearidade.
Intensidade: O gráfico acima parece indicar a existência de relações lineares, apesar de
sua relação negativa.
Forma: O gráfico apresenta conglomerados que sugerem relações lineares.
Regression Analysis: ISDM_A50 versus R1_A50
The regression equation is
ISDM_A50 = 6,03 - 0,0648 R1_A50
Predictor
Constant
R1_A50
Coef
6,03305
-0,064837
S = 0,376050
SE Coef
0,08826
0,003736
R-Sq = 86,3%
T
68,35
-17,35
P
0,000
0,000
R-Sq(adj) = 86,0%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
Unusual Observations
SS
42,585
6,788
49,373
MS
42,585
0,141
F
301,14
P
0,000
27
Obs
10
23
31
34
45
R1_A50
26,3
37,9
59,4
55,1
28,0
ISDM_A50
5,1375
2,5568
2,9181
2,2589
5,0099
Fit
4,3283
3,5766
2,1844
2,4630
4,2207
SE Fit
0,0600
0,0888
0,1604
0,1454
0,0631
Residual
0,8092
-1,0198
0,7337
-0,2040
0,7892
St Resid
2,18R
-2,79R
2,16RX
-0,59 X
2,13R
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
5.3.3 ISDM versus T1_2
Scatterplot of ISDM_A50 vs T1_2_A50
6
ISDM_A50
5
4
3
2
30
40
50
60
T1_2_A50
70
80
90
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
positivas, e características pouco lineares.
Intensidade: O gráfico acima parece indicar pouca existência de relações lineares,
apesar de sua relação positiva.
Forma: O gráfico apresenta conglomerados que sugerem relações pouco lineares, com
bastante disparidade entre os pontos.
Regression Analysis: ISDM_A50 versus T1_2_A50
The regression equation is
ISDM_A50 = 1,98 + 0,0464 T1_2_A50
Predictor
Constant
T1_2_A50
Coef
1,9792
0,046395
SE Coef
0,4117
0,006543
T
4,81
7,09
P
0,000
0,000
28
S = 0,708762
R-Sq = 51,2%
R-Sq(adj) = 50,1%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
25,261
24,112
49,373
MS
25,261
0,502
F
50,29
P
0,000
Unusual Observations
Obs
23
34
40
T1_2_A50
62,1
44,4
42,8
ISDM_A50
2,557
2,259
5,467
Fit
4,861
4,038
3,964
SE Fit
0,100
0,148
0,156
Residual
-2,304
-1,779
1,504
St Resid
-3,28R
-2,57R
2,17R
R denotes an observation with a large standardized residual.
5.3.4 ISDM versus H6
Scatterplot of ISDM_A50 vs H6_A50
6
ISDM_A50
5
4
3
2
20
30
40
50
H6_A50
60
70
80
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
positivas, apesar de manter poucas características de linearidade.
Intensidade: O gráfico acima parece indicar a existência de pequenas relações lineares.
29
Forma: O gráfico apresenta conglomerados que sugerem relações não lineares devido
a sua alta disparidade entre os pontos.
Regression Analysis: ISDM_A50 versus H6_A50
The regression equation is
ISDM_A50 = 1,57 + 0,0565 H6_A50
Predictor
Constant
H6_A50
Coef
1,5724
0,056548
S = 0,689784
SE Coef
0,4445
0,007572
R-Sq = 53,7%
T
3,54
7,47
P
0,001
0,000
R-Sq(adj) = 52,8%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
26,535
22,838
49,373
MS
26,535
0,476
F
55,77
P
0,000
Unusual Observations
Obs
15
21
34
H6_A50
55,4
27,1
21,8
ISDM_A50
6,1445
3,3845
2,2589
Fit
4,7031
3,1024
2,8026
SE Fit
0,0986
0,2487
0,2860
Residual
1,4414
0,2822
-0,5437
St Resid
2,11R
0,44 X
-0,87 X
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
5.3.5 ISDM versus EDUCAÇÃO
Scatterplot of ISDM_A50 vs Educação_A50
6
ISDM_A50
5
4
3
2
0,5
0,6
0,7
0,8
Educação_A50
0,9
1,0
30
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
positivas, e apesar da baixa relação linear, é possível observar certa linearidade.
Intensidade: O gráfico acima parece indicar um pouco da existência de relações
lineares, e associação positiva.
Forma: O gráfico apresenta conglomerados que sugerem relações lineares.
Regression Analysis: ISDM_A50 versus Educação_A50
The regression equation is
ISDM_A50 = - 0,821 + 7,12 Educação_A50
Predictor
Constant
Educação_A50
S = 0,521144
Coef
-0,8208
7,1174
SE Coef
0,4924
0,6153
R-Sq = 73,6%
T
-1,67
11,57
P
0,102
0,000
R-Sq(adj) = 73,0%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
36,337
13,036
49,373
MS
36,337
0,272
F
133,79
P
0,000
Unusual Observations
Obs
8
11
23
31
34
Educação_A50
0,750
0,730
0,520
0,674
0,521
ISDM_A50
5,8617
5,7514
2,5568
2,9181
2,2589
Fit
4,5138
4,3758
2,8806
3,9765
2,8840
SE Fit
0,0780
0,0827
0,1824
0,1031
0,1821
Residual
1,3479
1,3756
-0,3238
-1,0584
-0,6250
St Resid
2,62R
2,67R
-0,66 X
-2,07R
-1,28 X
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
31
5.3.6 ISDM versus E2_4
Scatterplot of ISDM_A50 vs E2_4_A50
6
ISDM_A50
5
4
3
2
65
70
75
80
85
E2_4_A50
90
95
100
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
positivas, e poucas características lineares.
Intensidade: O gráfico acima parece indicar pequena existência de linearidade e alta
disparidade.
Forma: O gráfico apresenta alta dispersão com pouco conglomerado.
Regression Analysis: ISDM_A50 versus E2_4_A50
The regression equation is
ISDM_A50 = - 3,86 + 0,0991 E2_4_A50
Predictor
Constant
E2_4_A50
Coef
-3,8612
0,099120
S = 0,561333
SE Coef
0,8356
0,009507
R-Sq = 69,4%
T
-4,62
10,43
P
0,000
0,000
R-Sq(adj) = 68,7%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
34,249
15,125
49,373
MS
34,249
0,315
F
108,69
P
0,000
Unusual Observations
Obs
19
21
E2_4_A50
84,8
65,1
ISDM_A50
2,9811
3,3845
Fit
4,5452
2,5947
SE Fit
0,0834
0,2269
Residual
-1,5642
0,7899
St Resid
-2,82R
1,54 X
32
31
34
36
82,5
65,1
66,4
2,9181
2,2589
3,3779
4,3127
2,5926
2,7239
0,0926
0,2271
0,2153
-1,3946
-0,3337
0,6540
-2,52R
-0,65 X
1,26 X
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
5.3.7 ISDM versus SAÚDE
Scatterplot of ISDM_A50 vs Saúde_A50
6
ISDM_A50
5
4
3
2
0,5
0,6
0,7
0,8
0,9
1,0
Saúde_A50
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
positivas, e pouca linearidade.
Intensidade: O gráfico acima parece indicar baixa linearidade, apesar de um pouco de
conglomerado do lado direito superior.
Forma: O gráfico apresenta conglomerados, porém baixa linearidade.
Regression Analysis: ISDM_A50 versus Saúde_A50
The regression equation is
ISDM_A50 = - 1,53 + 7,73 Saúde_A50
Predictor
Constant
Saúde_A50
Coef
-1,5349
7,7335
S = 0,653696
SE Coef
0,7776
0,9410
R-Sq = 58,5%
T
-1,97
8,22
P
0,054
0,000
R-Sq(adj) = 57,6%
33
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
28,862
20,511
49,373
MS
28,862
0,427
F
67,54
P
0,000
Unusual Observations
Obs
23
34
42
Saúde_A50
0,552
0,532
0,744
ISDM_A50
2,5568
2,2589
2,8790
Fit
2,7311
2,5809
4,2198
SE Fit
0,2694
0,2866
0,1171
Residual
-0,1743
-0,3220
-1,3408
St Resid
-0,29 X
-0,55 X
-2,08R
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
5.3.8 ISDM versus S1_1
Scatterplot of ISDM_A50 vs S1_1_A50
6
ISDM_A50
5
4
3
2
0
10
20
30
S1_1_A50
40
50
Observações:
Direção: Da análise das correlações acima percebemos que possuem associações
negativas, e praticamente nenhuma linearidade.
Intensidade: O gráfico acima parece indicar baixa linearidade, e alta dispersão.
Forma: O gráfico não apresenta conglomerados e linearidade.
Regression Analysis: ISDM_A50 versus S1_1_A50
The regression equation is
ISDM_A50 = 5,00 - 0,0136 S1_1_A50
34
Predictor
Constant
S1_1_A50
Coef
4,9967
-0,01365
S = 0,999920
SE Coef
0,2123
0,01161
R-Sq = 2,8%
T
23,54
-1,18
P
0,000
0,246
R-Sq(adj) = 0,8%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
1,3808
47,9923
49,3731
MS
1,3808
0,9998
F
1,38
P
0,246
Unusual Observations
Obs
23
34
38
42
47
S1_1_A50
22,9
18,1
43,5
50,8
44,4
ISDM_A50
2,557
2,259
5,487
2,879
4,874
Fit
4,684
4,749
4,403
4,303
4,390
SE Fit
0,178
0,151
0,374
0,455
0,385
Residual
-2,127
-2,490
1,084
-1,424
0,484
St Resid
-2,16R
-2,52R
1,17 X
-1,60 X
0,52 X
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
5.3.9 ISDM versus LIQUIDEZ
Scatterplot of ISDM_A50 vs Liquidez_A50
6
ISDM_A50
5
4
3
2
0,0
0,2
0,4
0,6
Liquidez_A50
0,8
1,0
Observações:
Direção: Da análise das correlações acima é visível que possuem associações
positivas, e praticamente nenhuma linearidade.
Intensidade: O gráfico acima parece indicar baixa linearidade, e alta dispersão, apesar
de apresentar indícios de conglomerados no final do lado direito.
35
Forma: O gráfico apresenta vestígios de conglomerado e não apresenta linearidade.
Regression Analysis: ISDM_A50 versus Liquidez_A50
The regression equation is
ISDM_A50 = 4,49 + 0,517 Liquidez_A50
Predictor
Constant
Liquidez_A50
S = 0,995343
Coef
4,4870
0,5171
SE Coef
0,2772
0,3816
R-Sq = 3,7%
T
16,19
1,36
P
0,000
0,182
R-Sq(adj) = 1,7%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
48
49
SS
1,8192
47,5540
49,3731
MS
1,8192
0,9907
F
1,84
Fit
4,487
4,995
4,901
4,972
SE Fit
0,277
0,196
0,156
0,184
P
0,182
Unusual Observations
Obs
23
31
34
42
Liquidez_A50
0,00
0,98
0,80
0,94
ISDM_A50
2,557
2,918
2,259
2,879
Residual
-1,930
-2,076
-2,642
-2,093
St Resid
-2,02R
-2,13R
-2,69R
-2,14R
R denotes an observation with a large standardized residual.
6. MODELO DE REGRESSÃO LINEAR
Nesta etapa foi realizada a Stepwise Regression da seguinte maneira:
 ISDM versus Emprego e Renda; Educação; e Saúde.
 ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez.
6.1 ISDM versus Emprego e Renda; Educação; e Saúde
Stepwise Regression: ISDM versus Emprego e Renda; Educação; Saúde
Alpha-to-Enter: 0,15
Alpha-to-Remove: 0,15
Response is ISDM on 3 predictors, with N = 5565
36
Step
Constant
1
-1,203
2
-1,236
3
-2,363
Educação
T-Value
P-Value
7,602
93,46
0,000
6,618
82,17
0,000
4,926
52,55
0,000
1,891
32,45
0,000
1,662
30,41
0,000
Emprego e Renda
T-Value
P-Value
Saúde
T-Value
P-Value
3,10
29,92
0,000
S
R-Sq
R-Sq(adj)
Mallows Cp
0,682
61,09
61,08
2117,5
0,625
67,28
67,27
897,5
0,580
71,82
71,81
4,0
Com relação ao ISDM nota-se, através dos dados acima, que Emprego e Renda,
Educação e Saúde representam 71,82% do ISDM. Sendo que Emprego e Renda representa
61,09%, Educação 6,19% e Saúde 4,54%.
Para o ISDM tem-se a seguinte equação:
-2,363 + 4,926 + 1,662 + 3,10
6.2 ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez
Stepwise Regression: ISDM versus R1; T1_2; H6; E2_4; S1_1; Liquidez
Alpha-to-Enter: 0,15
Alpha-to-Remove: 0,15
Response is ISDM on 6 predictors, with N = 5565
Step
Constant
R1
T-Value
P-Value
T1_2
T-Value
P-Value
H6
T-Value
P-Value
E2_4
T-Value
P-Value
Liquidez
T-Value
P-Value
1
5,873
2
5,132
3
4,586
4
3,813
5
3,814
6
3,832
-0,05872
-229,28
0,000
-0,05089
-131,18
0,000
-0,04624
-93,10
0,000
-0,04342
-79,85
0,000
-0,04351
-80,62
0,000
-0,04346
-80,53
0,000
0,00973
25,85
0,000
0,01106
29,06
0,000
0,01089
28,97
0,000
0,01132
30,10
0,000
0,01131
30,10
0,000
0,00660
14,57
0,000
0,00574
12,69
0,000
0,00610
13,53
0,000
0,00607
13,48
0,000
0,00888
12,02
0,000
0,00908
12,39
0,000
0,00902
12,31
0,000
-0,109
-9,29
0,000
-0,109
-9,30
0,000
37
S1_1
T-Value
P-Value
S
R-Sq
R-Sq(adj)
Mallows Cp
-0,00085
-2,92
0,004
0,338
90,43
90,43
1183,7
0,319
91,46
91,45
462,1
0,314
91,77
91,77
242,8
0,310
91,98
91,97
97,9
0,307
92,10
92,10
13,5
0,307
92,11
92,11
7,0
Com relação ao ISDM nota-se, através dos dados acima, que R1; T1_2; H6; E2_4;
S1_1 e Liquidez representam 92,11% do ISDM.
7. TESTE DE COMPARAÇÕES
7.1 Variável ISDM
Os pontos que
aparecem abaixo
da linha
representam os
dados que estão
fora da curva, e
abaixo da média .
A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais
desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região
Sudeste, e ocupa o segundo lugar.
A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da
Nordeste. Pelo tamanho da caixa do BloxPlot pode-se visualizar a amplitude da variância. É
possível afirmar que os dados da Região Norte possuem maior variabilidade que os dados das
demais regiões. As Regiões que possuem menor variabilidade dos dados são Centro-Oeste e
Sul.
38
Grau
de
diferença
entre as variáveis
One-way ANOVA: ISDM versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
4188,435
2457,544
6645,979
MS
1047,109
0,442
F
P
0,000
Chance
de
não
ser
diferente.
S = 0,6648
Level
+--Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 63,02%
R-Sq(adj) = 63,00%
N
Mean
StDev
468
1790
447
1669
1191
4,6956
3,4112
0,5252
0,7136
0,9794
0,6436
0,5012
5,1271
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+--------(*)
(*
(*)
(*
*)
------+---------+---------+---------
+--3,60
4,20
4,80
5,40
Pooled StDev = 0,6648
O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a
informação é confiável e não existe chance deste valor ser diferente.
Com base nos dados acima é possível afirmar que a região que apresenta melhores
níveis de ISDM é a região Sudeste enquanto a região com os piores níveis é o Norte.
7.2 Variável Emprego e Renda
39
Grau
One-way ANOVA: Emprego e Renda versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
17,7959
116,2990
134,0949
MS
4,4490
0,0209
F
212,70
de
diferença
entre as variáveis
P
0,000
Chance
de
não
ser
diferente.
S = 0,1446
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 13,27%
N
468
1790
447
1669
1191
Mean
0,4173
0,3348
0,3415
0,4490
0,4620
R-Sq(adj) = 13,21%
StDev
0,1389
0,1288
0,1419
0,1681
0,1345
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(--*---)
(-*)
(--*---)
(*-)
(-*--)
--------+---------+---------+---------+0,360
0,400
0,440
0,480
Pooled StDev = 0,1446
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de Emprego e Renda é a região Sul, seguida de perto pelo Sudeste enquanto a região
com os menores níveis de emprego e renda é o Nordeste.
40
7.3 Variável Educação
41
Grau
DF
4
5560
5564
SS
35,82737
34,42333
70,25070
MS
8,95684
0,00619
F
1446,69
diferença
entre as variáveis
One-way ANOVA: Educação versus Região
Source
Região
Error
Total
de
P
0,000
Chance
de
não
ser
diferente.
S = 0,07868
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 51,00%
N
468
1790
447
1669
1191
Mean
0,75299
0,65090
0,63739
0,83427
0,78106
R-Sq(adj) = 50,96%
StDev
0,07162
0,08127
0,08599
0,08138
0,07021
Individual 95% CIs For Mean Based on
Pooled StDev
-----+---------+---------+---------+---(*-)
*)
(*)
(*)
(*)
-----+---------+---------+---------+---0,660
0,720
0,780
0,840
Pooled StDev = 0,07868
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de Educação é a região Sudeste enquanto a região com os menores níveis é o Norte.
7.4 Variável Saúde
42
Grau
de
diferença
entre as variáveis
One-way ANOVA: Saúde versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
23,23275
32,80603
56,03879
MS
5,80819
0,00590
F
984,38
P
0,000
Chance
de
não
ser
diferente.
S = 0,07681
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 41,46%
N
468
1790
447
1669
1191
Mean
0,83036
0,73510
0,68231
0,82988
0,87987
R-Sq(adj) = 41,42%
StDev
0,07475
0,08148
0,08605
0,07713
0,06543
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(*-)
(*
(*)
*)
(*
-------+---------+---------+---------+-0,720
0,780
0,840
0,900
Pooled StDev = 0,07681
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de Saúde é a região Sul enquanto a região com os menores níveis é o Norte.
43
7.5 Variável E2_4
Individual Value Plot of R1 vs Região
80
70
60
R1
50
40
30
20
10
0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
Residual Plots for R1
Versus Fits
99,99
50
99
25
90
Residual
Percent
Normal Probability Plot
50
10
1
0,01
-50
-25
0
Residual
25
0
-25
-50
50
10
50
450
25
300
150
0
-36
-24
-12
0
12
Residual
30
Fitted Value
40
Versus Order
600
Residual
Frequency
Histogram
20
24
36
48
0
-25
-50
1
0
0
0
0
0
0
0
0
0
0
0
50 100 150 200 250 300 350 400 450 500 550
Observation Order
44
Grau
DF
4
5560
5564
S = 10,34
SS
1148763
593965
1742729
MS
287191
107
N
468
1790
447
1669
1191
P
0,000
Chance
R-Sq = 65,92%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
F
2688,34
Mean
15,23
42,49
39,65
14,07
10,16
R-Sq(adj) = 65,89%
StDev
9,22
10,60
15,18
10,54
7,40
diferença
entre as variáveis
One-way ANOVA: R1 versus Região
Source
Região
Error
Total
de
de
não
ser
diferente.
Individual 95% CIs For Mean Based on
Pooled StDev
+---------+---------+---------+--------(*)
*)
(*)
*)
*)
+---------+---------+---------+--------10
20
30
40
Pooled StDev = 10,34
Com base nos dados acima é possível afirmar que a região que apresenta os maiores
níveis de R1 é a região Nordeste enquanto a região com os menores níveis é o Sul.
7.6 Variável T1_2
Individual Value Plot of T1_2 vs Região
100
80
T1_2
60
40
20
0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
45
Residual Plots for T1_2
Normal Probability Plot
Versus Fits
50
99,99
99
25
Residual
Percent
90
50
10
1
0,01
-50
-25
0
Residual
25
0
-25
-50
50
40
Histogram
70
Versus Order
Residual
Frequency
60
Fitted Value
50
300
200
100
0
50
-36
-24
-12
0
12
Residual
24
25
0
-25
-50
36
1
0
0
0
0
0
0
0
0
0
0
0
50 100 150 200 250 300 350 400 450 500 550
Observation Order
Grau
de
diferença
entre as variáveis
One-way ANOVA: T1_2 versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
804491
1045407
1849898
MS
201123
188
F
1069,67
P
0,000
Chance
de
não
ser
diferente.
S = 13,71
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 43,49%
N
468
1790
447
1669
1191
Mean
58,89
41,17
46,10
64,65
70,16
R-Sq(adj) = 43,45%
StDev
11,83
13,36
13,65
15,77
11,69
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(-*)
*)
(-*)
(*)
(*)
---------+---------+---------+---------+
48,0
56,0
64,0
72,0
Pooled StDev = 13,71
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de T1_2 é a região Sul enquanto a região com os menores níveis é o Nordeste.
46
7.7 Variável S1_1
Individual Value Plot of S1_1 vs Região
350
300
250
S1_1
200
150
100
50
0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
Residual Plots for S1_1
Normal Probability Plot
Versus Fits
99,99
300
90
Residual
Percent
99
50
10
200
100
1
0
0,01
-100
0
100
Residual
200
12,0
300
Histogram
18,0
300
900
Residual
Frequency
16,5
Versus Order
1200
600
300
0
13,5
15,0
Fitted Value
200
100
0
0
48
96
144
192
Residual
240
288
1
0
0
0
0
0
0
0
0
0
0
0
50 100 150 200 250 300 350 400 450 500 550
Observation Order
47
Grau
de
diferença
entre as variáveis
One-way ANOVA: S1_1 versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
19369
1115524
1134894
MS
4842
201
F
24,14
P
0,000
Chance
de
não
ser
diferente.
S = 14,16
R-Sq = 1,71%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
14,19
15,80
17,82
13,60
11,56
R-Sq(adj) = 1,64%
StDev
16,91
10,90
15,13
13,91
17,01
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(----*----)
(-*--)
(----*-----)
(-*--)
(--*--)
-------+---------+---------+---------+-12,5
15,0
17,5
20,0
Pooled StDev = 14,16
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de S1_1 é a região Norte enquanto a região com os menores níveis é o Sul.
7.8 Variável R1
Individual Value Plot of R1 vs Região
80
70
60
R1
50
40
30
20
10
0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
48
Residual Plots for R1
Normal Probability Plot
Versus Fits
50
99,99
25
90
Residual
Percent
99
50
10
1
0,01
-50
-25
0
Residual
25
0
-25
-50
50
10
20
50
450
25
300
150
0
-36
-24
-12
0
12
Residual
40
Versus Order
600
Residual
Frequency
Histogram
30
Fitted Value
24
36
48
0
-25
-50
1
0
0
0
0
0
0
0
0
0
0
0
50 100 150 200 250 300 350 400 450 500 550
Observation Order
Grau
de
diferença
entre as variáveis
One-way ANOVA: R1 versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
1148763
593965
1742729
MS
287191
107
F
2688,34
P
0,000
Chance
de
não
ser
diferente.
S = 10,34
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 65,92%
N
468
1790
447
1669
1191
Mean
15,23
42,49
39,65
14,07
10,16
R-Sq(adj) = 65,89%
StDev
9,22
10,60
15,18
10,54
7,40
Individual 95% CIs For Mean Based on
Pooled StDev
+---------+---------+---------+--------(*)
*)
(*)
*)
*)
+---------+---------+---------+--------10
20
30
40
Pooled StDev = 10,34
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de R1 é a região Nordeste enquanto a região com os menores níveis é o Sul.
49
7.9 Variável H6
Individual Value Plot of H6 vs Região
90
80
70
H6
60
50
40
30
20
10
0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
Residual Plots for H6
Normal Probability Plot
Versus Fits
40
99,99
20
90
Residual
Percent
99
50
10
1
0,01
-50
-25
0
Residual
25
0
-20
-40
50
40
Histogram
70
Versus Order
180
Residual
Frequency
60
40
240
120
60
0
50
Fitted Value
-27
-18
-9
0
9
Residual
18
27
20
0
-20
-40
1
0
0
0
0
0
0
0
0
0
0
0
50 100 150 200 250 300 350 400 450 500 550
Observation Order
50
Grau
de
diferença
entre as variáveis
One-way ANOVA: H6 versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
525704
496300
1022005
MS
131426
89
F
1472,35
P
0,000
Chance
de
não
ser
diferente.
S = 9,448
R-Sq = 51,44%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
58,213
45,127
36,253
59,053
66,750
R-Sq(adj) = 51,40%
StDev
9,699
8,829
14,618
9,008
8,314
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(*)
*)
(*)
(*
*)
------+---------+---------+---------+--40,0
48,0
56,0
64,0
Pooled StDev = 9,448
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de H6 é a região Sul enquanto a região com os menores níveis é o Norte.
7.10 Variável Liquidez
Individual Value Plot of Liquidez vs Região
1,0
Liquidez
0,8
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
51
Residual Plots for Liquidez
Normal Probability Plot
Versus Fits
0,8
99,99
0,4
90
Residual
Percent
99
50
10
1
0,01
-1
0
Residual
0,0
-0,4
-0,8
1
0,4
0,5
0,6
Fitted Value
Histogram
Versus Order
0,8
450
Residual
Frequency
600
300
150
0
0,7
-0,700 -0,525 -0,350 -0,175 0,000
0,175
0,350
0,4
0,0
-0,4
-0,8
0,525
Residual
1
0
0
0
0
0
0
0
0
0
0
0
50 100 150 200 250 300 350 400 450 500 550
Observation Order
Grau
de
diferença
entre as variáveis
One-way ANOVA: Liquidez versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
99,198
676,095
775,293
MS
24,799
0,122
F
203,94
P
0,000
Chance
de
não
ser
diferente.
S = 0,3487
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
R-Sq = 12,79%
N
468
1790
447
1669
1191
Mean
0,6541
0,3825
0,5411
0,5719
0,7402
R-Sq(adj) = 12,73%
StDev
0,3415
0,3591
0,3846
0,3564
0,3084
Individual 95% CIs For Mean Based on
Pooled StDev
---+---------+---------+---------+-----(--*---)
(*-)
(--*--)
(*-)
(-*-)
---+---------+---------+---------+-----0,40
0,50
0,60
0,70
Pooled StDev = 0,3487
Com base nos dados acima é possível afirmar que a região que apresenta maiores
níveis de Liquidez é a região Sul enquanto a região com os menores níveis é o Nordeste.
52
8. AMOSTRAGEM
8.1 VARIÁVEL ISDM
ISDM para amostra com 50 linhas:
É possível observar que a média dos dados é de 4,25 e o desvio padrão 1,27. Existe
95% de confiança de que a média está entre o intervalo de 3,89 e 4,61.
ISDM para amostra com 100 linhas:
É possível observar que a média dos dados é de 4,48 e o desvio padrão 1,04. Existe
95% de confiança de que a média está entre o intervalo de 4,28 e 4,69.
53
ISDM para toda a população (5565 linhas)
É possível observar que a média dos dados é de 4,43 e o desvio padrão 1,09. Existe
95% de confiança de que a média está entre o intervalo de 4,40 e 4,46.
Boxplot de ISDM para amostras de 50, 100 e população:
O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a
população total. Existe uma variabilidade dos dados em todas as três variáveis.
One-way ANOVA: ISDM; ISDM_50; ISDM_100
Source DF
Factor
2
SS
MS
F
P
1,90 0,95 0,79 0,453
Error 5712 6834,27 1,20
Total 5714 6836,17
54
S = 1,094 R-Sq = 0,03% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
N Mean StDev --+---------+---------+---------+-------
ISDM
5565 4,432 1,093
ISDM_50
(-*)
50 4,255 1,277 (--------------*--------------)
ISDM_100 100 4,489 1,046
(---------*----------)
--+---------+---------+---------+------4,00
4,20
4,40
4,60
Pooled StDev = 1,094
A análise de variância entre as amostras e a população nos indica que a variação é de
0,79; e o P-Value: 0,453
8.2 VARIÁVEL EMPREGO E RENDA
EMPREGO E RENDA para amostra com 50 linhas:
É possível observar que a média dos dados é de 4,40 e o desvio padrão 1,44. Existe
95% de confiança de que a média está entre o intervalo de 0,36 e 0,44.
55
EMPREGO E RENDA para amostra com 100 linhas:
É possível observar que a média dos dados é de 0,41 e o desvio padrão 0,17. Existe
95% de confiança de que a média está entre o intervalo de 0,38 e 0,45.
EMPREGO E RENDA para toda a população (5565 linhas)
É possível observar que a média dos dados é de 0,40 e o desvio padrão 0,15. Existe
95% de confiança de que a média está entre o intervalo de 0,39 e 0,40.
56
Boxplot de EMPREGO E RENDA para amostras de 50, 100 e população:
O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a
população total. Existe uma variabilidade dos dados em todas as três variáveis.
One-way ANOVA: Emprego e Renda; Emprego e Renda_50; Emprego e Renda_100
Source DF
Factor
2
SS
MS
F
P
0,0240 0,0120 0,50 0,608
Error 5712 138,0660 0,0242
Total 5714 138,0900
S = 0,1555 R-Sq = 0,02% R-Sq(adj) = 0,00%
Level
N Mean StDev
Emprego e Renda
5565 0,4038 0,1552
Emprego e Renda_50
50 0,4039 0,1448
Emprego e Renda_100 100 0,4194 0,1724
Individual 95% CIs For Mean Based on
Pooled StDev
Level
------+---------+---------+---------+---
Emprego e Renda
(-*)
Emprego e Renda_50 (-----------------*----------------)
Emprego e Renda_100
(-----------*-----------)
------+---------+---------+---------+---
57
0,375
0,400
0,425
0,450
Pooled StDev = 0,1555
A análise de variância entre as amostras e a população indica que a variação é de 0,50;
e o P-Value: 0,608.
8.3 VARIÁVEL EDUCAÇÃO
EDUCAÇÃO para amostra com 50 linhas:
É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,11. Existe
95% de confiança de que a média está entre o intervalo de 0,71 e 0,78.
EDUCAÇÃO para amostra com 100 linhas:
58
É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,10. Existe
95% de confiança de que a média está entre o intervalo de 0,72 e 0,76.
EDUCAÇÃO para toda a população (5565 linhas)
É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,11. Existe
95% de confiança de que a média está entre o intervalo de 0,73 e 0,74.
Boxplot de EDUCAÇÃO para amostras de 50, 100 e população:
O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a
população total. Existe uma variabilidade dos dados em todas as três variáveis.
One-way ANOVA: Educação; Educação_50; Educação_100
Source DF
Factor
SS
MS
F
P
2 0,0051 0,0026 0,20 0,816
59
Error 5712 72,0111 0,0126
Total 5714 72,0163
S = 0,1123 R-Sq = 0,01% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
N Mean StDev -+---------+---------+---------+--------
Educação
5565 0,7413 0,1124
Educação_50
(-*-)
50 0,7497 0,1138 (-------------------*------------------)
Educação_100 100 0,7453 0,1066
(-------------*-------------)
-+---------+---------+---------+-------0,720
0,736
0,752
0,768
Pooled StDev = 0,1123
A análise de variância entre as amostras e a população indica que a variação é de 0,20;
e o P-Value: 0,816.
9. ANÁLISE MULTIVARIADA
9.1 Dendograma dos agrupamentos das variáveis por similaridade
Dendrogram
Single Linkage; Correlation Coefficient Distance
Similarity
47,80
65,20
82,60
100,00
DM
IS
50
_A
aç
uc
d
E
50
_A
o
ã
50
50
_A
_A
4
e
_
úd
E2
Sa
50
50
50
50
_A
_A
_A
_A
6
z
2
a
e
_
H
nd
id
T1
qu
Re
Li
e
o
eg
pr
Em
Variables
50
_A
1
R
S
50
_A
1
1_
60
O dendograma acima permite que sejam visualizadas as variáveis que possuem um
percentual de similaridade forte, na faixa de 85% são ISDM, Educação, E2_4, Saúde, H6 e
T1_2. As variáveis Emprego e Renda, Liquidez, R1 e S1_1 tem nível de similaridade abaixo
de 80%.
9.2 Principais Componentes
A análise de componentes principais é uma técnica estatística poderosa que pode ser
utilizada para redução do número de variáveis e para fornecer uma visão estatisticamente
privilegiada do conjunto de dados. A análise de componentes principais fornece as
ferramentas adequadas para identificar as variáveis mais importantes no espaço das
componentes principais.
Loading Plot of ISDM_A50; ...; Liquidez_A50
Emprego e Renda_A50
0,75
T1_2_A50
Second Component
0,50
0,25
S1_1_A50
R1_A50
ISDM_A50
Educação_A50
0,00
Liquidez_A50
E2_4_A50
Saúde_A50
-0,25
H6_A50
-0,50
-0,4
-0,3
-0,2
-0,1
0,0
0,1
First Component
0,2
0,3
0,4
0,5
É possível observar a existência de três grupos principais, sendo o primeiro composto
pelas variáveis ISDM, Educação, E2_4, Saúde, Liquidez e H6. O segundo composto por
Emprego e Renda e T1_2 e o terceiro composto por S1_1 e R1.
61
Scree Plot of ISDM_A50; ...; Liquidez_A50
6
5
Eigenvalue
4
3
2
1
0
1
2
3
4
5
6
7
Component Number
8
9
10
É notável um peso superior da primeira variável enquanto as outras variáveis
aparecem com bastante distância. As variáveis 2, 3 e 4 podem ser aproveitadas, por
apresentarem valores superiores a 1, entretanto as demais variáveis (5 a 10) não serão
utilizadas por apresentarem valores inferiores a 1.
Principal Component Analysis: ISDM_A50; Emprego e Re; R1_A50; T1_2_A50;
H6_A50;
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
5,5664
0,557
0,557
1,1561
0,116
0,672
Eigenvalue
Proportion
Cumulative
0,0751
0,008
0,994
0,0563
0,006
1,000
Variable
ISDM_A50
Emprego e Renda_A50
R1_A50
T1_2_A50
H6_A50
Educação_A50
E2_4_A50
Saúde_A50
S1_1_A50
Liquidez_A50
Variable
ISDM_A50
0,9927
0,099
0,772
0,9407
0,094
0,866
PC1
0,407
0,197
-0,404
0,305
0,335
0,377
0,373
0,348
-0,099
0,124
PC2
0,017
0,719
0,031
0,494
-0,399
-0,030
-0,141
-0,190
0,079
-0,125
PC3
0,039
-0,123
-0,006
0,091
0,006
0,160
-0,022
-0,062
0,925
0,301
PC8
0,134
PC9
0,645
PC10
0,602
0,4112
0,041
0,907
PC4
-0,115
0,097
0,112
0,026
-0,123
-0,050
-0,119
0,080
-0,272
0,923
0,3563
0,036
0,942
PC5
-0,094
0,519
0,011
-0,439
0,282
-0,279
-0,200
0,535
0,208
-0,044
0,2870
0,029
0,971
PC6
-0,103
0,365
0,219
-0,500
0,028
0,427
0,462
-0,399
-0,004
0,056
0,1583
0,016
0,987
PC7
0,049
-0,127
0,227
-0,109
-0,683
0,228
0,229
0,581
0,033
-0,095
62
Emprego e Renda_A50
R1_A50
T1_2_A50
H6_A50
Educação_A50
E2_4_A50
Saúde_A50
S1_1_A50
Liquidez_A50
0,001
-0,222
-0,237
-0,089
0,604
-0,701
-0,035
-0,092
-0,043
0,027
-0,353
-0,370
-0,325
-0,389
0,066
-0,221
0,033
0,104
-0,002
0,742
0,083
0,233
0,020
-0,156
0,001
-0,032
-0,015
Com base nos gráficos trabalhados neste capítulo é perceptível que os dados podem
ser reduzidos em 3 variáveis, o que facilita o trabalho por gerarem números mais fáceis e
práticos de serem manuseados.
10. ANÁLISE DE CONGLOMERADOS
Neste capítulo foram geradas análises comparativas dos dados de ISDM, Educação,
Emprego e Renda e Saúde agrupado por Estado, excluindo o Distrito Federal por ter apenas
um Município. Também foi calculada a Anova do ISDM com relação a Educação, Emprego e
Renda e Saúde por Estado, foram gerados diversos gráficos com as diversas variáveis citadas.
Comparando-se os resultados das médias por estado, poderemos agrupar as linhas de dados
pelo nível de desigualdade dos fatores de ISDM, Educação, Emprego e Renda e Saúde.
10.1 ANOVA
10.1.1 ANOVA de ISDM por Estado
Individual Value Plot of ISDM vs UF2
7
6
ISDM
5
4
3
2
1
0
I
J
L
AC A A M AP BA C E ES GO MA MG MS MT PA PB PE P PR R RN RO RR RS SC S E S P T O
UF2
63
O gráfico acima possibilita visualizar que a média do ISDM varia bastante entre os
Estados brasileiros. São Paulo é o Estado que apresenta o maior valor de ISDM, passando de
6, enquanto o Amazonas apresenta o menor ISDM, ficando abaixo de 1.
One-way ANOVA: ISDM versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,5837
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
SS
4757,770
1886,584
6644,353
MS
190,311
0,341
R-Sq = 71,61%
Mean
2,8837
3,1996
2,3550
3,4060
3,6024
3,4534
4,9080
4,7989
2,7076
4,9973
4,6714
4,5219
2,9406
3,5758
3,6533
3,0103
5,0427
5,2888
3,7924
4,2359
2,6668
5,1373
5,2241
3,8260
5,6458
3,8761
StDev
1,0103
0,6982
0,7750
0,6679
0,6378
0,5689
0,4716
0,4546
0,7130
0,7056
0,5353
0,5831
0,8605
0,5246
0,6738
0,6091
0,4915
0,3299
0,5833
0,4502
1,2718
0,5099
0,4816
0,5672
0,3415
0,6077
F
558,65
P
0,000
R-Sq(adj) = 71,48%
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(--*-)
(*)
(-*)
(--*--)
(*)
(*
(*)
(*)
(*)
*
(-*)
(*)
(*)
(*)
(*
(*)
*)
(*)
(*)
(*-)
(--*--)
*)
*)
(*-)
*)
(*)
--------+---------+---------+---------+3,0
4,0
5,0
6,0
Pooled StDev = 0,5837
É possível notar que existe uma variação grande entre as médias de ISDM por Estado,
por exemplo o Estado que apresenta a maior média é São Paulo, com 5,6458, e a menor média
está no Amazonas, com 2,3550.
64
10.1.2 ANOVA de Emprego e Renda por Estado
Individual Value Plot of Emprego e Renda vs UF2
1,0
Emprego e Renda
0,8
0,6
0,4
0,2
0,0
A
C AL M A P BA CE ES O A G S T PA PB PE PI PR RJ RN O RR RS SC SE SP O
T
R
G M M M M
A
UF2
One-way ANOVA: Emprego e Renda versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,1380
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
SS
28,6670
105,4184
134,0854
MS
1,1467
0,0190
R-Sq = 21,38%
Mean
0,3718
0,3174
0,3027
0,3807
0,3515
0,3189
0,4520
0,4052
0,2890
0,3844
0,4369
0,4284
0,3741
0,3211
0,3862
0,3064
0,4383
0,5317
0,3391
0,3976
0,3471
0,4664
0,4865
0,4251
StDev
0,1183
0,1295
0,1306
0,1789
0,1283
0,1271
0,1380
0,1432
0,1309
0,1394
0,1334
0,1333
0,1506
0,1101
0,1366
0,1167
0,1268
0,1923
0,1088
0,1289
0,1740
0,1344
0,1398
0,1385
F
60,24
P
0,000
R-Sq(adj) = 21,02%
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(------*-------)
(---*--)
(---*---)
(--------*-------)
(-*-)
(--*-)
(--*---)
(-*-)
(-*-)
(*)
(---*--)
(--*-)
(--*--)
(-*-)
(-*--)
(-*--)
(-*)
(--*---)
(-*--)
(----*---)
(-------*--------)
(*-)
(-*-)
(---*---)
65
SP
TO
647
138
0,5220
0,2941
0,1675
0,1188
(*-)
(--*--)
------+---------+---------+---------+--0,320
0,400
0,480
0,560
Pooled StDev = 0,1380
É possível notar que existe uma variação grande entre as médias de Emprego e Renda
por Estado, por exemplo o Estado que apresenta a maior média é Rio de Janeiro, e a menor
média está no Maranhão.
10.1.3 ANOVA de R1 por Estado
Individual Value Plot of R1 vs UF2
80
70
60
R1
50
40
30
20
10
0
R S C E P
B E I R J
S
E S
P
AC A L AM A BA C E GO MA M G M MT PA P P P P R RN RO R R S S S TO
UF2
One-way ANOVA: R1 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 9,218
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
SS
1271842
470592
1742434
MS
50874
85
F
598,69
P
0,000
R-Sq = 72,99%
R-Sq(adj) = 72,87%
Mean
44,640
46,940
54,113
40,595
40,141
43,530
16,215
13,654
51,013
18,894
15,912
17,655
44,129
39,918
Individual 95% CIs For Mean Based on
Pooled StDev
-----+---------+---------+---------+---(--*-)
(*)
(*-)
(--*--)
(*
(*)
(-*)
(*)
(*)
(*
(-*)
(*)
(*)
(*
StDev
14,190
9,556
11,654
11,928
9,530
9,440
6,082
8,626
11,804
11,638
10,111
9,224
13,264
7,867
66
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
185
223
399
92
167
52
15
497
295
75
647
138
40,045
46,309
11,575
12,849
36,007
22,981
49,050
10,267
8,058
39,037
7,620
32,882
10,280
9,314
7,408
3,900
9,428
7,014
16,658
7,277
7,128
9,458
5,362
11,610
(*)
(*)
(*
(-*)
(*)
(*-)
(--*--)
(*
*)
(*)
*)
(*)
-----+---------+---------+---------+---15
30
45
60
Pooled StDev = 9,218
É possível notar que existe uma variação grande entre as médias de R1 por Estado, por
exemplo o Estado que apresenta a maior média é Amazonas, e a menor média está no Paraná.
10.1.4 ANOVA de T1_2 por Estado
Individual Value Plot of T1_2 vs UF2
100
80
T1_2
60
40
20
0
R S C E P
B E I R J
S
E S
P
L
AC A A M A BA C E GO MA MG M MT PA P P P P R RN RO R R S S S T O
UF2
One-way ANOVA: T1_2 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 12,33
Level
AC
AL
AM
AP
BA
N
22
101
62
16
416
SS
1006966
842312
1849277
MS
40279
152
R-Sq = 54,45%
Mean
50,19
49,77
35,33
54,99
40,01
StDev
7,64
14,08
12,83
9,73
13,26
F
264,82
P
0,000
R-Sq(adj) = 54,25%
Individual 95% CIs For Mean Based on
Pooled StDev
---+---------+---------+---------+-----(---*---)
(-*-)
(-*--)
(----*----)
(*)
67
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
37,16
56,10
56,18
36,49
57,12
64,54
60,35
40,48
40,05
45,25
38,40
66,20
68,34
46,07
58,14
44,92
69,62
76,41
50,01
75,08
50,64
11,67
14,94
11,15
11,32
15,57
10,23
12,39
13,26
11,92
16,19
9,84
10,87
10,48
11,95
9,54
9,94
11,69
10,10
15,84
9,30
10,74
(-*)
(--*-)
(*)
(*-)
(*
(-*-)
(*-)
(-*)
(*-)
(-*)
(*)
(*)
(-*-)
(*-)
(-*--)
(----*-----)
(*)
(*)
(--*-)
(*
(-*-)
---+---------+---------+---------+-----36
48
60
72
Pooled StDev = 12,33
É possível notar que existe uma variação grande entre as médias de T1_2 por Estado,
por exemplo o Estado que apresenta a maior média é Santa Catarina, e a menor média está no
Amazonas.
10.1.5 ANOVA de H6 por Estado
Individual Value Plot of H6 vs UF2
90
80
70
H6
60
50
40
30
20
10
0
R S C E P
B E I R J
S
E S
P
L
AC A AM A BA C E GO MA M G M MT PA P P P P R RN RO R R S S S TO
UF2
One-way ANOVA: H6 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
SS
690975
331025
1022001
MS
27639
60
F
462,40
P
0,000
68
S = 7,731
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
R-Sq = 67,61%
Mean
30,184
40,133
19,822
23,745
52,911
41,671
60,211
63,633
34,569
62,288
51,429
52,526
29,824
45,243
45,797
45,022
62,966
49,396
44,800
55,114
22,784
68,317
69,228
46,745
56,027
47,023
StDev
7,443
5,483
6,180
4,779
8,059
5,658
7,461
7,662
7,084
7,595
8,588
7,705
9,744
6,860
6,212
6,920
6,757
7,565
6,484
7,033
9,665
8,862
7,467
6,646
9,078
9,001
R-Sq(adj) = 67,46%
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(-*-)
(*)
(*)
(--*-)
*)
(*)
(*)
*)
(*)
(*
(*)
(*)
(*)
(*)
(*
(*)
(*
(*)
(*)
(-*)
(-*--)
(*
*)
(*)
*)
(*)
--------+---------+---------+---------+30
45
60
75
Pooled StDev = 7,731
É possível notar que existe uma variação grande entre as médias de H6 por Estado, por
exemplo o Estado que apresenta a maior média é Santa Catarina, e a menor média está no
Amazonas.
10.1.6 ANOVA de Educação por Estado
Individual Value Plot of Educação vs UF2
1,0
0,9
Educação
0,8
0,7
0,6
0,5
0,4
0,3
R S C E P
B E I R J
S
E S
P
L
A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O
UF2
69
One-way ANOVA: Educação versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,06468
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
SS
47,07648
23,16814
70,24462
MS
1,88306
0,00418
R-Sq = 67,02%
Mean
0,58892
0,60578
0,61479
0,60567
0,59061
0,73541
0,84199
0,76734
0,63245
0,78568
0,72983
0,74137
0,58226
0,65751
0,66662
0,65258
0,78194
0,78439
0,71961
0,69039
0,60517
0,76149
0,81286
0,67580
0,90442
0,69921
StDev
0,08581
0,06785
0,06003
0,03819
0,06767
0,04756
0,05457
0,07622
0,07051
0,06210
0,05297
0,06685
0,07192
0,06866
0,06338
0,07257
0,06330
0,06950
0,07062
0,05534
0,05907
0,07711
0,05324
0,05106
0,05082
0,07383
F
450,12
P
0,000
R-Sq(adj) = 66,87%
Individual 95% CIs For Mean Based on
Pooled StDev
----+---------+---------+---------+----(--*--)
(-*)
(*-)
(---*--)
(*)
(*
(*-)
(*)
(*)
(*
(*)
(*)
(*)
(*)
(*)
(*)
*)
(*-)
(*)
(-*-)
(---*--)
*)
*)
(-*)
*)
(*)
----+---------+---------+---------+----0,60
0,70
0,80
0,90
Pooled StDev = 0,06468
É possível notar que existe uma variação grande entre as médias de Educação por
Estado, por exemplo o Estado que apresenta a maior média é São Paulo, e a menor média está
no Pará.
10.1.7 ANOVA de E2_4 por Estado
70
Individual Value Plot of E2_4 vs UF2
100
90
E2_4
80
70
60
50
40
B E I R J
R S C E P
S
E S
P
C L
A A A M A BA C E GO MA MG M MT PA P P P P R RN RO R R S S S T O
UF2
One-way ANOVA: E2_4 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
SS
295759,4
143105,0
438864,4
MS
11830,4
25,8
S = 5,083
R-Sq = 67,39%
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
Mean
76,360
77,660
72,401
78,409
75,175
85,207
88,301
90,452
78,635
88,464
86,282
88,632
70,147
77,696
80,436
72,384
91,651
81,614
79,561
86,627
80,692
90,665
92,932
74,245
94,648
85,655
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
Pooled StDev = 5,083
StDev
9,122
4,711
7,826
4,467
6,578
5,105
4,006
4,038
6,573
4,922
3,973
5,646
8,616
6,056
5,232
7,203
3,396
3,931
5,916
4,629
5,480
4,178
3,463
4,758
2,845
5,362
F
457,82
P
0,000
R-Sq(adj) = 67,24%
Individual 95% CIs For Mean Based on Pooled StDev
-+---------+---------+---------+-------(--*--)
(*)
(*-)
(---*---)
*)
(*)
(*-)
(*)
(*)
*)
(*-)
(-*)
(*)
(*)
(*)
(*)
(*)
(-*)
(*)
(-*-)
(--*---)
(*
(*)
(-*-)
*)
(*-)
-+---------+---------+---------+-------70,0
77,0
84,0
91,0
71
É possível notar que existe uma variação grande entre as médias de E2_4 por Estado,
por exemplo o Estado que apresenta a maior média é São Paulo, e a menor média está no
Pará.
10.1.8 ANOVA de Saúde por Estado
Individual Value Plot of Saúde vs UF2
1,0
0,9
Saúde
0,8
0,7
0,6
0,5
0,4
R S C E P
B E I R J
S
E S
P
L
A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O
UF2
One-way ANOVA: Saúde versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,06738
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
SS
30,89110
25,14300
56,03409
MS
1,23564
0,00454
R-Sq = 55,13%
Mean
0,64984
0,71957
0,62033
0,62593
0,68630
0,81269
0,84231
0,83356
0,66166
0,80049
0,82405
0,82897
0,63492
0,77246
StDev
0,06595
0,05788
0,07749
0,05655
0,07114
0,05808
0,05686
0,06867
0,06948
0,08317
0,07894
0,08224
0,06429
0,06596
F
272,16
P
0,000
R-Sq(adj) = 54,93%
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(--*---)
(-*-)
(--*-)
(---*---)
(*)
(-*)
(-*-)
(*)
(*)
(*)
(-*-)
(-*)
(*-)
(-*)
72
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
185
223
399
92
167
52
15
497
295
75
647
138
0,75181
0,74471
0,88912
0,82826
0,78813
0,75802
0,68890
0,89180
0,84725
0,75034
0,86731
0,74138
0,05659
0,05934
0,05848
0,06287
0,07119
0,05249
0,07725
0,06212
0,06902
0,07763
0,05239
0,06498
(*)
(*)
(*)
(-*)
(-*)
(--*-)
(---*---)
*)
(*)
(-*-)
*)
(-*)
------+---------+---------+---------+--0,640
0,720
0,800
0,880
Pooled StDev = 0,06738
É possível notar que existe uma variação grande entre as médias de Saúde por Estado,
por exemplo o Estado que apresenta a maior média é Rio Grande do Sul, e a menor média está
no Amapá.
10.1.9 ANOVA de S1_1 por Estado
Individual Value Plot of S1_1 vs UF2
350
300
250
S1_1
200
150
100
50
0
I
J
P
R S C E P
L
AC A A M A BA CE ES GO MA MG M S MT PA PB PE P PR R RN RO R R S S S T O
UF2
One-way ANOVA: S1_1 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 14,14
SS
27330
1107561
1134891
MS
1093
200
R-Sq = 2,41%
F
5,47
P
0,000
R-Sq(adj) = 1,97%
Individual 95% CIs For Mean Based on
73
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
Mean
18,35
16,47
17,56
20,01
17,60
14,92
12,90
12,46
14,86
14,41
16,33
16,04
17,80
14,26
16,43
17,12
12,69
13,59
13,46
15,81
15,15
10,79
11,32
14,22
12,61
18,67
StDev
8,62
8,89
10,58
14,81
10,37
8,84
7,92
16,69
8,27
15,29
10,61
19,72
8,95
13,18
7,81
14,02
11,80
5,91
12,26
10,82
9,69
21,74
13,52
11,01
13,32
22,82
Pooled StDev
----+---------+---------+---------+----(-----------*-----------)
(-----*----)
(------*------)
(-------------*-------------)
(--*--)
(---*---)
(-----*-----)
(---*--)
(---*--)
(-*-)
(------*-----)
(----*----)
(----*---)
(---*--)
(---*---)
(--*---)
(-*--)
(-----*-----)
(---*---)
(-------*------)
(-------------*--------------)
(--*-)
(---*--)
(-----*------)
(-*-)
(---*----)
----+---------+---------+---------+----10,0
15,0
20,0
25,0
Pooled StDev = 14,14
É possível notar que existe uma variação grande entre as médias de S1_1 por Estado,
por exemplo o Estado que apresenta a maior média é Amapá, e a menor média está em
Roraima.
10.1.10 ANOVA de Liquidez por Estado
74
Individual Value Plot of Liquidez vs UF2
1,0
0,8
Liquidez
0,6
0,4
0,2
0,0
B E I R J
S
R S C E P
E S
P
L
A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O
UF2
One-way ANOVA: Liquidez versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,3354
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
SS
152,292
622,873
775,164
MS
6,092
0,112
R-Sq = 19,65%
Mean
0,4904
0,5706
0,6947
0,5427
0,4115
0,3383
0,7489
0,5983
0,3580
0,5086
0,7308
0,7122
0,2884
0,3269
0,2936
0,4299
0,5773
0,7053
0,3165
0,8367
0,4440
0,8415
0,7898
0,5376
0,6150
0,6393
StDev
0,4256
0,3496
0,3481
0,4010
0,3616
0,3004
0,2363
0,3638
0,3701
0,3544
0,3219
0,2917
0,3343
0,3627
0,3350
0,3814
0,3704
0,3185
0,3276
0,2007
0,3233
0,2153
0,2551
0,3429
0,3578
0,3468
F
54,16
P
0,000
R-Sq(adj) = 19,28%
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(------*------)
(---*--)
(---*---)
(-------*-------)
(-*)
(--*-)
(--*---)
(-*-)
(-*-)
(*-)
(---*--)
(--*-)
(-*--)
(-*--)
(--*-)
(-*--)
(-*-)
(--*---)
(--*-)
(----*---)
(-------*--------)
(*-)
(*-)
(---*---)
(-*)
(--*--)
--------+---------+---------+---------+0,40
0,60
0,80
1,00
75
Pooled StDev = 0,3354
É possível notar que existe uma variação grande entre as médias de Liquidez por
Estado, por exemplo o Estado que apresenta a maior média é Rio Grande do Sul, e a menor
média está no Pará.
10.2 DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS
MÉDIAS
Dendrogram
Single Linkage; Euclidean Distance
Similarity
81,54
87,69
93,85
100,00
S
P
J
S T
S
P L
E I E
B E
AC A A B A P P RN S P C TO RR PA MA AM E MG GO M M RO R PR R SC S
Observations
No dendograma acima é possível observar a existência de três grupos principais que
no decorrer do presente trabalho, sofrerão algumas alterações e serão classificados como os
“três brasis”. Abaixo foi elaborado um mapa com a distribuição brasileira dos estados de
forma a melhorar a visualização destes três brasis:
76
O presente capítulo 10 possibilitou a percepção sobre o quanto as análises
comparativas dos dados geram um resumo dos dados através de cálculos específicos como
médias e desvios padrões, tornando a análise dos dados mais fácil e simples. Os gráficos de
Boxplot e Dendograma são excelentes figuras visuais para que se possa analisar e interpretar
os diferentes comportamentos dos dados. No dendograma pode-se analisar as similaridades
dos dados e no Boxplot pode-se ver as relações entre as médias e as variâncias dos
agrupamentos analisados. Trata-se de ferramentas úteis para análise de grandes volumes de
dados.
77
11. ANÁLISE DISCRIMINANTE
11.1 DENDOGRAMA DAS REGIÕES BRASILEIRAS
Dendrograma das regiões brasileiras
Single Linkage; Euclidean Distance
Similarity
88,71
92,47
96,24
100,00
I L
E
S
F P
S T
B E E
S J
P
AC PA P A MA RR A BA P P C RN TO S AM E MG P R R R SC GO M M RO D S
Observations
11.2 ANÁLISE DESCRIMINANTE DAS CINCO REGIÕES VERSUS ISDM,
EMPREGO E RENDA, EDUCAÇÃO E SAÚDE
Discriminant Analysis: Região versus ISDM; Emprego e Re; Educação; Saúde
Linear Method for Response: Região
Predictors: ISDM; Emprego e Renda; Educação; Saúde
Group
Count
Centro-Oeste
468
Nordeste
1790
Norte
447
Sudeste
1669
Sul
1191
Summary of classification
Put into Group
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
Total N
N correct
Proportion
N = 5565
Centro-Oeste
169
34
18
99
148
468
169
0,361
True Group
Nordeste Norte
231
67
900
103
603
248
27
27
29
2
1790
447
900
248
0,503 0,555
N Correct = 3177
Sudeste
158
37
78
1137
259
1669
1137
0,681
Sul
179
22
6
261
723
1191
723
0,607
Proportion Correct = 0,571
78
Essa análise permite verificar que a região sudeste apresenta maior numero de acertos,
com 1137. Enquanto o Centro-Oeste é a que menos apresenta acertos. A proporção de acerto
geral foi de 57%.
Com o objetivo de buscar uma proporção de acerto maior e como consequência da
quantidade de municípios que aparecem dentro de duas regiões, serão unificadas as regiões
Sudeste x Sul (SULD) e Nordeste x Norte (NOR).
Discriminant Analysis: 3 Brasis versus ISDM; Emprego e Renda; ...
Linear Method for Response: 3 Brasis
Predictors: ISDM; Emprego e Renda; Educação; Saúde
Group
Count
Centro-Oeste
468
NOR
2237
SULD
2860
Summary of classification
Put into Group
Centro-Oeste
NOR
SULD
Total N
N correct
Proportion
True Group
Centro-Oeste
NOR
267
378
48
1817
153
42
468
2237
267
1817
0,571 0,812
N = 5565
N Correct = 4051
SULD
756
137
1967
2860
1967
0,688
Proportion Correct = 0,728
É possível notar que, ao transformar as cinco regiões brasileiras em 3 regiões
brasileiras os índices de proporção melhoram consideravelmente em todos os sentidos.
A proporção de acerto agora é de 72,8% e o grupo NOR (Nordeste e Norte) apresenta
os maiores números de acerto enquanto o Centro-Oeste continua com o menor numero de
acertos, porém com melhora quando comparado com a análise anterior.
Discriminant Analysis: 3 Brasis versus ISDM; Emprego e Renda; ...
Linear Method for Response: 3 Brasis
Predictors: ISDM; Emprego e Renda; Educação; Saúde
Group
Count
Centro-Oeste
468
NOR
2237
SULD
2860
79
Summary of classification
Put into Group
Centro-Oeste
NOR
SULD
Total N
N correct
Proportion
N = 5565
True Group
Centro-Oeste
NOR
267
378
48
1817
153
42
468
2237
267
1817
0,571 0,812
SULD
756
137
1967
2860
1967
0,688
N Correct = 4051
Proportion Correct = 0,728
É possível notar que, ao transformar as cinco regiões brasileiras em 3 regiões
brasileiras os índices de proporção melhoram consideravelmente em todos os sentidos.
A proporção de acerto agora é de 72,8% e o grupo NOR (Nordeste e Norte) apresenta
os maiores números de acerto enquanto o Centro-Oeste continua com o menor numero de
acertos, porém com melhora quando comparado com a análise anterior.
12. REGRESSÃO LOGÍSTICA
A regressão logística é comparável às técnicas supervisionadas propostas em
aprendizagem automática (árvores de decisão, redes neuronais, entre outras), ou ainda a
análise discriminante preditiva em estatística exploratória. É possível de coloca-las em
concorrência para escolha de um melhor modelo para determinado problema que se espera
resolver.
Ordinal Logistic Regression: Região versus ISDM; Emprego e Renda; ...
Link Function: Logit
Response Information
Variable
Região
Value
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
Total
Count
467
1790
447
1669
1191
5564
Logistic Regression Table
Predictor
Const(1)
Const(2)
Const(3)
Const(4)
ISDM
Emprego e Renda
Coef
-0,0644195
2,34106
2,90253
5,05445
0,797135
0,455133
SE Coef
0,623850
0,625715
0,626086
0,627722
0,0878859
0,206485
Z
-0,10
3,74
4,64
8,05
9,07
2,20
P
0,918
0,000
0,000
0,000
0,000
0,028
Odds
Ratio
2,22
1,58
95% CI
Lower Upper
1,87
1,05
2,64
2,36
80
R1
T1_2
H6
Educação
E2_4
Saúde
S1_1
Liquidez
0,0508619
-0,0412579
-0,0464636
0,729133
-0,0354774
-0,890918
0,0024425
-0,351718
0,0049953
0,0026332
0,0029750
0,406290
0,0050412
0,389165
0,0018415
0,0721607
10,18
-15,67
-15,62
1,79
-7,04
-2,29
1,33
-4,87
0,000
0,000
0,000
0,073
0,000
0,022
0,185
0,000
1,05
0,96
0,95
2,07
0,97
0,41
1,00
0,70
1,04
0,95
0,95
0,94
0,96
0,19
1,00
0,61
1,06
0,96
0,96
4,60
0,97
0,88
1,01
0,81
Log-Likelihood = -6832,772
Test that all slopes are zero: G = 2654,157, DF = 10, P-Value = 0,000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Chi-Square
45499,2
13665,5
DF
22242
22242
P
0,000
1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
9009551
2483647
72830
11566028
Percent
77,9
21,5
0,6
100,0
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0,56
0,57
0,42
13. ÁRVORES DE CLASSIFICAÇÃO
13.1 Os três brasis
Com base na classificação do capítulo 11, foi elaborado o mapa do Brasil com a
divisão dos três brasis, com base na similaridade entre os Estados brasileiros:
81
13.2 Árvore de classificação das variáveis: ISDM, Educação, E2_4, Saúde, H6, T1_2,
Emprego e Renda, Liquidez, R1 e S1_1
Foram transportados os seguintes dados do Minitab para o software SPSS:
Nesta etapa faz-se importante observar que os dados trabalhados se referem a média e
o desvio padrão das variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda,
Liquidez, R1 e S1_1, com suas classificações por regiões e também uma nova classificação
baseada na divisão do Brasil e três regiões principais (“Três_Brasis”).
A próxima etapa será elaborar a árvore de classificação no software SPSS com os
dados copiados do MiniTab. Serão montadas árvores de classificação para as variáveis
“Três_Brasis” e “Região1”, ambos referentes a nova classificação brasileira em 3 divisões:
Centro-Oeste, NORD (Nordeste e Norte) e SUD (Sudeste e Sul).
82
13.3 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6,
T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis
Risk
Estimate
Std. Error
,038
,038
Growing Method: CHAID
Dependent Variable:
Três_Brasis
Classification
Observed
Predicted
B1
B2
B3
Percent Correct
B1
7
0
0
100,0%
B2
0
16
0
100,0%
B3
1
0
2
66,7%
30,8%
61,5%
7,7%
96,2%
Overall Percentage
Growing Method: CHAID
Dependent Variable: Três_Brasis
83
13.4 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4,
Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis
84
Risk
Estimate
Std. Error
,000
,000
Growing Method: CHAID
Dependent Variable:
Três_Brasis
Classification
Observed
Predicted
B1
B2
B3
Percent Correct
B1
7
0
0
100,0%
B2
0
16
0
100,0%
B3
0
0
3
100,0%
26,9%
61,5%
11,5%
100,0%
Overall Percentage
Growing Method: CHAID
Dependent Variable: Três_Brasis
85
13.5 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6,
T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região
Risk
Estimate
Std. Error
,115
,063
Growing Method: CHAID
Dependent Variable:
Região
86
Classification
Observed
Predicted
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
Percent Correct
Centro-Oeste
3
0
0
0
0
100,0%
Nordeste
0
8
1
0
0
88,9%
Norte
0
0
7
0
0
100,0%
Sudeste
2
0
0
2
0
50,0%
Sul
0
0
0
0
3
100,0%
19,2%
30,8%
30,8%
7,7%
11,5%
88,5%
Overall Percentage
Growing Method: CHAID
Dependent Variable: Região
87
13.6 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4,
Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região
88
Risk
Estimate
Std. Error
,269
,087
Growing Method: CHAID
Dependent Variable:
Região
Classification
Observed
Predicted
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
Percent Correct
Centro-Oeste
0
2
0
1
0
0,0%
Nordeste
0
9
0
0
0
100,0%
Norte
0
3
3
1
0
42,9%
Sudeste
0
0
0
4
0
100,0%
Sul
0
0
0
0
3
100,0%
0,0%
53,8%
11,5%
23,1%
11,5%
73,1%
Overall Percentage
Growing Method: CHAID
Dependent Variable: Região
89
14. CONSIDERAÇÕES FINAIS
No decorrer dos capítulos foram utilizados dois softwares estatísticos: MINITAB e o
SPSS. Com esses dois softwares foram aplicadas diversas ferramentas estatísticas para apurar
e analisar os dados referentes aos indicadores: ISDM, Educação, E2_4, Saúde, H6, T1_2,
Emprego e renda, Liquidez, R1 e S1_1 dos 5565 municípios que disponibilizaram os dados
por suas prefeituras. Os municípios foram agrupados por Estados e regiões e a partir de então
obteve-se a média e o desvio padrão relativo aos Estados e regiões para cada uma das
variáveis.
Este exercício fez-se bastante importante para compreender a importância da
estatística para o trabalho quantitativo. A estatística é responsável pelo desenvolvimento
cientifico em geral. Para além da sua aplicabilidade nas ciências naturais, na medicina, na
agronomia e na economia, a estatística constitui um suporte de cientificidade para as ciências
humanas e sociais. É assim que ciências como a sociologia, a psicologia, a história e a
pedagogia têm beneficiado de consideráveis desenvolvimentos e de aumento de credibilidade
pública com a sua utilização. Para a administração não é diferente, pois a estatística cria
possibilidades e facilidades para análise de dados, seja, pelo agrupamento de informações ou
pelas tabelas e gráficos que melhoram o entendimento das informações.
No presente trabalho essas ferramentas foram utilizadas a fim de entender sobre a
maneira como a Educação, Emprego e renda e Saúde funcionam nos Estados brasileiros. Os
resultados demonstraram que o Brasil ainda carece bastante e que a desigualdade é um fator
de bastante peso, por exemplo quando compara-se o Sudeste com o Nordeste percebe-se uma
significante diferença nos dados, seja no sentido da Educação, da Saúde ou do Emprego e da
Renda.
Download

José Felipe de Souza - PUC-SP