PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICPAL NO BRASIL Focando principalmente indicadores relacionados a Habitação, Educação, Trabalho e muito particularmente EMPREGO e RENDA. MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor: Dr. Arnoldo José de Hoyos José Felipe Ferreira de Souza 2 SUMÁRIO 1 – INTRODUÇÃO .................................................................................................................... 5 2 – OS DADOS .......................................................................................................................... 5 2.1 Os Indivíduos .................................................................................................................... 5 2.2 As Variáveis ..................................................................................................................... 6 3. ANÁLISE DAS VARIÁVEIS................................................................................................ 8 3.1 Variáveis Categóricas ....................................................................................................... 8 3.1.1 Variável: “Estados” ................................................................................................... 8 4. ANÁLISE EXPLORATÓRIA DE DADOS ........................................................................ 11 4.1 Histograma ..................................................................................................................... 11 4.1.1 ISDM ....................................................................................................................... 11 4.1.2 EMPREGO E RENDA ............................................................................................ 13 4.1.3 R1 ............................................................................................................................ 14 4.1.4 T1_2 ......................................................................................................................... 15 4.1.5 H6 ............................................................................................................................ 16 4.1.6 EDUCAÇÃO ........................................................................................................... 17 4.1.7 E2_4 ......................................................................................................................... 18 4.1.8 SAÚDE .................................................................................................................... 19 4.1.9 S1_1 ......................................................................................................................... 20 4.1.10 LIQUIDEZ ............................................................................................................ 21 5. RELAÇÃO ENTRE AS VARIÁVEIS ................................................................................. 22 5.1 Correlações ..................................................................................................................... 22 5.2 Dendograma ................................................................................................................... 23 5.3 Gráficos Scaterplot e Regressão de mínimos quadrados................................................ 24 5.3.1 ISDM versus EMPREGO E RENDA...................................................................... 24 5.3.2 ISDM versus R1 ...................................................................................................... 26 5.3.3 ISDM versus T1_2 .................................................................................................. 27 5.3.4 ISDM versus H6 ...................................................................................................... 28 5.3.5 ISDM versus EDUCAÇÃO ..................................................................................... 29 5.3.6 ISDM versus E2_4 .................................................................................................. 31 5.3.7 ISDM versus SAÚDE.............................................................................................. 32 5.3.8 ISDM versus S1_1 ................................................................................................... 33 3 5.3.9 ISDM versus LIQUIDEZ ........................................................................................ 34 6. MODELO DE REGRESSÃO LINEAR ............................................................................... 35 6.1 ISDM versus Emprego e Renda; Educação; e Saúde ..................................................... 35 6.2 ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez .................................................... 36 7. TESTE DE COMPARAÇÕES ............................................................................................. 37 7.1 Variável ISDM ............................................................................................................... 37 7.2 Variável Emprego e Renda ............................................................................................. 38 7.3 Variável Educação .......................................................................................................... 40 7.4 Variável Saúde................................................................................................................ 41 7.5 Variável E2_4 ................................................................................................................. 43 7.6 Variável T1_2 ................................................................................................................. 44 7.7 Variável S1_1 ................................................................................................................. 46 7.8 Variável R1 ..................................................................................................................... 47 7.9 Variável H6 .................................................................................................................... 49 7.10 Variável Liquidez ......................................................................................................... 50 8. AMOSTRAGEM .................................................................................................................. 52 8.1 VARIÁVEL ISDM ......................................................................................................... 52 8.2 VARIÁVEL EMPREGO E RENDA ............................................................................. 54 8.3 VARIÁVEL EDUCAÇÃO............................................................................................. 57 9. ANÁLISE MULTIVARIADA ............................................................................................. 59 9.1 Dendograma dos agrupamentos das variáveis por similaridade..................................... 59 9.2 Principais Componentes ................................................................................................. 60 10. ANÁLISE DE CONGLOMERADOS ............................................................................... 62 10.1 ANOVA ........................................................................................................................ 62 10.1.1 ANOVA de ISDM por Estado ............................................................................... 62 10.1.2 ANOVA de Emprego e Renda por Estado ............................................................ 64 10.1.3 ANOVA de R1 por Estado .................................................................................... 65 10.1.4 ANOVA de T1_2 por Estado ................................................................................ 66 10.1.5 ANOVA de H6 por Estado .................................................................................... 67 10.1.6 ANOVA de Educação por Estado ......................................................................... 68 10.1.7 ANOVA de E2_4 por Estado ................................................................................ 69 10.1.8 ANOVA de Saúde por Estado ............................................................................... 71 10.1.9 ANOVA de S1_1 por Estado ................................................................................ 72 10.1.10 ANOVA de Liquidez por Estado......................................................................... 73 4 10.2 DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS MÉDIAS ............................................................................................................................... 75 11. ANÁLISE DISCRIMINANTE .......................................................................................... 77 11.1 DENDOGRAMA DAS REGIÕES BRASILEIRAS.................................................... 77 11.2 ANÁLISE DESCRIMINANTE DAS CINCO REGIÕES VERSUS ISDM, EMPREGO E RENDA, EDUCAÇÃO E SAÚDE ................................................................................... 77 12. REGRESSÃO LOGÍSTICA ............................................................................................... 79 13. ÁRVORES DE CLASSIFICAÇÃO ................................................................................... 80 13.1 Os três brasis ................................................................................................................. 80 13.2 Árvore de classificação das variáveis: ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1............................................................................... 81 13.3 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis .............................................. 82 13.4 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis ........................... 83 13.5 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região ..................................................... 85 13.6 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região .................................. 87 14. CONSIDERAÇÕES FINAIS ............................................................................................. 89 5 1 – INTRODUÇÃO O presente trabalho propõe trabalhar com os 12 exercícios que foram realizados ao longo da disciplina, com a incrementação de seis novas variáveis: E2_4 (Proporção de crianças de 7 a 14 anos na série adequada para sua idade); T1_2 (Taxa de formalização entre os empregados); S1_1 (Taxa de mortalidade infantil, por mil nascidos vivos); R1 (Proporção de pessoas com renda domiciliar per capita abaixo da linha de pobreza); H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2); e Liquidez. Somam-se a essas 6 variáveis as outras 5 variáveis que vem sido trabalhadas ao longo da disciplina: ISDM; Emprego e Renda; Educação; e Saúde mais as cinco regiões brasileiras: Norte, Nordeste, Centro-Oeste, Sul e Sudeste. Neste novo momento as 16 variáveis foram trabalhadas com os exercícios de: Análise exploratória de dados; relação entre variáveis, correlação, regressão linear, teste de comparação, análise multivariada, analise de conglomerados, análise discriminante, regressão logística, análise de correspondência e árvore de classificação. Para tanto serão utilizados os dados da Pesquisa Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e 2010 e utilizará a classificação por regiões brasileiras: Norte, Nordeste, Centro-Oeste, Sudeste e Sul. O software estatístico a ser utilizado é o MINITAB16 e o SPSS. 2 – OS DADOS 2.1 Os Indivíduos Os indivíduos desta análise são os 5565 Municípios brasileiros classificados em suas regiões cujas prefeituras disponibilizaram os dados referentes ao ISDM, IFDM, IFGF, Emprego e Renda, Educação e Saúde. Fonte: Tabela http://www.firjan.org.br ISDM, IFDM e IFGF por municípios brasileiros; e 6 2.2 As Variáveis Para o objetivo do presente trabalho, foram trabalhados os dados de 16 variáveis: ISDM, Emprego e Renda, Educação, Saúde, E2_4 (Proporção de crianças de 7 a 14 anos na série adequada para sua idade); T1_2 (Taxa de formalização entre os empregados); S1_1 (Taxa de mortalidade infantil, por mil nascidos vivos); R1 (Proporção de pessoas com renda domiciliar per capita abaixo da linha de pobreza); H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2); e Liquidez, e as regiões Norte, Nordeste, Centro-Oeste, Sudeste e Sul. Variável Significado Tipo Unidade de Medida ISDM Indicador Social de Desenvolvimento dos Municípios (ISDM). Consiste na Variável Numérico média Quantitativa ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil. Renda (R) Média ponderada dos indicadores da dimensão Variável Numérico Renda (R1 e R2) padronizada pela média do Quantitativa Brasil. R1 Proporção de pessoas com renda domiciliar per capita abaixo da linha de pobreza Emprego/Trabalho (T) Média ponderada dos indicadores da dimensão Variável Numérico Quantitativa Variável Numérico Trabalho (T1_1, T1_2 e T2_1) padronizada pela Quantitativa média do Brasil. T1_2 Taxa de formalização entre os empregados. Variável Numérico Quantitativa H6 Proporção de pessoas que vivem em domicílio Variável Numérico que tem densidade de moradores por dormitório Quantitativa inferior a 2. Educação (E) Média ponderada dos indicadores da dimensão Variável Educação (E1_1, E1_2, E2_1, E2_2, E2_3, Quantitativa E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) Numérico 7 padronizada pela média do Brasil. E2_4 Proporção de crianças de 7 a 14 anos na série adequada para sua idade. Saúde Variável Numérico Quantitativa Média ponderada dos indicadores da dimensão Variável Numérico Saúde e Segurança (S1_1, S1_2, S1_3, S2_1, Quantitativa S2_2 e S3_1) padronizada pela média do Brasil. S1_1 Taxa de mortalidade infantil, por mil nascidos vivos. Liquidez Variável Numérico Quantitativa Refere-se à velocidade e facilidade com a qual Variável Numérico um ativo pode ser convertido em caixa. O Quantitativa indicador procura verificar se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a devida cobertura. Norte A Região Norte é a região que possui a maior Variável Numérico área (3 869 637,9 km², ou 45% do território Quantitativa nacional) e com população de 16,3 milhões de habitantes. É a região com a menor densidade demográfica (3,77 hab./km², segundo o censo IBGE 2010). A cidade mais populosa da região, Manaus, com 1,8 milhão de habitantes, é a sétima mais populosa do Brasil. Nordeste A Região Nordeste possui um território de 1 Variável 556 001 km² (18,2% do território nacional), Quantitativa dentro dos quais está localizado o Polígono das secas. Sua população é pouco superior a 50 milhões de habitantes. A região possui nove estados. Numérico 8 Centro-Oeste Ocupa 18,86% do território brasileiro, com uma Variável Numérico área de 2.612.077,2 km2. Sua população é de Quantitativa cerca de 12 milhões de habitantes. A região possui três estados mais um distrito federal. Sudeste Possui um território de 927 286 km² (10,6% do Variável Numérico território nacional). Sua população é de cerca de Quantitativa 77 milhões de habitantes. Possui o maior PIB bem como as duas cidades mais populosas do Brasil: São Paulo, com pouco mais de 11 milhões de habitantes e Rio de Janeiro com cerca de 6 milhões. Sul A Região Sul é a que possui a menor área (575 Variável Numérico 316 km², ou 6,8% do território nacional) e sua Quantitativa população é de mais de 26 milhões de habitantes, é a segunda região mais rica do país, depois da Região Sudeste, e a que possui o maior IDH, a maior taxa de alfabetização e os melhores níveis de educação, saúde e bem estar social do país. A região possui três estados. 3. ANÁLISE DAS VARIÁVEIS 3.1 Variáveis Categóricas Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo pie chart e barras. 3.1.1 Variável: “Estados” Fazem parte desta pesquisa os 27 Estados brasileiros e seus 5565 municípios classificados em 5 regiões brasileiras. Nos gráficos abaixo é possível visualizar a distribuição de municípios por Estado brasileiro e as cinco regiões brasileiras. 9 Distribuição dos Estados brasileiros com Municípios participantes E stado AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO O ther 10 Municípios por Estado brasileiro 900 Numero de Municípios 800 700 600 500 400 300 200 100 0 I B A E E N T A L J S S E C P R F G P S A R C M S R B P S GO P P M P C R M P TO A R E M S AM RO A A R D Estados Os dados dos gráficos nos permite visualizar que, os Estados com maior participação de municípios são: Minas Gerais (852 cidades), São Paulo (647 cidades), Rio Grande do Sul (497 cidades), Bahia (416 cidades) e Paraná (399 cidades). 11 Já entre os Estados com menor número de cidades participantes, temos: Distrito Federal (1 cidade), Roraima (15 cidades), Amapá (16 cidades) e Acre (22 cidades). 4. ANÁLISE EXPLORATÓRIA DE DADOS Para iniciar a análise exploratória dos dados, foi realizada a analise descritiva das variáveis para verificar se existem “lacunas”, como resultado foi obtido o seguinte: Descriptive Statistics: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; ... Variable ISDM Emprego e Renda R1 T1_2 H6 Educação E2_4 Saúde S1_1 Liquidez Total Count 5565 5565 5565 5565 5565 5565 5565 5565 5567 5565 N* 0 0 0 0 0 0 0 0 1 304 Minimum 0,5476 0,00000 0,073 6,400 4,735 0,37456 45,722 0,44212 0,000 0,00000 Q1 3,5973 0,30631 8,618 41,272 45,035 0,66324 79,528 0,72978 4,294 0,19358 Median 4,6446 0,37576 19,990 57,421 55,297 0,74595 87,510 0,81027 12,579 0,69333 Q3 5,3454 0,47111 39,479 71,384 64,616 0,82305 92,529 0,87642 20,059 0,91435 Maximum 6,2778 1,00000 78,801 94,914 89,335 1,00000 100,000 1,00000 333,333 1,00000 É possível observar que as variáveis S1_1 e a Liquidez apresentaram “lacunas”, para preenche-las, foram utilizados os valores do primeiro quartil (Q1), o resultado foi: Descriptive Statistics: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; ... Total Variable ISDM Emprego e Renda R1 T1_2 H6 Educação E2_4 Saúde S1_1 Liquidez Count 5565 5565 5565 5565 5565 5565 5565 5565 5567 5565 N* 0 0 0 0 0 0 0 0 0 0 Minimum 0,5476 0,00000 0,073 6,400 4,735 0,37456 45,722 0,44212 0,000 0,00000 Q1 3,5973 0,30631 8,618 41,272 45,035 0,66324 79,528 0,72978 4,294 0,19358 Median 4,6446 0,37576 19,990 57,421 55,297 0,74595 87,510 0,81027 12,579 0,65578 Q3 5,3454 0,47111 39,479 71,384 64,616 0,82305 92,529 0,87642 20,050 0,90601 Maximum 6,2778 1,00000 78,801 94,914 89,335 1,00000 100,000 1,00000 333,333 1,00000 Uma vez que todas as lacunas foram preenchidas foi feito o histograma de todas as variáveis. 4.1 Histograma 4.1.1 ISDM 12 Summary for ISDM A nderson-D arling N ormality Test 0,8 1,6 2,4 3,2 4,0 4,8 A -S quared P -V alue < 75,76 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 4,4324 1,0929 1,1945 -0,541209 -0,522196 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 5,6 0,5476 3,5973 4,6446 5,3454 6,2778 95% C onfidence Interv al for M ean 4,4037 4,4612 95% C onfidence Interv al for M edian 4,5898 4,7046 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 1,0730 1,1136 Mean Median 4,40 4,45 4,50 4,55 4,60 4,65 4,70 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos, receitas, salários, etc. • Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de 0,8, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA. • Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem ISDM menor do que 4,64446. O ISDM médio é de 4,4324, mas o desviopadrão (medida de dispersão) é de 1,0929, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil. 13 4.1.2 EMPREGO E RENDA Summary for Emprego e Renda A nderson-D arling N ormality Test 0,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 A -S quared P -V alue < 105,84 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 0,40375 0,15524 0,02410 0,88857 1,32253 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0,00000 0,30631 0,37576 0,47111 1,00000 95% C onfidence Interv al for M ean 0,39967 0,40783 95% C onfidence Interv al for M edian 0,37169 0,37957 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 0,15241 0,15818 Mean Median 0,37 0,38 0,39 0,40 0,41 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda. • Centro e Dispersão: A mediana nos indica que muitos municípios apresentam Emprego e Renda menor do que 0,37576. A média é de 0,40375, e o desvio-padrão (medida de dispersão) é de 0,15524. 14 4.1.3 R1 Summary for R1 A nderson-Darling N ormality Test 0 12 24 36 48 60 A -S quared P -V alue < 154,22 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 24,525 17,698 313,215 0,512744 -0,931901 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 72 0,073 8,618 19,990 39,479 78,801 95% C onfidence Interv al for M ean 24,060 24,990 95% C onfidence Interv al for M edian 19,062 20,991 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 17,375 18,033 Mean Median 19 20 21 22 23 24 25 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda. • Centro e Dispersão: A mediana nos indica que muitos municípios apresentam R1 menor do que 19,990. A média é de 24,525, e o desvio-padrão (medida de dispersão) é de 17,698. 15 4.1.4 T1_2 Summary for T1_2 A nderson-Darling N ormality Test 12 24 36 48 60 72 84 96 A -S quared P -V alue < 41,12 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 56,304 18,234 332,476 -0,132478 -0,993222 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 6,400 41,272 57,421 71,384 94,914 95% C onfidence Interv al for M ean 55,824 56,783 95% C onfidence Interv al for M edian 56,580 58,208 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 17,901 18,579 Mean Median 56,0 56,5 57,0 57,5 58,0 58,5 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente simétrica. • Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios apresentam T1_2 menor do que 57,421. A média é de 56,304, e o desviopadrão (medida de dispersão) é de 18,234. 16 4.1.5 H6 Summary for H6 A nderson-Darling N ormality Test 12 24 36 48 60 72 A -S quared P -V alue < 15,83 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 54,319 13,553 183,682 -0,400642 -0,053800 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 84 4,735 45,035 55,297 64,616 89,335 95% C onfidence Interv al for M ean 53,963 54,675 95% C onfidence Interv al for M edian 54,880 55,797 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 13,306 13,810 Mean Median 54,0 54,5 55,0 55,5 56,0 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica. • Centro e Dispersão: A mediana nos indica que uma quantidade significativa dos municípios apresentam H6 maior do que 55,297. A média é de 54,319, e o desvio-padrão (medida de dispersão) é de 13,553. 17 4.1.6 EDUCAÇÃO Summary for Educação A nderson-Darling N ormality Test 0,45 0,54 0,63 0,72 0,81 0,90 0,99 A -S quared P -V alue < 7,27 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 0,74125 0,11237 0,01263 -0,172334 -0,489371 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0,37456 0,66324 0,74595 0,82305 1,00000 95% C onfidence Interv al for M ean 0,73830 0,74420 95% C onfidence Interv al for M edian 0,74212 0,75047 95% C onfidence Interv al for S tD ev 9 5 % C onfidence Inter vals 0,11032 0,11449 Mean Median 0,7400 0,7425 0,7450 0,7475 0,7500 Observações: • Forma: O Histograma permite verificar que se trata de uma distribuição assimétrica. A posição da linha da mediana mais a direita do quadrado principal do BoxPlot também indica esta assimetria. Considerando que o valor mínimo apresentado é de 0 em alguns municípios e o valor máximo é de 1 nos municípios de Araucária (PR) e Ipojuca (PE), e a mediana ser apresentada pelo valor 0,74595, pode-se dizer que a maior parte dos Estados brasileiros possuem um bom índice de educação por município. • Centro e Dispersão: A mediana nos indica que grande parte dos municípios brasileiros apresentam os valores de sua distribuição de Educação acima da média ponderada brasileira. Isso é bom, pois indica que há boa frequência de crianças do ensino infantil, fundamental e médio/geral indo a escola e uma pequena proporção de crianças do ensino fundamental e médio sofrem de analfabetismo. Na pesquisa não foram apurados os dados referentes a educação superior. 18 4.1.7 E2_4 Summary for E2_4 A nderson-Darling N ormality Test 48 56 64 72 80 88 A -S quared P -V alue < 95,44 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 85,481 8,881 78,880 -0,835199 0,263592 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 96 45,722 79,528 87,510 92,529 100,000 95% C onfidence Interv al for M ean 85,247 85,714 95% C onfidence Interv al for M edian 87,165 87,883 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 8,719 9,050 Mean Median 85,0 85,5 86,0 86,5 87,0 87,5 88,0 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita. • Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam E2_4 maior do que 87,510. A média é de 85,481, e o desvio-padrão (medida de dispersão) é de 8,881. 19 4.1.8 SAÚDE Summary for Saúde A nderson-Darling N ormality Test 0,48 0,56 0,64 0,72 0,80 0,88 A -S quared P -V alue < 34,12 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 0,79828 0,10036 0,01007 -0,460218 -0,367873 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0,96 0,44212 0,72978 0,81027 0,87642 1,00000 95% C onfidence Interv al for M ean 0,79564 0,80092 95% C onfidence Interv al for M edian 0,80620 0,81410 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 0,09853 0,10226 Mean Median 0,795 0,800 0,805 0,810 0,815 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita. • Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam SAÚDE maior do que 0,81027. A média é de 0,79828, e o desvio-padrão (medida de dispersão) é de 0,10036. 20 4.1.9 S1_1 Summary for S1_1 A nderson-D arling N ormality Test 0 45 90 135 180 225 270 315 A -S quared P -V alue < 160,67 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 14,259 14,280 203,915 4,2583 59,4424 5567 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0,000 4,294 12,579 20,050 333,333 95% C onfidence Interv al for M ean 13,883 14,634 95% C onfidence Interv al for M edian 12,295 12,912 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 14,020 14,550 Mean Median 12,0 12,5 13,0 13,5 14,0 14,5 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda. • Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam S1_1 menor do que 12,579. A média é de 14,259, e o desvio-padrão (medida de dispersão) é de 14,280. 21 4.1.10 LIQUIDEZ Summary for Liquidez A nderson-D arling N ormality Test 0,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 A -S quared P -V alue < 257,10 0,005 M ean S tD ev V ariance S kew ness Kurtosis N 0,55146 0,37328 0,13934 -0,32363 -1,46781 5565 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 0,00000 0,19358 0,65578 0,90601 1,00000 95% C onfidence Interv al for M ean 0,54165 0,56127 95% C onfidence Interv al for M edian 0,63410 0,67418 95% C onfidence Interv al for S tDev 9 5 % C onfidence Inter vals 0,36648 0,38035 Mean Median 0,550 0,575 0,600 0,625 0,650 0,675 Observações: • Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica. • Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam LIQUIDEZ maior do que 0,65578. A média é de 0,55146, e o desvio-padrão (medida de dispersão) é de 0,37328. Esse dado indica que ao menos metade dos município estão postergando pagamentos para o exercício seguinte sem a devida cobertura. 22 5. RELAÇÃO ENTRE AS VARIÁVEIS O presente capítulo fez uma analise das variáveis com relação ao ISDM. Abaixo segue os resultados obtidos. 5.1 Correlações Sobre as correlações das variáveis estudadas, obteve-se o seguinte: Correlations: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; Saúde; ... ISDM 0,525 0,000 Emprego e Renda -0,951 0,000 -0,509 0,000 T1_2 0,806 0,000 0,586 0,000 -0,782 0,000 H6 0,695 0,000 0,211 0,000 -0,709 0,000 Educação 0,782 0,000 0,377 0,000 -0,753 0,000 E2_4 0,764 0,000 0,363 0,000 -0,768 0,000 Saúde 0,697 0,000 0,345 0,000 -0,713 0,000 -0,147 0,000 -0,077 0,000 0,140 0,000 0,276 0,000 0,197 0,000 -0,308 0,000 T1_2 0,449 0,000 H6 Educação Educação 0,609 0,000 0,552 0,000 E2_4 0,599 0,000 0,613 0,000 0,765 0,000 Saúde 0,559 0,000 0,590 0,000 0,654 0,000 -0,112 0,000 -0,115 0,000 -0,122 0,000 0,302 0,000 0,260 0,000 0,233 0,000 Emprego e Renda R1 S1_1 Liquidez H6 S1_1 Liquidez R1 23 Saúde S1_1 Liquidez E2_4 0,640 0,000 Saúde -0,128 0,000 -0,268 0,000 0,263 0,000 0,259 0,000 S1_1 -0,049 0,000 Cell Contents: Pearson correlation P-Value Sobre os resultados obtidos, é possível notar que ISDM x T1_2, ISDM x Educação, ISDM x E2_4, ISDM x Saúde, T1_2 x Educação, E2_4 x Saúde, H6 x E2_4, Educação x E2_4, e Educação x Saúde são as variáveis que apresentam as maiores correlações, enquanto ISDM x R1, T1_2 x R1, Educação x R1, e E2_4 x R1 apresentam as menores correlações. Na próxima etapa foram retiradas, do total de 5565 municípios, 50 amostras para a elaboração dos gráficos de Scatterplot. Foi realizado o dendograma e o cruzamentos entre ISDM com as demais variáveis para verificar o grau de proximidade entre elas. 5.2 Dendograma O dendograma permite uma melhor visualização sobre a proximidade das variáveis estudadas. Abaixo segue o resultado do dendograma: Dendrogram Single Linkage; Correlation Coefficient Distance Similarity 47,80 65,20 82,60 100,00 DM IS 50 _A aç uc Ed 50 _A ão 50 50 _A _A 4 e _ úd E2 Sa 0 0 0 50 A5 A5 A5 _A z_ 2_ a_ e _ d H6 n id T1 qu Re Li e o eg pr Em Variables 0 50 A5 _A 1_ _ R1 S1 24 Nesta amostra é possível observar a existência de 3 grupos principais, sendo um primeiro grupo: ISDM, Educação, E2_4, Saúde, H6 e T1_2 um grupo com similaridade acima de 85%. Um segundo grupo composto por Emprego e renda e Liquidez, com um grau de similaridade acima de 65% e um terceiro grupo com baixo grau de similaridade com os demais composto por R1 e S1_1 que possuem similaridade acima de 45% Cluster Analysis of Variables: ISDM_A50; Emprego e Re; R1_A50; T1_2_A50; ... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Step 1 2 3 4 5 6 7 8 9 Number of clusters 9 8 7 6 5 4 3 2 1 Similarity level 92,8941 91,6434 88,2285 86,6548 85,7641 79,0191 64,1737 59,7530 47,7985 Distance level 0,14212 0,16713 0,23543 0,26690 0,28472 0,41962 0,71653 0,80494 1,04403 Clusters joined 1 6 1 7 1 8 1 5 1 4 1 2 1 10 3 9 1 3 New cluster 1 1 1 1 1 1 1 3 1 Number of obs. in new cluster 2 3 4 5 6 7 8 2 10 5.3 Gráficos Scaterplot e Regressão de mínimos quadrados 5.3.1 ISDM versus EMPREGO E RENDA Scatterplot of ISDM_A50 vs Emprego e Renda_A50 6 ISDM_A50 5 4 3 2 0,0 0,1 0,2 0,3 0,4 0,5 0,6 Emprego e Renda_A50 0,7 0,8 0,9 25 Observações: Direção: Da análise das correlações acima percebemos que algumas possuem associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. Intensidade: O gráfico acima parece indicar pouca existência de relações lineares, sendo que há grande disparidade entre os pontos. Forma: O gráfico apresenta conglomerados que sugerem relações pouco lineares. Regression Analysis: ISDM_A50 versus Emprego e Renda_A50 The regression equation is ISDM_A50 = 3,67 + 2,82 Emprego e Renda_A50 Predictor Constant Emprego e Renda_A50 S = 0,924961 Coef 3,6671 2,8192 R-Sq = 16,8% SE Coef 0,3896 0,9048 T 9,41 3,12 P 0,000 0,003 R-Sq(adj) = 15,1% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 8,3066 41,0666 49,3731 MS 8,3066 0,8556 F 9,71 P 0,003 Unusual Observations Obs 4 9 16 23 34 Emprego e Renda_A50 0,817 0,932 0,896 0,360 0,337 ISDM_A50 6,026 6,157 5,942 2,557 2,259 Fit 5,972 6,294 6,194 4,682 4,617 SE Fit 0,395 0,494 0,463 0,137 0,145 Residual 0,054 -0,137 -0,252 -2,126 -2,358 St Resid 0,06 X -0,18 X -0,31 X -2,32R -2,58R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 26 5.3.2 ISDM versus R1 Scatterplot of ISDM_A50 vs R1_A50 6 ISDM_A50 5 4 3 2 0 10 20 30 R1_A50 40 50 60 Observações: Direção: Da análise das correlações acima percebemos que possuem associações negativas, apesar de manter características de linearidade. Intensidade: O gráfico acima parece indicar a existência de relações lineares, apesar de sua relação negativa. Forma: O gráfico apresenta conglomerados que sugerem relações lineares. Regression Analysis: ISDM_A50 versus R1_A50 The regression equation is ISDM_A50 = 6,03 - 0,0648 R1_A50 Predictor Constant R1_A50 Coef 6,03305 -0,064837 S = 0,376050 SE Coef 0,08826 0,003736 R-Sq = 86,3% T 68,35 -17,35 P 0,000 0,000 R-Sq(adj) = 86,0% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 Unusual Observations SS 42,585 6,788 49,373 MS 42,585 0,141 F 301,14 P 0,000 27 Obs 10 23 31 34 45 R1_A50 26,3 37,9 59,4 55,1 28,0 ISDM_A50 5,1375 2,5568 2,9181 2,2589 5,0099 Fit 4,3283 3,5766 2,1844 2,4630 4,2207 SE Fit 0,0600 0,0888 0,1604 0,1454 0,0631 Residual 0,8092 -1,0198 0,7337 -0,2040 0,7892 St Resid 2,18R -2,79R 2,16RX -0,59 X 2,13R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 5.3.3 ISDM versus T1_2 Scatterplot of ISDM_A50 vs T1_2_A50 6 ISDM_A50 5 4 3 2 30 40 50 60 T1_2_A50 70 80 90 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e características pouco lineares. Intensidade: O gráfico acima parece indicar pouca existência de relações lineares, apesar de sua relação positiva. Forma: O gráfico apresenta conglomerados que sugerem relações pouco lineares, com bastante disparidade entre os pontos. Regression Analysis: ISDM_A50 versus T1_2_A50 The regression equation is ISDM_A50 = 1,98 + 0,0464 T1_2_A50 Predictor Constant T1_2_A50 Coef 1,9792 0,046395 SE Coef 0,4117 0,006543 T 4,81 7,09 P 0,000 0,000 28 S = 0,708762 R-Sq = 51,2% R-Sq(adj) = 50,1% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 25,261 24,112 49,373 MS 25,261 0,502 F 50,29 P 0,000 Unusual Observations Obs 23 34 40 T1_2_A50 62,1 44,4 42,8 ISDM_A50 2,557 2,259 5,467 Fit 4,861 4,038 3,964 SE Fit 0,100 0,148 0,156 Residual -2,304 -1,779 1,504 St Resid -3,28R -2,57R 2,17R R denotes an observation with a large standardized residual. 5.3.4 ISDM versus H6 Scatterplot of ISDM_A50 vs H6_A50 6 ISDM_A50 5 4 3 2 20 30 40 50 H6_A50 60 70 80 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, apesar de manter poucas características de linearidade. Intensidade: O gráfico acima parece indicar a existência de pequenas relações lineares. 29 Forma: O gráfico apresenta conglomerados que sugerem relações não lineares devido a sua alta disparidade entre os pontos. Regression Analysis: ISDM_A50 versus H6_A50 The regression equation is ISDM_A50 = 1,57 + 0,0565 H6_A50 Predictor Constant H6_A50 Coef 1,5724 0,056548 S = 0,689784 SE Coef 0,4445 0,007572 R-Sq = 53,7% T 3,54 7,47 P 0,001 0,000 R-Sq(adj) = 52,8% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 26,535 22,838 49,373 MS 26,535 0,476 F 55,77 P 0,000 Unusual Observations Obs 15 21 34 H6_A50 55,4 27,1 21,8 ISDM_A50 6,1445 3,3845 2,2589 Fit 4,7031 3,1024 2,8026 SE Fit 0,0986 0,2487 0,2860 Residual 1,4414 0,2822 -0,5437 St Resid 2,11R 0,44 X -0,87 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 5.3.5 ISDM versus EDUCAÇÃO Scatterplot of ISDM_A50 vs Educação_A50 6 ISDM_A50 5 4 3 2 0,5 0,6 0,7 0,8 Educação_A50 0,9 1,0 30 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e apesar da baixa relação linear, é possível observar certa linearidade. Intensidade: O gráfico acima parece indicar um pouco da existência de relações lineares, e associação positiva. Forma: O gráfico apresenta conglomerados que sugerem relações lineares. Regression Analysis: ISDM_A50 versus Educação_A50 The regression equation is ISDM_A50 = - 0,821 + 7,12 Educação_A50 Predictor Constant Educação_A50 S = 0,521144 Coef -0,8208 7,1174 SE Coef 0,4924 0,6153 R-Sq = 73,6% T -1,67 11,57 P 0,102 0,000 R-Sq(adj) = 73,0% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 36,337 13,036 49,373 MS 36,337 0,272 F 133,79 P 0,000 Unusual Observations Obs 8 11 23 31 34 Educação_A50 0,750 0,730 0,520 0,674 0,521 ISDM_A50 5,8617 5,7514 2,5568 2,9181 2,2589 Fit 4,5138 4,3758 2,8806 3,9765 2,8840 SE Fit 0,0780 0,0827 0,1824 0,1031 0,1821 Residual 1,3479 1,3756 -0,3238 -1,0584 -0,6250 St Resid 2,62R 2,67R -0,66 X -2,07R -1,28 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 31 5.3.6 ISDM versus E2_4 Scatterplot of ISDM_A50 vs E2_4_A50 6 ISDM_A50 5 4 3 2 65 70 75 80 85 E2_4_A50 90 95 100 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e poucas características lineares. Intensidade: O gráfico acima parece indicar pequena existência de linearidade e alta disparidade. Forma: O gráfico apresenta alta dispersão com pouco conglomerado. Regression Analysis: ISDM_A50 versus E2_4_A50 The regression equation is ISDM_A50 = - 3,86 + 0,0991 E2_4_A50 Predictor Constant E2_4_A50 Coef -3,8612 0,099120 S = 0,561333 SE Coef 0,8356 0,009507 R-Sq = 69,4% T -4,62 10,43 P 0,000 0,000 R-Sq(adj) = 68,7% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 34,249 15,125 49,373 MS 34,249 0,315 F 108,69 P 0,000 Unusual Observations Obs 19 21 E2_4_A50 84,8 65,1 ISDM_A50 2,9811 3,3845 Fit 4,5452 2,5947 SE Fit 0,0834 0,2269 Residual -1,5642 0,7899 St Resid -2,82R 1,54 X 32 31 34 36 82,5 65,1 66,4 2,9181 2,2589 3,3779 4,3127 2,5926 2,7239 0,0926 0,2271 0,2153 -1,3946 -0,3337 0,6540 -2,52R -0,65 X 1,26 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 5.3.7 ISDM versus SAÚDE Scatterplot of ISDM_A50 vs Saúde_A50 6 ISDM_A50 5 4 3 2 0,5 0,6 0,7 0,8 0,9 1,0 Saúde_A50 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e pouca linearidade. Intensidade: O gráfico acima parece indicar baixa linearidade, apesar de um pouco de conglomerado do lado direito superior. Forma: O gráfico apresenta conglomerados, porém baixa linearidade. Regression Analysis: ISDM_A50 versus Saúde_A50 The regression equation is ISDM_A50 = - 1,53 + 7,73 Saúde_A50 Predictor Constant Saúde_A50 Coef -1,5349 7,7335 S = 0,653696 SE Coef 0,7776 0,9410 R-Sq = 58,5% T -1,97 8,22 P 0,054 0,000 R-Sq(adj) = 57,6% 33 Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 28,862 20,511 49,373 MS 28,862 0,427 F 67,54 P 0,000 Unusual Observations Obs 23 34 42 Saúde_A50 0,552 0,532 0,744 ISDM_A50 2,5568 2,2589 2,8790 Fit 2,7311 2,5809 4,2198 SE Fit 0,2694 0,2866 0,1171 Residual -0,1743 -0,3220 -1,3408 St Resid -0,29 X -0,55 X -2,08R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 5.3.8 ISDM versus S1_1 Scatterplot of ISDM_A50 vs S1_1_A50 6 ISDM_A50 5 4 3 2 0 10 20 30 S1_1_A50 40 50 Observações: Direção: Da análise das correlações acima percebemos que possuem associações negativas, e praticamente nenhuma linearidade. Intensidade: O gráfico acima parece indicar baixa linearidade, e alta dispersão. Forma: O gráfico não apresenta conglomerados e linearidade. Regression Analysis: ISDM_A50 versus S1_1_A50 The regression equation is ISDM_A50 = 5,00 - 0,0136 S1_1_A50 34 Predictor Constant S1_1_A50 Coef 4,9967 -0,01365 S = 0,999920 SE Coef 0,2123 0,01161 R-Sq = 2,8% T 23,54 -1,18 P 0,000 0,246 R-Sq(adj) = 0,8% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 1,3808 47,9923 49,3731 MS 1,3808 0,9998 F 1,38 P 0,246 Unusual Observations Obs 23 34 38 42 47 S1_1_A50 22,9 18,1 43,5 50,8 44,4 ISDM_A50 2,557 2,259 5,487 2,879 4,874 Fit 4,684 4,749 4,403 4,303 4,390 SE Fit 0,178 0,151 0,374 0,455 0,385 Residual -2,127 -2,490 1,084 -1,424 0,484 St Resid -2,16R -2,52R 1,17 X -1,60 X 0,52 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage. 5.3.9 ISDM versus LIQUIDEZ Scatterplot of ISDM_A50 vs Liquidez_A50 6 ISDM_A50 5 4 3 2 0,0 0,2 0,4 0,6 Liquidez_A50 0,8 1,0 Observações: Direção: Da análise das correlações acima é visível que possuem associações positivas, e praticamente nenhuma linearidade. Intensidade: O gráfico acima parece indicar baixa linearidade, e alta dispersão, apesar de apresentar indícios de conglomerados no final do lado direito. 35 Forma: O gráfico apresenta vestígios de conglomerado e não apresenta linearidade. Regression Analysis: ISDM_A50 versus Liquidez_A50 The regression equation is ISDM_A50 = 4,49 + 0,517 Liquidez_A50 Predictor Constant Liquidez_A50 S = 0,995343 Coef 4,4870 0,5171 SE Coef 0,2772 0,3816 R-Sq = 3,7% T 16,19 1,36 P 0,000 0,182 R-Sq(adj) = 1,7% Analysis of Variance Source Regression Residual Error Total DF 1 48 49 SS 1,8192 47,5540 49,3731 MS 1,8192 0,9907 F 1,84 Fit 4,487 4,995 4,901 4,972 SE Fit 0,277 0,196 0,156 0,184 P 0,182 Unusual Observations Obs 23 31 34 42 Liquidez_A50 0,00 0,98 0,80 0,94 ISDM_A50 2,557 2,918 2,259 2,879 Residual -1,930 -2,076 -2,642 -2,093 St Resid -2,02R -2,13R -2,69R -2,14R R denotes an observation with a large standardized residual. 6. MODELO DE REGRESSÃO LINEAR Nesta etapa foi realizada a Stepwise Regression da seguinte maneira: ISDM versus Emprego e Renda; Educação; e Saúde. ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez. 6.1 ISDM versus Emprego e Renda; Educação; e Saúde Stepwise Regression: ISDM versus Emprego e Renda; Educação; Saúde Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is ISDM on 3 predictors, with N = 5565 36 Step Constant 1 -1,203 2 -1,236 3 -2,363 Educação T-Value P-Value 7,602 93,46 0,000 6,618 82,17 0,000 4,926 52,55 0,000 1,891 32,45 0,000 1,662 30,41 0,000 Emprego e Renda T-Value P-Value Saúde T-Value P-Value 3,10 29,92 0,000 S R-Sq R-Sq(adj) Mallows Cp 0,682 61,09 61,08 2117,5 0,625 67,28 67,27 897,5 0,580 71,82 71,81 4,0 Com relação ao ISDM nota-se, através dos dados acima, que Emprego e Renda, Educação e Saúde representam 71,82% do ISDM. Sendo que Emprego e Renda representa 61,09%, Educação 6,19% e Saúde 4,54%. Para o ISDM tem-se a seguinte equação: -2,363 + 4,926 + 1,662 + 3,10 6.2 ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez Stepwise Regression: ISDM versus R1; T1_2; H6; E2_4; S1_1; Liquidez Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is ISDM on 6 predictors, with N = 5565 Step Constant R1 T-Value P-Value T1_2 T-Value P-Value H6 T-Value P-Value E2_4 T-Value P-Value Liquidez T-Value P-Value 1 5,873 2 5,132 3 4,586 4 3,813 5 3,814 6 3,832 -0,05872 -229,28 0,000 -0,05089 -131,18 0,000 -0,04624 -93,10 0,000 -0,04342 -79,85 0,000 -0,04351 -80,62 0,000 -0,04346 -80,53 0,000 0,00973 25,85 0,000 0,01106 29,06 0,000 0,01089 28,97 0,000 0,01132 30,10 0,000 0,01131 30,10 0,000 0,00660 14,57 0,000 0,00574 12,69 0,000 0,00610 13,53 0,000 0,00607 13,48 0,000 0,00888 12,02 0,000 0,00908 12,39 0,000 0,00902 12,31 0,000 -0,109 -9,29 0,000 -0,109 -9,30 0,000 37 S1_1 T-Value P-Value S R-Sq R-Sq(adj) Mallows Cp -0,00085 -2,92 0,004 0,338 90,43 90,43 1183,7 0,319 91,46 91,45 462,1 0,314 91,77 91,77 242,8 0,310 91,98 91,97 97,9 0,307 92,10 92,10 13,5 0,307 92,11 92,11 7,0 Com relação ao ISDM nota-se, através dos dados acima, que R1; T1_2; H6; E2_4; S1_1 e Liquidez representam 92,11% do ISDM. 7. TESTE DE COMPARAÇÕES 7.1 Variável ISDM Os pontos que aparecem abaixo da linha representam os dados que estão fora da curva, e abaixo da média . A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região Sudeste, e ocupa o segundo lugar. A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da Nordeste. Pelo tamanho da caixa do BloxPlot pode-se visualizar a amplitude da variância. É possível afirmar que os dados da Região Norte possuem maior variabilidade que os dados das demais regiões. As Regiões que possuem menor variabilidade dos dados são Centro-Oeste e Sul. 38 Grau de diferença entre as variáveis One-way ANOVA: ISDM versus Região Source Região Error Total DF 4 5560 5564 SS 4188,435 2457,544 6645,979 MS 1047,109 0,442 F P 0,000 Chance de não ser diferente. S = 0,6648 Level +--Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 63,02% R-Sq(adj) = 63,00% N Mean StDev 468 1790 447 1669 1191 4,6956 3,4112 0,5252 0,7136 0,9794 0,6436 0,5012 5,1271 Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+--------(*) (* (*) (* *) ------+---------+---------+--------- +--3,60 4,20 4,80 5,40 Pooled StDev = 0,6648 O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Com base nos dados acima é possível afirmar que a região que apresenta melhores níveis de ISDM é a região Sudeste enquanto a região com os piores níveis é o Norte. 7.2 Variável Emprego e Renda 39 Grau One-way ANOVA: Emprego e Renda versus Região Source Região Error Total DF 4 5560 5564 SS 17,7959 116,2990 134,0949 MS 4,4490 0,0209 F 212,70 de diferença entre as variáveis P 0,000 Chance de não ser diferente. S = 0,1446 Level Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 13,27% N 468 1790 447 1669 1191 Mean 0,4173 0,3348 0,3415 0,4490 0,4620 R-Sq(adj) = 13,21% StDev 0,1389 0,1288 0,1419 0,1681 0,1345 Individual 95% CIs For Mean Based on Pooled StDev --------+---------+---------+---------+(--*---) (-*) (--*---) (*-) (-*--) --------+---------+---------+---------+0,360 0,400 0,440 0,480 Pooled StDev = 0,1446 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Emprego e Renda é a região Sul, seguida de perto pelo Sudeste enquanto a região com os menores níveis de emprego e renda é o Nordeste. 40 7.3 Variável Educação 41 Grau DF 4 5560 5564 SS 35,82737 34,42333 70,25070 MS 8,95684 0,00619 F 1446,69 diferença entre as variáveis One-way ANOVA: Educação versus Região Source Região Error Total de P 0,000 Chance de não ser diferente. S = 0,07868 Level Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 51,00% N 468 1790 447 1669 1191 Mean 0,75299 0,65090 0,63739 0,83427 0,78106 R-Sq(adj) = 50,96% StDev 0,07162 0,08127 0,08599 0,08138 0,07021 Individual 95% CIs For Mean Based on Pooled StDev -----+---------+---------+---------+---(*-) *) (*) (*) (*) -----+---------+---------+---------+---0,660 0,720 0,780 0,840 Pooled StDev = 0,07868 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Educação é a região Sudeste enquanto a região com os menores níveis é o Norte. 7.4 Variável Saúde 42 Grau de diferença entre as variáveis One-way ANOVA: Saúde versus Região Source Região Error Total DF 4 5560 5564 SS 23,23275 32,80603 56,03879 MS 5,80819 0,00590 F 984,38 P 0,000 Chance de não ser diferente. S = 0,07681 Level Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 41,46% N 468 1790 447 1669 1191 Mean 0,83036 0,73510 0,68231 0,82988 0,87987 R-Sq(adj) = 41,42% StDev 0,07475 0,08148 0,08605 0,07713 0,06543 Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(*-) (* (*) *) (* -------+---------+---------+---------+-0,720 0,780 0,840 0,900 Pooled StDev = 0,07681 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Saúde é a região Sul enquanto a região com os menores níveis é o Norte. 43 7.5 Variável E2_4 Individual Value Plot of R1 vs Região 80 70 60 R1 50 40 30 20 10 0 Centro-Oeste Nordeste Norte Região Sudeste Sul Residual Plots for R1 Versus Fits 99,99 50 99 25 90 Residual Percent Normal Probability Plot 50 10 1 0,01 -50 -25 0 Residual 25 0 -25 -50 50 10 50 450 25 300 150 0 -36 -24 -12 0 12 Residual 30 Fitted Value 40 Versus Order 600 Residual Frequency Histogram 20 24 36 48 0 -25 -50 1 0 0 0 0 0 0 0 0 0 0 0 50 100 150 200 250 300 350 400 450 500 550 Observation Order 44 Grau DF 4 5560 5564 S = 10,34 SS 1148763 593965 1742729 MS 287191 107 N 468 1790 447 1669 1191 P 0,000 Chance R-Sq = 65,92% Level Centro-Oeste Nordeste Norte Sudeste Sul F 2688,34 Mean 15,23 42,49 39,65 14,07 10,16 R-Sq(adj) = 65,89% StDev 9,22 10,60 15,18 10,54 7,40 diferença entre as variáveis One-way ANOVA: R1 versus Região Source Região Error Total de de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+--------(*) *) (*) *) *) +---------+---------+---------+--------10 20 30 40 Pooled StDev = 10,34 Com base nos dados acima é possível afirmar que a região que apresenta os maiores níveis de R1 é a região Nordeste enquanto a região com os menores níveis é o Sul. 7.6 Variável T1_2 Individual Value Plot of T1_2 vs Região 100 80 T1_2 60 40 20 0 Centro-Oeste Nordeste Norte Região Sudeste Sul 45 Residual Plots for T1_2 Normal Probability Plot Versus Fits 50 99,99 99 25 Residual Percent 90 50 10 1 0,01 -50 -25 0 Residual 25 0 -25 -50 50 40 Histogram 70 Versus Order Residual Frequency 60 Fitted Value 50 300 200 100 0 50 -36 -24 -12 0 12 Residual 24 25 0 -25 -50 36 1 0 0 0 0 0 0 0 0 0 0 0 50 100 150 200 250 300 350 400 450 500 550 Observation Order Grau de diferença entre as variáveis One-way ANOVA: T1_2 versus Região Source Região Error Total DF 4 5560 5564 SS 804491 1045407 1849898 MS 201123 188 F 1069,67 P 0,000 Chance de não ser diferente. S = 13,71 Level Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 43,49% N 468 1790 447 1669 1191 Mean 58,89 41,17 46,10 64,65 70,16 R-Sq(adj) = 43,45% StDev 11,83 13,36 13,65 15,77 11,69 Individual 95% CIs For Mean Based on Pooled StDev ---------+---------+---------+---------+ (-*) *) (-*) (*) (*) ---------+---------+---------+---------+ 48,0 56,0 64,0 72,0 Pooled StDev = 13,71 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de T1_2 é a região Sul enquanto a região com os menores níveis é o Nordeste. 46 7.7 Variável S1_1 Individual Value Plot of S1_1 vs Região 350 300 250 S1_1 200 150 100 50 0 Centro-Oeste Nordeste Norte Região Sudeste Sul Residual Plots for S1_1 Normal Probability Plot Versus Fits 99,99 300 90 Residual Percent 99 50 10 200 100 1 0 0,01 -100 0 100 Residual 200 12,0 300 Histogram 18,0 300 900 Residual Frequency 16,5 Versus Order 1200 600 300 0 13,5 15,0 Fitted Value 200 100 0 0 48 96 144 192 Residual 240 288 1 0 0 0 0 0 0 0 0 0 0 0 50 100 150 200 250 300 350 400 450 500 550 Observation Order 47 Grau de diferença entre as variáveis One-way ANOVA: S1_1 versus Região Source Região Error Total DF 4 5560 5564 SS 19369 1115524 1134894 MS 4842 201 F 24,14 P 0,000 Chance de não ser diferente. S = 14,16 R-Sq = 1,71% Level Centro-Oeste Nordeste Norte Sudeste Sul N 468 1790 447 1669 1191 Mean 14,19 15,80 17,82 13,60 11,56 R-Sq(adj) = 1,64% StDev 16,91 10,90 15,13 13,91 17,01 Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(----*----) (-*--) (----*-----) (-*--) (--*--) -------+---------+---------+---------+-12,5 15,0 17,5 20,0 Pooled StDev = 14,16 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de S1_1 é a região Norte enquanto a região com os menores níveis é o Sul. 7.8 Variável R1 Individual Value Plot of R1 vs Região 80 70 60 R1 50 40 30 20 10 0 Centro-Oeste Nordeste Norte Região Sudeste Sul 48 Residual Plots for R1 Normal Probability Plot Versus Fits 50 99,99 25 90 Residual Percent 99 50 10 1 0,01 -50 -25 0 Residual 25 0 -25 -50 50 10 20 50 450 25 300 150 0 -36 -24 -12 0 12 Residual 40 Versus Order 600 Residual Frequency Histogram 30 Fitted Value 24 36 48 0 -25 -50 1 0 0 0 0 0 0 0 0 0 0 0 50 100 150 200 250 300 350 400 450 500 550 Observation Order Grau de diferença entre as variáveis One-way ANOVA: R1 versus Região Source Região Error Total DF 4 5560 5564 SS 1148763 593965 1742729 MS 287191 107 F 2688,34 P 0,000 Chance de não ser diferente. S = 10,34 Level Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 65,92% N 468 1790 447 1669 1191 Mean 15,23 42,49 39,65 14,07 10,16 R-Sq(adj) = 65,89% StDev 9,22 10,60 15,18 10,54 7,40 Individual 95% CIs For Mean Based on Pooled StDev +---------+---------+---------+--------(*) *) (*) *) *) +---------+---------+---------+--------10 20 30 40 Pooled StDev = 10,34 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de R1 é a região Nordeste enquanto a região com os menores níveis é o Sul. 49 7.9 Variável H6 Individual Value Plot of H6 vs Região 90 80 70 H6 60 50 40 30 20 10 0 Centro-Oeste Nordeste Norte Região Sudeste Sul Residual Plots for H6 Normal Probability Plot Versus Fits 40 99,99 20 90 Residual Percent 99 50 10 1 0,01 -50 -25 0 Residual 25 0 -20 -40 50 40 Histogram 70 Versus Order 180 Residual Frequency 60 40 240 120 60 0 50 Fitted Value -27 -18 -9 0 9 Residual 18 27 20 0 -20 -40 1 0 0 0 0 0 0 0 0 0 0 0 50 100 150 200 250 300 350 400 450 500 550 Observation Order 50 Grau de diferença entre as variáveis One-way ANOVA: H6 versus Região Source Região Error Total DF 4 5560 5564 SS 525704 496300 1022005 MS 131426 89 F 1472,35 P 0,000 Chance de não ser diferente. S = 9,448 R-Sq = 51,44% Level Centro-Oeste Nordeste Norte Sudeste Sul N 468 1790 447 1669 1191 Mean 58,213 45,127 36,253 59,053 66,750 R-Sq(adj) = 51,40% StDev 9,699 8,829 14,618 9,008 8,314 Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(*) *) (*) (* *) ------+---------+---------+---------+--40,0 48,0 56,0 64,0 Pooled StDev = 9,448 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de H6 é a região Sul enquanto a região com os menores níveis é o Norte. 7.10 Variável Liquidez Individual Value Plot of Liquidez vs Região 1,0 Liquidez 0,8 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul 51 Residual Plots for Liquidez Normal Probability Plot Versus Fits 0,8 99,99 0,4 90 Residual Percent 99 50 10 1 0,01 -1 0 Residual 0,0 -0,4 -0,8 1 0,4 0,5 0,6 Fitted Value Histogram Versus Order 0,8 450 Residual Frequency 600 300 150 0 0,7 -0,700 -0,525 -0,350 -0,175 0,000 0,175 0,350 0,4 0,0 -0,4 -0,8 0,525 Residual 1 0 0 0 0 0 0 0 0 0 0 0 50 100 150 200 250 300 350 400 450 500 550 Observation Order Grau de diferença entre as variáveis One-way ANOVA: Liquidez versus Região Source Região Error Total DF 4 5560 5564 SS 99,198 676,095 775,293 MS 24,799 0,122 F 203,94 P 0,000 Chance de não ser diferente. S = 0,3487 Level Centro-Oeste Nordeste Norte Sudeste Sul R-Sq = 12,79% N 468 1790 447 1669 1191 Mean 0,6541 0,3825 0,5411 0,5719 0,7402 R-Sq(adj) = 12,73% StDev 0,3415 0,3591 0,3846 0,3564 0,3084 Individual 95% CIs For Mean Based on Pooled StDev ---+---------+---------+---------+-----(--*---) (*-) (--*--) (*-) (-*-) ---+---------+---------+---------+-----0,40 0,50 0,60 0,70 Pooled StDev = 0,3487 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Liquidez é a região Sul enquanto a região com os menores níveis é o Nordeste. 52 8. AMOSTRAGEM 8.1 VARIÁVEL ISDM ISDM para amostra com 50 linhas: É possível observar que a média dos dados é de 4,25 e o desvio padrão 1,27. Existe 95% de confiança de que a média está entre o intervalo de 3,89 e 4,61. ISDM para amostra com 100 linhas: É possível observar que a média dos dados é de 4,48 e o desvio padrão 1,04. Existe 95% de confiança de que a média está entre o intervalo de 4,28 e 4,69. 53 ISDM para toda a população (5565 linhas) É possível observar que a média dos dados é de 4,43 e o desvio padrão 1,09. Existe 95% de confiança de que a média está entre o intervalo de 4,40 e 4,46. Boxplot de ISDM para amostras de 50, 100 e população: O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a população total. Existe uma variabilidade dos dados em todas as três variáveis. One-way ANOVA: ISDM; ISDM_50; ISDM_100 Source DF Factor 2 SS MS F P 1,90 0,95 0,79 0,453 Error 5712 6834,27 1,20 Total 5714 6836,17 54 S = 1,094 R-Sq = 0,03% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev --+---------+---------+---------+------- ISDM 5565 4,432 1,093 ISDM_50 (-*) 50 4,255 1,277 (--------------*--------------) ISDM_100 100 4,489 1,046 (---------*----------) --+---------+---------+---------+------4,00 4,20 4,40 4,60 Pooled StDev = 1,094 A análise de variância entre as amostras e a população nos indica que a variação é de 0,79; e o P-Value: 0,453 8.2 VARIÁVEL EMPREGO E RENDA EMPREGO E RENDA para amostra com 50 linhas: É possível observar que a média dos dados é de 4,40 e o desvio padrão 1,44. Existe 95% de confiança de que a média está entre o intervalo de 0,36 e 0,44. 55 EMPREGO E RENDA para amostra com 100 linhas: É possível observar que a média dos dados é de 0,41 e o desvio padrão 0,17. Existe 95% de confiança de que a média está entre o intervalo de 0,38 e 0,45. EMPREGO E RENDA para toda a população (5565 linhas) É possível observar que a média dos dados é de 0,40 e o desvio padrão 0,15. Existe 95% de confiança de que a média está entre o intervalo de 0,39 e 0,40. 56 Boxplot de EMPREGO E RENDA para amostras de 50, 100 e população: O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a população total. Existe uma variabilidade dos dados em todas as três variáveis. One-way ANOVA: Emprego e Renda; Emprego e Renda_50; Emprego e Renda_100 Source DF Factor 2 SS MS F P 0,0240 0,0120 0,50 0,608 Error 5712 138,0660 0,0242 Total 5714 138,0900 S = 0,1555 R-Sq = 0,02% R-Sq(adj) = 0,00% Level N Mean StDev Emprego e Renda 5565 0,4038 0,1552 Emprego e Renda_50 50 0,4039 0,1448 Emprego e Renda_100 100 0,4194 0,1724 Individual 95% CIs For Mean Based on Pooled StDev Level ------+---------+---------+---------+--- Emprego e Renda (-*) Emprego e Renda_50 (-----------------*----------------) Emprego e Renda_100 (-----------*-----------) ------+---------+---------+---------+--- 57 0,375 0,400 0,425 0,450 Pooled StDev = 0,1555 A análise de variância entre as amostras e a população indica que a variação é de 0,50; e o P-Value: 0,608. 8.3 VARIÁVEL EDUCAÇÃO EDUCAÇÃO para amostra com 50 linhas: É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,11. Existe 95% de confiança de que a média está entre o intervalo de 0,71 e 0,78. EDUCAÇÃO para amostra com 100 linhas: 58 É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,10. Existe 95% de confiança de que a média está entre o intervalo de 0,72 e 0,76. EDUCAÇÃO para toda a população (5565 linhas) É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,11. Existe 95% de confiança de que a média está entre o intervalo de 0,73 e 0,74. Boxplot de EDUCAÇÃO para amostras de 50, 100 e população: O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a população total. Existe uma variabilidade dos dados em todas as três variáveis. One-way ANOVA: Educação; Educação_50; Educação_100 Source DF Factor SS MS F P 2 0,0051 0,0026 0,20 0,816 59 Error 5712 72,0111 0,0126 Total 5714 72,0163 S = 0,1123 R-Sq = 0,01% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -+---------+---------+---------+-------- Educação 5565 0,7413 0,1124 Educação_50 (-*-) 50 0,7497 0,1138 (-------------------*------------------) Educação_100 100 0,7453 0,1066 (-------------*-------------) -+---------+---------+---------+-------0,720 0,736 0,752 0,768 Pooled StDev = 0,1123 A análise de variância entre as amostras e a população indica que a variação é de 0,20; e o P-Value: 0,816. 9. ANÁLISE MULTIVARIADA 9.1 Dendograma dos agrupamentos das variáveis por similaridade Dendrogram Single Linkage; Correlation Coefficient Distance Similarity 47,80 65,20 82,60 100,00 DM IS 50 _A aç uc d E 50 _A o ã 50 50 _A _A 4 e _ úd E2 Sa 50 50 50 50 _A _A _A _A 6 z 2 a e _ H nd id T1 qu Re Li e o eg pr Em Variables 50 _A 1 R S 50 _A 1 1_ 60 O dendograma acima permite que sejam visualizadas as variáveis que possuem um percentual de similaridade forte, na faixa de 85% são ISDM, Educação, E2_4, Saúde, H6 e T1_2. As variáveis Emprego e Renda, Liquidez, R1 e S1_1 tem nível de similaridade abaixo de 80%. 9.2 Principais Componentes A análise de componentes principais é uma técnica estatística poderosa que pode ser utilizada para redução do número de variáveis e para fornecer uma visão estatisticamente privilegiada do conjunto de dados. A análise de componentes principais fornece as ferramentas adequadas para identificar as variáveis mais importantes no espaço das componentes principais. Loading Plot of ISDM_A50; ...; Liquidez_A50 Emprego e Renda_A50 0,75 T1_2_A50 Second Component 0,50 0,25 S1_1_A50 R1_A50 ISDM_A50 Educação_A50 0,00 Liquidez_A50 E2_4_A50 Saúde_A50 -0,25 H6_A50 -0,50 -0,4 -0,3 -0,2 -0,1 0,0 0,1 First Component 0,2 0,3 0,4 0,5 É possível observar a existência de três grupos principais, sendo o primeiro composto pelas variáveis ISDM, Educação, E2_4, Saúde, Liquidez e H6. O segundo composto por Emprego e Renda e T1_2 e o terceiro composto por S1_1 e R1. 61 Scree Plot of ISDM_A50; ...; Liquidez_A50 6 5 Eigenvalue 4 3 2 1 0 1 2 3 4 5 6 7 Component Number 8 9 10 É notável um peso superior da primeira variável enquanto as outras variáveis aparecem com bastante distância. As variáveis 2, 3 e 4 podem ser aproveitadas, por apresentarem valores superiores a 1, entretanto as demais variáveis (5 a 10) não serão utilizadas por apresentarem valores inferiores a 1. Principal Component Analysis: ISDM_A50; Emprego e Re; R1_A50; T1_2_A50; H6_A50; Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative 5,5664 0,557 0,557 1,1561 0,116 0,672 Eigenvalue Proportion Cumulative 0,0751 0,008 0,994 0,0563 0,006 1,000 Variable ISDM_A50 Emprego e Renda_A50 R1_A50 T1_2_A50 H6_A50 Educação_A50 E2_4_A50 Saúde_A50 S1_1_A50 Liquidez_A50 Variable ISDM_A50 0,9927 0,099 0,772 0,9407 0,094 0,866 PC1 0,407 0,197 -0,404 0,305 0,335 0,377 0,373 0,348 -0,099 0,124 PC2 0,017 0,719 0,031 0,494 -0,399 -0,030 -0,141 -0,190 0,079 -0,125 PC3 0,039 -0,123 -0,006 0,091 0,006 0,160 -0,022 -0,062 0,925 0,301 PC8 0,134 PC9 0,645 PC10 0,602 0,4112 0,041 0,907 PC4 -0,115 0,097 0,112 0,026 -0,123 -0,050 -0,119 0,080 -0,272 0,923 0,3563 0,036 0,942 PC5 -0,094 0,519 0,011 -0,439 0,282 -0,279 -0,200 0,535 0,208 -0,044 0,2870 0,029 0,971 PC6 -0,103 0,365 0,219 -0,500 0,028 0,427 0,462 -0,399 -0,004 0,056 0,1583 0,016 0,987 PC7 0,049 -0,127 0,227 -0,109 -0,683 0,228 0,229 0,581 0,033 -0,095 62 Emprego e Renda_A50 R1_A50 T1_2_A50 H6_A50 Educação_A50 E2_4_A50 Saúde_A50 S1_1_A50 Liquidez_A50 0,001 -0,222 -0,237 -0,089 0,604 -0,701 -0,035 -0,092 -0,043 0,027 -0,353 -0,370 -0,325 -0,389 0,066 -0,221 0,033 0,104 -0,002 0,742 0,083 0,233 0,020 -0,156 0,001 -0,032 -0,015 Com base nos gráficos trabalhados neste capítulo é perceptível que os dados podem ser reduzidos em 3 variáveis, o que facilita o trabalho por gerarem números mais fáceis e práticos de serem manuseados. 10. ANÁLISE DE CONGLOMERADOS Neste capítulo foram geradas análises comparativas dos dados de ISDM, Educação, Emprego e Renda e Saúde agrupado por Estado, excluindo o Distrito Federal por ter apenas um Município. Também foi calculada a Anova do ISDM com relação a Educação, Emprego e Renda e Saúde por Estado, foram gerados diversos gráficos com as diversas variáveis citadas. Comparando-se os resultados das médias por estado, poderemos agrupar as linhas de dados pelo nível de desigualdade dos fatores de ISDM, Educação, Emprego e Renda e Saúde. 10.1 ANOVA 10.1.1 ANOVA de ISDM por Estado Individual Value Plot of ISDM vs UF2 7 6 ISDM 5 4 3 2 1 0 I J L AC A A M AP BA C E ES GO MA MG MS MT PA PB PE P PR R RN RO RR RS SC S E S P T O UF2 63 O gráfico acima possibilita visualizar que a média do ISDM varia bastante entre os Estados brasileiros. São Paulo é o Estado que apresenta o maior valor de ISDM, passando de 6, enquanto o Amazonas apresenta o menor ISDM, ficando abaixo de 1. One-way ANOVA: ISDM versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 0,5837 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 SS 4757,770 1886,584 6644,353 MS 190,311 0,341 R-Sq = 71,61% Mean 2,8837 3,1996 2,3550 3,4060 3,6024 3,4534 4,9080 4,7989 2,7076 4,9973 4,6714 4,5219 2,9406 3,5758 3,6533 3,0103 5,0427 5,2888 3,7924 4,2359 2,6668 5,1373 5,2241 3,8260 5,6458 3,8761 StDev 1,0103 0,6982 0,7750 0,6679 0,6378 0,5689 0,4716 0,4546 0,7130 0,7056 0,5353 0,5831 0,8605 0,5246 0,6738 0,6091 0,4915 0,3299 0,5833 0,4502 1,2718 0,5099 0,4816 0,5672 0,3415 0,6077 F 558,65 P 0,000 R-Sq(adj) = 71,48% Individual 95% CIs For Mean Based on Pooled StDev --------+---------+---------+---------+(--*-) (*) (-*) (--*--) (*) (* (*) (*) (*) * (-*) (*) (*) (*) (* (*) *) (*) (*) (*-) (--*--) *) *) (*-) *) (*) --------+---------+---------+---------+3,0 4,0 5,0 6,0 Pooled StDev = 0,5837 É possível notar que existe uma variação grande entre as médias de ISDM por Estado, por exemplo o Estado que apresenta a maior média é São Paulo, com 5,6458, e a menor média está no Amazonas, com 2,3550. 64 10.1.2 ANOVA de Emprego e Renda por Estado Individual Value Plot of Emprego e Renda vs UF2 1,0 Emprego e Renda 0,8 0,6 0,4 0,2 0,0 A C AL M A P BA CE ES O A G S T PA PB PE PI PR RJ RN O RR RS SC SE SP O T R G M M M M A UF2 One-way ANOVA: Emprego e Renda versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 0,1380 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 SS 28,6670 105,4184 134,0854 MS 1,1467 0,0190 R-Sq = 21,38% Mean 0,3718 0,3174 0,3027 0,3807 0,3515 0,3189 0,4520 0,4052 0,2890 0,3844 0,4369 0,4284 0,3741 0,3211 0,3862 0,3064 0,4383 0,5317 0,3391 0,3976 0,3471 0,4664 0,4865 0,4251 StDev 0,1183 0,1295 0,1306 0,1789 0,1283 0,1271 0,1380 0,1432 0,1309 0,1394 0,1334 0,1333 0,1506 0,1101 0,1366 0,1167 0,1268 0,1923 0,1088 0,1289 0,1740 0,1344 0,1398 0,1385 F 60,24 P 0,000 R-Sq(adj) = 21,02% Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(------*-------) (---*--) (---*---) (--------*-------) (-*-) (--*-) (--*---) (-*-) (-*-) (*) (---*--) (--*-) (--*--) (-*-) (-*--) (-*--) (-*) (--*---) (-*--) (----*---) (-------*--------) (*-) (-*-) (---*---) 65 SP TO 647 138 0,5220 0,2941 0,1675 0,1188 (*-) (--*--) ------+---------+---------+---------+--0,320 0,400 0,480 0,560 Pooled StDev = 0,1380 É possível notar que existe uma variação grande entre as médias de Emprego e Renda por Estado, por exemplo o Estado que apresenta a maior média é Rio de Janeiro, e a menor média está no Maranhão. 10.1.3 ANOVA de R1 por Estado Individual Value Plot of R1 vs UF2 80 70 60 R1 50 40 30 20 10 0 R S C E P B E I R J S E S P AC A L AM A BA C E GO MA M G M MT PA P P P P R RN RO R R S S S TO UF2 One-way ANOVA: R1 versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 9,218 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 SS 1271842 470592 1742434 MS 50874 85 F 598,69 P 0,000 R-Sq = 72,99% R-Sq(adj) = 72,87% Mean 44,640 46,940 54,113 40,595 40,141 43,530 16,215 13,654 51,013 18,894 15,912 17,655 44,129 39,918 Individual 95% CIs For Mean Based on Pooled StDev -----+---------+---------+---------+---(--*-) (*) (*-) (--*--) (* (*) (-*) (*) (*) (* (-*) (*) (*) (* StDev 14,190 9,556 11,654 11,928 9,530 9,440 6,082 8,626 11,804 11,638 10,111 9,224 13,264 7,867 66 PE PI PR RJ RN RO RR RS SC SE SP TO 185 223 399 92 167 52 15 497 295 75 647 138 40,045 46,309 11,575 12,849 36,007 22,981 49,050 10,267 8,058 39,037 7,620 32,882 10,280 9,314 7,408 3,900 9,428 7,014 16,658 7,277 7,128 9,458 5,362 11,610 (*) (*) (* (-*) (*) (*-) (--*--) (* *) (*) *) (*) -----+---------+---------+---------+---15 30 45 60 Pooled StDev = 9,218 É possível notar que existe uma variação grande entre as médias de R1 por Estado, por exemplo o Estado que apresenta a maior média é Amazonas, e a menor média está no Paraná. 10.1.4 ANOVA de T1_2 por Estado Individual Value Plot of T1_2 vs UF2 100 80 T1_2 60 40 20 0 R S C E P B E I R J S E S P L AC A A M A BA C E GO MA MG M MT PA P P P P R RN RO R R S S S T O UF2 One-way ANOVA: T1_2 versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 12,33 Level AC AL AM AP BA N 22 101 62 16 416 SS 1006966 842312 1849277 MS 40279 152 R-Sq = 54,45% Mean 50,19 49,77 35,33 54,99 40,01 StDev 7,64 14,08 12,83 9,73 13,26 F 264,82 P 0,000 R-Sq(adj) = 54,25% Individual 95% CIs For Mean Based on Pooled StDev ---+---------+---------+---------+-----(---*---) (-*-) (-*--) (----*----) (*) 67 CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 37,16 56,10 56,18 36,49 57,12 64,54 60,35 40,48 40,05 45,25 38,40 66,20 68,34 46,07 58,14 44,92 69,62 76,41 50,01 75,08 50,64 11,67 14,94 11,15 11,32 15,57 10,23 12,39 13,26 11,92 16,19 9,84 10,87 10,48 11,95 9,54 9,94 11,69 10,10 15,84 9,30 10,74 (-*) (--*-) (*) (*-) (* (-*-) (*-) (-*) (*-) (-*) (*) (*) (-*-) (*-) (-*--) (----*-----) (*) (*) (--*-) (* (-*-) ---+---------+---------+---------+-----36 48 60 72 Pooled StDev = 12,33 É possível notar que existe uma variação grande entre as médias de T1_2 por Estado, por exemplo o Estado que apresenta a maior média é Santa Catarina, e a menor média está no Amazonas. 10.1.5 ANOVA de H6 por Estado Individual Value Plot of H6 vs UF2 90 80 70 H6 60 50 40 30 20 10 0 R S C E P B E I R J S E S P L AC A AM A BA C E GO MA M G M MT PA P P P P R RN RO R R S S S TO UF2 One-way ANOVA: H6 versus UF2 Source UF2 Error Total DF 25 5538 5563 SS 690975 331025 1022001 MS 27639 60 F 462,40 P 0,000 68 S = 7,731 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 R-Sq = 67,61% Mean 30,184 40,133 19,822 23,745 52,911 41,671 60,211 63,633 34,569 62,288 51,429 52,526 29,824 45,243 45,797 45,022 62,966 49,396 44,800 55,114 22,784 68,317 69,228 46,745 56,027 47,023 StDev 7,443 5,483 6,180 4,779 8,059 5,658 7,461 7,662 7,084 7,595 8,588 7,705 9,744 6,860 6,212 6,920 6,757 7,565 6,484 7,033 9,665 8,862 7,467 6,646 9,078 9,001 R-Sq(adj) = 67,46% Individual 95% CIs For Mean Based on Pooled StDev --------+---------+---------+---------+(-*-) (*) (*) (--*-) *) (*) (*) *) (*) (* (*) (*) (*) (*) (* (*) (* (*) (*) (-*) (-*--) (* *) (*) *) (*) --------+---------+---------+---------+30 45 60 75 Pooled StDev = 7,731 É possível notar que existe uma variação grande entre as médias de H6 por Estado, por exemplo o Estado que apresenta a maior média é Santa Catarina, e a menor média está no Amazonas. 10.1.6 ANOVA de Educação por Estado Individual Value Plot of Educação vs UF2 1,0 0,9 Educação 0,8 0,7 0,6 0,5 0,4 0,3 R S C E P B E I R J S E S P L A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O UF2 69 One-way ANOVA: Educação versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 0,06468 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 SS 47,07648 23,16814 70,24462 MS 1,88306 0,00418 R-Sq = 67,02% Mean 0,58892 0,60578 0,61479 0,60567 0,59061 0,73541 0,84199 0,76734 0,63245 0,78568 0,72983 0,74137 0,58226 0,65751 0,66662 0,65258 0,78194 0,78439 0,71961 0,69039 0,60517 0,76149 0,81286 0,67580 0,90442 0,69921 StDev 0,08581 0,06785 0,06003 0,03819 0,06767 0,04756 0,05457 0,07622 0,07051 0,06210 0,05297 0,06685 0,07192 0,06866 0,06338 0,07257 0,06330 0,06950 0,07062 0,05534 0,05907 0,07711 0,05324 0,05106 0,05082 0,07383 F 450,12 P 0,000 R-Sq(adj) = 66,87% Individual 95% CIs For Mean Based on Pooled StDev ----+---------+---------+---------+----(--*--) (-*) (*-) (---*--) (*) (* (*-) (*) (*) (* (*) (*) (*) (*) (*) (*) *) (*-) (*) (-*-) (---*--) *) *) (-*) *) (*) ----+---------+---------+---------+----0,60 0,70 0,80 0,90 Pooled StDev = 0,06468 É possível notar que existe uma variação grande entre as médias de Educação por Estado, por exemplo o Estado que apresenta a maior média é São Paulo, e a menor média está no Pará. 10.1.7 ANOVA de E2_4 por Estado 70 Individual Value Plot of E2_4 vs UF2 100 90 E2_4 80 70 60 50 40 B E I R J R S C E P S E S P C L A A A M A BA C E GO MA MG M MT PA P P P P R RN RO R R S S S T O UF2 One-way ANOVA: E2_4 versus UF2 Source UF2 Error Total DF 25 5538 5563 SS 295759,4 143105,0 438864,4 MS 11830,4 25,8 S = 5,083 R-Sq = 67,39% Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO Mean 76,360 77,660 72,401 78,409 75,175 85,207 88,301 90,452 78,635 88,464 86,282 88,632 70,147 77,696 80,436 72,384 91,651 81,614 79,561 86,627 80,692 90,665 92,932 74,245 94,648 85,655 N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 Pooled StDev = 5,083 StDev 9,122 4,711 7,826 4,467 6,578 5,105 4,006 4,038 6,573 4,922 3,973 5,646 8,616 6,056 5,232 7,203 3,396 3,931 5,916 4,629 5,480 4,178 3,463 4,758 2,845 5,362 F 457,82 P 0,000 R-Sq(adj) = 67,24% Individual 95% CIs For Mean Based on Pooled StDev -+---------+---------+---------+-------(--*--) (*) (*-) (---*---) *) (*) (*-) (*) (*) *) (*-) (-*) (*) (*) (*) (*) (*) (-*) (*) (-*-) (--*---) (* (*) (-*-) *) (*-) -+---------+---------+---------+-------70,0 77,0 84,0 91,0 71 É possível notar que existe uma variação grande entre as médias de E2_4 por Estado, por exemplo o Estado que apresenta a maior média é São Paulo, e a menor média está no Pará. 10.1.8 ANOVA de Saúde por Estado Individual Value Plot of Saúde vs UF2 1,0 0,9 Saúde 0,8 0,7 0,6 0,5 0,4 R S C E P B E I R J S E S P L A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O UF2 One-way ANOVA: Saúde versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 0,06738 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 SS 30,89110 25,14300 56,03409 MS 1,23564 0,00454 R-Sq = 55,13% Mean 0,64984 0,71957 0,62033 0,62593 0,68630 0,81269 0,84231 0,83356 0,66166 0,80049 0,82405 0,82897 0,63492 0,77246 StDev 0,06595 0,05788 0,07749 0,05655 0,07114 0,05808 0,05686 0,06867 0,06948 0,08317 0,07894 0,08224 0,06429 0,06596 F 272,16 P 0,000 R-Sq(adj) = 54,93% Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(--*---) (-*-) (--*-) (---*---) (*) (-*) (-*-) (*) (*) (*) (-*-) (-*) (*-) (-*) 72 PE PI PR RJ RN RO RR RS SC SE SP TO 185 223 399 92 167 52 15 497 295 75 647 138 0,75181 0,74471 0,88912 0,82826 0,78813 0,75802 0,68890 0,89180 0,84725 0,75034 0,86731 0,74138 0,05659 0,05934 0,05848 0,06287 0,07119 0,05249 0,07725 0,06212 0,06902 0,07763 0,05239 0,06498 (*) (*) (*) (-*) (-*) (--*-) (---*---) *) (*) (-*-) *) (-*) ------+---------+---------+---------+--0,640 0,720 0,800 0,880 Pooled StDev = 0,06738 É possível notar que existe uma variação grande entre as médias de Saúde por Estado, por exemplo o Estado que apresenta a maior média é Rio Grande do Sul, e a menor média está no Amapá. 10.1.9 ANOVA de S1_1 por Estado Individual Value Plot of S1_1 vs UF2 350 300 250 S1_1 200 150 100 50 0 I J P R S C E P L AC A A M A BA CE ES GO MA MG M S MT PA PB PE P PR R RN RO R R S S S T O UF2 One-way ANOVA: S1_1 versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 14,14 SS 27330 1107561 1134891 MS 1093 200 R-Sq = 2,41% F 5,47 P 0,000 R-Sq(adj) = 1,97% Individual 95% CIs For Mean Based on 73 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 Mean 18,35 16,47 17,56 20,01 17,60 14,92 12,90 12,46 14,86 14,41 16,33 16,04 17,80 14,26 16,43 17,12 12,69 13,59 13,46 15,81 15,15 10,79 11,32 14,22 12,61 18,67 StDev 8,62 8,89 10,58 14,81 10,37 8,84 7,92 16,69 8,27 15,29 10,61 19,72 8,95 13,18 7,81 14,02 11,80 5,91 12,26 10,82 9,69 21,74 13,52 11,01 13,32 22,82 Pooled StDev ----+---------+---------+---------+----(-----------*-----------) (-----*----) (------*------) (-------------*-------------) (--*--) (---*---) (-----*-----) (---*--) (---*--) (-*-) (------*-----) (----*----) (----*---) (---*--) (---*---) (--*---) (-*--) (-----*-----) (---*---) (-------*------) (-------------*--------------) (--*-) (---*--) (-----*------) (-*-) (---*----) ----+---------+---------+---------+----10,0 15,0 20,0 25,0 Pooled StDev = 14,14 É possível notar que existe uma variação grande entre as médias de S1_1 por Estado, por exemplo o Estado que apresenta a maior média é Amapá, e a menor média está em Roraima. 10.1.10 ANOVA de Liquidez por Estado 74 Individual Value Plot of Liquidez vs UF2 1,0 0,8 Liquidez 0,6 0,4 0,2 0,0 B E I R J S R S C E P E S P L A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O UF2 One-way ANOVA: Liquidez versus UF2 Source UF2 Error Total DF 25 5538 5563 S = 0,3354 Level AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO N 22 101 62 16 416 184 78 247 217 852 78 142 142 222 185 223 399 92 167 52 15 497 295 75 647 138 SS 152,292 622,873 775,164 MS 6,092 0,112 R-Sq = 19,65% Mean 0,4904 0,5706 0,6947 0,5427 0,4115 0,3383 0,7489 0,5983 0,3580 0,5086 0,7308 0,7122 0,2884 0,3269 0,2936 0,4299 0,5773 0,7053 0,3165 0,8367 0,4440 0,8415 0,7898 0,5376 0,6150 0,6393 StDev 0,4256 0,3496 0,3481 0,4010 0,3616 0,3004 0,2363 0,3638 0,3701 0,3544 0,3219 0,2917 0,3343 0,3627 0,3350 0,3814 0,3704 0,3185 0,3276 0,2007 0,3233 0,2153 0,2551 0,3429 0,3578 0,3468 F 54,16 P 0,000 R-Sq(adj) = 19,28% Individual 95% CIs For Mean Based on Pooled StDev --------+---------+---------+---------+(------*------) (---*--) (---*---) (-------*-------) (-*) (--*-) (--*---) (-*-) (-*-) (*-) (---*--) (--*-) (-*--) (-*--) (--*-) (-*--) (-*-) (--*---) (--*-) (----*---) (-------*--------) (*-) (*-) (---*---) (-*) (--*--) --------+---------+---------+---------+0,40 0,60 0,80 1,00 75 Pooled StDev = 0,3354 É possível notar que existe uma variação grande entre as médias de Liquidez por Estado, por exemplo o Estado que apresenta a maior média é Rio Grande do Sul, e a menor média está no Pará. 10.2 DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS MÉDIAS Dendrogram Single Linkage; Euclidean Distance Similarity 81,54 87,69 93,85 100,00 S P J S T S P L E I E B E AC A A B A P P RN S P C TO RR PA MA AM E MG GO M M RO R PR R SC S Observations No dendograma acima é possível observar a existência de três grupos principais que no decorrer do presente trabalho, sofrerão algumas alterações e serão classificados como os “três brasis”. Abaixo foi elaborado um mapa com a distribuição brasileira dos estados de forma a melhorar a visualização destes três brasis: 76 O presente capítulo 10 possibilitou a percepção sobre o quanto as análises comparativas dos dados geram um resumo dos dados através de cálculos específicos como médias e desvios padrões, tornando a análise dos dados mais fácil e simples. Os gráficos de Boxplot e Dendograma são excelentes figuras visuais para que se possa analisar e interpretar os diferentes comportamentos dos dados. No dendograma pode-se analisar as similaridades dos dados e no Boxplot pode-se ver as relações entre as médias e as variâncias dos agrupamentos analisados. Trata-se de ferramentas úteis para análise de grandes volumes de dados. 77 11. ANÁLISE DISCRIMINANTE 11.1 DENDOGRAMA DAS REGIÕES BRASILEIRAS Dendrograma das regiões brasileiras Single Linkage; Euclidean Distance Similarity 88,71 92,47 96,24 100,00 I L E S F P S T B E E S J P AC PA P A MA RR A BA P P C RN TO S AM E MG P R R R SC GO M M RO D S Observations 11.2 ANÁLISE DESCRIMINANTE DAS CINCO REGIÕES VERSUS ISDM, EMPREGO E RENDA, EDUCAÇÃO E SAÚDE Discriminant Analysis: Região versus ISDM; Emprego e Re; Educação; Saúde Linear Method for Response: Região Predictors: ISDM; Emprego e Renda; Educação; Saúde Group Count Centro-Oeste 468 Nordeste 1790 Norte 447 Sudeste 1669 Sul 1191 Summary of classification Put into Group Centro-Oeste Nordeste Norte Sudeste Sul Total N N correct Proportion N = 5565 Centro-Oeste 169 34 18 99 148 468 169 0,361 True Group Nordeste Norte 231 67 900 103 603 248 27 27 29 2 1790 447 900 248 0,503 0,555 N Correct = 3177 Sudeste 158 37 78 1137 259 1669 1137 0,681 Sul 179 22 6 261 723 1191 723 0,607 Proportion Correct = 0,571 78 Essa análise permite verificar que a região sudeste apresenta maior numero de acertos, com 1137. Enquanto o Centro-Oeste é a que menos apresenta acertos. A proporção de acerto geral foi de 57%. Com o objetivo de buscar uma proporção de acerto maior e como consequência da quantidade de municípios que aparecem dentro de duas regiões, serão unificadas as regiões Sudeste x Sul (SULD) e Nordeste x Norte (NOR). Discriminant Analysis: 3 Brasis versus ISDM; Emprego e Renda; ... Linear Method for Response: 3 Brasis Predictors: ISDM; Emprego e Renda; Educação; Saúde Group Count Centro-Oeste 468 NOR 2237 SULD 2860 Summary of classification Put into Group Centro-Oeste NOR SULD Total N N correct Proportion True Group Centro-Oeste NOR 267 378 48 1817 153 42 468 2237 267 1817 0,571 0,812 N = 5565 N Correct = 4051 SULD 756 137 1967 2860 1967 0,688 Proportion Correct = 0,728 É possível notar que, ao transformar as cinco regiões brasileiras em 3 regiões brasileiras os índices de proporção melhoram consideravelmente em todos os sentidos. A proporção de acerto agora é de 72,8% e o grupo NOR (Nordeste e Norte) apresenta os maiores números de acerto enquanto o Centro-Oeste continua com o menor numero de acertos, porém com melhora quando comparado com a análise anterior. Discriminant Analysis: 3 Brasis versus ISDM; Emprego e Renda; ... Linear Method for Response: 3 Brasis Predictors: ISDM; Emprego e Renda; Educação; Saúde Group Count Centro-Oeste 468 NOR 2237 SULD 2860 79 Summary of classification Put into Group Centro-Oeste NOR SULD Total N N correct Proportion N = 5565 True Group Centro-Oeste NOR 267 378 48 1817 153 42 468 2237 267 1817 0,571 0,812 SULD 756 137 1967 2860 1967 0,688 N Correct = 4051 Proportion Correct = 0,728 É possível notar que, ao transformar as cinco regiões brasileiras em 3 regiões brasileiras os índices de proporção melhoram consideravelmente em todos os sentidos. A proporção de acerto agora é de 72,8% e o grupo NOR (Nordeste e Norte) apresenta os maiores números de acerto enquanto o Centro-Oeste continua com o menor numero de acertos, porém com melhora quando comparado com a análise anterior. 12. REGRESSÃO LOGÍSTICA A regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, entre outras), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de coloca-las em concorrência para escolha de um melhor modelo para determinado problema que se espera resolver. Ordinal Logistic Regression: Região versus ISDM; Emprego e Renda; ... Link Function: Logit Response Information Variable Região Value Centro-Oeste Nordeste Norte Sudeste Sul Total Count 467 1790 447 1669 1191 5564 Logistic Regression Table Predictor Const(1) Const(2) Const(3) Const(4) ISDM Emprego e Renda Coef -0,0644195 2,34106 2,90253 5,05445 0,797135 0,455133 SE Coef 0,623850 0,625715 0,626086 0,627722 0,0878859 0,206485 Z -0,10 3,74 4,64 8,05 9,07 2,20 P 0,918 0,000 0,000 0,000 0,000 0,028 Odds Ratio 2,22 1,58 95% CI Lower Upper 1,87 1,05 2,64 2,36 80 R1 T1_2 H6 Educação E2_4 Saúde S1_1 Liquidez 0,0508619 -0,0412579 -0,0464636 0,729133 -0,0354774 -0,890918 0,0024425 -0,351718 0,0049953 0,0026332 0,0029750 0,406290 0,0050412 0,389165 0,0018415 0,0721607 10,18 -15,67 -15,62 1,79 -7,04 -2,29 1,33 -4,87 0,000 0,000 0,000 0,073 0,000 0,022 0,185 0,000 1,05 0,96 0,95 2,07 0,97 0,41 1,00 0,70 1,04 0,95 0,95 0,94 0,96 0,19 1,00 0,61 1,06 0,96 0,96 4,60 0,97 0,88 1,01 0,81 Log-Likelihood = -6832,772 Test that all slopes are zero: G = 2654,157, DF = 10, P-Value = 0,000 Goodness-of-Fit Tests Method Pearson Deviance Chi-Square 45499,2 13665,5 DF 22242 22242 P 0,000 1,000 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Number 9009551 2483647 72830 11566028 Percent 77,9 21,5 0,6 100,0 Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 0,56 0,57 0,42 13. ÁRVORES DE CLASSIFICAÇÃO 13.1 Os três brasis Com base na classificação do capítulo 11, foi elaborado o mapa do Brasil com a divisão dos três brasis, com base na similaridade entre os Estados brasileiros: 81 13.2 Árvore de classificação das variáveis: ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 Foram transportados os seguintes dados do Minitab para o software SPSS: Nesta etapa faz-se importante observar que os dados trabalhados se referem a média e o desvio padrão das variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1, com suas classificações por regiões e também uma nova classificação baseada na divisão do Brasil e três regiões principais (“Três_Brasis”). A próxima etapa será elaborar a árvore de classificação no software SPSS com os dados copiados do MiniTab. Serão montadas árvores de classificação para as variáveis “Três_Brasis” e “Região1”, ambos referentes a nova classificação brasileira em 3 divisões: Centro-Oeste, NORD (Nordeste e Norte) e SUD (Sudeste e Sul). 82 13.3 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis Risk Estimate Std. Error ,038 ,038 Growing Method: CHAID Dependent Variable: Três_Brasis Classification Observed Predicted B1 B2 B3 Percent Correct B1 7 0 0 100,0% B2 0 16 0 100,0% B3 1 0 2 66,7% 30,8% 61,5% 7,7% 96,2% Overall Percentage Growing Method: CHAID Dependent Variable: Três_Brasis 83 13.4 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis 84 Risk Estimate Std. Error ,000 ,000 Growing Method: CHAID Dependent Variable: Três_Brasis Classification Observed Predicted B1 B2 B3 Percent Correct B1 7 0 0 100,0% B2 0 16 0 100,0% B3 0 0 3 100,0% 26,9% 61,5% 11,5% 100,0% Overall Percentage Growing Method: CHAID Dependent Variable: Três_Brasis 85 13.5 Árvore de classificação das médias – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região Risk Estimate Std. Error ,115 ,063 Growing Method: CHAID Dependent Variable: Região 86 Classification Observed Predicted Centro-Oeste Nordeste Norte Sudeste Sul Percent Correct Centro-Oeste 3 0 0 0 0 100,0% Nordeste 0 8 1 0 0 88,9% Norte 0 0 7 0 0 100,0% Sudeste 2 0 0 2 0 50,0% Sul 0 0 0 0 3 100,0% 19,2% 30,8% 30,8% 7,7% 11,5% 88,5% Overall Percentage Growing Method: CHAID Dependent Variable: Região 87 13.6 Árvore de classificação dos desvios padrões – Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região 88 Risk Estimate Std. Error ,269 ,087 Growing Method: CHAID Dependent Variable: Região Classification Observed Predicted Centro-Oeste Nordeste Norte Sudeste Sul Percent Correct Centro-Oeste 0 2 0 1 0 0,0% Nordeste 0 9 0 0 0 100,0% Norte 0 3 3 1 0 42,9% Sudeste 0 0 0 4 0 100,0% Sul 0 0 0 0 3 100,0% 0,0% 53,8% 11,5% 23,1% 11,5% 73,1% Overall Percentage Growing Method: CHAID Dependent Variable: Região 89 14. CONSIDERAÇÕES FINAIS No decorrer dos capítulos foram utilizados dois softwares estatísticos: MINITAB e o SPSS. Com esses dois softwares foram aplicadas diversas ferramentas estatísticas para apurar e analisar os dados referentes aos indicadores: ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e renda, Liquidez, R1 e S1_1 dos 5565 municípios que disponibilizaram os dados por suas prefeituras. Os municípios foram agrupados por Estados e regiões e a partir de então obteve-se a média e o desvio padrão relativo aos Estados e regiões para cada uma das variáveis. Este exercício fez-se bastante importante para compreender a importância da estatística para o trabalho quantitativo. A estatística é responsável pelo desenvolvimento cientifico em geral. Para além da sua aplicabilidade nas ciências naturais, na medicina, na agronomia e na economia, a estatística constitui um suporte de cientificidade para as ciências humanas e sociais. É assim que ciências como a sociologia, a psicologia, a história e a pedagogia têm beneficiado de consideráveis desenvolvimentos e de aumento de credibilidade pública com a sua utilização. Para a administração não é diferente, pois a estatística cria possibilidades e facilidades para análise de dados, seja, pelo agrupamento de informações ou pelas tabelas e gráficos que melhoram o entendimento das informações. No presente trabalho essas ferramentas foram utilizadas a fim de entender sobre a maneira como a Educação, Emprego e renda e Saúde funcionam nos Estados brasileiros. Os resultados demonstraram que o Brasil ainda carece bastante e que a desigualdade é um fator de bastante peso, por exemplo quando compara-se o Sudeste com o Nordeste percebe-se uma significante diferença nos dados, seja no sentido da Educação, da Saúde ou do Emprego e da Renda.