PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Programa de Pós-graduação em Geografia – Tratamento da Informação Espacial MODELOS LINEARES HIERÁRQUICOS APLICADOS À GEOGRAFIA: um estudo da avaliação do Ensino Fundamental em Minas Gerais Tânia Fernandes Bogutchi Belo Horizonte 2010 Tânia Fernandes Bogutchi MODELOS LINEARES HIERÁRQUICOS APLICADOS À GEOGRAFIA: um estudo da avaliação do Ensino Fundamental em Minas Gerais Tese de doutorado apresentada ao Programa de Pós-graduação em Geografia – Tratamento da Informação Espacial da Pontifícia Universidade Católica de Minas Gerais, como requisito parcial à obtenção do título de Doutor em Geografia. Orientador: José Irineu Rangel Rigotti Belo Horizonte 2010 FICHA CATALOGRÁFICA Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais B675m Bogutchi, Tânia Fernandes Modelos lineares hierárquicos aplicados à geografia: um estudo da avaliação do ensino fundamental em Minas Gerais / Tânia Fernandes Bogutchi. Belo Horizonte, 2010. 139f.: il. Orientador: José Irineu Rangel Rigotti Tese (Doutorado) – Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Tratamento da Informação Espacial. 1. Modelos lineares (Estatística). 2. Geografia. 3. Análise espacial. 4. Avaliação educacional. I. Rigotti, José Irineu Rangel. II. Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Tratamento da Informação Espacial. III. Título. CDU: 91:519.2 Tânia Fernandes Bogutchi Modelos lineares hierárquicos aplicados à Geografia: um estudo da avaliação do Ensino Fundamental em Minas Gerais Tese de doutorado apresentada ao Programa de Pós-graduação em Geografia – Tratamento da Informação Espacial da Pontifícia Universidade Católica de Minas Gerais. José Irineu Rangel Rigotti (orientador) – CEDEPLAR/UFMG Juliana de Lucena Ruas Riani – Secretaria de Estado de Educação de Minas Gerais) Osvaldo Bueno Amorim Filho – PUC Minas Leônidas Conceição Barroso – PUC Minas Alexandre Magno Alves Diniz – PUC Minas Belo Horizonte, 03 de dezembro de 2010. A Caio, Liz e Davi pela renovação e brilho em minha vida. AGRADECIMENTOS Em primeiro lugar, agradeço a Deus pelo imensurável amor e cuidado com minha vida e saúde e pela liberdade de escolhas. Ao Roberto pelo sempre apoio, cuidado e compreensão. A Boris, Renata, Tatiana e Fernando por acreditarem em mim e me deixarem perceber certo sentimento de orgulho. À minha mãe e à minha avó pelo exemplo de mulheres fortes e com garra pela vida. À Lourdinha, amiga e chefa, pelos cuidados e rearranjos nos horários e pelas substituições que me possibilitaram finalizar essa etapa. Ao colegiado do curso de Ciências Atuariais, Marcelo, Marconi e Onecir, pelo apoio incondicional. À Silvia, amiga e irmã do coração, que me motivou e impulsionou com o “pacto da rolha”. À Ângela por ter cuidado de todos os meus demais afazeres deixando o espaço livre para eu poder estudar e sempre me animando com seu delicioso e cheiroso cafezinho, a “estipa”. Aos amigos, colegas, funcionários da PUC São Gabriel, que sempre me apoiaram e me propiciaram tempo. À Fátima e ao Délio pelos cuidados, carinho e compreensão na gerência e intermediação de todos os incontáveis documentos. E como nesta listagem não existe um único segundo lugar... agradeço ao Irineu, orientador e amigo, que acreditou mais em mim do que eu própria e me possibilitou, com seu amplo conhecimento, cuidado e gentileza, um crescer nessa busca e construção do saber. Impossível deixar de lado meus queridos e amados professores Oswaldo, João Francisco, Leônidas, Alexandre, que descortinaram um mundo novo e muito diferente do que eu tinha conhecimento até então. Aos meus queridos colegas pela companhia e pelo compartilhamento das angústias, sufocos e alegrias dessa caminhada. A todos os demais professores, funcionários, colegas que deixei de listar aqui nominalmente por falhas do decurso do tempo... À equipe do INEP, que tão prontamente liberou os dados e demais informações necessárias para a produção deste trabalho. “Tudo tem o seu tempo determinado, e há tempo para todo propósito debaixo do céu: há tempo de nascer, e tempo de morrer; tempo de plantar, e tempo de arrancar o que plantou; tempo de matar, e tempo de curar; tempo de derribar, e tempo de edificar; tempo de chorar, e tempo de rir; tempo de prantear, e tempo de saltar de alegria; tempo de espalhar pedras, e tempo de ajuntar pedras; tempo de abraçar, e tempo de afastar-se de abraçar; tempo de buscar, e tempo de perder; tempo de guardar, e tempo de deitar fora; tempo de rasgar, e tempo de coser; tempo de estar calado, e tempo de falar; tempo de amar, e tempo de aborrecer; tempo de guerra, e tempo de paz.” Eclesiastes, 3:1-8 RESUMO O presente estudo teve como objetivo principal uma análise dos dados coletados na avaliação da Prova Brasil 2007 e do Saeb 2005 para o Ensino Fundamental promovida pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) por meio do ajuste de um modelo linear hierárquico acrescido de um nível com informação geográfica. Os dados foram recortados para o Estado de Minas Gerais e tinham, em princípio, o objetivo de utilizar os municípios como unidade geográfica. Devido às limitações dos softwares estatísticos, as unidades geográficas utilizadas foram as microrregiões, definidas pelo IBGE, por suas similaridades sociais e econômicas. Além do enfoque de utilização de um modelo estatístico teve-se a intenção de corroborar seus resultados com uma análise de correlação espacial fornecida pelo Índice de Moran e do modelo autorregressivo de defasagem espacial, além da visualização obtida nos mapas. Nesse estudo verificou-se que, mesmo sendo possível ajustar um modelo estatisticamente significante, a informação da análise espacial permite uma abordagem mais profunda, pois mostra a necessidade da busca de outros indicadores, além do econômico, no entendimento das questões educacionais. Palavras-chave: Modelo Linear Hierárquico. Modelo Geográfico. Análise Espacial. Avaliação Educacional. ABSTRACT The present study aimed primarily an analysis of data collected in the evaluation of evidence in the Prova Brazil 2007 and Saeb 2005 for Elementary School sponsored by the Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) by fitting a hierarchical linear model and add a level with a geographic´s information. The data were picking up to the State of Minas Gerais and had, in principle, the objective of use counties as the geographical unit. Due to the limitations of statistical software, the geographic units used were the micro regions defined by the IBGE, for their social and economic similarities. Besides the approach of using a statistical model was intended to corroborate the results of an analysis of spatial correlation provided by the Moran´s I statistic and the spatial autoregressive model and the viewer maps. In this study we observed that even though you can adjust a statistically significant model, the information of spatial analysis provides a deeper, because it shows the need to search for other indicators, besides the economic, to understand educational issues. Keywords: Hierarchical Linear Model. Geographic Model. Spatial Analysis. Educational Evaluation. LISTA DE ILUSTRAÇÕES Gráfico 1: Distribuição das proficiências em Língua Portuguesa e em Matemática dos alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. ......................................... 64 Gráfico 2: Intervalo de 95% de confiança para as médias das proficiências em Língua Portuguesa e em Matemática dos alunos da 8ª série em Minas Gerais no Saeb 2005. ................................................................................................................ 64 Gráfico 3: Intervalo com 95% de confiança para a média da proficiência em Matemática dos alunos da 8ª série por Unidade da Federação no exame do Saeb 2005. ......................................................................................................................... 69 Gráfico 4: Distribuição da proficiência da população de escolares da 4ª e 8ª séries do Ensino Fundamental de Minas Gerais na Prova Brasil 2007. ................................... 72 Gráfico 5: Intervalo de 95% de confiança para a média em Matemática no exame da Prova Brasil 2007 dos alunos da 8ª série para as Unidades Federativas do Brasil. . 75 Gráfico 6: Distribuição da população dos alunos do Estado de Minas Gerais por dependência administrativa das escolas na Prova Brasil 2007. ................................ 76 Gráfico 7: Distribuição da população dos alunos do Estado de Minas Gerais por série e a distribuição por sexo na Prova Brasil 2007. ........................................................ 77 Gráfico 8: Distribuição da população dos alunos do Estado de Minas Gerais por cor da pele por ele considerada na Prova Brasil 2007. ................................................... 77 Gráfico 9: Distribuição da população dos alunos do Estado de Minas Gerais em relação à posse de computador domiciliar na Prova Brasil 2007. ............................. 78 Gráfico 10: Distribuição da população dos alunos do Estado de Minas Gerais de acordo com classe econômica na Prova Brasil 2007. ............................................... 78 Gráfico 11: Áreas empilhadas da população e amostra dos municípios, escolas e alunos da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais, por microrregião na Prova Brasil 2007. ........................................................................... 83 Gráfico 12: Intervalo com 95% de confiança para a média da proficiência em Matemática dos alunos amostrados da 4ª e 8ª séries do Ensino Fundamental por microrregião do Estado de Minas Gerais na Prova Brasil 2007. ............................... 84 Gráfico 13: Tendência linear entre os valores preditos e observados na proficiência em Língua Portuguesa e em Matemática obtidos nos MLH ajustados na amostra dos alunos de Minas Gerais na Prova Brasil 2007........................................................... 93 Gráfico 14: Índice de Moran entre o Ideb dos alunos da 8ª série e o IDH-M 2000 dos municípios de Minas Gerais. ..................................................................................... 94 Gráfico 19: Índice de Moran entre as proficiências em Matemática e Língua Portuguesa dos alunos da 8ª série e o IDHM-200 para os municípios de Minas Gerais. ..................................................................................................................... 101 Gráfico 22: Índice de Moran entre o IDHM-2000 e o nível socioeconômico dos alunos padronizado para os municípios.............................................................................. 104 LISTA DE MAPAS Mapa 1: Distribuição dos clusters e outliers obtidos no LISA para o Ideb (a) e o IDHM 2000 (b) dos municípios de Minas Gerais. ............................................................ 96 Mapa 2: Mapa BiLISA (clusters e outliers) para o Ideb 2007 pelo IDH-M 2000 para os alunos da 8ª série de Minas Gerais. .......................................................................... 97 Mapa 3: Mapa EB LISA. O Evento Ideb 2007 pela Base IDH-M 2000 dos alunos da 8ª série de Minas Gerais. .......................................................................................... 98 Mapa 4: Distribuição por percentis das proficiências em Matemática (a) e Língua Portuguesa (b) dos alunos da 8ª série e o IDHM-2000 para os municípios de Minas Gerais. ..................................................................................................................... 100 Mapa 5: Mapa EB LISA para o Evento proficiência em Língua Portuguesa dos alunos da 8ª série pela Base IDH-M 2000 para os municípios de Minas Gerais. ............... 102 Mapa 6: Mapa EB LISA para o Evento proficiência em Matemática dos alunos da 8ª série pela Base IDH-M 2000 para os municípios de Minas Gerais. ........................ 103 Mapa 7: Mapa BiLISA para a medida do nível socioeconômico dos alunos padronizado entre os municípios e o IDHM-2000. .................................................. 104 Mapa 8: Mapa da distribuição dos clusters com intervalos igualmente espaçados do Ideb 2007 para os municípios de Minas Gerais dos alunos da 8ª série do Ensino Fundamental. .......................................................................................................... 105 LISTA DE TABELAS Tabela 1: Ajuste do modelo linear hierárquico nulo para as proficiências em Língua Portuguesa e Matemática dos alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. ......................................................................................................................... 66 Tabela 2: Ajuste do modelo linear hierárquico final para as proficiências em Língua Portuguesa e Matemática para os alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. ......................................................................................................................... 67 Tabela 3: Ajuste do modelo linear hierárquico nulo, em dois níveis, para as proficiências em Matemática dos alunos da 8ª série para todo o território brasileiro no Saeb 2005. ........................................................................................................... 70 Tabela 4: Ajuste do modelo linear hierárquico nulo, em três níveis, para as proficiências em Matemática dos alunos da 8ª série em todo o território brasileiro no Saeb 2005. ................................................................................................................ 71 Tabela 5: Descrição das proficiências em Língua Portuguesa e em Matemática na escala Saeb(250,50), por série, na população dos escolares de Minas Gerais na Prova Brasil 2007. ..................................................................................................... 74 Tabela 6: Descrição da população dos escolares da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova Brasil 2007. ......................................................................................................................... 79 Tabela 7: Descrição da amostra selecionada dos escolares da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova Brasil 2007. ............................................................................................................... 81 Tabela 8: Resultados do modelo linear hierárquico nulo para a proficiência em Língua Portuguesa dos alunos da amostra de Minas Gerais .................................... 86 Tabela 9: Correlação intraclasse no modelo linear hierárquico nulo para a proficiência em Língua Portuguesa dos alunos amostrados em Minas Gerais. ........ 87 Tabela 10: Resultados do ajuste do modelo linear hierárquico final para a proficiência em Língua Portuguesa dos alunos amostrados de Minas Gerais na Prova Brasil 2007. ......................................................................................................................... 88 Tabela 11: Correlações Intraclasse do modelo linear hierárquico final ajustado, na presença de variáveis explicativas, para proficiência em Língua Portuguesa na amostra de Minas Gerais na Prova Brasil 2007. ....................................................... 89 Tabela 12: Resultados do modelo linear hierárquico nulo para a proficiência em Matemática na amostra dos alunos de Minas Gerais na Prova Brasil 2007. ............ 90 Tabela 13: Correlações intraclasse do modelo linear hierárquico nulo para a proficiência em Matemática dos alunos na amostra de Minas Gerais na Prova Brasil 2007. ......................................................................................................................... 90 Tabela 14: Resultados do modelo linear hierárquico final ajustado na presença de variáveis explicativas para a proficiência em Matemática dos alunos amostrados em Minas Gerais na Prova Brasil 2007. .......................................................................... 91 Tabela 15: Correlações intraclasse do modelo linear hierárquico final ajustado, na presença de variáveis explicativas, para a proficiência em Matemática dos alunos amostrados em Minas Gerais na Prova Brasil 2007. ................................................ 91 Tabela 16: Modelo linear hierárquico final ajustado em dois níveis, na presença de variáveis explicativas, para a proficiência em Matemática dos alunos amostrados em Minas Gerais na Prova Brasil 2007. .......................................................................... 92 LISTA DE QUADROS Quadro 1: Algumas técnicas estatísticas adequadas ao tipo de resposta. ............... 47 Quadro 2: Principais funções de ligação em Modelos Lineares Generalizados. ....... 50 Quadro 3: Exemplos de alguns tipos de modelos lineares generalizados. ............... 51 Quadro 4: Descrição das variáveis utilizadas na modelagem dos dados de Minas Gerais no Saeb 2005. ............................................................................................... 65 Quadro 5: Descrição das variáveis utilizadas na análise dos dados da Prova Brasil 2007. ......................................................................................................................... 85 LISTA DE ABREVIATURAS ABIPEME - Associação Brasileira de Institutos de Pesquisa de Mercado ANEB - Avaliação Nacional da Educação Básica ANEP - Associação Nacional de Empresas de Pesquisa ANRESC - Avaliação Nacional do Rendimento Escolar ESDA - Exploratory Spatial Data Analysis IBGE - Instituto Brasileiro de Geografia e Estatística Ideb - Índice de Desenvolvimento da Educação Básica IDH - Índice de Desenvolvimento Humano IDHM-2000 - Índice de Desenvolvimento Humano para os Municípios em 2000 INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira LISA - Local Indicator of Spatial Association LL - Log-Likelihood MEC - Ministério da Educação MLH - Modelos Lineares Hierárquicos PIB - Produto Interno Bruto PNUD – Programa das Nações Unidas para o Desenvolvimento PROEB - Programa de Avaliação da Rede Pública da Educação Básica Saeb - Sistema de Avaliação do Ensino Básico SIMAVE - Sistema Mineiro de Avaliação da Educação Pública SPSS - Statistical Package for the Social Sciences UEH - Unidade Espacial Homogênea SUMÁRIO 1 INTRODUÇÃO............................................................................................... 18 1.1 Relevância.................................................................................................. 18 1.2 Objetivos gerais......................................................................................... 19 1.3 Objetivos específicos................................................................................ 20 1.4 Organização geral...................................................................................... 20 2 MARCO TEÓRICO......................................................................................... 22 2.1 Geografia Quantitativa.............................................................................. 22 2.2 Modelos geográficos................................................................................. 30 2.3 Modelos Lineares Hierárquicos em dados geográficos.............................. 34 2.4 Avaliação e Indicadores da Educação............................................................ 39 2.5 IDH-M – Índice de Desenvolvimento Humano nos municípios..................... 43 3 MÉTODOS E TÉCNICAS............................................................................... 46 3.1 Modelos Lineares Hierárquicos aplicados à Geografia................................ 46 3.2 Modelos Espaciais..................................................................................... 59 4 ANÁLISE DOS DADOS.................................................................................. 63 4.1 Resultados Saeb 2005........................................................................................ 63 4.2 Resultados Prova Brasil 2007........................................................................... 72 4.2.1 Modelos Lineares Hierárquicos para a proficiência em Língua Portuguesa 86 4.2.2 Modelos Lineares Hierárquicos para a proficiência em Matemática 89 4.2.3 Abordagem Espacial ...................................................................................... 93 5 CONSIDERAÇÕES FINAIS............................................................................ 107 REFERÊNCIAS.................................................................................................. 111 ANEXOS............................................................................................................. 115 18 1 INTRODUÇÃO 1.1 Relevância As políticas e práticas das escolas são medidas nos questionários contextuais da Prova Brasil e Saeb (Sistema de Avaliação do Ensino Básico) elaborados e aplicados pelo INEP – Instituto Nacional de Estudos e Pesquisas Educacionais. Os impactos no desempenho cognitivo e os efeitos de suas desigualdades poderão ser analisados por meio de técnicas estatísticas espaciais tanto na mensuração dos indicadores cognitivos (qualidade) e socioeconômicos (equidade) quanto na estimação e predição desses efeitos para os municípios brasileiros. De acordo com Soares (2004), o desempenho cognitivo do aluno é determinado pelos fatores: estrutura escolar, família e características do próprio aluno. Os exames padronizados em Matemática e Língua Portuguesa realizados pelo INEP geram indicadores cognitivos dos alunos utilizando as técnicas estatísticas da Teoria da Resposta ao Item (TRI) e coletam informações que possibilitam o cálculo do seu nível socioeconômico. A utilização do Modelo Linear Hierárquico (MLH) é possível devido à estrutura de o nosso sistema educacional ser organizada hierarquicamente em alunos, turmas, escolas, municípios, estados. Dessa maneira, as medidas do efeito da escola podem ser ajustadas em pelo menos dois níveis: “dentro das escolas” e “entre as escolas”. Sua vantagem em relação às técnicas clássicas de regressão é que o intercepto e a inclinação são parâmetros aleatórios, ou seja, dependem da influência do nível hierárquico (GOLDSTEIN, 1999). Schwartzman (2005) argumenta que o problema fundamental do ensino básico no Brasil está em buscar, principalmente, a melhoria da qualidade do ensino público, e uma das formas é avaliar o nosso sistema educacional e promover a discussão de algumas políticas públicas mesmo com toda a polêmica que esse tema envolve. Em Os desafios da educação no Brasil, Schwartzman (2005, p.13) afirma que “o ensino básico universal de qualidade é um requisito e uma exigência moral de 19 todas as sociedades modernas, pelo bem da equidade social, dos valores culturais e da funcionalidade econômica”. Atualmente, com a disponibilidade dos dados de boa qualidade coletados pelo INEP, existem muitos estudos com várias abrangências e enfoques que promovem o fornecimento de ferramentas baseadas em evidências. O desenho do Saeb, por ser amostral, poderia trazer alguns vieses, dignos de avaliação em campo. Por outro lado, a aplicação da Prova Brasil possibilita a investigação universal das tendências do aprendizado, bem como da prática dos professores e das escolas e sua direção administrativa. A única desvantagem é que sua aplicação é limitada às escolas públicas. A rede escolar, pública ou privada, aparece como efeito da desigualdade socioeconômica em análises dos dados do Saeb. Essa desigualdade é claramente evidenciada em Soares (2005) na análise dos dados para o ano de 2001 a favor da proficiência na escola privada. Na busca do entendimento das dificuldades dos alunos ao conteúdo ministrado, o fator socioeconômico precisa ser considerado. Existem algumas maneiras para a busca da variável indicadora da situação econômica dos alunos, além daquela do Critério Brasil, utilizado nesse estudo, por ser considerado que nem sempre os alunos estão atentos aos detalhes de vida de seus pais além da difícil dissociação do fator econômico do cultural no Brasil (SOARES, 2005). Os resultados apresentados nos estudos de Soares (2005) com os dados do Saeb 2001 mostram uma explicação de 12,3% na variação dos escores da proficiência em Matemática dos alunos da 8ª série nas escolas amostradas de todo o Brasil, mesmo após o controle das diferenças socioeconômicas entre as diversas escolas e as variações intrínsecas do alunado. Ainda, no estudo de Soares (2005), a recomendação é agir sobre as estruturas das escolas para propiciar melhorias no desempenho dos alunos. Tendo em vista esta breve apresentação do tema, os objetivos são delineados a seguir. 1.2 Objetivos gerais 20 • Explorar conhecimentos multidisciplinares; • Utilizar a técnica de Modelos Lineares Hierárquicos (MLH) como ferramenta de análise espacial; • Estimar os efeitos espaciais nas tendências do aprendizado no Ensino Fundamental brasileiro por meio de MLH; • Explicar o efeito da dimensão espacial sobre o desempenho dos alunos. 1.3 Objetivos específicos • • • Aplicar a técnica estatística de Modelos Lineares Hierárquicos nas escolas dos municípios de Minas Gerais e estimar indicadores dos conhecimentos cognitivos dos alunos, da escola e do município condicionados ao nível socioeconômico; Aplicar os recursos da análise espacial na identificação, comparação e estimação dos efeitos da localização da escola no Ensino Fundamental nos municípios de Minas Gerais; Verificar a aplicabilidade da utilização de Modelos Lineares Hierárquicos em dados geográficos corroborados pelos recursos das técnicas espaciais. 1.4 Organização geral Esse trabalho foi organizado em três partes principais, sendo uma a contextualização do tema; outra contendo a metodologia e técnicas utilizadas; a terceira com análise dos dados. Ao término, as considerações finais. A contextualização considerou um breve traçado do tempo sobre o uso da quantificação na Geografia, o qual não foi nem linear e nem em um exato momento. Essa linha foi sendo construída e recebeu várias incorporações em certos períodos. Em algumas regiões do nosso planeta, foi bem aceita e muito defendida e, em outras, bastante criticada. Apesar de toda a polêmica, em momento algum ela deixou de lado suas preocupações e estudo do homem e do seu meio. Atualmente, 21 ainda existem controvérsias sobre o seu uso, principalmente no Brasil, com as demais linhas da Geografia, mas tem contribuído, juntamente com os avanços tecnológicos, para uma melhoria do entendimento e conhecimento da interação do homem e todas as circunstâncias e consequências de seu entorno, utilizando a evidência de dados quantitativos coletados. Não se pode negar, no entanto, que essa é uma parte de um todo ao qual a Geografia pertence, ou seja, dessa pluralidade da Geografia, apregoada pelo Prof. Oswaldo Amorim (2006). Ainda na primeira parte, elabora-se um breve relato dos conceitos de modelos geográficos e algumas das técnicas estatísticas que foram abordadas pelos geógrafos dessa corrente quantitativa bem como a dos modelos hierárquicos em dados geográficos. Finalizando essa parte, comenta-se o processo de avaliação utilizado e aplicado pelo INEP, assim como os indicadores que ajudam e facilitam esse conhecimento do nosso sistema de ensino. O IDH-M foi apresentado por ser um indicador da qualidade de vida dos municípios os quais fazem parte do objeto de estudo nesse trabalho. Na segunda parte foram apresentadas as técnicas utilizadas na análise de dados, a de modelos lineares hierárquicos ou multiníveis e as de modelos espaciais, buscando, dessa maneira, o embasamento matemático e geográfico espacial desse trabalho. Ao final estão apresentados os resultados das análises elaboradas nos microdados obtidos do INEP da Prova Brasil 2007 e do Saeb 2005. Os dados foram recortados para o Estado de Minas Gerais, para esse momento do trabalho. A análise foi baseada em uma pequena descrição dos dados, ajustes dos modelos lineares hierárquicos e a utilização de indicadores espaciais bem como de alguns cartogramas. Nas considerações finais, chama-se a atenção para os principais aspectos da análise dos dados e seus resultados foram comparados com alguns outros estudos feitos anteriormente, considerando, principalmente, a realidade brasileira. 22 2 MARCO TEÓRICO 2.1 Geografia Quantitativa Christofoletti (1982) aborda o desenvolvimento do pensamento geográfico na seguinte sequência: fase tradicional (antes de 1950); Nova Geografia, Geografia Humanística, Geografia Idealística, Geografia Radical e Geografia TêmporoEspacial. Na fase tradicional, antes do século XVII, as informações geográficas eram baseadas em relatos de viagens de descobrimentos e continham um misto de idéias fantasiosas e místicas (MARTIN, 2005). No século XVII, René Descartes (1596-1650), publica seu Discurso sobre o Método, 1637, no qual incluía estudos sobre Geometria, os quais tiveram importância para o desenvolvimento da ciência (DEBUS, 1996). A invenção do cálculo, publicado em 1677 por Isaac Newton (1643-1727) e Gottfried Wilhelm Leibnitz (1646-1716), de forma independente, propiciou o uso de procedimentos matemáticos tornando a comunicação dos relatos em uma linguagem mais universal por meio da utilização de levantamento de hipóteses, testes da teoria e comunicação dos resultados. Os estudos buscavam a substituição da geografia descritiva tradicional por uma geografia explicativa evidenciada em leis1 (MARTIN, 2005). No século XVIII houve o fortalecimento da cartografia a partir do desenvolvimento das imagens por fotografia, o que permitiu uma reprodução mais precisa. Cartógrafos de destaque dessa época foram Adolf Stieler (1775-1836), que publicou 75 mapas do mundo em 1831, e Heinrich Bergahus (1797-1884), que utilizou muitas informações de Humboldt para publicar um atlas em 1837-48 (revisto em 1849-52), com uma grande variedade de mapas temáticos apresentados em Martin (2005). Para promover a institucionalização de informações precisas de regiões que recebiam, principalmente, missionários, colonizadores e homens de 1 Baseadas na obra “Espírito das Leis” de Charles de Montesquieu (1689-1755), sobre teoria política, publicada em 1748 e que tratava das leis no sentido amplo: da natureza, das instituições, das relações humanas, dentre outras, inspirou a Declaração dos Direitos do Homem e do Cidadão, elaborada em 1789 durante a Revolução Francesa. 23 negócios e assegurar a difusão de relatos de viagens e a promoção do conhecimento, foram criadas as Sociedades de Geografia, sendo a primeira, Societé de Géographie, fundada em Paris em 1821 e a Royal Geographical Society em 1830 (CLAVAL, 2006). Os geógrafos de maior influência no desenvolvimento da Geografia no final do século XIX e na primeira metade do século XX foram Alfred Hettner (1859-1928), na Alemanha, e Paul Vidal de La Blache (1845-1918), na França (CHRISTOFOLETTI, 1982). Paul Vidal de La Blache é considerado o idealizador da nova Geografia Universal e se dedica cada vez mais a ela a partir de 1880, período em que publica o Tableau de la Géographie de la France, a partir do qual a geografia francesa afirmase no cenário internacional com as noções primordiais de Vidal: paisagem, conexão e região (AMORIM-FILHO, 1988). De 1890 a 1950 a Geografia assume o papel de ciência natural das paisagens e das sociedades e no estudo dos fenômenos físicos tendo presença garantida como departamento nas universidades. O primeiro Departamento de Geografia, nos Estados Unidos, foi da Universidade de Chicago, sendo também o primeiro a ofertar, em 1903, estudos avançados num programa de doutorado, estabelecendo rigorosos procedimentos para a coleta de dados, instrumentos de análise e busca de explicações para as distribuições funcionais observadas. Os trabalhos de geografia política e econômica tiveram condições amplas e favoráveis nessa escola, pois propiciaram as publicações de Richard Hartshorne (1899-1992) bem como suas orientações, principalmente as de seu artigo em 1939 com a exposição do espaço absoluto, favoreceram a eclosão de uma nova geografia nos anos 50 do século XX. O maior crítico dessa imagem da geografia idiográfica propagada por Hartshorne foi Fred Kurt Schaefer (1904-1953), economista e geógrafo, professor na Universidade do Iowa. Em seu artigo “Excepcionalismos na Geografia”, publicado postumamente em 1953, Schaefer focou uma geografia nomotética, a qual agilizou os estudos regionais e as possibilidades de quantificação em que o espaço é tratado como conceito-chave. A geografia econômica teve maior familiaridade com os números, devido a uma longa tradição na utilização da estatística, apesar de nessa época o estatístico tradicional ter como tarefa fazer os inventários da produção, dos recursos e das atividades de cada Estado. De 1860 a 1895 houve necessidade de estudos mais aprofundados nas análises da movimentação e transporte das matérias-primas, das fontes de energia, dos gêneros alimentícios e dos produtos fabricados 24 negociados e permutados em toda a esfera internacional (JOHNSTON, 2004; MARTIN, 2005; CLAVAL, 2006). Nesse período, a geografia econômica é praticada por profissionais com formações variadas e que buscam seus conceitos na agronomia, na geologia, nos especialistas em economia marítima e dos portos e em outros formatos de seus concorrentes, mas ignora a economia espacial. O primeiro a se preocupar com os estudos espaciais foi Walter Christaller (1893-1969) com a teoria dos lugares centrais (1933) e com o esclarecimento da localização nas atividades de serviços. Ele era judeu-alemão radicado nos Estados Unidos e sua obra só teve repercussão na Alemanha vinte anos depois devido à guerra e ao nazismo (MARTIN, 2005; CLAVAL, 2006). A partir de 1950, a renovação da geografia é proveniente das universidades dos Estados Unidos, da Grã-Bretanha e, em menor escala, do Norte da Europa. Os alunos dessas universidades promoviam debates e discussões sobre a evolução das disciplinas modificando o estilo de espera silenciosa das transformações. Nesse período surge o teórico Thomas Kuhn (1922-1996), que apregoava que na ciência sucediam-se períodos de “ciência normal” e “revoluções científicas”, tendo como estrutura os conceitos de paradigma (CLAVAL, 2006). Amorim-Filho (2006, p.56) diz que essa interpretação foi considerada como ingênua, reducionista e pode ter causado “uma visão inadequada da própria história do pensamento geográfico”, além de essa ideia de sucessão paradigmática ter sido muito criticada pelos epistemologistas, inclusive pelo próprio Kuhn. Por outro lado, a evolução histórica da atividade geográfica mostrou uma atitude fenomenológica por trás dessa sucessão de paradigmas de Kuhn, os quais na realidade são uma série de temas que não substituem uns aos outros, mas apenas mudam de posição hierárquica e se acumulam e coexistem (AMORIM-FILHO, 2000). No texto de Christofoletti (1982), a Nova Geografia fez com que essa ciência retomasse e fizesse uso consciente da metodologia científica, mas também fez com que os geógrafos tomassem ciência das muitas dificuldades que essa metodologia trouxe para a resolução de seus problemas, consistindo, portanto, num grande desafio para suas soluções. Na Geografia Humana, por exemplo, é grande a dificuldade para o estabelecimento de leis para as atividades humanas, e isso faria dela disciplina menos científica? Leonard Guelke, em seus escritos desde 1971, vem apresentando a distinção entre as ciências formuladoras de leis, como a Física e a 25 Química, e as ciências consumidoras de leis, como a Geologia e a Geografia. De acordo com o artigo de Christofoletti (1982) algumas metas básicas no panorama da busca da Geografia em seu enquadramento científico que deveriam ser abordadas: a) Maior rigor na aplicação de metodologia científica – baseada na filosofia do positivismo lógico, a metodologia científica é um conjunto de procedimentos aplicáveis na execução de pesquisas científicas. Esses procedimentos são os mesmos para todas as ciências, dessa maneira há métodos científicos para a pesquisa geográfica, mas não métodos geográficos de pesquisa. O objeto de estudo que ficou a cargo da Geografia foi o da organização espacial. A Nova Geografia, ao considerar a metodologia científica como paradigma para a pesquisa científica, enfatiza a necessidade de rigor nos enunciados e na verificação das hipóteses e das formulações para os fenômenos geográficos. Ela cria uma simetria entre o passado e o futuro, por meio de discursos dedutivo-nomológicos, nas explicações do existente e do acontecido com base nas teorias e nas leis capazes de propor predições. Os geógrafos passam a se interessar pela filosofia da ciência com o objetivo de melhor conhecer os aspectos e as questões relacionadas com a metodologia; b) Desenvolvimento de teorias – a Nova Geografia procurou estimular o desenvolvimento de teorias relacionadas com as características de distribuição e arranjo espaciais dos fenômenos. Os geógrafos passaram a utilizar teorias disponíveis de outras ciências, tais como as econômicas, relacionadas com a distribuição, localização e hierarquia de eventos, como as teorias de Walter Christaller (1893-1969), Johann Heinrich von Thünen (17831850), August Lösch (1906-1945) e Alfred Weber (1868-1958); c) Uso de técnicas estatísticas e matemáticas – o uso dessas técnicas para analisar os dados coletados e as distribuições dos fenômenos foi uma das principais características salientadas na Nova Geografia, sendo, por isso, chamada por muitos de Geografia Quantitativa; d) Abordagem sistêmica – serve ao geógrafo como instrumento conceitual que lhe facilita tratar dos conjuntos complexos, como os da organização espacial, a qual dinamizou o desenvolvimento da Nova Geografia. Por 26 exemplo, a introdução do conceito de geossistema, pelos geógrafos soviéticos, permitiu recompor e revitalizar o campo da Geografia Física; e) Uso de modelos – o desenvolvimento do uso e da construção de modelos está relacionado com a verificação das teorias, com a quantificação e com a abordagem sistêmica. A construção de modelos pode ser considerada como uma estruturação de como se pensa o funcionamento de um sistema, a fim de torná-lo compreensível e expresso em termos das relações de seus diversos componentes. Para o geógrafo, o uso dos modelos é um meio para melhor atingir a compreensão da realidade. Essa inovação geográfica tornou-se o foco do Departamento da Universidade de Washington, em Seattle, após ter atraído bolsistas brilhantes dos Estados Unidos e do Reino Unido. Um professor do departamento, Edward L. Ullman (1912-1976), era especialista da geografia dos transportes, das migrações e dos fluxos e valoriza o espaço como conceito-chave em 1954 seguindo Schaeffer. A economia espacial tornou-se mais acessível após as publicações de Edgar M. Hoover (1948) e de Walter Isard (1955) nos Estados Unidos, J Wreford Watson (1955) na Inglaterra e de Claude Ponsard (1955; 1958) na França. Isard traça a união entre os economistas, os urbanistas e os geógrafos com sua ciência regional e, a partir daí, estes descobrem a importância e a aplicabilidade dos modelos clássicos de localização: o de von Tünen, de 1826 a1851, para as atividades agrícolas, o de Weber, de 1868 a 1958, para a indústria, o de Losch, de 1938 a 1940, e de Christaller de 1933, para as atividades terciárias. A teoria da localização fascina os geógrafos (MARTIN, 2005; CLAVAL, 2006; PEET, 1977). Na Escandinávia, Torsten Hägerstrand (1916-2004) trabalha desde o início da década de 50 com um modelo de difusão de inovações, tratando-a como um processo espacial em seu artigo de 1967. Esse modelo não encontra justificativa teórica na economia espacial. Ele introduziu a simulação da difusão para a geografia, particularmente o conceito de ondas ou difusão contagiosa, a qual originalmente foi aplicada nas inovações da agricultura, mas que também foi estendida para incluir outros fenômenos geográficos. Hägerstrand foi um dos geógrafos quantitativos que movimentou e enfatizou a importância do comportamento individual na Geografia. Desenvolveu a ideia de “tempo geográfico”, que atraiu um grande número de geógrafos da Suécia e de outros lugares, e sua 27 formulação teórica o inscreveu na nova geografia com os modelos “têmporoespaciais” (HUBBARD, 2004). Na Geografia da década de 60 houve maior desenvolvimento da corrente denominada por alguns como teorético-quantitativa, com ênfase nos aspectos teóricos e na quantificação dos fenômenos e processos estudados. Por outro lado, Amorim-Filho (2000) faz uma síntese dos principais tipos de espaços estudados ao longo da trajetória da atividade geográfica e conclui que a partir dos anos sessenta a fenomenologia na Geografia fica explicitada no estudo dos espaços vividos e valorizados, sendo esse o tema fundamental da corrente da geografia humanística. Os geógrafos humanistas tomaram consciência das muitas incompatibilidades que os separavam dessa nova geografia, quantitativa e teorética, sendo suas críticas mais comuns: adoção de um neopositivismo cientificista e reducionista; uso excessivo e praticamente exclusivo de técnicas quantitativas; utilização de teoria sofisticada, mas sem bases epistemológicas; objetos de pesquisa excessivamente racionalista de homem, o “homem econômico” (AMORIM-FILHO, 2000). De qualquer maneira, a economia espacial orientou a pesquisa geográfica em duas direções: (1) aprofundamento dos modelos teóricos concebidos pelos economistas – seguida na França por Claval (1963, 1968) e nos Estados Unidos por William Bunge (1966), o qual afirmava ser a Geografia uma ciência espacial; (2) experimentação sistemática dos modelos – seguida pelos pesquisadores de Seatle: Brian L. Berry, John D. Nysteuen, Richard L. Morrill, Michael Dacey, William Garrison. Essa segunda orientação utilizava as técnicas da análise fatorial, a teoria dos subconjuntos de transição ou a teoria dos grafos na formulação e validação dos modelos clássicos. Nos Estados Unidos essa mudança apresentou-se como uma revolução quantitativa, na citação de Claval (2006). Nos Estados Unidos surge, a partir de 1960, uma nova geração de metodologistas, a qual inclui John Cole, Richard Chorley, Stanley Gregory, Peter Hagget, Ronald Johnson e David Harvey. Esses geógrafos proporcionaram uma mudança na disciplina, de descritiva regional para uma aproximação teórica e espacial. Essa foi uma transformação quantitativa dos conceitos geográficos os quais eram frequentemente expressos em termos matemáticos ou estatísticos. Esse grupo faz parte da Universidade de Michigan, da Universidade Estadual de Michigan e da Universidade Estadual de Wayne. Nesse período, as disciplinas de estatística e de métodos quantitativos começaram a fazer parte dos currículos dos cursos de 28 graduação e foi uma das transformações revolucionárias da geografia durante a primeira metade do século XX. A cisão entre a velha e a nova geografia foi devida mais por questões pessoais entre os jovens e os velhos geógrafos em detrimento dos estudos geográficos (MARTIN, 2005). David Harvey, em 1969, interpreta como neo-positivista sistemático o desenvolvimento ocorrido nos últimos 10 anos, funda a Sociedade para a Investigação Humana, e tem-se, assim, os dias iniciais de uma Geografia Radical. Essa corrente geográfica deu uma guinada para o marxismo , na depressão dos anos 70 nos Estados Unidos ( PEET, 1977). Do ponto de vista da chamada “segunda quantificação” da Geografia, da qual as técnicas do geoprocessamento são parte integrante, observa-se a introdução dos modelos matemáticos, principalmente os estatísticos. Os dados geográficos procuraram um gerenciamento das incertezas e a busca de padrões de tendências. Por outro lado, apesar de as abordagens estatísticas convencionais serem úteis nos tratamentos dos dados, a sua natureza e pressupostos nem sempre possibilitam considerar o espaço geográfico, entendido como o contexto do lugar da proveniência dos dados por possibilitar uma análise numérica. Esse fato tem gerado desconforto em alguns geógrafos e transformado em debate essa abordagem quantitativa. Sob direção geral de Roger Brunet (1931- ) e Olivier Dollfus (1931-2005), foi formada uma grande equipe para projetar, desenvolver e publicar uma nova Geografia Universal em 1989. Essa nova Geografia apresenta-se como uma necessidade, além das informações atualizadas, de um quadro de referência espacial para compreensão dos sistemas e processos mundiais, e um de armazenamento de dados que chegam dos vários canais de comunicação. Um quadro de referência como esse fornecido pela Geografia é uma das condições de liberdade de nosso tempo (AMORIM-FILHO, 1988). O geoprocessamento utiliza em suas análises a incorporação dos métodos estatísticos convencionais, ou seja, acrescenta a elas o espaço, as informações geográficas do local e de sua vizinhança. Dessa maneira, a estatística espacial passa a ter uma importante utilização nos estudos geográficos. A pergunta que perdura é: somente o acréscimo da localização geográfica a torna um espaço geográfico? Certamente que a estatística espacial por si só não responde essa questão, pois ao agregar as informações ela deixa de lado o contexto das observações prejudicando assim a Geografia. Qual prática utilizar então? Talvez 29 uma minimização desse problema esteja em associar os métodos de análise produzidos pelas técnicas do GIS aos da análise qualitativa do local em estudo. Christofoletti (1982) comenta que as técnicas estatísticas, simples ou multivariadas, formaram um conjunto de ferramentas no auxílio aos geógrafos, entretanto, por mais sofisticadas que estas técnicas sejam elas não garantem o fazer Geografia. Não basta apenas a coleta de dados e informações analisadas no computador, sem que se tenha a noção clara do problema a pesquisar e da disposição de arsenal teórico e conceitual que lhe permita interpretar os resultados adequadamente. Sem esses quesitos, o geógrafo estará fazendo um trabalho mecânico, mas nunca um trabalho geográfico. Apesar de muitos trabalhos geográficos serem exemplificados pelo mau uso ou pela escolha inadequada dessas técnicas, não se deve confundir a deficiência do geógrafo com a incapacidade de uma Geografia que faz uso da quantificação. Por outro lado, Pickles2 (1985) afirma que a tarefa do geógrafo é descrever e tematizar a “experiência geográfica” que consiste no compartilhamento com as outras ciências as experiências do cotidiano e cita, Lowenthal (1961,p.242) “qualquer pessoa que observa o mundo em torno de si, é, numa certa medida, um geógrafo”. Também, Amorim-Filho (2006) cita a opinião do presidente da Societé des Explorateurs Français, Patrice Franceschi, numa matéria publicada no L´Éxpress de 14/08/2003, sobre a morte do espírito de aventura, pela perda de quatro qualidades dos geógrafos e demais exploradores/viajantes de outrora: (1) capacidade de correr risco; (2) necessidade de liberdade; (3) anticonformismo; (4) desejo de explorar e conhecer novas realidades. Amorim-Filho (2006, p.45) conclui que “a idéia que permanece é aquela da extraordinária pluralidade e do alcance imenso desta atividade intelectual que escolhemos”. Dessa maneira, para um bom entendimento da geografia quantitativa torna-se necessário entender os modelos matemáticos do ponto de vista de um geógrafo, ou seja, os modelos geográficos. 2 Texto traduzido pelo Prof. Oswaldo Bueno Amorim Filho e utilizado em sala de aula em 2006. 30 2.2 Modelos geográficos Chorley & Haggett (1967), ao escreverem o artigo de introdução do livro3 que organizaram, tomaram posição sobre o que considerariam modelo em Geografia. Segundo algumas das definições, um modelo pode ser uma teoria, uma lei, uma hipótese ou uma ideia estruturada. Um modelo do ponto de vista geográfico deve incluir argumentos em relação ao mundo real (espaço) ou em relação ao tempo (história). A característica fundamental num modelo geográfico é que em sua estrutura ou lógica a realidade é explorada em termos de relações e, por outro lado, sua construção implica em informações seletivas que objetivam eliminar detalhes acidentais e ou interferências para possibilitar uma maior proximidade e intimidade com o objeto em estudo. Dessa maneira, um modelo tem uma natureza sugestiva, ou seja, induz a intuição para suas possibilidades e suas implicações, pois, quando ele é bem sucedido e aceito, usualmente contém informações que sugerem sua própria extensão e generalização. Os modelos são analogias do mundo real e os geógrafos construtores precisam estimar o valor de um modelo por meio da reaplicação do mesmo ao mundo real (CHORLEY; HAGGETT, 1967). De acordo com o texto de Chorley & Hagget (1967), os modelos geográficos podem ser caracterizados por suas funções e tipos. As funções principais de um modelo geográfico são: a) Psicológica – permite que o fenômeno possa ser visualizado e compreendido; b) Aquisitiva – a informação deve ser definida, coletada e ordenada; c) Fertilidade – retirada máxima de informações dos dados, por exemplo, modelos estatísticos; 3 d) Lógica – auxiliar na explicação da ocorrência do fenômeno; e) Normativa – comparação de um fenômeno com outro mais familiar; f) Sistemática – realidade sob o ponto de vista de sistemas interligados; g) Construtiva – forma degraus para construção de teorias e leis; Modelos Integrados em Geografia. 31 h) Parentesco – promove comunicação das ideias científicas. Os tipos principais de construção de um modelo geográfico são: a) Descritivo – trata de certa descrição estilística da realidade e pode ser: • Estático – concentração nos aspectos de equilíbrio estrutural. Quando um modelo trata da organização de informações empíricas ele é denominado de modelo de dados, taxionômico (classificatório) ou de fim experimental; • Dinâmico – concentração nos processos e funções através do tempo. Quando um modelo descritivo é função do tempo ele é usualmente denominado de modelo histórico. • Normativo – trata do que é esperado ocorrer sob certas condições estabelecidas. Usualmente faz uso de uma situação mais familiar como modelo para outra menos familiar no tempo (histórico) e/ou no espaço (espacial). Tem forte conotação preditiva. b) Construtivo – classificado de acordo com sua constituição: • Sólidos, físicos ou experimentais – as propriedades do mundo real são autorrepresentadas considerando apenas uma mudança de escala (icônicos) ou as propriedades podem ser representadas por propriedades diferentes (análogos, por simulação). • Teóricos, simbólicos, conceituais ou mentais – afirmações simbólicas ou formais de um tipo verbal ou matemático em termos lógicos. Os do tipo matemático podem ter previsão determinística ou estocástica (com probabilidade em função do tempo). c) Sistemático – definido com base no interesse relativo nas variáveis de entrada e de saída, internas de status, do construtor do modelo. A ordem de interesse decrescente nas variáveis de status classifica os modelos em sistemas sintéticos, sistemas parciais e caixas escuras. d) Internalizado – escala e ponto de vista que fornecem uma visão muito estreita da realidade. e) Paradigmas – modelos com escala ampla e ponto de vista importante e de valor para uma ampla comunidade de estudiosos. Raramente são 32 formulados de maneira específica e tratam de modelos que buscam o mundo real em vez de seu próprio mundo. Por natureza, são altamente restritivos. Na época de Chorley e Haggett, os dados geográficos eram analisados no formato matricial, conhecido como “matriz de dados geográficos”. Nos vetores coluna eram colocadas todas as informações do elemento: temperatura, altitude densidade de população, etc., e nos vetores linha as informações do mesmo elemento, mas com variação da localização – padrão sistemático da geografia. Os estudos desses dados eram feitos por meio de uma série engenhosa de comparações em linhas e colunas e recebiam, ainda, a adição de uma terceira dimensão: o tempo. Brian Berry4 fazia a maior parte do estudo geográfico convencional em dez operações básicas na matriz. Por exemplo, a diferenciação em área era feita por meio da comparação entre os vetores-coluna e a covariação espacial por comparações dos vetores-linha (CHORLEY; HAGGETT, 1967). Levando em consideração os recursos computacionais daquela época (1960/1970), era de se esperar grandes dificuldades na manipulação das informações coletadas, quer seja pelo volume de coleta, provocando uma explosão de dados, quer seja pelas necessidades de atualizações das informações, minando a análise, pois os dados geográficos são usualmente de natureza dinâmica. Os participantes da “revolução quantitativa” da Geografia dos anos 60 tinham grande esperança nas análises que seriam possíveis com a revolução tecnológica que se iniciava. Apesar das dificuldades que enfrentavam, Chorley & Hagget (1967) listam uma série de técnicas de redução do tamanho e da complexidade das matrizes de dados bem como das análises possíveis pelos programas de pesquisas que eram feitas naquela época5: a) Análise dos fatores, análise de agrupamento e técnicas multivariadas correspondentes – relatadas em Kruembein e Graybill. In: Chorley, R. J.; Haggett, P. Modelos Integrados em Geografia. Vol II, Cap. 5, 1965. b) WHIRLPOOL – Programa de regressão linear sequencial múltipla que facilitava a seleção de fatores significativos nas séries de elementos da matriz 4 Brian Berry (1934- ), inglês erradicado nos Estados Unidos, foi um dos mais importantes geógrafos humanistas e era contemporâneo de Peter Haggett e David Harvey, os quais faziam parte do grupo que iniciou e participou ativamente da “revolução quantitativa” dos anos 60 e 70 (HUBBARD, 2004). 5 As referências citadas em cada item fazem parte do artigo original de Chorley & Hagget publicado na introdução do livro Modelos Integrados em Geografia de 1967. 33 – relatadas por Krumbein, W. C.; Benson, B.; Hempkins, W.B. WHIRLPOOL: a computer programme dor ‘sorting out’ independent variables by seqüencial multiple linear regression. Office od Naval Research, Geography Branch, Technical Report 14, Task no. 389-135, 1964. c) Análise de fatores; Análises D2 e análises discriminantes – para “otimizar” as divisões regionais; “desdobrar” o número de vetores regionais em números menores ou mais convenientes em consistência de informações – relatadas por Berry, B. J. L. A method for deriving multifactor unifrom regions. Przeglad Geograficzny, 33, 263-282, 1961; por Steiner, D. A multivariate statistical approach to climatic regionalization and classification. Tijdshrif van het Koninklijk Nederlandsh Aadrijkskunidg Genootschap, 82, 329347, 1965; e por Haggett, P. Locational Analysis in Human Geography. London, 1965. d) Desdobramentos do mapa de isarítmas6 detalhando numa série de tendências regionais. e) Polinômios Ortogonais para armazenar vastas quantidades de informações da superfície isarítma ondulada em poucas equações básicas – relatadas por Chorley, R. J.; Haggett, P. Trend-surface mapping in geographical research. Transactions of the Institute of British Geographers, nº 37, 47-67, 1965. f) Mapeamento numérico e rápido arranjo de mapas – relatados por Tobler, W. Numeric map generalization. Michigan Inter-University Community of Mathematics Geographers, Discussion paper, 8, 1966. Esse último, Waldo Tobler, nasceu em 1930, filho de pais suíços; teve seu PhD em 1961 com a tese intitulada “Map transformations of geographic space”. Fez parte do grupo que incluía Brian Berry, Richard Morrill, Duane Marble, John Nystuen, Michael Dacey e William Bunge, adeptos da “revolução quantitativa” da geografia. Foi professor da Universidade de Michigan de 1961 a 1977 e depois foi para a Universidade da Califórnia, em Santa Bárbara, até os dias de hoje. Em 2002, ele se referiu à época da “revolução quantitativa” como “um momento muito excitante” apesar de nesse período ter desenvolvido mais modelos e teorias que trabalhos 6 Isarítmas ou isolinhas são linhas de igual valor, ou seja, o lugar geométrico dos pontos em que uma determinada variável ou fenômeno assume um único valor. Apostila de Cartografia do IBGE. 34 numéricos propriamente ditos. É de sua autoria o que chamou, em 1970 (informação verbal)7, de a 1ª Lei da Geografia: “Os fatos geográficos são relacionados, mas os mais próximos estão mais relacionados que os mais distantes”. Foi pioneiro na utilização do computador em cartografia, desenvolveu a representação geográfica de espaço-contínuo, além de ter interesse em modelagem de fluxos migratórios e em geografia quantitativa de maneira geral (HUBBARD, 2004). Os métodos estatísticos têm muito a oferecer aos modelos geográficos por sua inigualável particularidade em trabalhar com a variabilidade das informações, o que naturalmente não os reduziria a simples equações matemáticas. Certamente não são todas as técnicas estatísticas que irão possibilitar essa abordagem, mas a introdução de modelos multiníveis será útil por produzir análise de dados com hierarquias, ou aninhados, fato que é natural nos dados geográficos. 2.3 Modelos Lineares Hierárquicos em dados geográficos Estruturas hierárquicas de dados são caracterizadas pela presença de unidades experimentais agrupadas em outras unidades maiores, em que as fontes de variabilidade se encontram aninhadas. Para avaliar dados desta natureza podem ser utilizados os modelos lineares hierárquicos (MLH), que constituem uma nova formulação para os modelos de efeitos aleatórios permitindo especificar cada um dos níveis de hierarquia separadamente e incorporar efeitos aleatórios associados a cada um desses níveis. Os MLH são adequados à análise de dados educacionais que possuem uma evidente estrutura hierárquica e, portanto, são correlacionados: os alunos são agrupados em salas de aulas, reunidas em escolas que, por sua vez, podem ser agrupadas em regiões geográficas. Essa técnica de modelagem estatística é muito útil, pois utiliza os dados dos alunos para analisar a organização escolar captando os relacionamentos complexos entre os fatores de cada um dos níveis e como os vários níveis se influenciam mutuamente. Raudenbush & Bryk (2002) e Goldstein (1999) descrevem os detalhes técnicos desses modelos. 7 Citado nas notas de aula em Seminários em Análise Espacial, ministrada pelo Prof. João Francisco, no segundo semestre de 2007. 35 Se, por exemplo, for utilizado um modelo hierárquico de dois níveis em dados educacionais, então o aluno será o nível 1 e a escola o nível 2. Frequentemente, o modelo do nível 1 é chamado de modelo “dentro da escola” e o do nível 2 de modelo “entre as escolas”. No modelo dentro das escolas é expressa a proficiência de cada aluno como um valor basal. No modelo entre as escolas é medido o impacto das características da escola (a rede, o nível socioeconômico da escola e o nível socioeconômico da região em que se localiza) sobre o nível basal de desempenho dos alunos e sobre o tamanho do efeito dos fatores incluídos no modelo do primeiro nível (SOARES, 2004). Soares & Andrade (2006) demonstram o auxílio dos modelos lineares hierárquicos na obtenção de medidas de equidade e qualidade de uma escola. Essas medidas são obtidas após a inclusão dos níveis socioeconômicos dos alunos e da escola no ajuste dos modelos lineares hierárquicos. A qualidade sintetiza a excelência cognitiva de cada escola, obtida após descontar o efeito produzido pela inclusão do nível socioeconômico dos alunos em sua nota. A equidade de uma escola é definida como sua capacidade de eliminar, ou amenizar, as diferenças socioeconômicas de seus alunos. Essas definições serão aplicadas neste estudo. Raudenbush & Willms (1995) discutem e apresentam uma mensuração dos tipos de efeitos da escola. O primeiro, chamado de tipo A, inclui o efeito das políticas da escola e a influência cultural e socioeconômica que atuam diretamente sobre os professores e administradores. A medida desse efeito é relevante para os pais na escolha da escola para seus filhos. O segundo, tipo B, mede o efeito das políticas da escola, no setor administrativo, quadro docente e práticas pedagógicas, e essa medida interessa tanto aos profissionais que precisam dos indicadores de suas escolas quanto aos administradores pela responsabilidade com o sistema de ensino. Dados para modelagem do efeito tipo A são mais objetivos, ao passo que as do tipo B exigem planejamento de coleta mais criterioso. Uma utilização dos modelos lineares hierárquicos em dados não educacionais, mas de natureza essencialmente geográfica, é apresentada por Kelvyn (1991) na precificação de casas em Southampton, Inglaterra. Os dados possuem uma estrutura em três níveis: casa, idade (tempo de construção) e bairro, mas foram ajustados em dois níveis. O banco de dados é composto pela informação de 918 casas; no período de tempo de 9 semestres, com início no segundo semestre de 1986, e em 34 bairros da cidade. A variável resposta (dependente) é o preço da 36 casa e as variáveis explicativas do primeiro nível são: idade da casa, número de quartos, tipo da construção (5 tipos), se a casa tinha ou não aquecimento central e o número de garagens (simples ou dupla). No Brasil, muitos artigos foram publicados como resultados do uso dos modelos lineares hierárquicos com diferentes ênfases e objetivos particulares. O de Cesar & Soares (2001) considerou a unidade geográfica, Unidades da Federação, como um dos níveis no estudo da proficiência escolar. Alguns desses artigos são listados a seguir: i. No artigo de César & Soares (2001) foram considerados dois efeitos da escola sobre o desempenho do aluno. O tipo A, que mede a diferença entre o desempenho real do aluno e o que ele teria se frequentasse uma escola típica. O tipo B, que mede a diferença entre o desempenho real do aluno e o desempenho que se esperaria que ele tivesse caso frequentasse uma escola com práticas idênticas, ou seja, é a medida apenas dos efeitos das práticas das escolas, seu tipo de administração, seus métodos pedagógicos, o currículo que adota, dentre outros. O ajuste de um modelo estatístico para o efeito tipo A deve incluir como variáveis de controle as características sociodemográficas e culturais do aluno, por outro lado; um modelo para o efeito tipo B deve controlar as características do aluno, as políticas internas da escola e as de contexto no qual a escola está inserida. A medida do efeito tipo B foi feita por meio dos modelos lineares hierárquicos para a proficiência em Matemática dos alunos da 8ª série obtida nos dados do Saeb 1999. O modelo considerou três níveis: aluno, escola e estado (Unidade da Federação). Em sua conclusão, o meio influencia o desempenho do aluno, pois um aluno pobre fica beneficiado pelo meio de uma escola rica. Uma solução seria manter o mesmo nível médio socioeconômico das escolas e uma menor variação da qualidade entre as escolas. ii. Soares & Mendonça (2003) utilizaram os dados de 2000 do Sistema Mineiro de Avaliação da Educação Pública (SIMAVE), para os alunos da 4ª série da rede pública estadual. Nesse estudo, o objetivo era medir as características técnico-pedagógicas das escolas além do perfil socioeconômico dos alunos. O modelo linear hierárquico ajustado a esses dados indicou o impacto positivo sobre a proficiência em Matemática do nível 37 socioeconômico e os anos de estudo da mãe e como impacto negativo a defasagem escolar (média escolar da turma) e anos de abandono da escola. iii. No texto de Soares (2004) foram analisados, isoladamente, vários fatores escolares no desempenho cognitivo de alunos e para um desses fatores foram utilizados os dados do exame em Matemática dos alunos da 8ª série coletados pelo Saeb 2001, na modelagem MLH, para atender a necessidade de um modelo que controlasse a influência dos fatores socioeconômicos nos dois níveis: do aluno e da escola. Esse controle é essencial, pois os dados do Saeb informam o tipo de administração da escola, particular ou pública, e as escolas particulares atendem a um alunado de nível socioeconômico maior que a pública. Em seus resultados conclui que a escola frequentada faz diferença na vida do aluno, apesar da complexidade nas inter-relações dos fatores escolares no desempenho cognitivo dos alunos. iv. Em 2005, Soares aprofunda os estudos feitos em 2003, em parceria com Mendonça (2004) nos dados dos alunos da 4ª série avaliados pelo SIMAVE, citados acima em (ii), acrescentando as informações do Programa de Avaliação da Rede Pública de Educação Básica (PROEB) do ano de 2002. As avaliações utilizadas pelo SIMAVE/PROEB seguem a metodologia aplicada no Saeb. Nesse artigo, Soares analisa as variáveis em três níveis: alunos, no primeiro, turmas, no segundo, e escolas no terceiro. Para as variáveis do terceiro nível foram utilizados a idade média dos professores, o percentual de professores que participaram de formação continuada e o índice de posses de equipamentos de informática da escola. As duas últimas variáveis apresentaram influência positiva, mas o ganho na explicação da variabilidade com a inclusão desse terceiro nível foi relativamente pequeno. Ao final do estudo foi percebido que a turma é responsável por uma grande parcela da variabilidade na proficiência tanto quanto a escola. Isso significa que no sistema educacional estadual de Minas Gerais é possível o aproveitamento das experiências e padrões para alcançar melhorias considerando os resultados de algumas escolas da própria rede. v. No capítulo do livro escrito por Soares, Rigotti & Andrade (2008), foram analisados os dados do SIMAVE dos anos de 2002 e 2003 em conjunto, para as séries 4ª e 8ª do Ensino Fundamental e 3ª do Ensino Médio, das escolas públicas, estaduais e municipais, da cidade de Belo Horizonte, Minas Gerais. 38 Os dados foram analisados no nível dos alunos, considerando as características do turno, sexo, série e nível socioeconômico; e, no nível da escola, com as características de rede, nível socioeconômico da escola e nível socioeconômico da Unidade Espacial Homogênea (UEH) a qual a escola pertencia. As UEH´s são unidades espaciais que dividem a região metropolitana de Belo Horizonte com objetivo de facilitar o seu gerenciamento. O município de Belo Horizonte está dividido em 77 UEH´s. Essa ultima variável permitiu associar ao estudo de modelos lineares hierárquicos a análise espacial. O indicador de qualidade das escolas públicas desse município apresentou resultados muito diferentes para grupos socioeconômicos muito parecidos, indicando o impacto que a escola pode ter na escolha feita pelo aluno. Houve tendência positiva na correlação entre equidade socioeconômica e qualidade das escolas, ou seja, melhor qualidade para as melhores posições socioeconômicas e equidade somente para a baixa qualidade. Na análise espacial houve presença de qualidade em escolas situadas em locais com menor nível socioeconômico. vi. A tese de doutorado de Riani (2005), dentre outras técnicas, utilizou o Modelo Hierárquico Logístico, pois sua variável resposta era dicotômica e seu objetivo principal era medir a probabilidade de um aluno frequentar a escola, na idade certa, em relação ao background familiar, tais como o nível de escolaridade do chefe da família, a educação da mãe da criança, a ocupação do chefe da família. Em seus resultados, relata que o fator mais importante, dos anteriormente citados, é o da educação da mãe como determinante da probabilidade de cursar a escola na idade certa. Como fator contextual, apresenta o impacto negativo da variação demográfica entre o tamanho da coorte em idade escolar e a probabilidade de frequentar a escola na idade certa. A educação da mãe e a importância da origem social do aluno são superadas por uma escola com alta qualidade na estrutura física, que inclui quadras, bibliotecas e laboratórios de ciências e informática aliada ao nível de formação superior de seus professores. Dentre seus métodos de análise, utilizou também o modelo hierárquico espacial e concluiu que os modelos hierárquicos não-espaciais conseguem captar os efeitos diretos e indiretos do contexto dos municípios. Uma de suas principais conclusões refere-se à melhoria da qualidade escolar nos municípios que seriam mais eficazes se as 39 políticas públicas não ficassem limitadas a somente um município, mas sim a uma área mais abrangente de adjacência dos mesmos. Do ponto de vista estratégico, este estudo pretende continuar a busca para a interconexão das análises em modelagem estatística e geográfica espacial. Para tanto, busca auxílio de indicadores da Educação, obtidos no INEP e dos níveis sociais e econômicos utilizados pela Organização das Nações Unidas (ONU), o Índice de Desenvolvimento Humano (IDH), aplicado aos municípios. 2.4 Avaliação e Indicadores da Educação8 O Sistema Nacional de Avaliação da Educação Básica – Saeb é realizado desde 1990, por meio de aplicação de provas bienais de proficiência em Matemática (resolução de problemas) e Língua Portuguesa (leitura) em uma amostra representativa dos alunos de 4ª e 8ª séries do Ensino Fundamental e da 3ª série do Ensino Fundamental. Os alunos participantes faziam parte de uma amostra, por regiões, das redes de ensino públicas e privadas nos estados e no Distrito Federal. Em 21 de março de 2005, a Portaria Ministerial nº 931 alterou o nome do exame amostral do Sistema de Avaliação da Educação Básica – Saeb para Avaliação Nacional da Educação Básica – ANEB e instituiu a Avaliação Nacional do Rendimento Escolar – ANRESC (Anexo A). Apesar dessa alteração, por tradição, o nome do Saeb foi mantido nas publicações e demais materiais de divulgação e aplicação desse exame. O Saeb foi desenvolvido pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), autarquia do Ministério da Educação (MEC), e foi a primeira iniciativa brasileira de avaliação da educação aplicada em âmbito nacional. Seus objetivos principais são a coleta de dados sobre a qualidade da educação e o conhecimento das condições interna e externa do processo de aprendizagem, por meio de questionários aplicados aos alunos, professores e diretores e das condições físicas das escolas e dos recursos de que ela dispõe. 8 Todas as informações sobre esse tópico podem ser acessadas no sítio do INEP 40 Em 1995 houve uma reestruturação metodológica a qual permitiu o acompanhamento longitudinal da qualidade da Educação e auxílio ao MEC e às Secretarias Estaduais e Municipais de Educação na definição de ações sobre os problemas levantados bem como no direcionamento dos recursos técnicos e financeiros com objetivo de promover a equidade da Educação. Em 2005, foi criada a Prova Brasil, com objetivo de tornar a avaliação mais detalhada e complementar a avaliação feita pelo Saeb. A Prova Brasil é censitária e é aplicada nos estudantes da rede urbana de ensino de 4ª e 8ª séries do Ensino Fundamental, o que possibilita que seus resultados sejam estendidos para os municípios e escolas participantes. Sua metodologia é a mesma da do Saeb e a partir de 2007 elas passaram a ser operacionalizadas em conjunto. Por serem complementares e para que nenhum aluno fosse submetido às duas avaliações, a Prova Brasil foi aplicada em todos os alunos de escolas públicas urbanas de 4ª e de 8ª séries e o Saeb foi feito por alguns alunos selecionados estatisticamente de 4ª e de 8ª séries do Ensino Fundamental das redes particular e rural e do 3º ano do Ensino Médio das redes públicas e particular da área urbana. Os testes aplicados aos alunos são compostos por itens de múltipla escolha elaborados por professores das séries e disciplinas avaliadas, a partir dos descritores das Matrizes de Referência para o Saeb. Depois de elaborados, os itens são submetidos a uma revisão de conteúdo e forma, que compreende uma certificação da qualidade dos aspectos teóricos, pedagógicos e linguísticos dos itens e a uma validação empírica, que verifica, por meio de técnicas estatísticas e psicométricas, as características de comportamento dos itens após sua aplicação em campo. Os testes do Saeb contêm 169 itens para cada uma das séries e disciplinas avaliadas. O Saeb utiliza várias metodologia9 para alcançar seus objetivos. As principais são: • Matrizes de Referência para o Saeb – empregadas na elaboração dos testes. Cada matriz de referência apresenta tópicos ou temas que, com descritores, indicam as habilidades de Língua Portuguesa e de Matemática a serem avaliadas. O descritor é uma associação entre conteúdos curriculares e 9 Disponível em Metodologia no site do INEP. 41 operações mentais desenvolvidas pelo aluno que traduzem certas competências e habilidades. Essa associação apresenta um resultado que é a matéria-prima a partir da qual é possível elaborar um item de prova. As respostas dadas pelos alunos a esses itens possibilitam a descrição do nível de desempenho por eles atingido. • Blocos Incompletos Balanceados (BIB) – técnica utilizada na estruturação dos cadernos de testes. Essa metodologia permite a aplicação de 169 itens de forma a cobrir a Matriz de Referência em cada série e disciplina. Em seguida, divide-se esse conjunto em 13 blocos com 13 itens cada, agrupando-os de três em três, em 26 cadernos diferentes de prova. Dessa forma, apesar de estar avaliando um amplo escopo de conteúdos, cada aluno responde apenas a 39 itens. Para garantir a comparabilidade das séries históricas, mantêm-se alguns blocos comuns e/ou itens já aplicados em anos anteriores. Por sua vez, para garantir a comparabilidade do desempenho dos alunos entre as três séries avaliadas, aplicam-se blocos da 4ª série do Ensino Fundamental na 8ª série do Ensino Fundamental, bem como blocos da 8ª série do Ensino Fundamental na 3ª série do Ensino Médio. • Testes Padronizados – aplicados para descrever as habilidades e competências dos estudantes nas disciplinas de Língua Portuguesa (com foco em leitura) e Matemática (com foco em resolução de problemas), na 4ª e 8ª séries do Ensino Fundamental e na 3ª série do Ensino Médio. Os testes de Língua Portuguesa do Saeb, cujo foco é a leitura, têm por objetivo verificar se os alunos são capazes de apreender o texto como construção de conhecimento em diferentes níveis de compreensão, análise e interpretação. A alternativa por esse foco parte da proposição de que “ser competente no uso da língua significa saber interagir, por meio de textos, em qualquer situação de comunicação”10. Nos testes de Matemática, a resolução de problemas possibilita o desenvolvimento de capacidades como: observação, estabelecimento de relações, comunicação (diferentes linguagens), argumentação e validação de processos, além de estimular formas de raciocínio como intuição, indução, dedução e estimativa. Essa opção traz implícita a convicção de que o conhecimento matemático ganha significado 10 Citação da Nota Técnica do INEP. 42 quando os alunos têm situações desafiadoras para resolver e trabalham para desenvolver estratégias de resolução. • Questionários de contexto – aplicados aos alunos, professores e diretores para coleta de informações sociais, econômicas e culturais associadas ao rendimento escolar. • Teoria de Resposta ao Item (TRI) – modelo matemático que permite comparar o desempenho dos alunos em diferentes períodos colocando os resultados em uma escala única de desempenho. Com isso é possível avaliar o nível médio de desempenho dos alunos nas áreas selecionadas, ainda que estes tenham respondido a diferentes conjuntos de itens. As informações são descritas em termos dos parâmetros dos itens por meio de curvas características geradas pelo modelo logístico de três parâmetros formulado por A. Birnbaum em 1968. Esse modelo assume que a probabilidade de acerto de um item é influenciada pela sua dificuldade, discriminação e probabilidade de P (θ ) = c i + (1 − c i ) acerto e Da i (θ −bi ) 1 − e Da i (θ −bi ) ao acaso. Sua formulação Matemática é , em que: P(θ) é a probabilidade de acertar o item i para um determinado valor de θ; θ é o valor da variável medida; bi é o índice de dificuldade do item i; e é a constante de Euler, base do logaritmo neperiano ou natural; D é uma constante de valor 1,7 (valor esse que a aproxima da curva normal padronizada); ci é a probabilidade de acerto ao acaso (FLETCHER, 1994). • Amostra – parte da população envolvida na pesquisa. As escolas cadastradas no Censo Escolar são separadas em estratos (subpopulações) de interesse. Os principais critérios para estratificação são: série, as de interesse, em que o aluno está matriculado na modalidade regular; as Unidades da Federação (UF), 26 estados e um Distrito Federal; dentro de cada UF, as dependências administrativas a que as escolas pertencem: pública (estadual ou municipal) e particular; a localização da escola, se é capital ou interior, se é urbana ou rural; o tamanho da escola, calculado pelo número de turmas que a escola mantém nas séries avaliadas. Dentro desses estratos, são sorteadas as escolas e em cada escola são sorteadas no mínimo uma e no máximo duas turmas de uma mesma série a ser avaliada. Os resultados não refletem cada escola isoladamente, porque na maioria das 43 vezes a escola não é quantitativamente e nem qualitativamente representada pelas turmas sorteadas. • Escalas de Proficiência – utilizadas para interpretar e descrever o desempenho dos alunos. Atualmente o sistema de ensino do país é monitorado pelo Ideb11 – Índice de Desenvolvimento da Educação Básica, pois ele possibilita detectar a performance da escola por meio do seu rendimento e proficiência e da evolução temporal do desempenho dos alunos dessa escola. O Ideb foi desenvolvido para ser um indicador que sintetiza informações de desempenho em exames padronizados de proficiência (Saeb e Prova Brasil) com informações sobre o rendimento escolar, fornecido pela taxa média de aprovação dos estudantes na etapa de ensino por meio das informações do Censo Escolar. Dessa maneira, as escolas com melhor Ideb são aquelas em que seus alunos levam menos tempo para completar determinada etapa de ensino e obtêm notas mais altas na Prova Brasil ou Saeb. A escala desse índice varia de 0 a 10. O Ideb, por ser um indicador oficial do INEP, será utilizado como parâmetro nos modelos espaciais. 2.5 IDH-M12 – Índice de Desenvolvimento Humano nos Municípios O Índice de Desenvolvimento Humano (IDH) foi criado para medir o nível de desenvolvimento humano dos países a partir de indicadores de: 11 • Educação – alfabetização e taxa de matrícula; • Longevidade – expectativa de vida ao nascer; • Renda – PIB per capita. Nota Técnica do INEP. Mais detalhes: consultar a publicação Índice de Desenvolvimento da o. Educação Básica (IDEB) na Série Documental – Texto para Discussão n 26, disponível no site do INEP. 12 Parte explicativa do IDH e IDH-M extraída do site do PNUD. 44 Seus valores variam de 0 (nenhum desenvolvimento humano) a 1 (desenvolvimento humano total). Os índices do IDH classificam os países quanto ao desenvolvimento humano em: • Baixo – até 0,499; • Médio – de 0,500 a 0,799; • Alto – acima de 0,799. O IDH-M é utilizado para aferir o nível de desenvolvimento humano em municípios com os mesmos indicadores – educação, longevidade e renda. As definições e cálculos de cada um desses indicadores encontram-se a seguir. • Educação (IDHM-E): No tocante à educação, o cálculo do IDH-M considera dois indicadores, com pesos diferentes: a) Taxa de alfabetização (A) de pessoas acima de 15 anos de idade, com peso 2: resultado da divisão do número de pessoas do município com mais de 15 anos de idade capazes de ler e escrever um bilhete simples (ou seja, adultos alfabetizados) pelo número total de pessoas com mais de 15 anos de idade residentes no município; b) Taxa bruta de frequência à escola (F), com peso 1: resultado da divisão do somatório do número de indivíduos residentes no município que estão frequentando a escola, independentemente da idade, pela população residente no município na faixa etária de 7 a 22 anos de idade. 2 2A + F . 3 O IDHM-E de um município é dado pela fórmula13: • Longevidade (IDHM-L): Com relação à longevidade, o IDH-M leva em conta o número médio de anos que uma pessoa nascida no município, no ano de referência, deve viver, ou seja, a expectativa de vida (E) no município referente a esse ano. 13 Todas as equações foram ajustadas de forma que os três subíndices, IDHM-E, IDHM-L e IDHM-R, estejam entre 0 e 1. 45 O cálculo da esperança de vida ao nascer é complexo e envolve várias fases. No caso da esperança de vida por município, as estatísticas do registro civil são inadequadas. Por isso, para o cálculo do IDH municipal optou-se por técnicas indiretas para se chegar às estimativas de mortalidade. A base são as perguntas do Censo Demográfico sobre o número de filhos nascidos vivos e o número de filhos ainda vivos na data em que o Censo foi feito. A partir daí são calculadas proporções de óbitos. Aplica-se, então, uma equação que transforma essas proporções em probabilidade de morte. A próxima etapa é transformar essas probabilidades em tábuas de vida, de onde é extraída a esperança de vida ao nascer. Para transformar esse número de anos em um índice, usa-se como parâmetro máximo de longevidade 85 anos, e, como parâmetro mínimo, 25 anos. Para o cálculo do IDHM-L, determina-se a expectativa de vida ao nascer no município (E) e usa-se a fórmula IDHM-L = • E − 25 60 . Renda (IDHM-R): Para a avaliação da renda, o critério usado é a renda municipal per capita (R), ou seja, a renda média de cada residente no município. Para se chegar a esse valor, soma-se a renda de todos os residentes e divide-se o resultado pelo número de pessoas que moram no município (inclusive crianças ou pessoas com renda igual a zero). A renda média municipal per capita indica a renda média dos indivíduos residentes no município expressa em reais, pela cotação do dia 1 agosto de 2000. Os valores são extraídos do questionário da amostra do Censo Demográfico. A partir da pesquisa do IBGE soma-se todo tipo de renda obtida pelos moradores daquele município (inclusive salários, pensões, aposentadorias e transferências governamentais, entre outros). E a somatória é dividida pelo número total de habitantes do município. O resultado é a renda municipal per capita. 46 3 MÉTODOS E TÉCNICAS 3.1 Modelos Hierárquicos aplicados à Geografia As técnicas estatísticas só podem ser aplicadas se os dados a serem analisados estiverem no formato de uma matriz em que os vetores-linha representarão todas as características de uma observação e os vetores-coluna representarão todas as informações para uma mesma característica. Dessa maneira, se o estudo for sobre o clima de uma determinada região geográfica, cada ponto selecionado dessa região para se efetuar as medidas, por exemplo, de temperatura, altitude, coordenadas geográficas, velocidade do vento, dentre outras, formará uma linha da matriz de dados. O conjunto de vários desses pontos formará os vetores-linha dessa matriz. Uma vez empilhados os vetores-linha, os vetorescoluna dessa matriz conterão todas as informações de uma mesma característica. Esses vetores-coluna são conhecidos como variáveis aleatórias, em Estatística, e torna-se necessário conhecer o tipo dessa variável aleatória para saber qual a técnica estatística adequada para sua análise. Usualmente pelo menos uma dessas variáveis aleatórias contém as informações de um dos questionamentos elaborados na pesquisa e recebem, portanto, o nome de variável resposta, ou dependente. Em Geografia, os fenômenos poder ser de dois tipos: a) Categóricos – constituídos de pontos, linhas e áreas, por exemplo, pessoas, plantas, lojas... Esses podem ainda ser classificados em nominais, como por exemplo, escola urbana e escola rural, ou em ordinais, por exemplo, o tamanho de uma cidade: pequena, média, metrópole, etc.; b) Discretos – camadas de informações que podem ser contadas em todos os pontos, por exemplo, quantidade de pessoas, quantidade de árvores, etc... Se essa contagem for em relação a uma área, volume ou intervalo de tempo, ela é chamada de taxa e, nesse caso, a distribuição de probabilidade desses dados é chamada de Poisson; por exemplo, 10 árvores por m2; 50 casas por km2; eclosão de 1000 ovos de tartaruga por mês... 47 c) Contínuos – camadas de informações que podem ser medidas em todos os pontos com ênfase na continuidade dos fenômenos, por exemplo, temperatura, pressão atmosférica, elevação... Usualmente as medidas em relações espaciais são chamadas de atributos. Dessa maneira, para a produção de uma análise espacial é necessária a informação de sua localização e a de seus atributos, independentemente de como tenham sido mensurados. A escolha de um modelo estatístico adequado depende do tipo da variável resposta (variável dependente), ou seja, contínua, discreta ou categórica. Em particular, respostas dicotômicas são tipos de dados categóricos que assumem apenas duas possibilidades: vivo ou morto; sim ou não, sendo uma delas chamada de Sucesso e a outra consequentemente será o Fracasso. A Geografia faz uso regular de alguns desses modelos. O Quadro 1 apresenta algumas dessas técnicas utilizadas considerando o tipo de resposta (ou variável dependente): RESPOSTA Categórica COVARIÁVEIS Categórica TIPO - Tabelas de contingências - Regressão Linear Contínua Contínua ou categórica - ANOVA (Análise de Variância) - Regressão de Poisson Contagem Contínua ou categórica Dicotômica Contínua ou categórica - Regressão Logística Tempo até o evento Contínua ou categórica - Análise de Sobrevivência - Loglinear Quadro 1: Algumas técnicas estatísticas adequadas ao tipo de resposta. Fonte: Elaborado pela autora. Nelder & Wedderburn (1972) mostraram que a maioria dos problemas que envolvem tratamentos estatísticos pode ser formulada como modelos de regressão envolvendo uma variável resposta univariada, variáveis explanatórias (ou 48 covariáveis) e uma amostra aleatória de n observações. Na realidade, eles mostraram que uma série de técnicas comumente estudadas separadamente podem ser reunidas sob o nome de Modelos Lineares Generalizados (MLG), como uma extensão dos modelos lineares clássicos. Um Modelo Linear Generalizado (MLG) (McCULLAGH; NELDER, 1989) é composto por três elementos: (1) Componente aleatório: Y (variável resposta); (2) Componente sistemático: η = X t β (preditor linear) e (3) Função de ligação: g(µ) = η , em que X é a matriz n x p do planejamento (covariáveis em estudo), β é o vetor pdimensional de parâmetros e µ = E(Y) (média populacional de Y). Dessa maneira, ampliam-se as opções da variável resposta, permitindo que ela pertença a uma família exponencial de distribuição de probabilidades, dando maior flexibilidade para a função de ligação. O´Brien (1992) utiliza a teoria de McCullag & Nelder (1989) e apresenta uma descrição bastante acessível dos modelos lineares generalizados. Com algumas adaptações, pode-se descrever cada componente da equação apresentada por McCullag & Nelder (1989) da seguinte maneira: a) Componente aleatório: Y - cada observação (y) do componente aleatório Y, variável resposta, pode ser escrita como uma combinação linear de dois componentes: o primeiro é a parte predita pelo modelo ( µ ) e o segundo é a parte que o modelo não conseguiu predizer, chamado de erro aleatório ( ε ), obtido pela diferença entre o valor que foi observado e o valor predito pelo modelo. Então, a observação pode ser escrita por: y = µ + ε , que é o modelo linear clássico. Em uma matriz de dados, cada linha contém a informação de uma observação, assim, denotando por i o número da linha, i = 1, 2,..., n, em que n é o número total de observações ou o tamanho da amostra, pode-se escrever: para a primeira observação: i = 1 ⇒ y1 = µ1 + ε1 ; para a segunda observação: i = 2 ⇒ y 2 = µ 2 + ε 2 ; e assim sucessivamente até a última observação. Genericamente, a i-ésima observação será: y i = µ i + εi . b) Preditor linear: η = X t β - essa é a escrita no formato matricial. Efetuando esse produto, tem-se para uma observação genérica i, o preditor 49 linear escrito por: ηi = β 0 + β1x i1 + β 2 x i2 + ... + β p x ip , em que os β ´s são os parâmetros desconhecidos a serem estimados na modelagem e x ij , j = 1,2,...p, referem-se às p características coletadas para a i-ésima observação. c) Função de ligação: g(µ) = η - a função de ligação relaciona o preditor linear a y, ou seja, ela associa a influência do dado observado com o componente a ser predito de y. Portanto, g é uma função que “liga” o componente aleatório ao componente sistemático. Utilizando a inversa da função g, pode-se escrever, para uma observação genérica i: µi = g−1(ηI ) . Combinando esse resultado com o obtido em (a) tem-se y i = g −1(ηi ) + ε i e, finalmente esse resultado com (b) tem-se: y i = g −1(β 0 + β1x i1 + β 2 x i2 + ... + β p x ip ) + ε i . d) O erro aleatório, ε , segue uma distribuição de probabilidade de acordo com a função de ligação. A importância do conhecimento dessa distribuição está no teste de significância efetuado para os coeficientes estimados. As funções de ligação podem ter vários formatos em aplicações de modelagem com dados geográficos. Na clássica regressão linear, a função de ligação é a identidade, ou seja, g = 1, então ηi = µ i . O Quadro 2 apresenta algumas funções de ligação mais comumente utilizadas e o Quadro 3 alguns tipos de modelos lineares generalizados, suas funções de ligação e a distribuição de probabilidade do erro. Os métodos de estimação nos modelos lineares generalizados baseiam-se fundamentalmente na teoria da máxima verossimilhança (MV). Se não for possível especificar uma função de verossimilhança, ou seja, uma distribuição de probabilidade explícita e completa para a variável resposta, uma aproximação possível é a construção de uma função de quase-verossimilhança (QV) ou quaseverossimilhança estendida (QVE) (McCULLAGH; NELDER, 1989). Portanto, uma decisão importante na escolha do modelo linear generalizado é a escolha do trinômio: i) distribuição da variável resposta (Y); ii) matriz do modelo (X) e 50 iii) função de ligação (g). Ligação Função de ligação ( η = ) Identidade µ Logarítmica log(µ ) Logit µ log m−µ Probit µ Φ − 1 m Raiz quadrada Potência Recíproca µ µ k (k é um no) 1 µ Quadro 2: Principais funções de ligação em Modelos Lineares Generalizados. Fonte: O´Brien (1992, p.174-175). O Quadro 3 apresenta alguns tipos de modelos lineares generalizados, suas funções de ligação e a distribuição de probabilidade do erro: 51 Modelo Ligação Distr. Probabilidade do Erro aleatório ( ε ) Regressão Linear Identidade Normal ANOVA Identidade Normal Identidade Gama Logarítmica Poisson Logit Binomial ou Multinomial Regressão Logística Logit Binomial ou Multinomial Regressão Probit Probit Binomial ou Multinomial ANOVA (efeitos aleatórios) Modelo Loglinear (simétrico) Modelo Loglinear (assimétrico) Quadro 3: Exemplos de alguns tipos de modelos lineares generalizados. Fonte: Adaptado de O´Brien (1992, p.174-175). Neste trabalho utiliza-se o Modelo Linear Hierárquico (MLH) ou multinível, que é uma extensão dos modelos lineares generalizados de McCullagh e Nelder, pois permite a existência de correlação entre os dados e variabilidade não constante, ou seja, ele é um modelo de efeitos mistos. A variável resposta é contínua e será a proficiência em Matemática ou Língua Portuguesa dos alunos da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais. A proficiência é uma medida do desempenho do aluno na aquisição de habilidades e competências nas séries finais do Ensino Fundamental de acordo com uma escala pedagógica numérica que varia de 0 a 500. As escalas variam de 25 em 25 pontos, e o desempenho, interpretado em termos de competência e habilidades, é explicado em nove níveis para Língua Portuguesa (de 125 a 350) e em dez níveis para Matemática (de 125 a 375) (ANEXO C). A escala utilizada é única para cada disciplina, mas seus resultados estão na mesma métrica para as duas séries avaliadas, o que possibilita comparação entre elas. O desempenho é apresentado 52 em ordem crescente e cumulativa. Por meio dessa escala é possível saber as habilidades que os alunos já desenvolveram e quais ainda são esperadas que desenvolvam (ANEXO C). Essa escala foi construída de tal maneira que as pontuações finais são esperadas para os alunos da 8ª série, ou seja, ao término do Ensino Fundamental. Dessa maneira, a comparação com a média igual a 250, referência do Saeb, só deverá ser feita para esses alunos (INEP, 2007). Os dados a serem modelados são os coletados na Prova Brasil 2007 com objetivo de verificar o efeito do indivíduo, da escola e do município e os do Saeb 2005 para verificar o efeito da dependência administrativa da escola: pública ou privada, para o Estado de Minas Gerais. Esses dados, coletados pelo INEP, promoveram as informações socioeconômicas dos alunos pertencentes à 4ª e à 8ª séries do Ensino Fundamental. Para os dados do Saeb 2005 serão utilizadas as Unidades da Federação como unidade geográfica na comparação da rede de ensino pública ou privada para a proficiência em Matemática dos alunos da 8ª série do Ensino Fundamental. No processo de análise e modelagem dos dados da Prova Brasil 2007, recortados para o Estado de Minas Gerais, surgiu uma limitação dos softwares estatísticos atuais na convergência dos ajustes dos modelos lineares hierárquicos em três níveis devido à grande quantidade de parâmetros. Esses dados forneceram as informações de 5.441 escolas para os 853 municípios mineiros, o que produziu mais de quatro milhões de parâmetros para serem estimados nas iterações de convergência no ajustamento do modelo. Para possibilitar a inserção das unidades geográficas no terceiro nível, o recurso foi diminuir a quantidade de parâmetros por meio de amostragem. Para que uma amostra seja informativa, são necessários alguns cuidados, tais como a garantia da igualdade da probabilidade na seleção das unidades a serem estudadas; os pesos das unidades estratificadas e o prévio conhecimento da variabilidade da população em estudo. Todas essas informações estão disponíveis nos dados censitários originais, possibilitando, portanto, uma coleta amostral confiável. O embasamento teórico para o cálculo amostral bem como o planejamento da coleta de dados estão ampla e detalhadamente comprovados em Foreman (1991) e em Lehtonen (2004). Além desses, Pfeffermann (2002) publicou um estudo 53 específico sobre a garantia das inferências com estimadores não viciados em desenhos amostrais informativos para modelos hierárquicos generalizados. O tamanho da amostra, para este estudo, considerou o desenho para dados complexos e foi calculado em dois estágios, município e escola, pelo aninhamento entre eles, com a variância combinada das proficiências. Com o objetivo de garantir a homocedasticidade, a confiabilidade das estimativas e a representatividade da população, os municípios, primeiro estágio, foram considerados por microrregiões, unidades geográficas criadas pelo IBGE – Instituto Brasileiro de Geografia e Estatística por suas similaridades sociais e econômicas. A seleção dos dados foi feita por amostragem aleatória simples no primeiro estágio, municípios por microrregião e, logo após, também por amostragem aleatória simples, foi feita a seleção das escolas em cada um dos municípios amostrados. Todos os alunos das escolas amostradas fizeram parte da amostra. O software estatístico utilizado para as análises foi o SPSS – Statistical Package for the Social Sciences, versão 18. Assim, o modelo hierárquico neste estudo considera os alunos como primeiro nível, a escola como segundo nível e a microrregião como terceiro. De maneira geral, um modelo base14, ou nulo, para a análise desses três níveis pode ser escrito como15: a) Considerações – os índices i, j, k representam aluno, escola e a microrregião e sua variação e significados serão: i = 1, 2, ..., njk - aluno da escola j da microrregião k j = 1, 2, ..., Jk - escola da microrregião k k = 1, 2, ..., K - microrregião b) Primeiro nível: aluno – modela a proficiência para cada aluno como função da média da escola mais um erro aleatório: Yijk = π 0 jk + e ijk Em que: Yijk – é proficiência do aluno i da escola j e da microrregião k; π 0 jk – é a média da proficiência da escola j da microrregião k (intercepto); 14 Modelo base ou modelo nulo significa ausência de covariáveis explicativas ou preditoras em cada um dos níveis. 15 Formulação adaptada de Raudenbush & Bryk (2002, p.229). 54 eijk – é o efeito aleatório associado ao aluno (nível 1), ou seja, é o desvio do escore do aluno ijk em relação à proficiência média da escola. Esse efeito é suposto como normalmente distribuído com média zero e variância σ 2 . c) Segundo nível: escola – cada média da escola, π 0 jk , é resultado da variação aleatória em torno da média da microrregião: π 0 jk = β 00k + r0 jk Em que: β 00k – é a média da proficiência da microrregião k (intercepto); r0jk – é o efeito aleatório associado à escola (nível 2), ou seja, é o desvio do escore da escola jk em relação à proficiência média da microrregião. Esse efeito é suposto como normalmente distribuído com média zero e variância τ π . Dentro de cada microrregião a variabilidade entre as escolas é suposta como igual. d) Terceiro nível: município – o modelo desse nível representa a variabilidade da microrregião. A média da microrregião, β 00k , como uma variação aleatória em torno da média geral. β 00k = γ 000 + u 00k Em que: γ 000 – é a média geral da proficiência; u00k – é o efeito aleatório associado à microrregião (nível 3), ou seja, é o desvio do escore da microrregião k em relação à média geral da proficiência. Esse efeito é suposto como normalmente distribuído com média zero e variância τ β . A variabilidade total de um modelo hierárquico em três níveis pode ser particionada em três componentes: (nível 1) variação dos alunos dentro da escola, σ 2 ; (nível 2) variação das escolas dentro das microrregiões, τ π ; e (nível 3) variação entre as microrregiões, τ β . A relação de cada um desses componentes com a variação total representa a proporção da variação que é explicada por cada um desses componentes, ou seja, 55 a) b) σ2 σ 2 + τ π + τβ τπ σ + τ π + τβ 2 – proporção da variação dos alunos dentro da escola; – proporção da variação das escolas dentro das microrregiões; c) τβ σ + τ π + τβ 2 – proporção da variação entre as microrregiões. Outra medida é a confiabilidade dos coeficientes estimados por mínimos quadrados. Essa confiabilidade é estimada em dois níveis: o da escola, π̂ 0 jk , e o dos municípios, β̂ 00 k . Dessa maneira, tem-se que, para cada escola jk do nível 2, a confiabilidade da média amostral utilizada na discriminação das escolas dentro da mesma microrregião é obtida por: confiabilidade ( π̂ 0 jk ) = τπ τπ + σ 2 n jk Analogamente, tem-se que, para cada microrregião k do nível 3, a confiabilidade da média amostral das microrregiões para estimar a verdadeira média da proficiência é dada por: confiabilidade ( β̂ 00 k ) = τβ −1 2 τ β + ∑ τ π + σ n jk −1 A média das confiabilidades de cada nível pode ser utilizada para caracterizar a confiabilidade das escolas, nível 2, e a confiabilidade das microrregiões, nível 3. Se no modelo base forem acrescentadas, em pelo menos um dos níveis, características que auxiliem a explicação ou predição dos ajustes, por exemplo, no nível 1, do aluno, acrescentar informações sobre o sexo e/ou classe econômica, esse modelo passa, então, a ser chamado de condicional. Apesar de alguma característica de um nível estar associada com o rendimento escolar, nem sempre se pode ter garantia plena de que não exista influência de alguma outra que não foi mensurada no estudo, por exemplo, sexo do aluno pode estar relacionado com 56 algumas características do professor, e essa interação pode ser a responsável pela significância da variável sexo no modelo. Situações análogas podem ocorrer nos demais níveis. De qualquer maneira, o ideal é fazer a formulação de um modelo16 com estrutura generalizada para cada um dos níveis, conforme descrição a seguir: a) Primeiro nível: aluno – dentro de cada escola, modela-se a proficiência para cada aluno como função de variáveis preditoras, características, dos alunos mais um erro aleatório: Yijk = π 0 jk + π1jk a1ijk + π 02k a 2ijk + ... + πPjk aPijk + eijk Em que: Yijk – é proficiência do aluno i da escola j e do município k; π 0 jk – é a média da proficiência da escola j do município k (intercepto); a pijk – são as p = 1, 2, ..., P características que predizem o desempenho do aluno. π pjk – são os coeficientes correspondentes às características do aluno e indicam a direção e a força da associação entre cada característica, ap, e os resultados da escola jk; eijk – é o efeito aleatório associado ao aluno (nível 1) e representa o desvio do escore do aluno ijk em relação ao escore predito no modelo do nível do aluno. Os efeitos residuais são supostos normalmente distribuídos com média zero e variância σ 2 . b) Segundo nível: escola – cada coeficiente de regressão do modelo do nível do aluno (incluindo o intercepto) pode ser visto como um efeito fixo, ou seja, sem variação aleatória. Essas possibilidades conduzem à formulação do modelo para variação entre as escolas dentro dos municípios. Para cada efeito da escola: πpjk = βp0k + Qp ∑ βpqk X qjk + rpjk q =1 Em que: 16 Formulação adaptada de Raudenbush & Bryk (2002, p. 231). 57 β p0k – é o intercepto para o município k do efeito π pjk no modelo das escolas; X qjk – é a característica da escola utilizada como preditora do efeito da escola π pjk (observe que cada π p tem um único conjunto de preditores do segundo nível X qjk , q = 1, 2, ..., Qp); β pqk – é o coeficiente correspondente que representa a direção e a força da associação entre as características da escola X qjk e π pjk ; rpjk – é o efeito aleatório associado à escola (nível 2), e representa o desvio do coeficiente do nível 1 da escola jk, π pjk , do seu valor predito baseado no modelo ao nível da escola. Esses efeitos são supostos com distribuição normal multivariada, cada uma com média zero, com alguma variância τ pp e covariância entre os elementos rpjk e rp´ jk de τ pp´ . Essas variâncias e covariâncias formam uma matriz denominada Τπ cuja dimensão depende do número de coeficientes do nível 1 especificados como aleatórios. c) Terceiro nível: microrregião – um modelo similar é replicado para o nível da microrregião. Cada coeficiente β pq , do terceiro nível, pode ser predito por alguma característica da microrregião: β pqk = γ pq0 + Spq ∑ γ pqs Wsk + upqk s =1 Em que: γ pq0 – é o termo do intercepto do modelo no nível da microrregião para β pqk ; W sk – é a característica da microrregião utilizada para predizer o efeito da microrregião, β pqk (observe que cada β pq tem um único conjunto de preditores do terceiro nível W sk , s = 1, 2, ..., Spq); 58 γ pqs – é o coeficiente correspondente ao terceiro nível que representa a direção e a força de associação entre a característica da microrregião Wsk e β pqk ; d) upqk – é o efeito aleatório associado à microrregião (nível 3) que representa o desvio do coeficiente da escola k, β pqk , do seu valor predito pelo modelo do nível da microrregião. Os resíduos desse modelo são supostos com distribuição normal multivariada, cada uma com média zero, com alguma variância e covariância que formam uma matriz denominada Τβ cuja dimensão depende do número de coeficientes do nível 2 especificados como aleatórios. A verificação da importância da inclusão de um efeito aleatório no modelo será realizada por meio da análise da diferença entre os valores da estatística da verossimilhança (-2LL)17 para o modelo ajustado na presença do efeito (com a covariável) e o ajustado na ausência dele (sem a covariável) (RAUDENBUSH; BRYK, 2002). O valor da diferença obtido é comparado com o ponto crítico de uma distribuição qui-quadrado, com o nível de confiança desejado, geralmente de 5%. A hipótese nula para esse teste pode ser, por exemplo, o efeito associado com a escola poder ser omitido no modelo. De certa maneira esse teste verifica se a estrutura hierárquica é adequada. Usualmente, os valores da estatística do logaritmo da verossimilhança são números grandes. Neste trabalho, serão modelados os dados coletados pela Prova Brasil 2007 para verificar o efeito do indivíduo, da escola e da microrregião, e os do Saeb 2005 para verificar o efeito da dependência administrativa da escola: pública ou privada, para o Estado de Minas Gerais. Esses dados promoveram as informações socioeconômicas e o resultado da proficiência em Matemática e Língua Portuguesa dos alunos pertencentes a 4ª e 8ª séries do Ensino Fundamental. As respostas aos itens do questionário aplicado, tanto para a Prova Brasil 2007 quanto para o Saeb 2005, possibilitaram a geração da variável NSE – nível socioeconômico do aluno, utilizando o Critério de Classificação Econômica Brasil adotado pela ABA – Associação Brasileira dos Anunciantes; ABIPEME – Associação Brasileira de Institutos de Pesquisa de Mercado e ANEP – Associação Nacional de 17 -2LL = (-2) vezes o Log-Likelihood (logaritmo da verossimilhança). 59 Empresas de Pesquisa (ANEXO B). As respostas geraram uma pontuação classificatória do nível socioeconômico dos alunos e a média dessa pontuação foi utilizada para gerar o nível socioeconômico das escolas. Para o nível da microrregião foi utilizado o IDHM-2000, último publicado no Brasil pela Fundação João Pinheiro de Belo Horizonte, e o Ideb 2007. A análise da inclusão das variáveis explicativas para cada um dos níveis com o objetivo de verificar a influência de outros fatores, de efeito fixo, que interferem nessa variabilidade apresentada pelos efeitos aleatórios será feita por meio do teste da razão das verossimilhanças, estatística G, similar ao da verificação para a estrutura hierárquica, obtida pela fórmula enunciada por McCullagh & Nelder (1989): verossimil lhança SEM a covariável 2 G = −2 ln ~ χp (p : no. de parâmetros) verossimil lhança COM a covariável Essa estatística verifica a razão entre o logaritmo da verossimilhança na ausência da variável preditora ou explicativa de interesse e o logaritmo da verossimilhança na presença dessa covariável. A estatística G segue uma distribuição de probabilidade qui-quadrado com p graus de liberdade ( χ p2 ), em que p é o número de parâmetros do modelo. Dessa maneira, ao ser feita a razão entre os logaritmos da verossimilhança dos modelos com e sem a covariável, o valor obtido da estatística G terá 1 grau de liberdade, ou seja, o valor será comparado com o ponto crítico de 3,84 considerando o nível de significância, α, de 5%. O teste considera como hipótese nula: “a presença da covariável não é importante para o modelo”, ou seja, se o p-valor do teste da estatística G for menor que 5%, então essa hipótese nula é falsa, e a covariável é aceita no modelo. 3.2 Modelos Espaciais Para análise e compreensão dos fenômenos espaciais, um conceito básico é o de dependência espacial. A noção desse conceito faz parte da chamada primeira lei da Geografia enunciada por Tobler, em 1970, ou pela afirmação de Noel Cressie (1993, p.3): “a dependência (espacial) está presente em todas as direções e fica mais fraca à medida que se aumenta a dispersão na localização dos dados”. Dessa 60 maneira, pode-se dizer que a maioria das ocorrências, qualquer que seja sua natureza, apresenta entre si uma relação dependente da distância. A dependência espacial é analisada por meio da autocorrelação espacial. Esse conceito é derivado do conceito de correlação, entre duas variáveis aleatórias, utilizado na Estatística. Nos casos geográficos, o acréscimo da preposição “auto” indica que a medida é feita para uma variável aleatória observada em vários locais distintos do espaço. Um indicador de autocorrelação espacial é o Índice de Moran, o qual mostra como os valores estão correlacionados no espaço – caracterização da dependência espacial. Baseia-se na estimativa de quanto um atributo de uma região é dependente dos valores desta mesma variável nas localizações vizinhas. De maneira geral, o Índice de Moran é um teste cuja hipótese nula (H0) é de independência espacial. Considerando as medidas padronizadas, esse índice varia de -1 a 1, sendo que o valor zero indica independência espacial, os valores negativos correlação inversa e os positivos correlação direta (CÂMARA, 2004). O software Geoda (ANSELIN, 1995) calcula esses índices pela abordagem da pseudosignificância gerada por meio de permutações do arranjo espacial da matriz de vizinhança (teste de permutação), pois assim não é necessário associar uma distribuição de probabilidade ao índice para verificar sua significância estatística. Seu valor pode ser calculado por: n I= W ∑ ∑ w ij ziz j i j ∑ z i2 , i≠ j i em que: n : número de subregiões – nesse estudo, as microrregiões; wij : elementos da matriz de vizinhanças para o par i, j W : soma dos ponderadores da matriz; z : média das informações da região; zi e zj : são os desvios em relação à média z. O diagrama apresentado pelo Índice de Moran, também chamado, em algumas literaturas, de Espalhamento de Moran (CÂMARA, 2004), pode ser visto com analogia ao Diagrama de Dispersão (scatter plot) entre duas variáveis contínuas do plano. Utilizando a notação de Anselin (1995), o diagrama de dispersão obtido no GeoDa, para duas variáveis contínuas, padronizadas em relação a suas respectivas 61 média e desvio-padrão, estão distribuídas em quatro quadrantes que definem o tipo de associação entre elas: o primeiro quadrante (Q1 = alta-alta) apresenta valores positivos, médias positivas, e o segundo (Q2 = baixa-baixa) apresenta valores negativos, médias negativas; esses quadrantes revelam associação positiva. Por outro lado, o terceiro quadrante (Q3 = alta-baixa) apresenta valores positivos, médias negativas, e o quarto (Q4 = baixa-alta) apresenta valores negativos, médias positivas, e revelam associação negativa. O valor da inclinação (slope) indica a correlação entre as duas variáveis. O diagrama de Moran apresenta, portanto, a estrutura espacial nas duas escalas de análise: vizinhança e tendência (CÂMARA, 2004; ANSELIN, 1995). A autocorrelação espacial local pode ser obtida por meio de uma visualização dos aglomerados (clusters) gerados pela decomposição das contribuições de cada observação do indicador global de Moran. Essa técnica é chamada de LISA – Local Indicator of Spatial Association e faz parte das técnicas exploratórias de análise de dados espaciais (ESDA18). A estatística LISA apresenta a influência das localizações individuais na magnitude da estatística global como, por exemplo, no Índice de Moran, e identifica “outliers”. Dessa maneira, ela é mais sensível na presença da heterogeneidade espacial (ANSELIN,1995). Anselin (1995) sugere uma definição operacional para a estatística LISA por meio de duas condições necessárias: (a) para cada observação o LISA fornece uma indicação para estender valores similares pelas vizinhanças de um cluster espacial significativo; (b) a soma de todas as estatísticas LISA individuais é proporcional ao indicador global de associação espacial. Os clusters espaciais locais são chamados algumas vezes de “hot spots” e podem ser identificados por um conjunto de locais contíguos para os quais o LISA é significativo. Outro recurso espacial é a visualização dos outliers, localizações com valores extremos altos ou baixos, por meio de um mapa cloropético contendo as informações dos percentis da medida de interesse. A autocorrelação espacial pode ser analisada utilizando mais de uma medida, ou seja, de forma multivariada. Os princípios do Índice de Moran e do LISA podem ser estendidos diretamente para o formato bivariado. O teste global é visualizado por 18 ESDA – Exploratory Spatial Data Analysis. 62 meio de médias no diagrama de Moran, a inclinação da reta de regressão ajustada corresponde ao índice de Moran e os testes de significância utilizam o teste de permutação. Os mapas descrevem as localizações com as estatísticas locais de Moran (mapas de significância LISA) e classificam esses locais pelo tipo de associação (mapa de clusters LISA). Dessa maneira, o mapa gerado pelo LISA ou BiLisa apresenta a autocorrelação espacial considerando os quatro quadrantes do Índice de Moran por meio de quatro cores: (1) vermelho = alta-alta; (2) azul escuro = baixa-baixa; (3) rosa = alta-baixa e (4) azul claro= baixa-alta. O vermelho e o azul escuro indicam as localizações formados por cluster com associação espacial, e o rosa e o azul claro são indicações de outliers espaciais. Usualmente o BiLisa é utilizado como informação de espaço e tempo, mas pode ser utilizado de forma adaptada para verificar se existe autocorrelação espacial entre duas variáveis nas vizinhanças consideradas (ANSELIN, 2006). Valores significativos da autocorrelação espacial evidenciam a dependência espacial na amostra estudada e esse fato invalida a premissa de independência exigida pela maioria dos tradicionais modelos estatísticos, tais como regressão linear, análise de variância, dentre outros. Os modelos hierárquicos, por sua vez, permitem a existência de dados correlacionados, pois analisam amostras com estrutura de variabilidade complexa produzidas pelo aninhamento das fontes de variação (RAUDENBUSH; BRYK, 2002). Por outro lado, os modelos espaciais permitem a análise dos padrões de associação que ocorrem entre as unidades geográficas, possibilitando uma agregação na análise dos modelos lineares hierárquicos, bem como na validação e corroboração de seus resultados. A análise espacial será feita nos dados dos municípios do Estado de Minas Gerais e irá considerar as variáveis: IDHM-2000, Ideb 2007, as proficiências em Matemática e Língua Portuguesa para o município e o nível socioeconômico médio das escolas dos municípios, padronizado entre os municípios. A distribuição espacial será apresentada por meio de cartogramas gerados pelo GeoDa (ANSELIN, 1995). Serão estudados os efeitos locais por meio das técnicas do Índice de Moran e LISA na forma uni e bivariada. Em trabalhos futuros pretende-se verificar as discrepâncias observadas por meio de visitas técnicas in loco (trabalho de campo), para tentar buscar explicações para suas possíveis causas associando, a esse estudo, uma análise qualitativa. 63 4 ANÁLISE DOS DADOS 4.1 Resultados Saeb 2005 Primeiramente, será aplicada a técnica de ajustamento dos dados por modelagem hierárquica nos dados do Saeb 2005. Nesses dados será possível apenas o ajuste do modelo em dois níveis, pois os dados são coletados por amostragem no território brasileiro, não fornecendo, portanto, informações do município. O objetivo em fazer uma breve análise desses dados é a possibilidade de uma comparação entre a rede administrativa pública e a particular das escolas. Foram analisados 8.224 alunos válidos do Ensino Fundamental, 4ª e 8ª séries, em 191 escolas, sendo 65,9% da rede pública e com localização urbana no Estado de Minas Gerais. O Gráfico 1 apresenta a distribuição das proficiências nas disciplinas de Língua Portuguesa (50,1%) e Matemática (49,9%) dos alunos. As proficiências das duas séries encontram-se em conjunto, sendo que 59,3% pertencem à 4ª série. Quanto ao sexo, os alunos encontram-se igualmente distribuídos (50,2% feminino). O Gráfico 2 apresenta o intervalo com 95% de confiança para as médias obtidas nas proficiências da Língua Portuguesa e de Matemática para os alunos da 8ª série das redes públicas e particular do Estado de Minas Gerais, donde se pode observar que os melhores rendimentos estão na rede particular, apesar do bom desempenho na proficiência em Matemática das escolas públicas. No Quadro 4 estão descritas as variáveis utilizadas na modelagem dos dados do Saeb 2005. 64 40 Frequência Língua Portuguesa 100 160 220 280 340 400 Matemática 800 800 700 700 600 600 500 500 400 400 300 300 200 200 100 100 0 0 40 100 160 220 280 340 400 Gráfico 1: Distribuição das proficiências em Língua Portuguesa e em Matemática dos alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. Fonte: Dados do Saeb 2005. Gráfico 2: Intervalo de 95% de confiança para as médias das proficiências em Língua Portuguesa e em Matemática dos alunos da 8ª série em Minas Gerais no Saeb 2005. Fonte: Dados do Saeb 2005. 65 Nível 1 – Alunos Resultados dos alunos nos testes aplicados no Proficiência Saeb transformados na Escala única do Saeb (250,50) (informação original) Série Série do aluno (0 = 4a.; 1 = 8a.) (informação original) Nível socioeconômico dos alunos, calculado pelo NSE_aluno Critério Brasil, padronizado dentro da escola (variação -3 a 3 dp) (informação gerada da original) Nível 2 – Escolas Rede Administração (0 = Pública; 1 = Particular) (informação original) Nível socioeconômico das escolas obtido pela NSE_escola média dos alunos e padronizado entre as escolas (variação -3 a 3 dp) (informação gerada da original) Quadro 4: Descrição das variáveis utilizadas na modelagem dos dados de Minas Gerais no Saeb 2005. Fonte: Dados do Saeb 2005. Na Tabela 1 pode-se observar o resultado do modelo hierárquico nulo ajustado para as proficiências em Língua Portuguesa e Matemática, na escala do Saeb com média 250 e desvio-padrão 50, considerando as duas séries em conjunto. O modelo linear hierárquico nulo apresenta a estimativa da média geral da proficiência dos alunos, intercepto, e o efeito aleatório é expresso como a parte da variação não explicada dentro da escola e que é devida entre as escolas. Isso significa que os alunos diferem dentro de uma escola, por suas próprias características, e as escolas diferem entre si. Pode-se dizer que alunos semelhantes em escolas distintas têm desempenhos distintos. Por exemplo, na proficiência em Matemática, a média geral estimada para os alunos foi de 233,14 pontos, a variância dentro da escola, residual, foi de 2.006,80 e a variação entre as escolas foi de 2.226,08. 66 Tabela 1: Ajuste do modelo linear hierárquico nulo para as proficiências em Língua Portuguesa e Matemática dos alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. Disciplina Parâmetro I.C. 95% Estimativa Erro padrão T p-valor L. Inf L.Sup Parte fixa Língua Portuguesa Intercepto 215,52 3,23 66,81 0,000 209,16 221,89 Matemática Intercepto 233,14 3,53 66,03 0,000 226,18 240,11 Parte aleatória Correlação Intraclasse (ICC) Língua Portuguesa Dentro da escola (entre alunos) 1996,66 45,06 Entre escolas 1836,26 205,30 Dentro da escola (entre alunos) 2006,80 45,38 Entre escolas 2226,08 244,97 47,9% Matemática 52,6% Fonte: Dados do Saeb 2005. Nota: * Nível 1: “Dentro das Escolas” e Nível 2: “Entre as Escolas”. Os resultados da Tabela 1 mostram a correlação intraclasse para Língua 1836,26 Portuguesa de 0,479 = , ou seja, 47,9% da variabilidade total é 1996,66 + 1836,26 devida às diferenças entre as escolas. Para a proficiência em Matemática essa correlação foi de 52,6%. Considerando que nesse banco de dados tem-se a presença de escolas públicas e particulares, essa variabilidade pode ser maior devido às diferenças naturais existentes entre esses dois tipos de administração. 67 Tabela 2: Ajuste do modelo linear hierárquico final para as proficiências em Língua Portuguesa e Matemática para os alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. Disciplina I.C. 95% Estimativa Erro padrão t p-valor Intercepto 200,95 2,36 85,31 Série 50,49 1,83 Nse_aluno 5,40 Rede Parâmetro L. Inf L.Sup 0,000 196,30 205,60 27,57 0,000 46,90 54,08 1,04 5,18 0,000 3,36 7,45 7,93 4,52 1,75 0,081 -0,99 16,85 Nse_escola 23,24 2,23 10,41 0,000 18,84 27,63 Intercepto 216,42 2,69 80,59 0,000 211,13 221,72 Série 50,19 1,94 25,83 0,000 46,38 54,00 Nse_aluno 9,03 1,06 8,54 0,000 6,96 11,10 Rede 14,26 5,16 2,76 0,006 4,07 24,44 Nse_escola 22,03 2,52 8,74 0,000 17,06 26,99 Parte fixa Língua Portuguesa Matemática Parte aleatória Correlação Intraclasse (ICC) Língua Portuguesa Dentro da escola (entre alunos) 1710,31 Entre escolas 170,68 28,17 Dentro da escola (entre alunos) 1750,24 39,61 38,72 9,1% Matemática 12,5% Entre escolas 251,02 36,94 Fonte: Dados do Saeb 2005. No modelo linear hierárquico final, apresentado na Tabela 2, foram inseridas as variáveis explicativas do nível dos alunos: (i) série, indicando a existência de um acréscimo nas duas proficiências de 50 pontos, o que significa que a escola 68 promove um aumento no desempenho nos alunos da 8ª série; (ii) acréscimo, em torno de 5 pontos, na pontuação da proficiência em Língua Portuguesa e em 9 pontos na proficiência em Matemática para os alunos com maiores níveis socioeconômicos. A inclusão das variáveis na segunda hierarquia: (i) nível socioeconômico da escola indica que os melhores desempenhos são dos alunos em escolas com maiores níveis econômicos; (ii) a variável rede mostra um efeito positivo para as escolas com administração particular, pois representa um acréscimo de 8 pontos para a proficiência em Língua Portuguesa e de 14 pontos para a de Matemática. Considerando a definição de Soares & Andrade (2006), após inclusão do nível socioeconômico dos alunos o desempenho dos alunos ficou alterado positivamente. Isso significa que quanto maior o nível socioeconômico do aluno, melhor o seu desempenho cognitivo. Dessa maneira, a escola não atende o quesito de qualidade como capacidade de diminuir esse efeito entre os alunos. O nível socioeconômico da escola, como segunda hierarquia, está padronizado entre as escolas. Dessa maneira, o quesito de equidade também não é satisfeito, pois escolas com maiores níveis socioeconômicos produzem melhores desempenhos cognitivos. Como esperado, a rede particular também produz maiores desempenhos. Apesar da existência de diferenças entre as redes públicas e particulares torna-se necessária a agregação de outras medidas de avaliação, principalmente as de contexto, pois apenas os resultados da proficiência não garantem que elas possam ser devidas às suas práticas pedagógicas, infraestrutura, administração ou qualidade de seus professores. A correlação intraclasse para Língua Portuguesa, condicionada à inclusão das covariáveis, foi 9,1% da variabilidade total devida às diferenças entre as escolas. Isso significa que as covariáveis utilizadas no modelo foram importantes na explicação da proficiência. O percentual de redução na proporção explicada e devida 47,9 − 9,1 a elas na proficiência em Língua Portuguesa foi de 81,0% = e para a 47,9 proficiência em Matemática essa correlação foi de 12,5%, com 76,2% de redução. A unidade geográfica apresentada nos dados do Saeb 2005 são as Unidades Federativas do Brasil. Considerando que a 8ª série é o final do ciclo do Ensino Fundamental foi feita uma análise dos escores nas habilidades e competências promovidas a eles para a proficiência em Matemática. O objetivo foi verificar a 69 posição do Estado de Minas Gerais em relação às demais Unidades Federativas da União. Nos dados do Saeb 2005 foram obtidas as informações de 33.189 alunos da 8ª série em 1.952 escolas que fizeram o exame de proficiência em Matemática, sendo 33,4% provenientes de escola particular. O Gráfico 3 apresenta o gráfico contendo os intervalos com 95% de confiança para a média da proficiência em Matemática, desses alunos, para todas as Unidades Federativas. Gráfico 3: Intervalo com 95% de confiança para a média da proficiência em Matemática dos alunos da 8ª série por Unidade da Federação no exame do Saeb 2005. Fonte: Dados do Saeb 2005. Pode-se observar que o desempenho das escolas particulares está praticamente todo acima da linha de referência da média do Saeb, que é de 250 pontos, uma indicação de que o desempenho na proficiência em Matemática tem um forte componente econômico, pois as políticas dessas escolas estão mais ligadas, principalmente, a um público com melhores condições financeiras. Comparando o Estado de Minas Gerais com as demais Unidades Federativas, observa-se que o desempenho em Matemática das escolas públicas encontra-se praticamente na linha 70 de referência da média e com boa colocação em relação às demais Unidades Federativas e o das escolas particulares foi o que apresentou o desempenho mais alto dentro dessa categoria no Brasil. O ajuste de um modelo hierárquico nulo em dois níveis para os dados dos alunos da 8ª série do território brasileiro apresenta uma correlação intraclasse de 39,7%, sendo essa a proporção da variação entre as escolas brasileiras (TAB. 3). Tabela 3: Ajuste do modelo linear hierárquico nulo, em dois níveis, para as proficiências em Matemática dos alunos da 8ª série para todo o território brasileiro no Saeb 2005. I.C. Parâmetro Estimativa Erro padrão t p-valor 95% L. Inf L.Sup 246,20 249,45 Parte fixa Intercepto 247,82 0,83 298,82 0,000 Parte aleatória Correlação Intraclasse (ICC) Dentro da escola (entre alunos) 1822,26 14,58 39,7% Entre escolas 1198,00 42,72 Fonte: Dados do Saeb 2005. No modelo linear hierárquico em três níveis para os dados do Saeb 2005 da proficiência em Matemática dos alunos da 8ª série para todo o território brasileiro, não foi possível acrescentar no ajuste do modelo o aninhamento das escolas dentro das Unidades Federativas devido ao excesso de parâmetros (limites do software). Esse aninhamento é responsável pela explicação da variação das escolas dentro de suas respectivas Unidades Federativas, ou seja, é condicionante para a localização da escola. Somente foi possível o ajuste considerando os efeitos aleatórios de cada um dos níveis separadamente e, dessa maneira, o modelo ajustado é considerado menos eficiente, pois sua variabilidade poderia ser um pouco maior do que a esperada caso a variação interna pudesse ser computada. Assim, a Tabela 4 mostra a correlação intraclasse calculada diretamente pela relação da sua covariância e a variação total dos efeitos aleatórios. Dessa forma, entre as escolas ela foi de 33,9% 71 1034,29 = e houve uma pequena diminuição da variabilidade na 1822,32 + 1034,29 + 196,01 1198,0 − 1034,29 presença do efeito das Unidades Federativas, de 13,7% = . 1198,0 Tabela 4: Ajuste do modelo linear hierárquico nulo, em três níveis, para as proficiências em Matemática dos alunos da 8ª série em todo o território brasileiro no Saeb 2005. I.C. 95% Parâmetro Estimativa Erro padrão t p-valor L. Inf L.Sup 240,64 252,28 Parte fixa Intercepto 246,46 2,82 87,29 0,000 Dentro da escola (entre alunos) 1822,32 14,58 Correlação Intraclasse (ICC) Entre escolas 1034,29 37,73 33,9% Entre UF´s 196,01 61,06 6,4% Parte aleatória Fonte: Dados do Saeb 2005. A correlação intraclasse entre as Unidades Federativas no modelo linear hierárquico em três níveis para os dados do Saeb 2005 da proficiência em Matemática dos alunos da 8ª série para todo o território brasileiro foi de 6,4%, ou seja, esse é o percentual da variabilidade total devida ao seu efeito aleatório. No estudo de Cesar & Soares (2001), essa correlação intraclasse foi de 7,4% para os dados do Saeb 99, no ajuste do modelo linear hierárquico nulo para o território brasileiro. Considerando que os exames do Saeb preservam a mesma métrica desde 1997, houve uma redução na variação da proficiência em Matemática entre as Unidades Federativas nesse período de aproximadamente quatro anos de 13,5%. 72 4.2 Resultados da Prova Brasil 2007 A Prova Brasil 2007 objetiva avaliar o rendimento escolar e apresenta os resultados da proficiência em Língua Portuguesa e em Matemática em duas escalas, uma transformada na escala única do Saeb/97 – Sistema Nacional de Avaliação da Educação Básica – com média 250 e desvio-padrão 50; e a outra calculada na escala única do Saeb, com média zero e desvio-padrão 1 na população de referência. Para efeito deste estudo serão utilizadas as escalas padronizadas com média 250 e desvio-padrão 50, do Saeb/97, para as duas proficiências. A Prova Brasil 2007 é aplicada no formato censitário, portanto, os dados originais fornecidos pelo INEP serão considerados como a população de escolares da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais. Dessa maneira, tornam-se conhecidas a média, a variância e a distribuição de probabilidade da proficiência em Língua Portuguesa e Matemática, que será assumida, pelo teorema central do limite, como aproximadamente normal (GAF.4). 70 Língua Portuguesa Frequência 100000 130 190 250 310 370 430 Matemática 100000 80000 80000 60000 60000 40000 40000 20000 20000 0 0 70 130 190 250 310 370 Gráfico 4: Distribuição da proficiência da população de escolares da 4ª e 8ª séries do Ensino Fundamental de Minas Gerais na Prova Brasil 2007. Fonte: Dados da Prova Brasil 2007. 73 A Tabela 5 apresenta os resultados obtidos na proficiência em Língua Portuguesa e Matemática, por série, na escala transformada do Saeb/97 com média 250 e desvio-padrão 50, para a população dos escolares do Estado de Minas Gerais. A escala do Sabe/97 permite a comparação entre os resultados obtidos por série dentro de cada avaliação. Assim, na proficiência da Língua Portuguesa, a diferença entre os resultados da 8ª e 4ª séries é de aproximadamente 58 pontos e essa diferença é estatisticamente significativa ao nível de 5% (teste Z, p-valor = 0,000). Analogamente, a diferença para a proficiência em Matemática é de aproximadamente 53 pontos e é estatisticamente significativa ao nível de 5% (teste Z, p-valor = 0,000). Do ponto de vista estatístico, essas diferenças mostram uma melhoria no desempenho, ou seja, um ganho de habilidades e competências promovidas pelo ensino, apesar de essa comparação ser do ponto de vista macro, ou seja, considera somente os alunos como unidade de medida, deixando de lado o contexto das escolas. A descrição na Tabela 5 mostra que a proficiência em Língua Portuguesa dos alunos da 8ª série está com pontuação abaixo da média de referência do Saeb, igual a 250, e essa diferença é estatisticamente significativa ao nível de 5% (Teste Z, pvalor = 0,000). Apesar de a média ser deficitária em Língua Portuguesa, pelo menos 25% dos alunos conseguiram ficar acima da média de referência (percentil 75). Por outro lado, em Matemática, 50% (mediana) dos alunos da 8ª série encontram-se acima da média de referência. O Gráfico 5 apresenta a comparação dos intervalos de 95% de confiança para a média em Matemática dos alunos da 8ª série para os 26 Estados e o Distrito Federal do Brasil. Como pode ser observado, apenas seis Unidades Federativas encontram-se acima da média igual a 250, referência do Saeb/97, são elas: Distrito Federal, Minas Gerais, Mato Grosso, Paraná, Rio Grande do Sul e Santa Catarina. 74 Tabela 5: Descrição das proficiências em Língua Portuguesa e em Matemática na escala 19 Saeb(250,50) , por série, na população dos escolares de Minas Gerais na Prova Brasil 2007. Proficiência em Língua Portuguesa (Saeb(250,50)) Proficiência em Matemática (Saeb(250,50)) N Média Desvio-padrão Amplitude Mínimo Máximo Percentil 25 Mediana Percentil 75 261.247 179,92 43,97 274 73 347 148 178 209 261.247 199,69 45,76 281 87 368 166 197 231 N 228.256 228.254 Média 237,29 252,65 Desvio-padrão 44,82 45,66 Amplitude 282 278 Mínimo 114 139 Máximo 396 417 Percentil 25 205 221 Mediana 237 251 Percentil 75 269 284 Série Estatísticas Descritivas 4a série a 8 série Fonte: Dados Prova Brasil 2007. 19 Saeb(250,0): escala transformada do Saeb/97 com média=250 e desvio-padrão=50. 75 Gráfico 5: Intervalo de 95% de confiança para a média em Matemática no exame da Prova Brasil 2007 dos alunos da 8ª série para as Unidades Federativas do Brasil. Fonte: Dados da Prova Brasil 2007. A população dos escolares da 4ª e 8ª séries, do Estado de Minas Gerais, nos dados da Prova Brasil 2007, consta de 489.509 alunos válidos do Ensino Fundamental, em 5.441 escolas públicas com localização urbana. Pelas políticas próprias do instrumento de avaliação do INEP, as provas foram aplicadas no formato universal (censitário) e em turmas com mais de 20 alunos na série. As dependências administrativas das escolas são públicas, federal, estadual e municipal, sendo que a maioria é estadual (GRAF. 6). 76 70,0% 60,8% 60,0% 50,0% 39,1% 40,0% 30,0% 20,0% 10,0% 0,1% 0,0% Federal Estadual Municipal Gráfico 6: Distribuição da população dos alunos do Estado de Minas Gerais por dependência administrativa das escolas na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. Na distribuição total dos alunos dessa população, 53,4% são provenientes da 4ª série (GRAF. 7). Algumas respostas foram perdidas e os percentuais válidos variaram de acordo com a informação prestada, por exemplo, apenas 75% dos alunos informaram o sexo e 77,9% declararam sua cor de pele, mas 90% deles informaram se tinham computador em casa. Do total válido de cada variável, 52,8% dos alunos eram do sexo feminino (GRAF. 7); 49,9% se declararam de cor parda e 30,0% de cor branca (GRAF. 8); 60,0% afirmaram não ter computador em casa e 22,4% possuem computador com internet (GRAF. 9). O nível socioeconômico pode ser calculado em 98% dos alunos e, destes, 43,2% pertencem à classe econômica C e 34,7% à D (GRAF. 10). Segundo a ABEP – Associação Brasileira de Empresas de Pesquisa, Critério Brasil, a renda familiar média mensal, em 2010, da classe econômica D é de R$ 750,00 e da C varia entre R$ 1.100,00 e R$ 1.650,0020. 20 Informação obtida em: <http://www.ipcbr.com>. Acesso em: 15 ago. 2010. 77 Feminino 52,8% 4a. série 53,4% 8a. série 46,6% Masculino 47,2% Gráfico 7: Distribuição da população dos alunos do Estado de Minas Gerais por série e a distribuição por sexo na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. 60,0% 49,9% 50,0% 40,0% 30,9% 30,0% 20,0% 11,3% 10,0% 3,9% 4,0% 0,0% Branco(a) Pardo(a) Preto(a) Amarelo(a) Indígena Gráfico 8: Distribuição da população dos alunos do Estado de Minas Gerais por cor da pele por ele considerada na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. 78 Sim, com internet 22,4% Não 66,7% Sim, sem internet 10,9% Gráfico 9:: Distribuição da população dos alunos do Estado de Minas Gerais em relação à posse de computador domiciliar na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. 2007 50,0% 43,2% 45,0% 40,0% 34,7% 35,0% 30,0% 25,0% 20,0% 13,0% 15,0% 8,4% 10,0% 5,0% 0,7% 0,0% A B C D E Gráfico 10:: Distribuição da população dos alunos do Estado de Minas Gerais de acordo com classe econômica na Prova Brasil 2007. 2007 Fonte: Dados Prova Brasil 2007. 2007 A modelagem dos dados pela técnica de modelos lineares hierárquicos foi feita em uma amostra selecionada da população dos escolares do Ensino Fundamental de Minas Gerais, coletadas na Prova Brasil 2007. 2007 As Tabelas 6 e 7 apresentam as distribuições, agrupadas por meso e microrregiões, rregiões, da população e da amostra selecionada dessa população. 79 Tabela 6: Descrição da população dos escolares da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova Brasil 2007. (continua) Microrregião Mesorregião Campo das Vertentes Central Mineira Jequitinhonha Metropolitana de BH Noroeste de Minas Norte de Minas Municípios Escolas Freq. Perc. Freq. Perc. Alunos Freq. Perc. Barbacena 12 1,4% 71 1,3% 5.763 1,2% Lavras 9 1,1% 39 0,7% 3.676 0,8% São João Del Rei 15 1,8% 52 1,0% 4.398 0,9% Bom Despacho 12 1,4% 52 1,0% 4.373 0,9% Curvelo 11 1,3% 61 1,1% 4.668 1,0% Três Marias 7 0,8% 43 0,8% 2.833 0,6% Almenara 16 1,9% 70 1,3% 5.481 1,1% Araçuaí 8 0,9% 51 0,9% 4.122 0,8% Capelinha 14 1,6% 85 1,6% 6.485 1,3% Diamantina 8 0,9% 37 0,7% 3.006 0,6% Pedra Azul 5 0,6% 30 0,6% 2.795 0,6% Belo Horizonte Conceição do Mato Dentro Conselheiro Lafaiete 24 2,8% 919 16,9% 113.650 23,2% 13 1,5% 44 0,8% 2.690 0,5% 12 1,4% 89 1,6% 6.399 1,3% Itabira 18 2,1% 130 2,4% 10.726 2,2% Itaguara 9 1,1% 24 0,4% 1.530 0,3% Ouro Preto 4 0,5% 54 1,0% 4.684 1,0% Pará de Minas 5 0,6% 37 0,7% 3.413 0,7% Sete Lagoas 20 2,3% 123 2,3% 11.089 2,3% Paracatú 10 1,2% 64 1,2% 6.385 1,3% Unaí 9 1,1% 41 0,8% 4.106 0,8% Bocaiúva 5 0,6% 25 0,5% 2.031 0,4% Grão Mogol 6 0,7% 19 0,3% 1.235 0,3% Janaúba 13 1,5% 71 1,3% 5.627 1,1% Januária 16 1,9% 74 1,4% 6.749 1,4% Montes Claros 22 2,6% 186 3,4% 15.025 3,1% Pirapora 10 1,2% 64 1,2% 5.048 1,0% Salinas 17 2,0% 66 1,2% 5.534 1,1% 80 (conclusão) Microrregião Mesorregião Oeste de Minas Sul/Sudoeste de Minas Vale do Rio Doce Zona da Mata Escolas Alunos Freq. Perc. Freq. Perc. Freq. Perc. Campo Belo 7 0,8% 31 0,6% 2.404 0,5% Divinópolis 11 1,3% 123 2,3% 11.801 2,4% Formiga 8 0,9% 52 1,0% 3.979 0,8% Oliveira 9 1,1% 42 0,8% 3.343 0,7% Piuí 9 1,1% 28 0,5% 1.887 0,4% Alfenas 12 1,4% 63 1,2% 5.519 1,1% Andrelândia 13 1,5% 27 0,5% 2.052 0,4% Itajubá 13 1,5% 61 1,1% 4.960 1,0% Passos 14 1,6% 65 1,2% 5.871 1,2% Poços de Caldas 13 1,5% 86 1,6% 7.575 1,5% Pouso Alegre 20 2,3% 76 1,4% 7.396 1,5% Santa Rita do Sapucaí 15 1,8% 44 0,8% 3.712 0,8% São Lourenço São Sebastião do Paraíso Varginha 16 1,9% 61 1,1% 5.240 1,1% 14 1,6% 76 1,4% 6.799 1,4% 16 1,9% 112 2,1% 11.380 2,3% Araxá 10 1,2% 58 1,1% 5.015 1,0% Frutal 12 1,4% 54 1,0% 4.224 0,9% 6 0,7% 41 0,8% 3.578 0,7% 10 1,2% 67 1,2% 6.690 1,4% 11 1,3% 69 1,3% 5.372 1,1% Uberaba 7 0,8% 74 1,4% 7.318 1,5% Uberlândia 10 1,2% 162 3,0% 17.130 3,5% Nanuque 10 1,2% 53 1,0% 3.457 0,7% Teófilo Otoni 13 1,5% 89 1,6% 7.548 1,5% Ituiutaba Triângulo Mineiro/Alto Patos de Minas Paranaíba Patrocínio Vale do Mucuri Municípios Aimorés 13 1,5% 65 1,2% 3.489 0,7% Caratinga 20 2,3% 103 1,9% 6.350 1,3% Governador Valadares 25 2,9% 140 2,6% 10.580 2,2% Guanhães 15 1,8% 46 0,8% 3.607 0,7% Ipatinga 13 1,5% 139 2,6% 13.883 2,8% Mantena 7 0,8% 26 0,5% 1.707 0,3% Peçanha 9 1,1% 26 0,5% 1.779 0,4% Cataguases 14 1,6% 78 1,4% 4.964 1,0% Juiz de Fora 33 3,9% 186 3,4% 16.542 3,4% Manhuaçu 20 2,3% 87 1,6% 6.332 1,3% Muriaé 20 2,3% 90 1,7% 6.420 1,3% Ponte Nova 18 2,1% 75 1,4% 4.695 1,0% Ubá 17 2,0% 79 1,5% 6.309 1,3% Viçosa 20 2,3% 66 1,2% 5.081 1,0% Total Fonte: Dados da Prova Brasil 2007. 853 100,0% 5.441 100,0% 489.509 100,0% 81 Tabela 7: Descrição da amostra selecionada dos escolares da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova Brasil 2007. (continua) Microrregião Mesorregião Campo das Vertentes Central Mineira Jequitinhonha Metropolitana de BH Noroeste de Minas Norte de Minas Municípios Escolas Alunos Freq. Perc. Freq. Perc. Freq. Perc. Barbacena 2 0,9% 5 1,5% 349 1,2% Lavras 1 0,5% 1 0,3% 65 0,2% São João Del Rei 4 1,8% 4 1,2% 314 1,1% Bom Despacho 2 0,9% 2 0,6% 93 0,3% Curvelo 3 1,4% 5 1,5% 428 1,5% Três Marias 3 1,4% 3 0,9% 304 1,0% Almenara 3 1,4% 3 0,9% 199 0,7% Araçuaí 4 1,8% 6 1,8% 441 1,5% Capelinha 5 2,3% 5 1,5% 339 1,2% Diamantina 2 0,9% 2 0,6% 199 0,7% Pedra Azul 1 0,5% 1 0,3% 26 0,1% Belo Horizonte 16 7,2% 58 17,2% 6.279 21,3% Conceição do Mato Dentro 2 0,9% 2 0,6% 53 0,2% Conselheiro Lafaiete 4 1,8% 5 1,5% 345 1,2% Itabira 5 2,3% 6 1,8% 436 1,5% Itaguara 2 0,9% 2 0,6% 38 0,1% Ouro Preto 3 1,4% 5 1,5% 676 2,3% Pará de Minas 2 0,9% 3 0,9% 381 1,3% Sete Lagoas 3 1,4% 6 1,8% 433 1,5% Paracatú 2 0,9% 3 0,9% 155 0,5% Unaí 2 0,9% 3 0,9% 267 0,9% Bocaiúva 1 0,5% 1 0,3% 142 0,5% Grão Mogol 2 0,9% 2 0,6% 144 0,5% Janaúba 6 2,7% 11 3,3% 600 2,0% Januária 3 1,4% 3 0,9% 207 0,7% Montes Claros 6 2,7% 8 2,4% 842 2,9% Pirapora 3 1,4% 4 1,2% 372 1,3% Salinas 2 0,9% 2 0,6% 245 0,8% 82 (conclusão) Microrregião Mesorregião Oeste de Minas Sul/Sudoeste de Minas Triângulo Mineiro/Alto Paranaíba Vale do Mucuri Vale do Rio Doce Zona da Mata Municípios Escolas Alunos Freq. Perc. Freq. Perc. Freq. Perc. Campo Belo 2 0,9% 2 0,6% 117 0,4% Divinópolis 5 2,3% 9 2,7% 877 3,0% Formiga 3 1,4% 3 0,9% 221 0,8% Oliveira 1 0,5% 3 0,9% 116 0,4% Piuí 0 0,0% 0 0,0% 0 0,0% Alfenas 2 0,9% 2 0,6% 162 0,5% Andrelândia 1 0,5% 1 0,3% 47 0,2% Itajubá 5 2,3% 5 1,5% 453 1,5% Passos 4 1,8% 4 1,2% 226 0,8% Poços de Caldas 4 1,8% 6 1,8% 426 1,4% Pouso Alegre 6 2,7% 7 2,1% 753 2,6% Santa Rita do Sapucaí 2 0,9% 2 0,6% 393 1,3% São Lourenço 1 0,5% 1 0,3% 116 0,4% São Sebastião do Paraíso 4 1,8% 7 2,1% 473 1,6% Varginha 5 2,3% 6 1,8% 684 2,3% Araxá 1 0,5% 1 0,3% 15 0,1% Frutal 3 1,4% 4 1,2% 352 1,2% Ituiutaba 0 0,0% 0 0,0% 0 0,0% Patos de Minas 3 1,4% 3 0,9% 202 0,7% Patrocínio 3 1,4% 5 1,5% 548 1,9% Uberaba 4 1,8% 8 2,4% 956 3,2% Uberlândia 5 2,3% 11 3,3% 831 2,8% Nanuque 2 0,9% 2 0,6% 195 0,7% Teófilo Otoni 3 1,4% 7 2,1% 552 1,9% Aimorés 5 2,3% 6 1,8% 245 0,8% Caratinga 7 3,2% 8 2,4% 555 1,9% Governador Valadares 1 0,5% 2 0,6% 221 0,8% Guanhães 2 0,9% 2 0,6% 83 0,3% Ipatinga 6 2,7% 12 3,6% 1.955 6,6% Mantena 1 0,5% 1 0,3% 63 0,2% Peçanha 3 1,4% 3 0,9% 93 0,3% Cataguases 4 1,8% 5 1,5% 422 1,4% Juiz de Fora 4 1,8% 7 2,1% 522 1,8% Manhuaçu 5 2,3% 5 1,5% 368 1,2% Muriaé 3 1,4% 4 1,2% 226 0,8% Ponte Nova 7 3,2% 9 2,7% 624 2,1% Ubá 6 2,7% 8 2,4% 519 1,8% Viçosa 5 2,3% 5 1,5% 473 1,6% 222 100,0% 337 Total Fonte: Dados da Prova Brasil 2007. 100,0% 29.456 100,0% 83 No Gráfico 11 pode-se observar nos gráficos com áreas empilhadas a mesma representação pela amostra da população em estudo, por microrregião. Alunos Amostra Ponte Nova Mantena Juiz de Fora Governador Valadares Uberaba Teófilo Otoni Varginha Ituiutaba Passos Santa Rita do Sapucaí Alfenas Salinas Escolas População Formiga Januária Barbacena Ponte Nova Mantena Juiz de Fora Governador Valadares Uberaba Teófilo Otoni Varginha Ituiutaba Passos Santa Rita do Sapucaí Alfenas Salinas Formiga Januária Bocaiúva Itaguara Sete Lagoas Almenara Diamantina Barbacena Bom Despacho 0% Conceição do Mato … 2% Bocaiúva 4% Itaguara 6% Almenara 8% Diamantina 10% Bom Despacho 35% 30% 25% 20% 15% 10% 5% 0% Sete Lagoas Escolas Amostra Municípios População Conceição do Mato … Municípios Amostra 12% Alunos População 50% 40% 30% 20% Ponte Nova Juiz de Fora Mantena Governador Valadares Uberaba Teófilo Otoni Varginha Ituiutaba Passos Santa Rita do Sapucaí Alfenas Salinas Formiga Januária Bocaiúva Sete Lagoas Itaguara Almenara Diamantina Bom Despacho Barbacena 0% Conceição do Mato … 10% Gráfico 11: Áreas empilhadas da população e amostra dos municípios, escolas e alunos da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais, por microrregião na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. A partir desse ponto, as análises serão feitas apenas no estudo da amostra selecionada da avaliação Prova Brasil 2007 para o Estado de Minas Gerais. No Gráfico 12 podem-se observar os intervalos de 95% de confiança para a proficiência em Matemática para a 4ª e 8ª séries e por microrregião. O ponto mais alto observado refere-se à estimativa intervalar da maior média da proficiência em Matemática produzida pela amostra, para a 8ª série, pertencente à microrregião de Peçanha na mesorregião do Vale do Rio Doce. Para efeito da modelagem dos dados, os alunos da 4ª e 8ª séries foram considerados em conjunto. No Quadro 5 estão descritas as variáveis estudadas e sua proveniência: origem direta do banco de dados fornecido pelo INEP ou geradas a partir dos dados originais especialmente para essa análise. A variável dependente, ou resposta, é a proficiência, resultado nos testes aplicados pela Prova Brasil no ano de 2007, em Língua Portuguesa (leitura) e Matemática (resolução de problemas). 84 Gráfico 12: Intervalo com 95% de confiança para a média da proficiência em Matemática dos alunos amostrados da 4ª e 8ª séries do Ensino Fundamental por microrregião do Estado de Minas Gerais na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. Apesar de a amostra selecionada contar com 385 municípios, o software apresentou limitação na geração dos coeficientes dos parâmetros para o nível dos municípios. A estratégia final adotada foi a geração dos modelos considerando as microrregiões como variável geográfica no terceiro nível. Os resultados dos modelos hierárquicos ajustados para as proficiências em Língua Portuguesa e em Matemática serão analisados separadamente, na ausência e na presença das variáveis explicativas (covariáveis). Primeiramente foi ajustado um modelo linear hierárquico nulo, sem a presença de covariáveis, em três níveis: aluno, escola e microrregião, ou seja, os interceptos aleatórios são os da escola e os da microrregião. Os níveis podem ser 85 percebidos pelo natural aninhamento entre eles. Dessa maneira, o primeiro nível, o dos alunos, é o mais interno, pois está dentro das escolas, segundo nível, que por sua vez encontram-se aninhadas dentro do terceiro nível, mais abrangente, que serão, para esse estudo, as microrregiões. Nível 1 – Alunos Alunoid Identificação do aluno (informação original)* Resultados dos alunos nos testes aplicados na Proficiência em Língua Prova Brasil, em 2007, transformados na Escala Portuguesa e Matemática Única do Saeb/97 com média 250 e desviopadrão 50 (informação original)* Série Computador Série do aluno (0 = 4a.; 1 = 8a.) (informação original)* Se possui computador na residência (0=não; 1=sim) (informação transformada da original) Nível socioeconômico dos alunos, calculado pelo NSE_aluno Critério Brasil, padronizado dentro da escola (variação -3 a 3 dp) (informação gerada no estudo) Nível 2 – Escolas Escolaid Identificação da escola (informação original)* Nível socioeconômico das escolas obtido pela NSE_escola média dos alunos e padronizado entre as escolas (variação -3 a 3 dp) (informação gerada no estudo) Nível 3 – Microrregião Microid IDHM-2000 Identificação gerada) da microrregião (informação * Índice de Desenvolvimento Humano do Município 2000 (informação obtida no Atlas IDH2000) Quadro 5: Descrição das variáveis utilizadas na análise dos dados da Prova Brasil 2007. *Nota: Informação original = informação obtida diretamente no banco de dados do INEP. 86 4.2.1 Modelos Lineares Hierárquicos para a Proficiência em Língua Portuguesa A Tabela 8 apresenta as estimativas do ajuste do modelo linear hierárquico nulo para a proficiência em Língua Portuguesa e a Tabela 9 o coeficiente de correlação intraclasse, que é uma medida que descreve a similaridade (homogeneidade) da proficiência dentro de cada um dos fatores aleatórios. Tabela 8: Resultados do modelo linear hierárquico nulo para a proficiência em Língua Portuguesa dos alunos da amostra de Minas Gerais Estimativa Erro padrão t p-valor 200,35 2,08 98,35 0,000 Dentro da escola (entre alunos) 2008,11 17,03 Entre escolas dentro da microrregião 822,21 72,71 Entre microrregiões 71,84 47,50 Parâmetro * I.C. 95% ** L. Inf L.Sup 196,15 204,54 Parte fixa Intercepto Parte aleatória Fonte: Dados da Prova Brasil 2007. Nota: * Estatística t-Student; ** I.C 95% = Intervalo com 95% de Confiança. No modelo nulo ajustado na amostra dos alunos de Minas Gerais da Prova Brasil 2007, o único efeito fixo é o intercepto. Dessa maneira a estimativa representa a média da proficiência em Língua Portuguesa no nível da escola. A estimativa intervalar dessa média é uma pontuação entre 196 e 205 aproximadamente. No caso da Língua Portuguesa, os parâmetros estimados da covariância apresentam o efeito aleatório dentro da escola de 2008,11, entre as escolas dentro da microrregião de 822,21 e entre as microrregiões de 71,84. A relação entre essas covariâncias mostra a correlação intraclasse, que assume valores entre 0 e 1, sendo que os valores menores indicam uma pequena variação na proficiência dos alunos devido ao efeito em análise e essa medida justifica o emprego de um modelo hierárquico, pois indica a presença de mais de um termo residual no modelo (GOLDSTEIN, 1999). 87 Tabela 9: Correlação intraclasse no modelo linear hierárquico nulo para a proficiência em Língua Portuguesa dos alunos amostrados em Minas Gerais. Correlação Intraclasse (ICC) Entre escolas dentro da microrregião 30,8% Entre microrregiões 2,5% Fonte: Dados da Prova Brasil 2007. Entre as escolas dentro da microrregião a correlação intraclasse é 0,308 obtida pela relação: 822,21 + 71,84 . Por ser essa uma medida da proporção 2008,11 + 822,21 + 71,84 do total da variância que é devida entre as escolas dentro da microrregião, tem-se, nesse caso, que 30,8% da variabilidade é devida à diferença entre as escolas. Por outro lado, entre as microrregiões a correlação intraclasse é de 0,025 71,84 = , indicando que entre as microrregiões uma pequena 2008,11 + 822,21 + 71,84 proporção da variabilidade é devida a elas, ou seja, os alunos são mais similares dentro das microrregiões. Foram feitos os testes da razão da verossimilhança, um para verificar se a escola era importante para o modelo nulo ajustado para a proficiência da Língua Portuguesa e o outro para verificar a inclusão ou não da microrregião e os dois apresentaram como resultado a importância da permanência desses dois efeitos no modelo. Isso significa que a estrutura hierárquica é adequada para esses dados. De maneira análoga, foram feitos os testes para verificar a importância da inclusão no modelo para cada uma das variáveis explicativas e logo após o modelo final foi ajustado e o resultado encontra-se apresentado na Tabela 10. Nesse modelo foram inseridas as variáveis explicativas do primeiro nível cuja interpretação, para cada uma delas, mantendo fixas as demais, é: série indica a existência de acréscimo na proficiência para a 8ª série; melhoria no desempenho para os alunos que possuem computador em sua residência; nível socioeconômico do aluno, indicando que os melhores desempenhos são dos alunos com maiores níveis econômicos. 88 Tabela 10: Resultados do ajuste do modelo linear hierárquico final para a proficiência em Língua Portuguesa dos alunos amostrados de Minas Gerais na Prova Brasil 2007. Estimativa Erro padrão t p-valor Nível 1: Intercepto 176,51 13,23 13,34 Nível 1: Série 52,91 0,74 Nível 1: Computador 6,66 Nível 1: Nse_aluno Parâmetro I.C. 95% L. Inf L.Sup 0,000 150,43 202,58 71,41 0,000 51,46 54,36 0,65 10,21 0,000 5,38 7,94 2,33 0,28 8,37 0,000 1,78 2,87 Nível 2: Nse_escola 10,61 0,89 11,93 0,000 8,86 12,36 Nível 3: IDHM2000 7,33 17,63 0,42 0,678 -27,41 42,08 Dentro da escola (entre alunos) 1664,18 14,89 Entre escolas dentro da microrregião 143,03 14,97 Entre microrregiões 27,66 12,10 Parte fixa Parte aleatória Fonte: Dados Prova Brasil 2007. Nota: * Nível 1: “Dentro das Escolas”; Nível 2: “Entre as Escolas dentro das microrregiões”; Nível 3: “Entre microrregiões”. Na segunda hierarquia, o nível socioeconômico da escola representa uma medida de equidade da escola, ao passo que o intercepto representa a qualidade da escola, ou seja, se ela consegue promover acréscimo na proficiência dos alunos, de acordo com a definição utilizada por Soares & Andrade (2006). No modelo apresentado na Tabela 10, maiores níveis socioeconômicos promovem um acréscimo no desempenho da leitura. Pelo fato de esse nível socioeconômico estar diretamente relacionado com o dos alunos, percebe-se que alunos com melhor nível socioeconômico estão também em escolas de mesmo nível social; por outro lado, se houver aluno com nível socioeconômico menor, ele também será beneficiado por essas escolas. Por esse nível ter sido feito com a opção de aninhamento entre escola e microrregião, o efeito do nível socioeconômico da escola agrega também a informação do IDHM 2000, variável associada ao terceiro nível. Assim, as escolas promovem uma melhoria no desempenho associado aos maiores índices de desenvolvimento humano dos municípios. 89 Em relação à correlação intraclasse, pode-se observar, comparando os dados da Tabela 9 (modelo nulo) e da Tabela 11 (modelo condicionado às covariáveis), que a influência dos efeitos fixos é positiva, pois houve uma redução da variabilidade 30,8 − 9,3 no nível da escola dentro das microrregiões de 69,8% = e de 40,0% 30,8 2,5 − 1,5 = no nível das microrregiões. 2,5 Tabela 11: Correlações Intraclasse do modelo linear hierárquico final ajustado, na presença de variáveis explicativas, para proficiência em Língua Portuguesa na amostra de Minas Gerais na Prova Brasil 2007. Correlação Intraclasse (ICC) Entre escolas dentro da microrregião 9,3% Entre microrregiões 1,5% Fonte: Dados Prova Brasil 2007. 4.2.2 Modelos Lineares Hierárquicos para a Proficiência em Matemática Analogamente aos procedimentos de análise realizados para a proficiência em Língua Portuguesa, foram ajustados os modelos nulo e completo, ou condicionado, para a proficiência em Matemática. Os resultados do ajuste do modelo nulo estão apresentados nas Tabelas 12 e suas correlações intraclasse na Tabela 13. Os resultados do modelo completo, ou condicionado, para a proficiência em Matemática na presença das variáveis explicativas estão apresentados na Tabela 14 e as correlações intraclasse após inclusão das variáveis explicativas na Tabela 15. O modelo hierárquico final ajustado para a proficiência em Matemática apresenta a mesma direção indicada pelos coeficientes ajustados do modelo final para a proficiência em Língua Portuguesa, exceto para a variável sexo, que por ser positivo, indica que o desempenho em Matemática é melhor entre os alunos do sexo masculino em relação ao feminino. Mantendo as demais características dos modelos, os homens perdem 12 pontos na leitura, mas ganham 4 pontos no 90 raciocínio lógico. Também nesse modelo, o IDH-M apresenta-se com indicação de impacto negativo. Tabela 12: Resultados do modelo linear hierárquico nulo para a proficiência em Matemática na amostra dos alunos de Minas Gerais na Prova Brasil 2007. Estimativa Erro padrão t p-valor 219,05 2,09 104,64 0,000 Dentro da escola (entre alunos) 2045,82 17,35 Entre escolas dentro da microrregião 776,67 68,92 Entre microrregiões 81,95 47,81 Parâmetro I.C. 95% L. Inf L.Sup 214,83 223,27 Parte fixa Intercepto Parte aleatória Fonte: Dados Prova Brasil 2007. Tabela 13: Correlações intraclasse do modelo linear hierárquico nulo para a proficiência em Matemática dos alunos na amostra de Minas Gerais na Prova Brasil 2007. Correlação Intraclasse (ICC) Entre escolas dentro da microrregião 29,6% Entre microrregiões 2,8% Fonte: Dados Prova Brasil 2007. 91 Tabela 14: Resultados do modelo linear hierárquico final ajustado na presença de variáveis explicativas para a proficiência em Matemática dos alunos amostrados em Minas Gerais na Prova Brasil 2007. I.C. 95% Estimativa Erro padrão t p-valor Nível 1: Intercepto 195,88 15,15 12,93 Nível 1: Série 49,09 0,76 Nível 1: Computador 8,22 Nível 1: Nse_aluno Parâmetro L. Inf L.Sup 0,000 166,02 225,73 64,33 0,000 47,60 50,59 0,67 12,36 0,000 6,92 9,53 3,20 0,28 11,31 0,000 2,65 3,76 Nível 2: Nse_escola 10,37 1,00 10,32 0,000 8,39 12,34 Nível 3: IDHM2000 7,52 20,20 0,37 0,710 -32,30 47,34 1727,12 15,45 Entre escolas dentro da microrregião 191,14 19,15 Entre microrregiões 40,61 16,27 Parte fixa Parte aleatória Dentro da escola (entre alunos) Fonte: Dados Prova Brasil 2007. Nota: * Nível 1: “Dentro da Escola”; Nível 2: “Entre as Escolas dentro das microrregiões”; Nível 3: “Entre microrregiões”. Tabela 15: Correlações intraclasse do modelo linear hierárquico final ajustado, na presença de variáveis explicativas, para a proficiência em Matemática dos alunos amostrados em Minas Gerais na Prova Brasil 2007. Correlação Intraclasse (ICC) Entre escolas dentro da microrregião 11,8% Entre microrregiões 2,1% Fonte: Dados Prova Brasil 2007 Comparando as correlações intraclasse do modelo nulo na Tabela 13 e do modelo final ajustado na Tabela 15 para a proficiência em Matemática, verifica-se 29,6 − 11,8 que houve uma redução de aproximadamente 60% = na variabilidade 29,6 devida às escolas dentro das microrregiões e uma redução de aproximadamente 92 2,8 − 2,1 25% = na variabilidade devida entre as microrregiões, após a inclusão das 2,8 variáveis explicativas. Para testar o efeito da inclusão da unidade geográfica, foi ajustado um modelo final, similar ao apresentado na Tabela 14 com exceção do acréscimo do terceiro nível. Os dados ajustados do modelo linear hierárquico final encontram-se apresentados na Tabela 16. No modelo ajustado em três níveis (TAB. 14) a correlação intraclasse devida à escola dentro das microrregiões foi de 11,8% e a correlação intraclasse devida somente às escolas (TAB. 16) foi de 12,2%. Assim, a redução na correlação intraclasse foi de 3,3%. Apesar de não ser uma diferença muito grande, ela indica que a inclusão da unidade geográfica no terceiro nível é importante. Esse resultado corrobora o teste da razão da verossimilhança que foi positivo para a inclusão da microrregião no modelo. Tabela 16: Modelo linear hierárquico final ajustado em dois níveis, na presença de variáveis explicativas, para a proficiência em Matemática dos alunos amostrados em Minas Gerais na Prova Brasil 2007. I.C. 95% Estimativa Erro padrão t p-valor Intercepto 199,75 1,04 191,67 0,000 197,71 201,80 Série 49,24 0,76 64,58 0,000 47,74 50,73 Computador 8,17 0,67 12,27 0,000 6,86 9,47 Nse_aluno 3,21 0,28 11,33 0,000 2,65 3,76 Nse_escola 10,18 0,94 10,88 0,000 8,34 12,02 Parâmetro L. Inf L.Sup Parte fixa Parte aleatória Correlação Intraclasse (ICC) Dentro da escola (entre alunos) 1726,98 Entre escolas 239,54 15,45 12,2% 21,40 Fonte: Dados Prova Brasil 2007. O Gráfico 13 mostra a tendência de linearidade entre os valores preditos pelo modelo linear hierárquico final e os valores observados tanto para a proficiência em 93 Língua Portuguesa quanto para a em Matemática na amostra dos alunos de Minas Gerais. Gráfico 13: Tendência linear entre os valores preditos e observados na proficiência em Língua Portuguesa e em Matemática obtidos nos MLH ajustados na amostra dos alunos de Minas Gerais na Prova Brasil 2007. Fonte: Dados Prova Brasil 2007. 4.2.3 Abordagem Espacial Nos dados da Prova Brasil 2007, as escolas foram georeferenciadas e, dessa maneira, foi possível uma abordagem espacial nos dados dos 853 municípios mineiros utilizando os resultados do Ideb de 2007, da proficiência em Língua Portuguesa e em Matemática dos alunos da 8ª série e as medidas do IDHM-2000, Índice de Desenvolvimento Humano do Município publicado para o ano de 2000, nessa unidade geográfica. A escolha dos alunos da 8ª série deve-se ao fato de ser essa a série final de um ciclo sendo, portanto, esperados os maiores escores das proficiências os quais indicam a incorporação das habilidades e competências do Ensino Fundamental (ANEXO C). Assim, será feita a análise das variáveis dentro do terceiro nível, mais abrangente, do modelo linear hierárquico e o objetivo é validar e corroborar os resultados obtidos na análise utilizando recursos dessa técnica estatística. Os resultados do Ideb 2007 foram obtidos diretamente no sítio do INEP. 94 Q4 Q2 Q1 Q3 Gráfico 14: Índice de Moran entre o Ideb dos alunos da 8ª série e o IDH-M 2000 dos municípios de Minas Gerais. Fonte: Dados Prova Brasil 2007 e Atlas IDH2000. O diagrama com o Índice de Moran, apresentado no Gráfico 14, foi gerado no GeoDa para as variáveis contínuas Ideb e IDHM-2000, padronizadas em relação às suas respectivas média e desvio-padrão e forneceu a correlação de 0,4270 entre elas. Os valores de contribuição para esse índice global estão distribuídos em quatro quadrantes: o primeiro quadrante (Q1 = alta-alta) apresenta valores positivos, médias positivas, e o segundo (Q2 = baixa-baixa) apresenta valores negativos, médias negativas. Esses quadrantes revelam associação positiva. Por outro lado, o terceiro quadrante (Q3 = alta-baixa) apresenta valores positivos, médias negativas, e o quarto (Q4 = baixa-alta) apresenta valores negativos, médias positivas, e revelam associação negativa. O diagrama de Moran apresenta a estrutura espacial global para as duas escalas de análise: autocorrelação e tendência da associação. Nesse caso, a estatística I de Moran global indica que as variáveis Ideb e IDM-2000 estão autocorrelacionadas e a tendência de associação entre elas é positiva. Isso significa que quanto maior o IDHM-2000 maior será o valor do Ideb. 95 A distribuição do Ideb e do IDHM-2000 está apresentada no Mapa 1 (a) e (b). Observa-se a formação dos clusters espaciais obtidos pelas autocorrelações altaalta e baixa-baixa, com relação positiva e as autocorrelações alta-baixa e baixa-alta mostram os outliers espaciais, com relação inversa. Todas as autocorrelações locais são significativas ao nível de 5%. A comparação entre essas duas distribuições mostram que tanto os clusters quanto os outliers espaciais encontram-se nas mesmas áreas, indicando a correlação positiva ou negativa entre as duas características. Ideb (a) 96 IDHM-2000 (b) Mapa 1: Distribuição dos clusters e outliers obtidos no LISA para o Ideb (a) e o IDH-M 2000 (b) dos municípios de Minas Gerais. Fonte: Dados Prova Brasil 2007 e Atlas IDH2000. O Mapa 2 apresenta o mapa bivariado, o BiLISA, dos clusters e outliers formados para o Ideb ao utilizar o efeito ponderador do IDHM-2000, ou seja, o eixo coordenado Y representa o Ideb e o eixo coordenado X o IDHM-2000. Dessa maneira, verifica-se a autocorrelação do Ideb nos municípios considerando a média para as vizinhanças do IDHM-2000. Para aumentar a sensibilidade das informações foi utilizado um maior número de permutações aleatórias para a pseudo-distribuição empregada no cálculo da significância das autocorrelações. O Ideb em relação ao IDHM-2000 possui autocorrelação espacial positiva, alta-alta, principalmente em grandes partes das mesorregiões Noroeste, Central, Oeste e Sul, contrastando com as autocorrelações baixa-baixa de grandes partes das mesorregiões Norte, Jequitinhonha e Vale do Mucuri. 97 Mapa 2: Mapa BiLISA (clusters e outliers) para o Ideb 2007 pelo IDH-M 2000 para os alunos da 8ª série de Minas Gerais. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. Outra modalidade apresentada para a correspondência espacial utilizada na estatística local de associação espacial (LISA) é a EB21 LISA, a qual apresenta as regiões com os clusters e outliers por meio da razão padronizada das medidas em análise, nesse caso a razão entre Ideb, definida como o Evento, e IDHM-2000, definido como Base. Essa é uma modalidade de suavização das instabilidades que podem ser apresentadas por meio de inferências espúrias e utiliza em sua computação o método de distribuição de probabilidades empírica de Bayes (abordagem bayesiana). O Índice de Moran calculado para essa estatística não apresentou melhorias e ficou com valor nominal menor (I = 0,1941) do que a calculada anteriormente considerando as variáveis de forma independente nos eixos 21 EB = Event and Base (variáveis do Evento e de Base). 98 (I=0,4270). No Mapa 3 pode-se observar que a mesorregião do Triângulo, anteriormente sem indicação de cluster significativo, apresenta indicação de autocorrelação baixa-baixa na presença da razão entre as variáveis. Nas demais mesorregiões não houve alterações nas relações com sentido positivo ou negativo entre as autocorrelações verificadas na Figura 16. Mapa 3: Mapa EB LISA. O Evento Ideb 2007 pela Base IDH-M 2000 dos alunos da 8ª série de Minas Gerais. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. A abordagem espacial feita até o presente momento considera o Ideb indicador oficial do INEP e a variável indicadora do nível socioeconômico do terceiro nível utilizado nos modelos hierárquicos. O Ideb utiliza o rendimento obtido nas proficiências da Prova Brasil, mas alia a essa medida o percentual de aproveitamento das escolas. Para estabelecer a relação espacial direta com os modelos estatísticos gerados será feita uma abordagem espacial utilizando os 99 rendimentos em Matemática e Língua Portuguesa calculados pelo INEP para os municípios. Outra variável de investigação será o nível socioeconômico dos municípios calculados pela média do nível socioeconômico de seus alunos e padronizados entre os municípios. Assim, espera-se obter uma maior relação de estreitamento entre as duas técnicas aqui utilizadas. O Mapa 4 mostra a distribuição por percentil das proficiências em Língua Portuguesa (a) e Matemática (b) dos alunos da 8ª série dos municípios de Minas Gerais. As informações apresentadas pelos mapas são muito similares, ou seja, não existem discrepâncias quanto ao desempenho nas duas proficiências isoladamente. (a) 100 (b) Mapa 4: Distribuição por percentis das proficiências em Matemática (a) e Língua Portuguesa (b) dos alunos da 8ª série e o IDHM-2000 para os municípios de Minas Gerais. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. A correlação espacial entre a proficiência em Língua Portuguesa e em Matemática para o município dos alunos da 8ª série e o IDHM- 2000 pode ser observada na Figura 19. O Índice de Moran foi de 0,3024 para a proficiência em Língua Portuguesa e de 0,3179 para a proficiência em Matemática. Apesar de as correlações serem baixas, elas são positivas e indicam a existência de dependência espacial entre as proficiências do município e o seu IDHM-2000. Comparando com os resultados do modelo linear hierárquico, o coeficiente estimado para o IDHM2000 foi positivo para as duas proficiências. Assim, a indicação é de melhoria no desempenho cognitivo em municípios com melhores índices de desenvolvimento humano. 101 Gráfico 15: Índice de Moran entre as proficiências em Matemática e Língua Portuguesa dos alunos da 8ª série e o IDHM-200 para os municípios de Minas Gerais. Fonte: Dados da Prova Brasil 2007. A análise de clusters será apresentada por meio do EB LISA, por ser essa uma relação direta entre as variáveis de evento, proficiência em Língua Portuguesa e Matemática, e a de base, o IDHM-2000. Por essa modalidade dessa técnica, o Índice de Moran foi de 0,2099 para a proficiência em Língua Portuguesa e de 0,2046 para a proficiência em Matemática. Comparando os Mapas 5 e 1, pode ser observado que a proficiência em Língua Portuguesa apresenta uma relação baixabaixa em grande parte da mesorregião do Triângulo e uma boa parte da mesorregião Noroeste. Porém, na mesorregião do Triângulo, a relação é invertida em relação aos clusters alta-alta obtidos no IDHM-2000, indicando que quanto maior o IDHM-2000 do município menor o desempenho obtido na proficiência em Língua Portuguesa. Analogamente, a região apresentada no Mapa 6 para a proficiência em Matemática não apresentou resultados diferentes dos apresentados para Língua Portuguesa. Dessa maneira, também na região do Triângulo, principalmente a autocorrelação espacial aponta uma relação invertida entre o desempenho e o IDHM-2000. 102 Mapa 5: Mapa EB LISA para o Evento proficiência em Língua Portuguesa dos alunos da 8ª série pela Base IDH-M 2000 para os municípios de Minas Gerais. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. A formação dos clusters por meio da estatística local LISA bivariada para a proficiência em Língua Portuguesa e Matemática em relação ao IDHM-2000 do município não difere da distribuição apresentada pelo Ideb. Esse fato é compreensível, pois o Ideb utiliza as informações dessas proficiências em seu cálculo. No modelo hierárquico foi utilizada a informação do nível socioeconômico dos alunos calculados por meio das informações coletadas pelo INEP e essas informações foram acrescentadas no nível do aluno e no nível da escola. Similarmente, foi calculada a média da pontuação socioeconômica dos alunos por município e em seguida elas foram padronizadas entre os municípios. Considerando que o modelo hierárquico utilizou como medida socioeconômica do município o IDHM-2000, será apresentada a autocorrelação espacial entre essas duas medidas 103 pelo Índice de Moran e pelo agrupamento em clusters do BiLISA. Os resultados encontram-se nas Figuras 22 e 23. Mapa 6: Mapa EB LISA para o Evento proficiência em Matemática dos alunos da 8ª série pela Base IDH-M 2000 para os municípios de Minas Gerais. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. 104 Gráfico 16: Índice de Moran entre o IDHM-2000 e o nível socioeconômico dos alunos padronizado para os municípios. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. Mapa 7: Mapa BiLISA para a medida do nível socioeconômico dos alunos padronizado entre os municípios e o IDHM-2000. Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000. 105 O Índice de Moran (GRAF. 22) foi de 0,5491, indicando a existência de autocorrelação espacial de moderado a forte entre eles. A análise bivarida do LISA (MAPA 23) apresenta a formação de clusters significativos e com sentido positivo, com distribuição similar ao do IDHM-2000 ao ser considerado isoladamente. Dessa maneira, a utilização da medida do IDHM-2000 no terceiro nível do modelo hierárquico é considerada adequada. Finalizando a abordagem espacial, o Mapa 8 apresenta a distribuição do Ideb dos alunos da 8ª série para os municípios do Estado de Minas Gerais em intervalos igualmente espaçados. A grande maioria (79,5%) dos municípios apresentou Ideb entre 2,9 e 4,35. Os maiores valores foram obtidos principalmente pelos municípios da mesorregião Sul e partes das mesorregiões Oeste e Campo das Vertentes. Mapa 8: Mapa da distribuição dos clusters com intervalos igualmente espaçados do Ideb 2007 para os municípios de Minas Gerais dos alunos da 8ª série do Ensino Fundamental. Fonte: Dados da Prova Brasil 2007. 106 As análises espaciais aqui apresentadas corroboram os resultados obtidos nos modelos lineares hierárquicos, pois se encontram em sintonia com a indicação de suas predições, além de acrescentarem a eles a possibilidade de visualização da abrangência de suas estimativas dentro de um contexto de vizinhança. Por outro lado, a existência de autocorrelação espacial permite a adequada utilização dos modelos lineares hierárquicos em dados geográficos. 107 5 CONSIDERAÇÕES FINAIS Todos os modelos ajustados pela técnica de modelos lineares hierárquicos apresentaram uma redução da variabilidade entre o modelo em que se considera apenas o intercepto (modelo nulo) e o modelo ajustado na presença de variáveis explicativas. Nos dados da Prova Brasil 2007, ao se ajustar o modelo em apenas dois níveis, ou seja, considerando o efeito aleatório da escola, a redução da proporção da variabilidade explicada pelo modelo completo (final) indicou a importância da agregação da unidade geográfica no modelo. O resultado para os dados do Saeb 2005 foi análogo ao da Prova Brasil 2007. Os dados do Saeb 2005 foram importantes por apresentarem a informação das escolas particulares, sendo seus resultados comparáveis com os da Prova Brasil 2007 devido à utilização de uma mesma escala de medida referência para a média e desvio-padrão das proficiências de Língua Portuguesa e Matemática. No estudo de Cesar & Soares (2001), foi feita uma análise da proficiência em Matemática para os alunos da 8ª série do Saeb 99 comparando as escolas dentro das Unidades Federativas. Analisando os dados do Saeb 2005 para a mesma série, foram encontrados valores que indicam uma pequena, mas significativa alteração (1,2%; p-valor=0,009) na correlação intraclasse entre os dados do Saeb 99 (35,1%) e os de 2005 (33,9%). Pode ser verificado, com os dados do Saeb 2005, que o Ensino Fundamental no Brasil está abaixo dos padrões das competências e habilidades dele esperadas, conforme as escalas pedagógicas do exame apresentadas no Anexo C, que indicam a pontuação de 350 a 375 pontos para o último bloco de objetivos a serem atingidos ao final de seu ciclo. O Estado de Minas Gerais encontra-se entre os seis melhores no desempenho da proficiência em Matemática dos alunos da 8ª série, mas apesar de fazer parte de uma elite brasileira no Ensino Fundamental sua pontuação encontra-se muito pouco acima da média de 250 pontos. Embora não tenha sido possível fazer uma abordagem espacial nos dados do Saeb 2005, foi importante a inclusão das Unidades Federativas como unidade geográfica na análise de seus dados por possibilitar a visualização do contexto do Ensino Fundamental no território brasileiro. Essa limitação no georeferenciamento nos dados do Saeb 2005 apresenta os modelos lineares hierárquicos como uma 108 ferramenta estatística útil para a Geografia, pois sua análise apresenta a tendência estimada para essas unidades geográficas. Ao se analisar a correlação intraclasse nos dois modelos lineares hierárquicos finais, tanto na Prova Brasil 2007 quanto no Saeb 2005, verifica-se praticamente a mesma diferença entre as escolas, em torno de 10,0 pontos, podendo indicar que o impacto que um aluno teria na mudança entre somente escolas públicas não parece estar muito diferenciado em relação ao impacto que ele teria na troca entre as redes públicas e particulares. Esse fato indica que as escolas não promovem a equidade, conforme também verificado nos estudos de Cesar & Soares (2001), Soares (2006) e Soares, Rigotti & Andrade (2008). No modelo linear hierárquico nulo, em dois níveis (aluno e escola) para a proficiência em Matemática da 8ª série, ajustado por Fletcher (1998) nos dados do Saeb de 1995, para todo o território brasileiro foi encontrada uma variabilidade devida ao efeito aleatório das escolas de 31,2%. Considerando que a metodologia aplicada pelo Saeb nos exames de proficiência foi implantada a partir de 1995 e vem sendo mantida desde então, é possível fazer uma análise longitudinal nos dados do Saeb 2005 para o território nacional, dos alunos da 8ª série para a proficiência em Matemática e a correlação intraclasse foi de 39,6%. Esse resultado é estatisticamente maior do que o obtido em 1995 (p-valor=0,000), ou seja, o Ensino Fundamental vem apresentando sintomas de negligência a longo tempo, tornando urgente a busca e a aplicação de políticas públicas educacionais. Por outro lado, Soares (2004) analisou os dados do Saeb 2001 em relação aos alunos da 8ª série do Ensino Fundamental, além dos quatro questionários contextuais respondidos pelos alunos, professores, diretores e pelo responsável pela coleta de dados, para verificar o efeito da escola no desempenho cognitivo dos alunos. Nos resultados dos estudos da proficiência em Matemática para a 8ª série, no nível nacional, a técnica dos modelos lineares hierárquicos apresentou uma variação explicativa de 12,3% da variação total, resultado esse muito similar ao apresentado neste trabalho para os dados do Saeb de 2005, somente para os alunos de Minas Gerais. O artigo de Soares, Rigotti & Andrade (2008) verificou nos dados do SIMAVE – Sistema Mineiro de Avaliação da Educação Pública, que avalia o desempenho dos alunos das escolas estaduais na mesma escala do Saeb, a influência do entorno da escola. O resultado não foi significativo para a cidade de Belo Horizonte-MG. O 109 artigo analisou o nível socioeconômico do espaço geográfico da localização das escolas por meio de suas Unidades Espaciais Homogêneas – UEH, organizadas para efeitos de administração da cidade pela Secretaria de Planejamento. Apesar de a unidade geográfica utilizada no estudo deles não ter sido sensível aos dados, sua importância sinaliza a favor da utilização do IDHM-2000 como variável explicativa no terceiro nível, efeito geográfico, dos modelos lineares hierárquicos deste estudo. Ao considerar o nível socioeconômico dos municípios obtido pela média do nível socioeconômico dos seus alunos, padronizados entre os municípios, essa variável surtiu efeito aleatório similar ao IDHM-2000 na explicação da proficiência dos alunos. Por outro lado, foi possível perceber a necessidade de incorporação de outras medidas que explicassem melhor esse terceiro nível representado pelo município, quer seja para o Estado de Minas Gerais ou outro. A comparação entre os modelos com e sem a presença do efeito da unidade geográfica apresentou uma diferença pequena (3,0%) na explicação da variabilidade do desempenho dos alunos. Esse fato acirra a necessidade de busca de outros indicadores sociais, de diferenças culturais e históricas, além dos econômicos. Nas avaliações aplicadas pelo INEP, existem outras informações sobre as escolas, do ponto de vista do aplicador do exame, tais como infraestrutura, qualidade do material utilizado, cuidados com bibliotecas e laboratórios de informática, dentre outras, que não foram aproveitadas neste estudo. Também existem informações obtidas pelas respostas aos questionários aplicados aos professores e aos diretores das escolas. Essas informações podem ser agregadas ao conjunto de dados aqui analisados, após uma busca mais acurada na consistência dos mesmos. A importância dos aspectos de infraestrutura escolar foi analisada por Riani (2005) por meio dos dados do Censo Demográfico (IBGE) e do Censo Escolar (INEP) de 2000, donde concluiu que a qualidade dos recursos humanos e dos serviços educacionais produz um aumento na média de frequência à escola tanto quanto a educação da mãe, além dos aspectos de densidade demográfica de jovens do município. Esse fato corrobora a necessidade de incorporação das demais informações fornecidas pelo INEP para o enriquecimento na análise presente neste estudo. De maneira geral, este estudo conclui sobre a necessidade da inclusão da unidade geográfica em estudos com dados educacionais, pois elas possibilitam o 110 entendimento e o enriquecimento das estimativas por meio das informações do entorno da escola bem como do ambiente no qual os alunos estão inseridos. Mostra a adequabilidade dos modelos lineares hierárquicos como uma ferramenta estatística útil para a Geografia dado que ela consegue se ajustar na presença da autocorrelação espacial e preservar as características hierárquicas das informações geográficas. Essa técnica também possibilita estudos espaciais na ausência de dados georeferenciados, pois no presente estudo houve convergência dos resultados obtidos na modelagem estatística e os da abordagem espacial. Por outro lado, também apresenta a técnica estatística da amostragem em análises de dados que devido à sua complexidade exigem grandes recursos computacionais, nem sempre disponíveis ou acessíveis, quer sejam por questões de restrições dos softwares quer sejam por restrições financeiras. 111 REFERÊNCIAS AMORIM-FILHO, O. B. A evolução do pensamento geográfico e a fenomenologia. Sociedade e Natureza, Uberlândia, v.11, n.21 e 22, p.67-87, 2000. AMORIM-FILHO, O. B. A pluralidade da geografia e a necessidade das abordagens culturais. Caderno de Geografia, Belo Horizonte, v.16, p.35-58, 2006. AMORIM-FILHO, O. B. As geografias universais e a passagem do milênio. Geografia e Ensino, Belo Horizonte, v.3, n.9, p.19-34, 1988. ANSELIN, L. Centro de estudos do Geoda. Disponível em: <http://geodacenter.asu.edu/>. Acesso em: 12 maio 2006. BAILEY, T. C.; GATRELL, T. C. Interactive Spatial Data Analysis. London: Prentice Hall, 1995. BUNGE, W. Theoretical geography. Lund: The Royal University of Lund, 1966. CÂMARA, G.; CARVALHO, M. S.; CRUZ, O. G.; CORRÊA, V. Análise espacial de dados geográficos. Embrapa, 2004. Disponível em: <www.dpi.inpe.br/gilberto/livro>. Acesso em: 12 set. 2006. CAMARA, G.; MONTEIRO, A. M. V.; MEDEIROS, J. S. M. Fundamentos epistemológicos da Ciência da Geoinformação. In: CÂMARA, G.; MONTEIRO, A. M. V.; DAVIS, C. Introdução à Ciência da Geoinformação. 2005. Disponível em: <www.dpi.inpe.br/gilberto/livro>. Acesso em: 20 jul. 2009. CÉSAR, C. C.; SOARES, J. F. Desigualdades acadêmicas induzidas pelo contexto escolar. Revista Brasileira de Ensino e População, v.18, nº 1/2, jan./dez. 2001. CHORLEY, R. J.; HAGGET, P. Modelos, paradigmas e a Nova Geografia. In: CHORLEY, R. J.; HAGGET, P. (orgs). Modelos integrados em Geografia. Rio de Janeiro: LTC, 1967. CHRISTALLER, W. Central places in Southern Germany. (traduzido de sua tese em 1933 por C.W.Baskin). Englewood Cliffs, Nova Jersey: Prentice-Halls, 1966. CHRISTOFOLETTI, A. As perspectivas dos Estudos Geográficos. In: CHRISTOFOLETTI, A. (org). Perspectivas da Geografia. São Paulo: Difel, 1982. CLAVAL, P. História da Geografia. Lisboa: Edições 70, 2006. CRESSIE, N. A. C. Statistics for Spatial Data. New York: John Wiley $ Sons, Inc. 1993. DEBUS, A.G. El hombre y la naturaleza em El Renascimiento. México,D.F., Fondo de Cultura Económica, 1996. 112 FERRÃO, M. E. Introdução aos modelos de regressão multinível em Educação. Campinas: Komedi, 2003. FLETCHER, P. R. A teoria da Resposta ao Item: medidas invariantes do desempenho escolar. Ensaio: avaliação e políticas públicas em educação, Rio de Janeiro, 1(2), p. 21-28, jan./mar. 1994. FOREMAN, E.K. Survey Sampling Principles. Nova Iorque: Marcel Dekker, Inc, 1991. GOLDSTEIN, H. Multilevel Statistical Models. London: Edward Arnold, 2th, 1999. HAINING, R. Spatial Data Analysis. Cambridge: Univ. Press, 2003. HÄGERSTRAND, T. Innovation diffusion as a spatial process. Chicago: The University of Chicago Press, 1967. HARTSHORNE, R. The nature of geography. Annals of Association of Americam Geographers, Washington, n. XXIX, p.173-658, 1939. HARVEY, D. Explanation in geography. Londres: Edward Arnold, 1969. HUBBARD, P.; KITCHIN, R., VALENTINE, G.. Key Thinkers on Space and Place. London: Sage Publications, 2004. INEP: Notas Técnicas. Disponível em: <http://www.inep.gov.br/institucional/Publicacoes>. Acesso em: 07 ago. 2007. INEP: Metodologia. Disponível em <http://www.inep.gov.br/basica/saeb/metodologia/testes.htm>. Acesso em: 07 ago. 2007 ISARD, W. Regional Science, the Concept of Region, and Regional Structure. Papers and Proceedings, Regional Science Association, v.2, p.13-39, 1956. JOHNSTON, R.J., SIDAWAY, J.D. Geography & Geographers. Nova Iorque: Oxford University Press Inc., 6th, 2004. KELVYN, J. Specifying and Estimating Multi-level Models for Geographical Research. Transactions of the Institute of British Geographers. New series, v. 16, n.2, p.148-159, 1991. Published by Royal Geographical Society and WileyBlackwell. LEHTONEN, R. PHKINEN, E. Practical Methods for Design and Analysis of Complex Surveys, 2th ed. England: John Wiley & Sons, 2004. LÖSCH, A. The economics of location. New Haven, CN: Yale University Press, 1954. 113 MARTIN, G. J. All Possible Words – A History of Geographical Ideas. New York: Oxford University Press, 4th, 2005. MCCULLAGH, P.; NELDER, J. A. Generalized linear models. 2nd.ed. London: Chapman and Hall, 1989. Microdados. Disponível em: <http://provabrasil.inep.gov.br/index.php?option=com_wrapper&Itemid=148>. Acesso em: 07 ago. 2007. NELDER, J. A.; WEDDERBURN, R. W. M. Generalized linear models. London: J. R. Stat. Soc Serie A, v.135, n.3, p.370-384, 1972. O’BRIEN, L. Introducing Quantitative Geography: measurement, methods and generalized linear models. New York: Routledge, Chapman and Hall, Inc., 1992. PFEFFERMANN, D.; MOURA, F. A. S.; SILVA, P. L. N. Multi-level modelling under informative sampling. London: Biometrika, v. 93(4), p.943-959, Dez/2006. Doi:10.1093/biomet/93.4.943. PEET, R. The development of radical geography in the United States. Progress in Human Geography, v.1(2), p.240-263, 1977. PICKLES, J. Phenomenology, science and geography. Cambridge: Cambridge University Press, 1985, (p.41-45). PNUD – Nota Técnica sobre o IDH. Disponível em: <www.pnud.org.br>. Acesso em: 25 maio 2006 RAUDENBUSH, S. W., BRYK, A. S. Hierarchical Linear Models: applications and data analysis methods. 2n.ed. London: Sage Publications, 2002. RAUDENBUSH, S. W.; WILLMS, J. D. The estimations of schools effects. Journal of Educational and Behavioral Statistics, v.20, n.4, p.307-335, 1995. RIANI, J. L. R. Determinantes do resultado educacional no Brasil: família, perfil escolar dos municípios e dividendo demográfico numa abordagem hierárquica e espacial. 2005. Tese (Doutorado). Universidade Federal de Minas Gerais, Centro de Desenvolvimento e Planejamento Regional, Belo Horizonte. ROGERSON, P. Statistical Methods for Geography. Lage Publication, 2001. SCHAEFER, F.K. Exceptionalism in geography: a methodological examination. Annals of the Association of American Geographers. Washington, ano 431, n.3, 1953, p.226-249. SCHWARTZMAN, S. Os desafios da educação no Brasil. In: COLIN, B.; SCHWARTZMAN, S. (org.). Os desafios da educação no Brasil. Rio de Janeiro: Nova Fronteira, 2005. p.9-50. 114 SOARES, J. F. O efeito da escola no desempenho cognitivo de seus alunos. Reice – Revista Electrônica Iberoamericana sobre Calidad, Eficácia y Cambio em Educación, v.2, nº 2, 2004. SOARES, J. F.; ANDRADE, R. J. Nível socioeconômico, qualidade e eqüidade das escolas de Belo Horizonte. Ensaio: Avaliação e Políticas Públicas em Educação, Rio de Janeiro, v.14, n.50, p.107-126, jan./mar. 2006. SOARES, J. F.; RIGOTTI, J. I. R.; ANDRADE, L. T. As desigualdades socioespaciais e o efeito das escolas públicas de Belo Horizonte. In: RIBEIRO, L. C. Q.; KATZTMAN, R. (orgs). A cidade contra a escola?: segregação urbana e desigualdades educacionais em grandes cidades da América Latina. Rio de Janeiro: Letra Capital, 2008. p.119-144. SOARES, T. M. Modelo de três níveis hierárquicos para a proficiência dos alunos da 4ª série avaliados no teste de Língua Portuguesa do SIMAVE/PROEB-2002. Revista Brasileira de Educação, n.29, p.73-88, maio/jun./jul./ago. 2005. SOARES, T. M.; MENDONÇA, M. C. M. Construção de um modelo de regressão hierárquico para os dados do SIMAVE-2000. Pesquisa Operacional, v.23, n.3, p.421-441, set./dez. 2003. ULLMAN, E.L. Geography as spatial interaction. In: REUZAN, D.; ENGLEBERT, E.S. (orgs), Interregional linkages. Berkeley: University of California Press, p.1-12, 1954. WATSON, J.WE. Geography – A discipline in distance. Scottish Geographical Magazine. Edinhurgh, v.7, n.1, p.1-13, 1955 115 ANEXOS ANEXO A: Legislação: Avaliação da Educação Básica 116 117 118 119 120 121 ANEXO B: Critério Único de Classificação Econômica do Brasil Válido até Dezembro de 2007 122 123 124 125 126 127 128 Válido a partir de 01/01/2008 129 130 131 ANEXO C: Escala das Competências e Habilidades medidas pela Prova Brasil 132 133 134 135 136 137 138 139