PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS
Programa de Pós-graduação em Geografia – Tratamento da
Informação Espacial
MODELOS LINEARES HIERÁRQUICOS APLICADOS À
GEOGRAFIA:
um estudo da avaliação do Ensino Fundamental em Minas
Gerais
Tânia Fernandes Bogutchi
Belo Horizonte
2010
Tânia Fernandes Bogutchi
MODELOS LINEARES HIERÁRQUICOS APLICADOS À
GEOGRAFIA:
um estudo da avaliação do Ensino Fundamental em Minas
Gerais
Tese de doutorado apresentada ao
Programa de Pós-graduação em Geografia
– Tratamento da Informação Espacial da
Pontifícia Universidade Católica de Minas
Gerais, como requisito parcial à obtenção
do título de Doutor em Geografia.
Orientador: José Irineu Rangel Rigotti
Belo Horizonte
2010
FICHA CATALOGRÁFICA
Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais
B675m
Bogutchi, Tânia Fernandes
Modelos lineares hierárquicos aplicados à geografia: um estudo da avaliação
do ensino fundamental em Minas Gerais / Tânia Fernandes Bogutchi. Belo
Horizonte, 2010.
139f.: il.
Orientador: José Irineu Rangel Rigotti
Tese (Doutorado) – Pontifícia Universidade Católica de Minas Gerais.
Programa de Pós-Graduação em Tratamento da Informação Espacial.
1. Modelos lineares (Estatística). 2. Geografia. 3. Análise espacial. 4.
Avaliação educacional. I. Rigotti, José Irineu Rangel. II. Pontifícia Universidade
Católica de Minas Gerais. Programa de Pós-Graduação em Tratamento da
Informação Espacial. III. Título.
CDU: 91:519.2
Tânia Fernandes Bogutchi
Modelos lineares hierárquicos aplicados à Geografia:
um estudo da avaliação do Ensino Fundamental em Minas Gerais
Tese de doutorado apresentada ao Programa de
Pós-graduação em Geografia – Tratamento da
Informação Espacial da Pontifícia Universidade
Católica de Minas Gerais.
José Irineu Rangel Rigotti (orientador) – CEDEPLAR/UFMG
Juliana de Lucena Ruas Riani – Secretaria de Estado de Educação de Minas
Gerais)
Osvaldo Bueno Amorim Filho – PUC Minas
Leônidas Conceição Barroso – PUC Minas
Alexandre Magno Alves Diniz – PUC Minas
Belo Horizonte, 03 de dezembro de 2010.
A Caio, Liz e Davi pela renovação e
brilho em minha vida.
AGRADECIMENTOS
Em primeiro lugar, agradeço a Deus pelo imensurável amor e cuidado com
minha vida e saúde e pela liberdade de escolhas.
Ao Roberto pelo sempre apoio, cuidado e compreensão.
A Boris, Renata, Tatiana e Fernando por acreditarem em mim e me deixarem
perceber certo sentimento de orgulho.
À minha mãe e à minha avó pelo exemplo de mulheres fortes e com garra
pela vida.
À Lourdinha, amiga e chefa, pelos cuidados e rearranjos nos horários e pelas
substituições que me possibilitaram finalizar essa etapa.
Ao colegiado do curso de Ciências Atuariais, Marcelo, Marconi e Onecir, pelo
apoio incondicional.
À Silvia, amiga e irmã do coração, que me motivou e impulsionou com o
“pacto da rolha”.
À Ângela por ter cuidado de todos os meus demais afazeres deixando o
espaço livre para eu poder estudar e sempre me animando com seu delicioso e
cheiroso cafezinho, a “estipa”.
Aos amigos, colegas, funcionários da PUC São Gabriel, que sempre me
apoiaram e me propiciaram tempo.
À Fátima e ao Délio pelos cuidados, carinho e compreensão na gerência e
intermediação de todos os incontáveis documentos.
E como nesta listagem não existe um único segundo lugar... agradeço ao
Irineu, orientador e amigo, que acreditou mais em mim do que eu própria e me
possibilitou, com seu amplo conhecimento, cuidado e gentileza, um crescer nessa
busca e construção do saber.
Impossível deixar de lado meus queridos e amados professores Oswaldo,
João Francisco, Leônidas, Alexandre, que descortinaram um mundo novo e muito
diferente do que eu tinha conhecimento até então.
Aos meus queridos colegas pela companhia e pelo compartilhamento das
angústias, sufocos e alegrias dessa caminhada.
A todos os demais professores, funcionários, colegas que deixei de listar aqui
nominalmente por falhas do decurso do tempo...
À equipe do INEP, que tão prontamente liberou os dados e demais
informações necessárias para a produção deste trabalho.
“Tudo tem o seu tempo determinado, e há tempo para todo propósito debaixo
do céu: há tempo de nascer, e tempo de morrer; tempo de plantar, e tempo de
arrancar o que plantou; tempo de matar, e tempo de curar; tempo de derribar, e
tempo de edificar; tempo de chorar, e tempo de rir; tempo de prantear, e tempo de
saltar de alegria; tempo de espalhar pedras, e tempo de ajuntar pedras; tempo de
abraçar, e tempo de afastar-se de abraçar; tempo de buscar, e tempo de perder;
tempo de guardar, e tempo de deitar fora; tempo de rasgar, e tempo de coser; tempo
de estar calado, e tempo de falar; tempo de amar, e tempo de aborrecer; tempo de
guerra, e tempo de paz.”
Eclesiastes, 3:1-8
RESUMO
O presente estudo teve como objetivo principal uma análise dos dados coletados na
avaliação da Prova Brasil 2007 e do Saeb 2005 para o Ensino Fundamental
promovida pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio
Teixeira (INEP) por meio do ajuste de um modelo linear hierárquico acrescido de um
nível com informação geográfica. Os dados foram recortados para o Estado de
Minas Gerais e tinham, em princípio, o objetivo de utilizar os municípios como
unidade geográfica. Devido às limitações dos softwares estatísticos, as unidades
geográficas utilizadas foram as microrregiões, definidas pelo IBGE, por suas
similaridades sociais e econômicas. Além do enfoque de utilização de um modelo
estatístico teve-se a intenção de corroborar seus resultados com uma análise de
correlação espacial fornecida pelo Índice de Moran e do modelo autorregressivo de
defasagem espacial, além da visualização obtida nos mapas. Nesse estudo
verificou-se que, mesmo sendo possível ajustar um modelo estatisticamente
significante, a informação da análise espacial permite uma abordagem mais
profunda, pois mostra a necessidade da busca de outros indicadores, além do
econômico, no entendimento das questões educacionais.
Palavras-chave: Modelo Linear Hierárquico. Modelo Geográfico. Análise
Espacial. Avaliação Educacional.
ABSTRACT
The present study aimed primarily an analysis of data collected in the evaluation of
evidence in the Prova Brazil 2007 and Saeb 2005 for Elementary School sponsored
by the Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
(INEP) by fitting a hierarchical linear model and add a level with a geographic´s
information. The data were picking up to the State of Minas Gerais and had, in
principle, the objective of use counties as the geographical unit. Due to the limitations
of statistical software, the geographic units used were the micro regions defined by
the IBGE, for their social and economic similarities. Besides the approach of using a
statistical model was intended to corroborate the results of an analysis of spatial
correlation provided by the Moran´s I statistic and the spatial autoregressive model
and the viewer maps. In this study we observed that even though you can adjust a
statistically significant model, the information of spatial analysis provides a deeper,
because it shows the need to search for other indicators, besides the economic, to
understand educational issues.
Keywords: Hierarchical Linear Model. Geographic Model. Spatial Analysis.
Educational Evaluation.
LISTA DE ILUSTRAÇÕES
Gráfico 1: Distribuição das proficiências em Língua Portuguesa e em Matemática dos
alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005. ......................................... 64
Gráfico 2: Intervalo de 95% de confiança para as médias das proficiências em
Língua Portuguesa e em Matemática dos alunos da 8ª série em Minas Gerais no
Saeb 2005. ................................................................................................................ 64
Gráfico 3: Intervalo com 95% de confiança para a média da proficiência em
Matemática dos alunos da 8ª série por Unidade da Federação no exame do Saeb
2005. ......................................................................................................................... 69
Gráfico 4: Distribuição da proficiência da população de escolares da 4ª e 8ª séries do
Ensino Fundamental de Minas Gerais na Prova Brasil 2007. ................................... 72
Gráfico 5: Intervalo de 95% de confiança para a média em Matemática no exame da
Prova Brasil 2007 dos alunos da 8ª série para as Unidades Federativas do Brasil. . 75
Gráfico 6: Distribuição da população dos alunos do Estado de Minas Gerais por
dependência administrativa das escolas na Prova Brasil 2007. ................................ 76
Gráfico 7: Distribuição da população dos alunos do Estado de Minas Gerais por série
e a distribuição por sexo na Prova Brasil 2007. ........................................................ 77
Gráfico 8: Distribuição da população dos alunos do Estado de Minas Gerais por cor
da pele por ele considerada na Prova Brasil 2007. ................................................... 77
Gráfico 9: Distribuição da população dos alunos do Estado de Minas Gerais em
relação à posse de computador domiciliar na Prova Brasil 2007. ............................. 78
Gráfico 10: Distribuição da população dos alunos do Estado de Minas Gerais de
acordo com classe econômica na Prova Brasil 2007. ............................................... 78
Gráfico 11: Áreas empilhadas da população e amostra dos municípios, escolas e
alunos da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais, por
microrregião na Prova Brasil 2007. ........................................................................... 83
Gráfico 12: Intervalo com 95% de confiança para a média da proficiência em
Matemática dos alunos amostrados da 4ª e 8ª séries do Ensino Fundamental por
microrregião do Estado de Minas Gerais na Prova Brasil 2007. ............................... 84
Gráfico 13: Tendência linear entre os valores preditos e observados na proficiência
em Língua Portuguesa e em Matemática obtidos nos MLH ajustados na amostra dos
alunos de Minas Gerais na Prova Brasil 2007........................................................... 93
Gráfico 14: Índice de Moran entre o Ideb dos alunos da 8ª série e o IDH-M 2000 dos
municípios de Minas Gerais. ..................................................................................... 94
Gráfico 19: Índice de Moran entre as proficiências em Matemática e Língua
Portuguesa dos alunos da 8ª série e o IDHM-200 para os municípios de Minas
Gerais. ..................................................................................................................... 101
Gráfico 22: Índice de Moran entre o IDHM-2000 e o nível socioeconômico dos alunos
padronizado para os municípios.............................................................................. 104
LISTA DE MAPAS
Mapa 1: Distribuição dos clusters e outliers obtidos no LISA para o Ideb (a) e o IDHM 2000 (b) dos municípios de Minas Gerais. ............................................................ 96
Mapa 2: Mapa BiLISA (clusters e outliers) para o Ideb 2007 pelo IDH-M 2000 para os
alunos da 8ª série de Minas Gerais. .......................................................................... 97
Mapa 3: Mapa EB LISA. O Evento Ideb 2007 pela Base IDH-M 2000 dos alunos da
8ª série de Minas Gerais. .......................................................................................... 98
Mapa 4: Distribuição por percentis das proficiências em Matemática (a) e Língua
Portuguesa (b) dos alunos da 8ª série e o IDHM-2000 para os municípios de Minas
Gerais. ..................................................................................................................... 100
Mapa 5: Mapa EB LISA para o Evento proficiência em Língua Portuguesa dos alunos
da 8ª série pela Base IDH-M 2000 para os municípios de Minas Gerais. ............... 102
Mapa 6: Mapa EB LISA para o Evento proficiência em Matemática dos alunos da 8ª
série pela Base IDH-M 2000 para os municípios de Minas Gerais. ........................ 103
Mapa 7: Mapa BiLISA para a medida do nível socioeconômico dos alunos
padronizado entre os municípios e o IDHM-2000. .................................................. 104
Mapa 8: Mapa da distribuição dos clusters com intervalos igualmente espaçados do
Ideb 2007 para os municípios de Minas Gerais dos alunos da 8ª série do Ensino
Fundamental. .......................................................................................................... 105
LISTA DE TABELAS
Tabela 1: Ajuste do modelo linear hierárquico nulo para as proficiências em Língua
Portuguesa e Matemática dos alunos da 4ª e 8ª séries de Minas Gerais no Saeb
2005. ......................................................................................................................... 66
Tabela 2: Ajuste do modelo linear hierárquico final para as proficiências em Língua
Portuguesa e Matemática para os alunos da 4ª e 8ª séries de Minas Gerais no Saeb
2005. ......................................................................................................................... 67
Tabela 3: Ajuste do modelo linear hierárquico nulo, em dois níveis, para as
proficiências em Matemática dos alunos da 8ª série para todo o território brasileiro
no Saeb 2005. ........................................................................................................... 70
Tabela 4: Ajuste do modelo linear hierárquico nulo, em três níveis, para as
proficiências em Matemática dos alunos da 8ª série em todo o território brasileiro no
Saeb 2005. ................................................................................................................ 71
Tabela 5: Descrição das proficiências em Língua Portuguesa e em Matemática na
escala Saeb(250,50), por série, na população dos escolares de Minas Gerais na
Prova Brasil 2007. ..................................................................................................... 74
Tabela 6: Descrição da população dos escolares da 4ª e 8ª séries do Ensino
Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova Brasil
2007. ......................................................................................................................... 79
Tabela 7: Descrição da amostra selecionada dos escolares da 4ª e 8ª séries do
Ensino Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova
Brasil 2007. ............................................................................................................... 81
Tabela 8: Resultados do modelo linear hierárquico nulo para a proficiência em
Língua Portuguesa dos alunos da amostra de Minas Gerais .................................... 86
Tabela 9: Correlação intraclasse no modelo linear hierárquico nulo para a
proficiência em Língua Portuguesa dos alunos amostrados em Minas Gerais. ........ 87
Tabela 10: Resultados do ajuste do modelo linear hierárquico final para a proficiência
em Língua Portuguesa dos alunos amostrados de Minas Gerais na Prova Brasil
2007. ......................................................................................................................... 88
Tabela 11: Correlações Intraclasse do modelo linear hierárquico final ajustado, na
presença de variáveis explicativas, para proficiência em Língua Portuguesa na
amostra de Minas Gerais na Prova Brasil 2007. ....................................................... 89
Tabela 12: Resultados do modelo linear hierárquico nulo para a proficiência em
Matemática na amostra dos alunos de Minas Gerais na Prova Brasil 2007. ............ 90
Tabela 13: Correlações intraclasse do modelo linear hierárquico nulo para a
proficiência em Matemática dos alunos na amostra de Minas Gerais na Prova Brasil
2007. ......................................................................................................................... 90
Tabela 14: Resultados do modelo linear hierárquico final ajustado na presença de
variáveis explicativas para a proficiência em Matemática dos alunos amostrados em
Minas Gerais na Prova Brasil 2007. .......................................................................... 91
Tabela 15: Correlações intraclasse do modelo linear hierárquico final ajustado, na
presença de variáveis explicativas, para a proficiência em Matemática dos alunos
amostrados em Minas Gerais na Prova Brasil 2007. ................................................ 91
Tabela 16: Modelo linear hierárquico final ajustado em dois níveis, na presença de
variáveis explicativas, para a proficiência em Matemática dos alunos amostrados em
Minas Gerais na Prova Brasil 2007. .......................................................................... 92
LISTA DE QUADROS
Quadro 1: Algumas técnicas estatísticas adequadas ao tipo de resposta. ............... 47
Quadro 2: Principais funções de ligação em Modelos Lineares Generalizados. ....... 50
Quadro 3: Exemplos de alguns tipos de modelos lineares generalizados. ............... 51
Quadro 4: Descrição das variáveis utilizadas na modelagem dos dados de Minas
Gerais no Saeb 2005. ............................................................................................... 65
Quadro 5: Descrição das variáveis utilizadas na análise dos dados da Prova Brasil
2007. ......................................................................................................................... 85
LISTA DE ABREVIATURAS
ABIPEME - Associação Brasileira de Institutos de Pesquisa de Mercado
ANEB - Avaliação Nacional da Educação Básica
ANEP - Associação Nacional de Empresas de Pesquisa
ANRESC - Avaliação Nacional do Rendimento Escolar
ESDA - Exploratory Spatial Data Analysis
IBGE - Instituto Brasileiro de Geografia e Estatística
Ideb - Índice de Desenvolvimento da Educação Básica
IDH - Índice de Desenvolvimento Humano
IDHM-2000 - Índice de Desenvolvimento Humano para os Municípios em 2000
INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
LISA - Local Indicator of Spatial Association
LL - Log-Likelihood
MEC - Ministério da Educação
MLH - Modelos Lineares Hierárquicos
PIB - Produto Interno Bruto
PNUD – Programa das Nações Unidas para o Desenvolvimento
PROEB - Programa de Avaliação da Rede Pública da Educação Básica
Saeb - Sistema de Avaliação do Ensino Básico
SIMAVE - Sistema Mineiro de Avaliação da Educação Pública
SPSS - Statistical Package for the Social Sciences
UEH - Unidade Espacial Homogênea
SUMÁRIO
1 INTRODUÇÃO...............................................................................................
18
1.1 Relevância..................................................................................................
18
1.2 Objetivos gerais.........................................................................................
19
1.3 Objetivos específicos................................................................................
20
1.4 Organização geral......................................................................................
20
2 MARCO TEÓRICO.........................................................................................
22
2.1 Geografia Quantitativa..............................................................................
22
2.2 Modelos geográficos.................................................................................
30
2.3 Modelos Lineares Hierárquicos em dados geográficos..............................
34
2.4 Avaliação e Indicadores da Educação............................................................
39
2.5 IDH-M – Índice de Desenvolvimento Humano nos municípios.....................
43
3 MÉTODOS E TÉCNICAS...............................................................................
46
3.1 Modelos Lineares Hierárquicos aplicados à Geografia................................
46
3.2 Modelos Espaciais.....................................................................................
59
4 ANÁLISE DOS DADOS..................................................................................
63
4.1 Resultados Saeb 2005........................................................................................
63
4.2 Resultados Prova Brasil 2007...........................................................................
72
4.2.1 Modelos Lineares Hierárquicos para a proficiência em Língua Portuguesa
86
4.2.2 Modelos Lineares Hierárquicos para a proficiência em Matemática
89
4.2.3 Abordagem Espacial ......................................................................................
93
5 CONSIDERAÇÕES FINAIS............................................................................
107
REFERÊNCIAS..................................................................................................
111
ANEXOS............................................................................................................. 115
18
1 INTRODUÇÃO
1.1 Relevância
As políticas e práticas das escolas são medidas nos questionários contextuais
da Prova Brasil e Saeb (Sistema de Avaliação do Ensino Básico) elaborados e
aplicados pelo INEP – Instituto Nacional de Estudos e Pesquisas Educacionais. Os
impactos no desempenho cognitivo e os efeitos de suas desigualdades poderão ser
analisados por meio de técnicas estatísticas espaciais tanto na mensuração dos
indicadores cognitivos (qualidade) e socioeconômicos (equidade) quanto na
estimação e predição desses efeitos para os municípios brasileiros.
De acordo com Soares (2004), o desempenho cognitivo do aluno é
determinado pelos fatores: estrutura escolar, família e características do próprio
aluno. Os exames padronizados em Matemática e Língua Portuguesa realizados
pelo INEP geram indicadores cognitivos dos alunos utilizando as técnicas
estatísticas da Teoria da Resposta ao Item (TRI) e coletam informações que
possibilitam o cálculo do seu nível socioeconômico.
A utilização do Modelo Linear Hierárquico (MLH) é possível devido à estrutura
de o nosso sistema educacional ser organizada hierarquicamente em alunos,
turmas, escolas, municípios, estados. Dessa maneira, as medidas do efeito da
escola podem ser ajustadas em pelo menos dois níveis: “dentro das escolas” e
“entre as escolas”. Sua vantagem em relação às técnicas clássicas de regressão é
que o intercepto e a inclinação são parâmetros aleatórios, ou seja, dependem da
influência do nível hierárquico (GOLDSTEIN, 1999).
Schwartzman (2005) argumenta que o problema fundamental do ensino
básico no Brasil está em buscar, principalmente, a melhoria da qualidade do ensino
público, e uma das formas é avaliar o nosso sistema educacional e promover a
discussão de algumas políticas públicas mesmo com toda a polêmica que esse tema
envolve.
Em Os desafios da educação no Brasil, Schwartzman (2005, p.13) afirma que
“o ensino básico universal de qualidade é um requisito e uma exigência moral de
19
todas as sociedades modernas, pelo bem da equidade social, dos valores culturais e
da funcionalidade econômica”.
Atualmente, com a disponibilidade dos dados de boa qualidade coletados pelo
INEP, existem muitos estudos com várias abrangências e enfoques que promovem o
fornecimento de ferramentas baseadas em evidências. O desenho do Saeb, por ser
amostral, poderia trazer alguns vieses, dignos de avaliação em campo. Por outro
lado, a aplicação da Prova Brasil possibilita a investigação universal das tendências
do aprendizado, bem como da prática dos professores e das escolas e sua direção
administrativa. A única desvantagem é que sua aplicação é limitada às escolas
públicas.
A rede escolar, pública ou privada, aparece como efeito da desigualdade
socioeconômica em análises dos dados do Saeb. Essa desigualdade é claramente
evidenciada em Soares (2005) na análise dos dados para o ano de 2001 a favor da
proficiência na escola privada. Na busca do entendimento das dificuldades dos
alunos ao conteúdo ministrado, o fator socioeconômico precisa ser considerado.
Existem algumas maneiras para a busca da variável indicadora da situação
econômica dos alunos, além daquela do Critério Brasil, utilizado nesse estudo, por
ser considerado que nem sempre os alunos estão atentos aos detalhes de vida de
seus pais além da difícil dissociação do fator econômico do cultural no Brasil
(SOARES, 2005).
Os resultados apresentados nos estudos de Soares (2005) com os dados do
Saeb 2001 mostram uma explicação de 12,3% na variação dos escores da
proficiência em Matemática dos alunos da 8ª série nas escolas amostradas de todo
o Brasil, mesmo após o controle das diferenças socioeconômicas entre as diversas
escolas e as variações intrínsecas do alunado. Ainda, no estudo de Soares (2005), a
recomendação é agir sobre as estruturas das escolas para propiciar melhorias no
desempenho dos alunos.
Tendo em vista esta breve apresentação do tema, os objetivos são
delineados a seguir.
1.2 Objetivos gerais
20
•
Explorar conhecimentos multidisciplinares;
•
Utilizar a técnica de Modelos Lineares Hierárquicos (MLH) como ferramenta
de análise espacial;
•
Estimar os efeitos espaciais nas tendências do aprendizado no Ensino
Fundamental brasileiro por meio de MLH;
•
Explicar o efeito da dimensão espacial sobre o desempenho dos alunos.
1.3 Objetivos específicos
•
•
•
Aplicar a técnica estatística de Modelos Lineares Hierárquicos nas escolas
dos municípios de Minas Gerais e estimar indicadores dos conhecimentos
cognitivos dos alunos, da escola e do município condicionados ao nível
socioeconômico;
Aplicar os recursos da análise espacial na identificação, comparação e
estimação dos efeitos da localização da escola no Ensino Fundamental
nos municípios de Minas Gerais;
Verificar a aplicabilidade da utilização de Modelos Lineares Hierárquicos
em dados geográficos corroborados pelos recursos das técnicas
espaciais.
1.4 Organização geral
Esse trabalho foi organizado em três partes principais, sendo uma a
contextualização do tema; outra contendo a metodologia e técnicas utilizadas; a
terceira com análise dos dados. Ao término, as considerações finais.
A contextualização considerou um breve traçado do tempo sobre o uso da
quantificação na Geografia, o qual não foi nem linear e nem em um exato momento.
Essa linha foi sendo construída e recebeu várias incorporações em certos períodos.
Em algumas regiões do nosso planeta, foi bem aceita e muito defendida e, em
outras, bastante criticada. Apesar de toda a polêmica, em momento algum ela
deixou de lado suas preocupações e estudo do homem e do seu meio. Atualmente,
21
ainda existem controvérsias sobre o seu uso, principalmente no Brasil, com as
demais linhas da Geografia, mas tem contribuído, juntamente com os avanços
tecnológicos, para uma melhoria do entendimento e conhecimento da interação do
homem e todas as circunstâncias e consequências de seu entorno, utilizando a
evidência de dados quantitativos coletados. Não se pode negar, no entanto, que
essa é uma parte de um todo ao qual a Geografia pertence, ou seja, dessa
pluralidade da Geografia, apregoada pelo Prof. Oswaldo Amorim (2006).
Ainda na primeira parte, elabora-se um breve relato dos conceitos de modelos
geográficos e algumas das técnicas estatísticas que foram abordadas pelos
geógrafos dessa corrente quantitativa bem como a dos modelos hierárquicos em
dados geográficos. Finalizando essa parte, comenta-se o processo de avaliação
utilizado e aplicado pelo INEP, assim como os indicadores que ajudam e facilitam
esse conhecimento do nosso sistema de ensino. O IDH-M foi apresentado por ser
um indicador da qualidade de vida dos municípios os quais fazem parte do objeto de
estudo nesse trabalho.
Na segunda parte foram apresentadas as técnicas utilizadas na análise de
dados, a de modelos lineares hierárquicos ou multiníveis e as de modelos espaciais,
buscando, dessa maneira, o embasamento matemático e geográfico espacial desse
trabalho.
Ao final estão apresentados os resultados das análises elaboradas nos
microdados obtidos do INEP da Prova Brasil 2007 e do Saeb 2005. Os dados foram
recortados para o Estado de Minas Gerais, para esse momento do trabalho. A
análise foi baseada em uma pequena descrição dos dados, ajustes dos modelos
lineares hierárquicos e a utilização de indicadores espaciais bem como de alguns
cartogramas.
Nas considerações finais, chama-se a atenção para os principais aspectos da
análise dos dados e seus resultados foram comparados com alguns outros estudos
feitos anteriormente, considerando, principalmente, a realidade brasileira.
22
2 MARCO TEÓRICO
2.1 Geografia Quantitativa
Christofoletti (1982) aborda o desenvolvimento do pensamento geográfico na
seguinte sequência: fase tradicional (antes de 1950); Nova Geografia, Geografia
Humanística, Geografia Idealística, Geografia Radical e Geografia TêmporoEspacial.
Na fase tradicional, antes do século XVII, as informações geográficas eram
baseadas em relatos de viagens de descobrimentos e continham um misto de idéias
fantasiosas e místicas (MARTIN, 2005).
No século XVII, René Descartes (1596-1650), publica seu Discurso sobre o
Método, 1637, no qual incluía estudos sobre Geometria, os quais tiveram
importância para o desenvolvimento da ciência (DEBUS, 1996). A invenção do
cálculo, publicado em 1677 por Isaac Newton (1643-1727) e Gottfried Wilhelm
Leibnitz (1646-1716), de forma independente, propiciou o uso de procedimentos
matemáticos tornando a comunicação dos relatos em uma linguagem mais universal
por meio da utilização de levantamento de hipóteses, testes da teoria e comunicação
dos resultados. Os estudos buscavam a substituição da geografia descritiva
tradicional por uma geografia explicativa evidenciada em leis1 (MARTIN, 2005).
No século XVIII houve o fortalecimento da cartografia a partir do
desenvolvimento das imagens por fotografia, o que permitiu uma reprodução mais
precisa. Cartógrafos de destaque dessa época foram Adolf Stieler (1775-1836), que
publicou 75 mapas do mundo em 1831, e Heinrich Bergahus (1797-1884), que
utilizou muitas informações de Humboldt para publicar um atlas em 1837-48 (revisto
em 1849-52), com uma grande variedade de mapas temáticos apresentados em
Martin (2005). Para promover a institucionalização de informações precisas de
regiões que recebiam, principalmente, missionários, colonizadores e homens de
1
Baseadas na obra “Espírito das Leis” de Charles de Montesquieu (1689-1755), sobre teoria política,
publicada em 1748 e que tratava das leis no sentido amplo: da natureza, das instituições, das
relações humanas, dentre outras, inspirou a Declaração dos Direitos do Homem e do Cidadão,
elaborada em 1789 durante a Revolução Francesa.
23
negócios e assegurar a difusão de relatos de viagens e a promoção do
conhecimento, foram criadas as Sociedades de Geografia, sendo a primeira, Societé
de Géographie, fundada em Paris em 1821 e a Royal Geographical Society em 1830
(CLAVAL, 2006).
Os geógrafos de maior influência no desenvolvimento da Geografia no final do
século XIX e na primeira metade do século XX foram Alfred Hettner (1859-1928), na
Alemanha, e Paul Vidal de La Blache (1845-1918), na França (CHRISTOFOLETTI,
1982). Paul Vidal de La Blache é considerado o idealizador da nova Geografia
Universal e se dedica cada vez mais a ela a partir de 1880, período em que publica o
Tableau de la Géographie de la France, a partir do qual a geografia francesa afirmase no cenário internacional com as noções primordiais de Vidal: paisagem, conexão
e região (AMORIM-FILHO, 1988).
De 1890 a 1950 a Geografia assume o papel de ciência natural das paisagens
e das sociedades e no estudo dos fenômenos físicos tendo presença garantida
como departamento nas universidades. O primeiro Departamento de Geografia, nos
Estados Unidos, foi da Universidade de Chicago, sendo também o primeiro a ofertar,
em 1903, estudos avançados num programa de doutorado, estabelecendo rigorosos
procedimentos para a coleta de dados, instrumentos de análise e busca de
explicações para as distribuições funcionais observadas. Os trabalhos de geografia
política e econômica tiveram condições amplas e favoráveis nessa escola, pois
propiciaram as publicações de Richard Hartshorne (1899-1992) bem como suas
orientações, principalmente as de seu artigo em 1939 com a exposição do espaço
absoluto, favoreceram a eclosão de uma nova geografia nos anos 50 do século XX.
O maior crítico dessa imagem da geografia idiográfica propagada por Hartshorne foi
Fred Kurt Schaefer (1904-1953), economista e geógrafo, professor na Universidade
do Iowa. Em seu artigo “Excepcionalismos na Geografia”, publicado postumamente
em 1953, Schaefer focou uma geografia nomotética, a qual agilizou os estudos
regionais e as possibilidades de quantificação em que o espaço é tratado como
conceito-chave. A geografia econômica teve maior familiaridade com os números,
devido a uma longa tradição na utilização da estatística, apesar de nessa época o
estatístico tradicional ter como tarefa fazer os inventários da produção, dos recursos
e das atividades de cada Estado. De 1860 a 1895 houve necessidade de estudos
mais aprofundados nas análises da movimentação e transporte das matérias-primas,
das fontes de energia, dos gêneros alimentícios e dos produtos fabricados
24
negociados e permutados em toda a esfera internacional (JOHNSTON, 2004;
MARTIN, 2005; CLAVAL, 2006).
Nesse período, a geografia econômica é praticada por profissionais com
formações variadas e que buscam seus conceitos na agronomia, na geologia, nos
especialistas em economia marítima e dos portos e em outros formatos de seus
concorrentes, mas ignora a economia espacial. O primeiro a se preocupar com os
estudos espaciais foi Walter Christaller (1893-1969) com a teoria dos lugares
centrais (1933) e com o esclarecimento da localização nas atividades de serviços.
Ele era judeu-alemão radicado nos Estados Unidos e sua obra só teve repercussão
na Alemanha vinte anos depois devido à guerra e ao nazismo (MARTIN, 2005;
CLAVAL, 2006).
A partir de 1950, a renovação da geografia é proveniente das universidades
dos Estados Unidos, da Grã-Bretanha e, em menor escala, do Norte da Europa. Os
alunos dessas universidades promoviam debates e discussões sobre a evolução das
disciplinas modificando o estilo de espera silenciosa das transformações. Nesse
período surge o teórico Thomas Kuhn (1922-1996), que apregoava que na ciência
sucediam-se períodos de “ciência normal” e “revoluções científicas”, tendo como
estrutura os conceitos de paradigma (CLAVAL, 2006). Amorim-Filho (2006, p.56) diz
que essa interpretação foi considerada como ingênua, reducionista e pode ter
causado “uma visão inadequada da própria história do pensamento geográfico”,
além de essa ideia de sucessão paradigmática ter sido muito criticada pelos
epistemologistas, inclusive pelo próprio Kuhn. Por outro lado, a evolução histórica da
atividade geográfica mostrou uma atitude fenomenológica por trás dessa sucessão
de paradigmas de Kuhn, os quais na realidade são uma série de temas que não
substituem uns aos outros, mas apenas mudam de posição hierárquica e se
acumulam e coexistem (AMORIM-FILHO, 2000).
No texto de Christofoletti (1982), a Nova Geografia fez com que essa ciência
retomasse e fizesse uso consciente da metodologia científica, mas também fez com
que os geógrafos tomassem ciência das muitas dificuldades que essa metodologia
trouxe para a resolução de seus problemas, consistindo, portanto, num grande
desafio para suas soluções. Na Geografia Humana, por exemplo, é grande a
dificuldade para o estabelecimento de leis para as atividades humanas, e isso faria
dela disciplina menos científica? Leonard Guelke, em seus escritos desde 1971, vem
apresentando a distinção entre as ciências formuladoras de leis, como a Física e a
25
Química, e as ciências consumidoras de leis, como a Geologia e a Geografia. De
acordo com o artigo de Christofoletti (1982) algumas metas básicas no panorama da
busca da Geografia em seu enquadramento científico que deveriam ser abordadas:
a)
Maior rigor na aplicação de metodologia científica – baseada na
filosofia do positivismo lógico, a metodologia científica é um conjunto de
procedimentos aplicáveis na execução de pesquisas científicas. Esses
procedimentos são os mesmos para todas as ciências, dessa maneira há
métodos científicos para a pesquisa geográfica, mas não métodos geográficos
de pesquisa. O objeto de estudo que ficou a cargo da Geografia foi o da
organização espacial. A Nova Geografia, ao considerar a metodologia
científica como paradigma para a pesquisa científica, enfatiza a necessidade
de rigor nos enunciados e na verificação das hipóteses e das formulações
para os fenômenos geográficos. Ela cria uma simetria entre o passado e o
futuro, por meio de discursos dedutivo-nomológicos, nas explicações do
existente e do acontecido com base nas teorias e nas leis capazes de propor
predições. Os geógrafos passam a se interessar pela filosofia da ciência com
o objetivo de melhor conhecer os aspectos e as questões relacionadas com a
metodologia;
b)
Desenvolvimento de teorias – a Nova Geografia procurou estimular o
desenvolvimento
de
teorias
relacionadas
com
as
características
de
distribuição e arranjo espaciais dos fenômenos. Os geógrafos passaram a
utilizar teorias disponíveis de outras ciências, tais como as econômicas,
relacionadas com a distribuição, localização e hierarquia de eventos, como as
teorias de Walter Christaller (1893-1969), Johann Heinrich von Thünen (17831850), August Lösch (1906-1945) e Alfred Weber (1868-1958);
c)
Uso de técnicas estatísticas e matemáticas – o uso dessas técnicas
para analisar os dados coletados e as distribuições dos fenômenos foi uma
das principais características salientadas na Nova Geografia, sendo, por isso,
chamada por muitos de Geografia Quantitativa;
d)
Abordagem sistêmica – serve ao geógrafo como instrumento conceitual
que lhe facilita tratar dos conjuntos complexos, como os da organização
espacial, a qual dinamizou o desenvolvimento da Nova Geografia. Por
26
exemplo, a introdução do conceito de geossistema, pelos geógrafos
soviéticos, permitiu recompor e revitalizar o campo da Geografia Física;
e)
Uso de modelos – o desenvolvimento do uso e da construção de
modelos está relacionado com a verificação das teorias, com a quantificação
e com a abordagem sistêmica. A construção de modelos pode ser
considerada como uma estruturação de como se pensa o funcionamento de
um sistema, a fim de torná-lo compreensível e expresso em termos das
relações de seus diversos componentes. Para o geógrafo, o uso dos modelos
é um meio para melhor atingir a compreensão da realidade.
Essa inovação geográfica tornou-se o foco do Departamento da Universidade
de Washington, em Seattle, após ter atraído bolsistas brilhantes dos Estados Unidos
e do Reino Unido. Um professor do departamento, Edward L. Ullman (1912-1976),
era especialista da geografia dos transportes, das migrações e dos fluxos e valoriza
o espaço como conceito-chave em 1954 seguindo Schaeffer. A economia espacial
tornou-se mais acessível após as publicações de Edgar M. Hoover (1948) e de
Walter Isard (1955) nos Estados Unidos, J Wreford Watson (1955) na Inglaterra e de
Claude Ponsard (1955; 1958) na França. Isard traça a união entre os economistas,
os urbanistas e os geógrafos com sua ciência regional e, a partir daí, estes
descobrem a importância e a aplicabilidade dos modelos clássicos de localização: o
de von Tünen, de 1826 a1851, para as atividades agrícolas, o de Weber, de 1868 a
1958, para a indústria, o de Losch, de 1938 a 1940, e de Christaller de 1933, para as
atividades terciárias. A teoria da localização fascina os geógrafos (MARTIN, 2005;
CLAVAL, 2006; PEET, 1977).
Na Escandinávia, Torsten Hägerstrand (1916-2004) trabalha desde o início da
década de 50 com um modelo de difusão de inovações, tratando-a como um
processo espacial em seu artigo de 1967. Esse modelo não encontra justificativa
teórica na economia espacial. Ele introduziu a simulação da difusão para a
geografia, particularmente o conceito de ondas ou difusão contagiosa, a qual
originalmente foi aplicada nas inovações da agricultura, mas que também foi
estendida para incluir outros fenômenos geográficos. Hägerstrand foi um dos
geógrafos
quantitativos
que
movimentou
e
enfatizou
a
importância
do
comportamento individual na Geografia. Desenvolveu a ideia de “tempo geográfico”,
que atraiu um grande número de geógrafos da Suécia e de outros lugares, e sua
27
formulação teórica o inscreveu na nova geografia com os modelos “têmporoespaciais” (HUBBARD, 2004).
Na Geografia da década de 60 houve maior desenvolvimento da corrente
denominada por alguns como teorético-quantitativa, com ênfase nos aspectos
teóricos e na quantificação dos fenômenos e processos estudados. Por outro lado,
Amorim-Filho (2000) faz uma síntese dos principais tipos de espaços estudados ao
longo da trajetória da atividade geográfica e conclui que a partir dos anos sessenta a
fenomenologia na Geografia fica explicitada no estudo dos espaços vividos e
valorizados, sendo esse o tema fundamental da corrente da geografia humanística.
Os geógrafos humanistas tomaram consciência das muitas incompatibilidades que
os separavam dessa nova geografia, quantitativa e teorética, sendo suas críticas
mais comuns: adoção de um neopositivismo cientificista e reducionista; uso
excessivo e praticamente exclusivo de técnicas quantitativas; utilização de teoria
sofisticada, mas sem bases epistemológicas; objetos de pesquisa excessivamente
racionalista de homem, o “homem econômico” (AMORIM-FILHO, 2000).
De qualquer maneira, a economia espacial orientou a pesquisa geográfica em
duas direções: (1) aprofundamento dos modelos teóricos concebidos pelos
economistas – seguida na França por Claval (1963, 1968) e nos Estados Unidos por
William Bunge (1966), o qual afirmava ser a Geografia uma ciência espacial; (2)
experimentação sistemática dos modelos – seguida pelos pesquisadores de Seatle:
Brian L. Berry, John D. Nysteuen, Richard L. Morrill, Michael Dacey, William
Garrison. Essa segunda orientação utilizava as técnicas da análise fatorial, a teoria
dos subconjuntos de transição ou a teoria dos grafos na formulação e validação dos
modelos clássicos. Nos Estados Unidos essa mudança apresentou-se como uma
revolução quantitativa, na citação de Claval (2006).
Nos Estados Unidos surge, a partir de 1960, uma nova geração de
metodologistas, a qual inclui John Cole, Richard Chorley, Stanley Gregory, Peter
Hagget, Ronald Johnson e David Harvey. Esses geógrafos proporcionaram uma
mudança na disciplina, de descritiva regional para uma aproximação teórica e
espacial. Essa foi uma transformação quantitativa dos conceitos geográficos os
quais eram frequentemente expressos em termos matemáticos ou estatísticos. Esse
grupo faz parte da Universidade de Michigan, da Universidade Estadual de Michigan
e da Universidade Estadual de Wayne. Nesse período, as disciplinas de estatística e
de métodos quantitativos começaram a fazer parte dos currículos dos cursos de
28
graduação e foi uma das transformações revolucionárias da geografia durante a
primeira metade do século XX. A cisão entre a velha e a nova geografia foi devida
mais por questões pessoais entre os jovens e os velhos geógrafos em detrimento
dos estudos geográficos (MARTIN, 2005). David Harvey, em 1969, interpreta como
neo-positivista sistemático o desenvolvimento ocorrido nos últimos 10 anos, funda a
Sociedade para a Investigação Humana, e tem-se, assim, os dias iniciais de uma
Geografia Radical. Essa corrente geográfica deu uma guinada para o marxismo , na
depressão dos anos 70 nos Estados Unidos ( PEET, 1977).
Do ponto de vista da chamada “segunda quantificação” da Geografia, da qual
as técnicas do geoprocessamento são parte integrante, observa-se a introdução dos
modelos matemáticos, principalmente os estatísticos. Os dados geográficos
procuraram um gerenciamento das incertezas e a busca de padrões de tendências.
Por outro lado, apesar de as abordagens estatísticas convencionais serem úteis nos
tratamentos dos dados, a sua natureza e pressupostos nem sempre possibilitam
considerar o espaço geográfico, entendido como o contexto do lugar da proveniência
dos dados por possibilitar uma análise numérica. Esse fato tem gerado desconforto
em alguns geógrafos e transformado em debate essa abordagem quantitativa.
Sob direção geral de Roger Brunet (1931- ) e Olivier Dollfus (1931-2005), foi
formada uma grande equipe para projetar, desenvolver e publicar uma nova
Geografia Universal em 1989. Essa nova Geografia apresenta-se como uma
necessidade, além das informações atualizadas, de um quadro de referência
espacial para compreensão dos sistemas e processos mundiais, e um de
armazenamento de dados que chegam dos vários canais de comunicação. Um
quadro de referência como esse fornecido pela Geografia é uma das condições de
liberdade de nosso tempo (AMORIM-FILHO, 1988).
O geoprocessamento utiliza em suas análises a incorporação dos métodos
estatísticos convencionais, ou seja, acrescenta a elas o espaço, as informações
geográficas do local e de sua vizinhança. Dessa maneira, a estatística espacial
passa a ter uma importante utilização nos estudos geográficos. A pergunta que
perdura é: somente o acréscimo da localização geográfica a torna um espaço
geográfico? Certamente que a estatística espacial por si só não responde essa
questão, pois ao agregar as informações ela deixa de lado o contexto das
observações prejudicando assim a Geografia. Qual prática utilizar então? Talvez
29
uma minimização desse problema esteja em associar os métodos de análise
produzidos pelas técnicas do GIS aos da análise qualitativa do local em estudo.
Christofoletti (1982) comenta que as técnicas estatísticas, simples ou
multivariadas, formaram um conjunto de ferramentas no auxílio aos geógrafos,
entretanto, por mais sofisticadas que estas técnicas sejam elas não garantem o fazer
Geografia. Não basta apenas a coleta de dados e informações analisadas no
computador, sem que se tenha a noção clara do problema a pesquisar e da
disposição de arsenal teórico e conceitual que lhe permita interpretar os resultados
adequadamente. Sem esses quesitos, o geógrafo estará fazendo um trabalho
mecânico, mas nunca um trabalho geográfico. Apesar de muitos trabalhos
geográficos serem exemplificados pelo mau uso ou pela escolha inadequada dessas
técnicas, não se deve confundir a deficiência do geógrafo com a incapacidade de
uma Geografia que faz uso da quantificação.
Por outro lado, Pickles2 (1985) afirma que a tarefa do geógrafo é descrever e
tematizar a “experiência geográfica” que consiste no compartilhamento com as
outras ciências as experiências do cotidiano e cita, Lowenthal (1961,p.242) “qualquer
pessoa que observa o mundo em torno de si, é, numa certa medida, um geógrafo”.
Também, Amorim-Filho (2006) cita a opinião do presidente da Societé des
Explorateurs Français, Patrice Franceschi, numa matéria publicada no L´Éxpress de
14/08/2003, sobre a morte do espírito de aventura, pela perda de quatro qualidades
dos geógrafos e demais exploradores/viajantes de outrora: (1) capacidade de correr
risco; (2) necessidade de liberdade; (3) anticonformismo; (4) desejo de explorar e
conhecer novas realidades. Amorim-Filho (2006, p.45) conclui que “a idéia que
permanece é aquela da extraordinária pluralidade e do alcance imenso desta
atividade intelectual que escolhemos”.
Dessa maneira, para um bom entendimento da geografia quantitativa torna-se
necessário entender os modelos matemáticos do ponto de vista de um geógrafo, ou
seja, os modelos geográficos.
2
Texto traduzido pelo Prof. Oswaldo Bueno Amorim Filho e utilizado em sala de aula em 2006.
30
2.2 Modelos geográficos
Chorley & Haggett (1967), ao escreverem o artigo de introdução do livro3 que
organizaram, tomaram posição sobre o que considerariam modelo em Geografia.
Segundo algumas das definições, um modelo pode ser uma teoria, uma lei, uma
hipótese ou uma ideia estruturada. Um modelo do ponto de vista geográfico deve
incluir argumentos em relação ao mundo real (espaço) ou em relação ao tempo
(história).
A característica fundamental num modelo geográfico é que em sua estrutura
ou lógica a realidade é explorada em termos de relações e, por outro lado, sua
construção implica em informações seletivas que objetivam eliminar detalhes
acidentais e ou interferências para possibilitar uma maior proximidade e intimidade
com o objeto em estudo. Dessa maneira, um modelo tem uma natureza sugestiva,
ou seja, induz a intuição para suas possibilidades e suas implicações, pois, quando
ele é bem sucedido e aceito, usualmente contém informações que sugerem sua
própria extensão e generalização. Os modelos são analogias do mundo real e os
geógrafos construtores precisam estimar o valor de um modelo por meio da
reaplicação do mesmo ao mundo real (CHORLEY; HAGGETT, 1967).
De acordo com o texto de Chorley & Hagget (1967), os modelos geográficos
podem ser caracterizados por suas funções e tipos.
As funções principais de um modelo geográfico são:
a)
Psicológica – permite que o fenômeno possa ser visualizado e
compreendido;
b)
Aquisitiva – a informação deve ser definida, coletada e ordenada;
c)
Fertilidade – retirada máxima de informações dos dados, por exemplo,
modelos estatísticos;
3
d)
Lógica – auxiliar na explicação da ocorrência do fenômeno;
e)
Normativa – comparação de um fenômeno com outro mais familiar;
f)
Sistemática – realidade sob o ponto de vista de sistemas interligados;
g)
Construtiva – forma degraus para construção de teorias e leis;
Modelos Integrados em Geografia.
31
h)
Parentesco – promove comunicação das ideias científicas.
Os tipos principais de construção de um modelo geográfico são:
a)
Descritivo – trata de certa descrição estilística da realidade e pode ser:
• Estático – concentração nos aspectos de equilíbrio estrutural.
Quando um modelo trata da organização de informações empíricas
ele é denominado de modelo de dados, taxionômico (classificatório)
ou de fim experimental;
• Dinâmico – concentração nos processos e funções através do
tempo. Quando um modelo descritivo é função do tempo ele é
usualmente denominado de modelo histórico.
• Normativo – trata do que é esperado ocorrer sob certas condições
estabelecidas. Usualmente faz uso de uma situação mais familiar
como modelo para outra menos familiar no tempo (histórico) e/ou no
espaço (espacial). Tem forte conotação preditiva.
b)
Construtivo – classificado de acordo com sua constituição:
• Sólidos, físicos ou experimentais – as propriedades do mundo real
são autorrepresentadas considerando apenas uma mudança de
escala (icônicos) ou as propriedades podem ser representadas por
propriedades diferentes (análogos, por simulação).
• Teóricos,
simbólicos,
conceituais
ou
mentais
–
afirmações
simbólicas ou formais de um tipo verbal ou matemático em termos
lógicos. Os do tipo matemático podem ter previsão determinística ou
estocástica (com probabilidade em função do tempo).
c)
Sistemático – definido com base no interesse relativo nas variáveis de
entrada e de saída, internas de status, do construtor do modelo. A ordem de
interesse decrescente nas variáveis de status classifica os modelos em
sistemas sintéticos, sistemas parciais e caixas escuras.
d)
Internalizado – escala e ponto de vista que fornecem uma visão muito
estreita da realidade.
e)
Paradigmas – modelos com escala ampla e ponto de vista importante e
de valor para uma ampla comunidade de estudiosos. Raramente são
32
formulados de maneira específica e tratam de modelos que buscam o mundo
real em vez de seu próprio mundo. Por natureza, são altamente restritivos.
Na época de Chorley e Haggett, os dados geográficos eram analisados no
formato matricial, conhecido como “matriz de dados geográficos”. Nos vetores
coluna eram colocadas todas as informações do elemento: temperatura, altitude
densidade de população, etc., e nos vetores linha as informações do mesmo
elemento, mas com variação da localização – padrão sistemático da geografia. Os
estudos desses dados eram feitos por meio de uma série engenhosa de
comparações em linhas e colunas e recebiam, ainda, a adição de uma terceira
dimensão: o tempo. Brian Berry4 fazia a maior parte do estudo geográfico
convencional em dez operações básicas na matriz. Por exemplo, a diferenciação em
área era feita por meio da comparação entre os vetores-coluna e a covariação
espacial por comparações dos vetores-linha (CHORLEY; HAGGETT, 1967).
Levando em consideração os recursos computacionais daquela época (1960/1970),
era de se esperar grandes dificuldades na manipulação das informações coletadas,
quer seja pelo volume de coleta, provocando uma explosão de dados, quer seja
pelas necessidades de atualizações das informações, minando a análise, pois os
dados geográficos são usualmente de natureza dinâmica.
Os participantes da “revolução quantitativa” da Geografia dos anos 60 tinham
grande esperança nas análises que seriam possíveis com a revolução tecnológica
que se iniciava. Apesar das dificuldades que enfrentavam, Chorley & Hagget (1967)
listam uma série de técnicas de redução do tamanho e da complexidade das
matrizes de dados bem como das análises possíveis pelos programas de pesquisas
que eram feitas naquela época5:
a)
Análise dos fatores, análise de agrupamento e técnicas multivariadas
correspondentes – relatadas em Kruembein e Graybill. In: Chorley, R. J.;
Haggett, P. Modelos Integrados em Geografia. Vol II, Cap. 5, 1965.
b)
WHIRLPOOL – Programa de regressão linear sequencial múltipla que
facilitava a seleção de fatores significativos nas séries de elementos da matriz
4
Brian Berry (1934- ), inglês erradicado nos Estados Unidos, foi um dos mais importantes geógrafos
humanistas e era contemporâneo de Peter Haggett e David Harvey, os quais faziam parte do grupo
que iniciou e participou ativamente da “revolução quantitativa” dos anos 60 e 70 (HUBBARD, 2004).
5
As referências citadas em cada item fazem parte do artigo original de Chorley & Hagget publicado
na introdução do livro Modelos Integrados em Geografia de 1967.
33
– relatadas por Krumbein, W. C.; Benson, B.; Hempkins, W.B. WHIRLPOOL: a
computer programme dor ‘sorting out’ independent variables by seqüencial
multiple linear regression. Office od Naval Research, Geography Branch,
Technical Report 14, Task no. 389-135, 1964.
c)
Análise de fatores; Análises D2 e análises discriminantes – para
“otimizar” as divisões regionais; “desdobrar” o número de vetores regionais
em números menores ou mais convenientes em consistência de informações
– relatadas por Berry, B. J. L. A method for deriving multifactor unifrom
regions. Przeglad Geograficzny, 33, 263-282, 1961; por Steiner, D. A
multivariate statistical approach to climatic regionalization and classification.
Tijdshrif van het Koninklijk Nederlandsh Aadrijkskunidg Genootschap, 82, 329347, 1965; e por Haggett, P. Locational Analysis in Human Geography.
London, 1965.
d)
Desdobramentos do mapa de isarítmas6 detalhando numa série de
tendências regionais.
e)
Polinômios Ortogonais para armazenar vastas quantidades de
informações da superfície isarítma ondulada em poucas equações básicas –
relatadas por Chorley, R. J.; Haggett, P. Trend-surface mapping in
geographical research. Transactions of the Institute of British Geographers, nº
37, 47-67, 1965.
f)
Mapeamento numérico e rápido arranjo de mapas – relatados por
Tobler, W. Numeric map generalization. Michigan Inter-University Community
of Mathematics Geographers, Discussion paper, 8, 1966.
Esse último, Waldo Tobler, nasceu em 1930, filho de pais suíços; teve seu
PhD em 1961 com a tese intitulada “Map transformations of geographic space”. Fez
parte do grupo que incluía Brian Berry, Richard Morrill, Duane Marble, John Nystuen,
Michael Dacey e William Bunge, adeptos da “revolução quantitativa” da geografia.
Foi professor da Universidade de Michigan de 1961 a 1977 e depois foi para a
Universidade da Califórnia, em Santa Bárbara, até os dias de hoje. Em 2002, ele se
referiu à época da “revolução quantitativa” como “um momento muito excitante”
apesar de nesse período ter desenvolvido mais modelos e teorias que trabalhos
6
Isarítmas ou isolinhas são linhas de igual valor, ou seja, o lugar geométrico dos pontos em que uma
determinada variável ou fenômeno assume um único valor. Apostila de Cartografia do IBGE.
34
numéricos propriamente ditos. É de sua autoria o que chamou, em 1970 (informação
verbal)7, de a 1ª Lei da Geografia: “Os fatos geográficos são relacionados, mas os
mais próximos estão mais relacionados que os mais distantes”. Foi pioneiro na
utilização do computador em cartografia, desenvolveu a representação geográfica de
espaço-contínuo, além de ter interesse em modelagem de fluxos migratórios e em
geografia quantitativa de maneira geral (HUBBARD, 2004).
Os métodos estatísticos têm muito a oferecer aos modelos geográficos por
sua inigualável particularidade em trabalhar com a variabilidade das informações, o
que naturalmente não os reduziria a simples equações matemáticas. Certamente
não são todas as técnicas estatísticas que irão possibilitar essa abordagem, mas a
introdução de modelos multiníveis será útil por produzir análise de dados com
hierarquias, ou aninhados, fato que é natural nos dados geográficos.
2.3 Modelos Lineares Hierárquicos em dados geográficos
Estruturas hierárquicas de dados são caracterizadas pela presença de
unidades experimentais agrupadas em outras unidades maiores, em que as fontes
de variabilidade se encontram aninhadas. Para avaliar dados desta natureza podem
ser utilizados os modelos lineares hierárquicos (MLH), que constituem uma nova
formulação para os modelos de efeitos aleatórios permitindo especificar cada um
dos níveis de hierarquia separadamente e incorporar efeitos aleatórios associados a
cada um desses níveis.
Os MLH são adequados à análise de dados educacionais que possuem uma
evidente estrutura hierárquica e, portanto, são correlacionados: os alunos são
agrupados em salas de aulas, reunidas em escolas que, por sua vez, podem ser
agrupadas em regiões geográficas. Essa técnica de modelagem estatística é muito
útil, pois utiliza os dados dos alunos para analisar a organização escolar captando os
relacionamentos complexos entre os fatores de cada um dos níveis e como os vários
níveis se influenciam mutuamente. Raudenbush & Bryk (2002) e Goldstein (1999)
descrevem os detalhes técnicos desses modelos.
7
Citado nas notas de aula em Seminários em Análise Espacial, ministrada pelo Prof. João Francisco,
no segundo semestre de 2007.
35
Se, por exemplo, for utilizado um modelo hierárquico de dois níveis em dados
educacionais, então o aluno será o nível 1 e a escola o nível 2. Frequentemente, o
modelo do nível 1 é chamado de modelo “dentro da escola” e o do nível 2 de modelo
“entre as escolas”. No modelo dentro das escolas é expressa a proficiência de cada
aluno como um valor basal. No modelo entre as escolas é medido o impacto das
características da escola (a rede, o nível socioeconômico da escola e o nível
socioeconômico da região em que se localiza) sobre o nível basal de desempenho
dos alunos e sobre o tamanho do efeito dos fatores incluídos no modelo do primeiro
nível (SOARES, 2004).
Soares & Andrade (2006) demonstram o auxílio dos modelos lineares
hierárquicos na obtenção de medidas de equidade e qualidade de uma escola.
Essas medidas são obtidas após a inclusão dos níveis socioeconômicos dos alunos
e da escola no ajuste dos modelos lineares hierárquicos. A qualidade sintetiza a
excelência cognitiva de cada escola, obtida após descontar o efeito produzido pela
inclusão do nível socioeconômico dos alunos em sua nota. A equidade de uma
escola é definida como sua capacidade de eliminar, ou amenizar, as diferenças
socioeconômicas de seus alunos. Essas definições serão aplicadas neste estudo.
Raudenbush & Willms (1995) discutem e apresentam uma mensuração dos
tipos de efeitos da escola. O primeiro, chamado de tipo A, inclui o efeito das políticas
da escola e a influência cultural e socioeconômica que atuam diretamente sobre os
professores e administradores. A medida desse efeito é relevante para os pais na
escolha da escola para seus filhos. O segundo, tipo B, mede o efeito das políticas da
escola, no setor administrativo, quadro docente e práticas pedagógicas, e essa
medida interessa tanto aos profissionais que precisam dos indicadores de suas
escolas quanto aos administradores pela responsabilidade com o sistema de ensino.
Dados para modelagem do efeito tipo A são mais objetivos, ao passo que as do tipo
B exigem planejamento de coleta mais criterioso.
Uma
utilização
dos
modelos
lineares
hierárquicos
em
dados
não
educacionais, mas de natureza essencialmente geográfica, é apresentada por
Kelvyn (1991) na precificação de casas em Southampton, Inglaterra. Os dados
possuem uma estrutura em três níveis: casa, idade (tempo de construção) e bairro,
mas foram ajustados em dois níveis. O banco de dados é composto pela informação
de 918 casas; no período de tempo de 9 semestres, com início no segundo semestre
de 1986, e em 34 bairros da cidade. A variável resposta (dependente) é o preço da
36
casa e as variáveis explicativas do primeiro nível são: idade da casa, número de
quartos, tipo da construção (5 tipos), se a casa tinha ou não aquecimento central e o
número de garagens (simples ou dupla).
No Brasil, muitos artigos foram publicados como resultados do uso dos
modelos lineares hierárquicos com diferentes ênfases e objetivos particulares. O de
Cesar & Soares (2001) considerou a unidade geográfica, Unidades da Federação,
como um dos níveis no estudo da proficiência escolar. Alguns desses artigos são
listados a seguir:
i.
No artigo de César & Soares (2001) foram considerados dois efeitos da
escola sobre o desempenho do aluno. O tipo A, que mede a diferença entre o
desempenho real do aluno e o que ele teria se frequentasse uma escola
típica. O tipo B, que mede a diferença entre o desempenho real do aluno e o
desempenho que se esperaria que ele tivesse caso frequentasse uma escola
com práticas idênticas, ou seja, é a medida apenas dos efeitos das práticas
das escolas, seu tipo de administração, seus métodos pedagógicos, o
currículo que adota, dentre outros. O ajuste de um modelo estatístico para o
efeito tipo A deve incluir como variáveis de controle as características
sociodemográficas e culturais do aluno, por outro lado; um modelo para o
efeito tipo B deve controlar as características do aluno, as políticas internas da
escola e as de contexto no qual a escola está inserida. A medida do efeito tipo
B foi feita por meio dos modelos lineares hierárquicos para a proficiência em
Matemática dos alunos da 8ª série obtida nos dados do Saeb 1999. O modelo
considerou três níveis: aluno, escola e estado (Unidade da Federação). Em
sua conclusão, o meio influencia o desempenho do aluno, pois um aluno
pobre fica beneficiado pelo meio de uma escola rica. Uma solução seria
manter o mesmo nível médio socioeconômico das escolas e uma menor
variação da qualidade entre as escolas.
ii.
Soares & Mendonça (2003) utilizaram os dados de 2000 do Sistema
Mineiro de Avaliação da Educação Pública (SIMAVE), para os alunos da 4ª
série da rede pública estadual. Nesse estudo, o objetivo era medir as
características
técnico-pedagógicas
das
escolas
além
do
perfil
socioeconômico dos alunos. O modelo linear hierárquico ajustado a esses
dados indicou o impacto positivo sobre a proficiência em Matemática do nível
37
socioeconômico e os anos de estudo da mãe e como impacto negativo a
defasagem escolar (média escolar da turma) e anos de abandono da escola.
iii.
No texto de Soares (2004) foram analisados, isoladamente, vários
fatores escolares no desempenho cognitivo de alunos e para um desses
fatores foram utilizados os dados do exame em Matemática dos alunos da 8ª
série coletados pelo Saeb 2001, na modelagem MLH, para atender a
necessidade de um modelo que controlasse a influência dos fatores
socioeconômicos nos dois níveis: do aluno e da escola. Esse controle é
essencial, pois os dados do Saeb informam o tipo de administração da escola,
particular ou pública, e as escolas particulares atendem a um alunado de nível
socioeconômico maior que a pública. Em seus resultados conclui que a escola
frequentada faz diferença na vida do aluno, apesar da complexidade nas
inter-relações dos fatores escolares no desempenho cognitivo dos alunos.
iv.
Em 2005, Soares aprofunda os estudos feitos em 2003, em parceria
com Mendonça (2004) nos dados dos alunos da 4ª série avaliados pelo
SIMAVE, citados acima em (ii), acrescentando as informações do Programa
de Avaliação da Rede Pública de Educação Básica (PROEB) do ano de 2002.
As avaliações utilizadas pelo SIMAVE/PROEB seguem a metodologia
aplicada no Saeb. Nesse artigo, Soares analisa as variáveis em três níveis:
alunos, no primeiro, turmas, no segundo, e escolas no terceiro. Para as
variáveis do terceiro nível foram utilizados a idade média dos professores, o
percentual de professores que participaram de formação continuada e o
índice de posses de equipamentos de informática da escola. As duas últimas
variáveis apresentaram influência positiva, mas o ganho na explicação da
variabilidade com a inclusão desse terceiro nível foi relativamente pequeno.
Ao final do estudo foi percebido que a turma é responsável por uma grande
parcela da variabilidade na proficiência tanto quanto a escola. Isso significa
que no sistema educacional estadual de Minas Gerais é possível o
aproveitamento das experiências e padrões para alcançar melhorias
considerando os resultados de algumas escolas da própria rede.
v.
No capítulo do livro escrito por Soares, Rigotti & Andrade (2008), foram
analisados os dados do SIMAVE dos anos de 2002 e 2003 em conjunto, para
as séries 4ª e 8ª do Ensino Fundamental e 3ª do Ensino Médio, das escolas
públicas, estaduais e municipais, da cidade de Belo Horizonte, Minas Gerais.
38
Os dados foram analisados no nível dos alunos, considerando as
características do turno, sexo, série e nível socioeconômico; e, no nível da
escola, com as características de rede, nível socioeconômico da escola e
nível socioeconômico da Unidade Espacial Homogênea (UEH) a qual a escola
pertencia. As UEH´s são unidades espaciais que dividem a região
metropolitana
de
Belo
Horizonte
com
objetivo
de
facilitar
o
seu
gerenciamento. O município de Belo Horizonte está dividido em 77 UEH´s.
Essa ultima variável permitiu associar ao estudo de modelos lineares
hierárquicos a análise espacial. O indicador de qualidade das escolas
públicas desse município apresentou resultados muito diferentes para grupos
socioeconômicos muito parecidos, indicando o impacto que a escola pode ter
na escolha feita pelo aluno. Houve tendência positiva na correlação entre
equidade socioeconômica e qualidade das escolas, ou seja, melhor qualidade
para as melhores posições socioeconômicas e equidade somente para a
baixa qualidade. Na análise espacial houve presença de qualidade em
escolas situadas em locais com menor nível socioeconômico.
vi.
A tese de doutorado de Riani (2005), dentre outras técnicas, utilizou o
Modelo Hierárquico Logístico, pois sua variável resposta era dicotômica e seu
objetivo principal era medir a probabilidade de um aluno frequentar a escola,
na idade certa, em relação ao background familiar, tais como o nível de
escolaridade do chefe da família, a educação da mãe da criança, a ocupação
do chefe da família. Em seus resultados, relata que o fator mais importante,
dos anteriormente citados, é o da educação da mãe como determinante da
probabilidade de cursar a escola na idade certa. Como fator contextual,
apresenta o impacto negativo da variação demográfica entre o tamanho da
coorte em idade escolar e a probabilidade de frequentar a escola na idade
certa. A educação da mãe e a importância da origem social do aluno são
superadas por uma escola com alta qualidade na estrutura física, que inclui
quadras, bibliotecas e laboratórios de ciências e informática aliada ao nível de
formação superior de seus professores. Dentre seus métodos de análise,
utilizou também o modelo hierárquico espacial e concluiu que os modelos
hierárquicos não-espaciais conseguem captar os efeitos diretos e indiretos do
contexto dos municípios. Uma de suas principais conclusões refere-se à
melhoria da qualidade escolar nos municípios que seriam mais eficazes se as
39
políticas públicas não ficassem limitadas a somente um município, mas sim a
uma área mais abrangente de adjacência dos mesmos.
Do ponto de vista estratégico, este estudo pretende continuar a busca para a
interconexão das análises em modelagem estatística e geográfica espacial. Para
tanto, busca auxílio de indicadores da Educação, obtidos no INEP e dos níveis
sociais e econômicos utilizados pela Organização das Nações Unidas (ONU), o
Índice de Desenvolvimento Humano (IDH), aplicado aos municípios.
2.4 Avaliação e Indicadores da Educação8
O Sistema Nacional de Avaliação da Educação Básica – Saeb é realizado
desde 1990, por meio de aplicação de provas bienais de proficiência em Matemática
(resolução de problemas) e Língua Portuguesa (leitura) em uma amostra
representativa dos alunos de 4ª e 8ª séries do Ensino Fundamental e da 3ª série do
Ensino Fundamental. Os alunos participantes faziam parte de uma amostra, por
regiões, das redes de ensino públicas e privadas nos estados e no Distrito Federal.
Em 21 de março de 2005, a Portaria Ministerial nº 931 alterou o nome do
exame amostral do Sistema de Avaliação da Educação Básica – Saeb para
Avaliação Nacional da Educação Básica – ANEB e instituiu a Avaliação Nacional do
Rendimento Escolar – ANRESC (Anexo A). Apesar dessa alteração, por tradição, o
nome do Saeb foi mantido nas publicações e demais materiais de divulgação e
aplicação desse exame.
O Saeb foi desenvolvido pelo Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira (INEP), autarquia do Ministério da Educação (MEC), e
foi a primeira iniciativa brasileira de avaliação da educação aplicada em âmbito
nacional. Seus objetivos principais são a coleta de dados sobre a qualidade da
educação e o conhecimento das condições interna e externa do processo de
aprendizagem, por meio de questionários aplicados aos alunos, professores e
diretores e das condições físicas das escolas e dos recursos de que ela dispõe.
8
Todas as informações sobre esse tópico podem ser acessadas no sítio do INEP
40
Em 1995 houve uma reestruturação metodológica a qual permitiu o
acompanhamento longitudinal da qualidade da Educação e auxílio ao MEC e às
Secretarias Estaduais e Municipais de Educação na definição de ações sobre os
problemas levantados bem como no direcionamento dos recursos técnicos e
financeiros com objetivo de promover a equidade da Educação.
Em 2005, foi criada a Prova Brasil, com objetivo de tornar a avaliação mais
detalhada e complementar a avaliação feita pelo Saeb. A Prova Brasil é censitária e
é aplicada nos estudantes da rede urbana de ensino de 4ª e 8ª séries do Ensino
Fundamental, o que possibilita que seus resultados sejam estendidos para os
municípios e escolas participantes. Sua metodologia é a mesma da do Saeb e a
partir de 2007 elas passaram a ser operacionalizadas em conjunto. Por serem
complementares e para que nenhum aluno fosse submetido às duas avaliações, a
Prova Brasil foi aplicada em todos os alunos de escolas públicas urbanas de 4ª e de
8ª séries e o Saeb foi feito por alguns alunos selecionados estatisticamente de 4ª e
de 8ª séries do Ensino Fundamental das redes particular e rural e do 3º ano do
Ensino Médio das redes públicas e particular da área urbana.
Os testes aplicados aos alunos são compostos por itens de múltipla escolha
elaborados por professores das séries e disciplinas avaliadas, a partir dos
descritores das Matrizes de Referência para o Saeb. Depois de elaborados, os itens
são submetidos a uma revisão de conteúdo e forma, que compreende uma
certificação da qualidade dos aspectos teóricos, pedagógicos e linguísticos dos itens
e a uma validação empírica, que verifica, por meio de técnicas estatísticas e
psicométricas, as características de comportamento dos itens após sua aplicação
em campo. Os testes do Saeb contêm 169 itens para cada uma das séries e
disciplinas avaliadas.
O Saeb utiliza várias metodologia9 para alcançar seus objetivos. As principais
são:
•
Matrizes de Referência para o Saeb – empregadas na elaboração dos
testes. Cada matriz de referência apresenta tópicos ou temas que, com
descritores, indicam as habilidades de Língua Portuguesa e de Matemática a
serem avaliadas. O descritor é uma associação entre conteúdos curriculares e
9
Disponível em Metodologia no site do INEP.
41
operações
mentais
desenvolvidas
pelo
aluno
que
traduzem
certas
competências e habilidades. Essa associação apresenta um resultado que é a
matéria-prima a partir da qual é possível elaborar um item de prova. As
respostas dadas pelos alunos a esses itens possibilitam a descrição do nível
de desempenho por eles atingido.
•
Blocos Incompletos Balanceados (BIB) – técnica utilizada na
estruturação dos cadernos de testes. Essa metodologia permite a aplicação
de 169 itens de forma a cobrir a Matriz de Referência em cada série e
disciplina. Em seguida, divide-se esse conjunto em 13 blocos com 13 itens
cada, agrupando-os de três em três, em 26 cadernos diferentes de prova.
Dessa forma, apesar de estar avaliando um amplo escopo de conteúdos,
cada aluno responde apenas a 39 itens. Para garantir a comparabilidade das
séries históricas, mantêm-se alguns blocos comuns e/ou itens já aplicados em
anos anteriores. Por sua vez, para garantir a comparabilidade do
desempenho dos alunos entre as três séries avaliadas, aplicam-se blocos da
4ª série do Ensino Fundamental na 8ª série do Ensino Fundamental, bem
como blocos da 8ª série do Ensino Fundamental na 3ª série do Ensino Médio.
•
Testes Padronizados – aplicados para descrever as habilidades e
competências dos estudantes nas disciplinas de Língua Portuguesa (com foco
em leitura) e Matemática (com foco em resolução de problemas), na 4ª e 8ª
séries do Ensino Fundamental e na 3ª série do Ensino Médio. Os testes de
Língua Portuguesa do Saeb, cujo foco é a leitura, têm por objetivo verificar se
os alunos são capazes de apreender o texto como construção de
conhecimento em diferentes níveis de compreensão, análise e interpretação.
A alternativa por esse foco parte da proposição de que “ser competente no
uso da língua significa saber interagir, por meio de textos, em qualquer
situação de comunicação”10. Nos testes de Matemática, a resolução de
problemas possibilita o desenvolvimento de capacidades como: observação,
estabelecimento
de
relações,
comunicação
(diferentes
linguagens),
argumentação e validação de processos, além de estimular formas de
raciocínio como intuição, indução, dedução e estimativa. Essa opção traz
implícita a convicção de que o conhecimento matemático ganha significado
10
Citação da Nota Técnica do INEP.
42
quando os alunos têm situações desafiadoras para resolver e trabalham para
desenvolver estratégias de resolução.
•
Questionários de contexto – aplicados aos alunos, professores e
diretores para coleta de informações sociais, econômicas e culturais
associadas ao rendimento escolar.
•
Teoria de Resposta ao Item (TRI) – modelo matemático que permite
comparar o desempenho dos alunos em diferentes períodos colocando os
resultados em uma escala única de desempenho. Com isso é possível avaliar
o nível médio de desempenho dos alunos nas áreas selecionadas, ainda que
estes tenham respondido a diferentes conjuntos de itens. As informações são
descritas em termos dos parâmetros dos itens por meio de curvas
características geradas pelo modelo logístico de três parâmetros formulado
por A. Birnbaum em 1968. Esse modelo assume que a probabilidade de
acerto de um item é influenciada pela sua dificuldade, discriminação e
probabilidade
de
P (θ ) = c i + (1 − c i )
acerto
e Da i (θ −bi )
1 − e Da i (θ −bi )
ao
acaso.
Sua
formulação
Matemática
é
, em que: P(θ) é a probabilidade de acertar o
item i para um determinado valor de θ; θ é o valor da variável medida; bi é o
índice de dificuldade do item i; e é a constante de Euler, base do logaritmo
neperiano ou natural; D é uma constante de valor 1,7 (valor esse que a
aproxima da curva normal padronizada); ci é a probabilidade de acerto ao
acaso (FLETCHER, 1994).
•
Amostra – parte da população envolvida na pesquisa. As escolas
cadastradas no Censo Escolar são separadas em estratos (subpopulações)
de interesse. Os principais critérios para estratificação são: série, as de
interesse, em que o aluno está matriculado na modalidade regular; as
Unidades da Federação (UF), 26 estados e um Distrito Federal; dentro de
cada UF, as dependências administrativas a que as escolas pertencem:
pública (estadual ou municipal) e particular; a localização da escola, se é
capital ou interior, se é urbana ou rural; o tamanho da escola, calculado pelo
número de turmas que a escola mantém nas séries avaliadas. Dentro desses
estratos, são sorteadas as escolas e em cada escola são sorteadas no
mínimo uma e no máximo duas turmas de uma mesma série a ser avaliada.
Os resultados não refletem cada escola isoladamente, porque na maioria das
43
vezes a escola não é quantitativamente e nem qualitativamente representada
pelas turmas sorteadas.
•
Escalas de Proficiência – utilizadas para interpretar e descrever o
desempenho dos alunos.
Atualmente o sistema de ensino do país é monitorado pelo Ideb11 – Índice de
Desenvolvimento da Educação Básica, pois ele possibilita detectar a performance da
escola por meio do seu rendimento e proficiência e da evolução temporal do
desempenho dos alunos dessa escola.
O Ideb foi desenvolvido para ser um indicador que sintetiza informações de
desempenho em exames padronizados de proficiência (Saeb e Prova Brasil) com
informações sobre o rendimento escolar, fornecido pela taxa média de aprovação
dos estudantes na etapa de ensino por meio das informações do Censo Escolar.
Dessa maneira, as escolas com melhor Ideb são aquelas em que seus alunos levam
menos tempo para completar determinada etapa de ensino e obtêm notas mais altas
na Prova Brasil ou Saeb. A escala desse índice varia de 0 a 10.
O Ideb, por ser um indicador oficial do INEP, será utilizado como parâmetro
nos modelos espaciais.
2.5 IDH-M12 – Índice de Desenvolvimento Humano nos Municípios
O Índice de Desenvolvimento Humano (IDH) foi criado para medir o nível de
desenvolvimento humano dos países a partir de indicadores de:
11
•
Educação – alfabetização e taxa de matrícula;
•
Longevidade – expectativa de vida ao nascer;
•
Renda – PIB per capita.
Nota Técnica do INEP. Mais detalhes: consultar a publicação Índice de Desenvolvimento da
o.
Educação Básica (IDEB) na Série Documental – Texto para Discussão n 26, disponível no site do
INEP.
12
Parte explicativa do IDH e IDH-M extraída do site do PNUD.
44
Seus valores variam de 0 (nenhum desenvolvimento humano) a 1
(desenvolvimento humano total). Os índices do IDH classificam os países quanto ao
desenvolvimento humano em:
•
Baixo – até 0,499;
•
Médio – de 0,500 a 0,799;
•
Alto – acima de 0,799.
O IDH-M é utilizado para aferir o nível de desenvolvimento humano em
municípios com os mesmos indicadores – educação, longevidade e renda.
As definições e cálculos de cada um desses indicadores encontram-se a
seguir.
•
Educação (IDHM-E):
No tocante à educação, o cálculo do IDH-M considera dois indicadores, com
pesos diferentes:
a)
Taxa de alfabetização (A) de pessoas acima de 15 anos de idade, com
peso 2: resultado da divisão do número de pessoas do município com mais de
15 anos de idade capazes de ler e escrever um bilhete simples (ou seja,
adultos alfabetizados) pelo número total de pessoas com mais de 15 anos de
idade residentes no município;
b)
Taxa bruta de frequência à escola (F), com peso 1: resultado da divisão
do somatório do número de indivíduos residentes no município que estão
frequentando a escola, independentemente da idade, pela população
residente no município na faixa etária de 7 a 22 anos de idade.
2
 2A + F 
 .
 3 
O IDHM-E de um município é dado pela fórmula13: 
•
Longevidade (IDHM-L):
Com relação à longevidade, o IDH-M leva em conta o número médio de anos
que uma pessoa nascida no município, no ano de referência, deve viver, ou seja, a
expectativa de vida (E) no município referente a esse ano.
13
Todas as equações foram ajustadas de forma que os três subíndices, IDHM-E, IDHM-L e IDHM-R,
estejam entre 0 e 1.
45
O cálculo da esperança de vida ao nascer é complexo e envolve várias fases.
No caso da esperança de vida por município, as estatísticas do registro civil são
inadequadas. Por isso, para o cálculo do IDH municipal optou-se por técnicas
indiretas para se chegar às estimativas de mortalidade. A base são as perguntas do
Censo Demográfico sobre o número de filhos nascidos vivos e o número de filhos
ainda vivos na data em que o Censo foi feito. A partir daí são calculadas proporções
de óbitos. Aplica-se, então, uma equação que transforma essas proporções em
probabilidade de morte. A próxima etapa é transformar essas probabilidades em
tábuas de vida, de onde é extraída a esperança de vida ao nascer.
Para transformar esse número de anos em um índice, usa-se como parâmetro
máximo de longevidade 85 anos, e, como parâmetro mínimo, 25 anos.
Para o cálculo do IDHM-L, determina-se a expectativa de vida ao nascer no
município (E) e usa-se a fórmula IDHM-L =
•
E − 25
60
.
Renda (IDHM-R):
Para a avaliação da renda, o critério usado é a renda municipal per capita (R),
ou seja, a renda média de cada residente no município. Para se chegar a esse valor,
soma-se a renda de todos os residentes e divide-se o resultado pelo número de
pessoas que moram no município (inclusive crianças ou pessoas com renda igual a
zero).
A renda média municipal per capita indica a renda média dos indivíduos
residentes no município expressa em reais, pela cotação do dia 1 agosto de 2000.
Os valores são extraídos do questionário da amostra do Censo Demográfico. A partir
da pesquisa do IBGE soma-se todo tipo de renda obtida pelos moradores daquele
município
(inclusive
salários,
pensões,
aposentadorias
e
transferências
governamentais, entre outros). E a somatória é dividida pelo número total de
habitantes do município. O resultado é a renda municipal per capita.
46
3 MÉTODOS E TÉCNICAS
3.1 Modelos Hierárquicos aplicados à Geografia
As técnicas estatísticas só podem ser aplicadas se os dados a serem
analisados estiverem no formato de uma matriz em que os vetores-linha
representarão todas as características de uma observação e os vetores-coluna
representarão todas as informações para uma mesma característica. Dessa
maneira, se o estudo for sobre o clima de uma determinada região geográfica, cada
ponto selecionado dessa região para se efetuar as medidas, por exemplo, de
temperatura, altitude, coordenadas geográficas, velocidade do vento, dentre outras,
formará uma linha da matriz de dados. O conjunto de vários desses pontos formará
os vetores-linha dessa matriz. Uma vez empilhados os vetores-linha, os vetorescoluna dessa matriz conterão todas as informações de uma mesma característica.
Esses vetores-coluna são conhecidos como variáveis aleatórias, em Estatística, e
torna-se necessário conhecer o tipo dessa variável aleatória para saber qual a
técnica estatística adequada para sua análise. Usualmente pelo menos uma dessas
variáveis aleatórias contém as informações de um dos questionamentos elaborados
na pesquisa e recebem, portanto, o nome de variável resposta, ou dependente.
Em Geografia, os fenômenos poder ser de dois tipos:
a)
Categóricos – constituídos de pontos, linhas e áreas, por exemplo,
pessoas, plantas, lojas... Esses podem ainda ser classificados em nominais,
como por exemplo, escola urbana e escola rural, ou em ordinais, por exemplo,
o tamanho de uma cidade: pequena, média, metrópole, etc.;
b)
Discretos – camadas de informações que podem ser contadas em
todos os pontos, por exemplo, quantidade de pessoas, quantidade de árvores,
etc... Se essa contagem for em relação a uma área, volume ou intervalo de
tempo, ela é chamada de taxa e, nesse caso, a distribuição de probabilidade
desses dados é chamada de Poisson; por exemplo, 10 árvores por m2; 50
casas por km2; eclosão de 1000 ovos de tartaruga por mês...
47
c)
Contínuos – camadas de informações que podem ser medidas em
todos os pontos com ênfase na continuidade dos fenômenos, por exemplo,
temperatura, pressão atmosférica, elevação...
Usualmente as medidas em relações espaciais são chamadas de atributos.
Dessa maneira, para a produção de uma análise espacial é necessária a informação
de sua localização e a de seus atributos, independentemente de como tenham sido
mensurados.
A escolha de um modelo estatístico adequado depende do tipo da variável
resposta (variável dependente), ou seja, contínua, discreta ou categórica. Em
particular, respostas dicotômicas são tipos de dados categóricos que assumem
apenas duas possibilidades: vivo ou morto; sim ou não, sendo uma delas chamada
de Sucesso e a outra consequentemente será o Fracasso. A Geografia faz uso
regular de alguns desses modelos. O Quadro 1 apresenta algumas dessas técnicas
utilizadas considerando o tipo de resposta (ou variável dependente):
RESPOSTA
Categórica
COVARIÁVEIS
Categórica
TIPO
- Tabelas de contingências
- Regressão Linear
Contínua
Contínua ou categórica
-
ANOVA
(Análise
de
Variância)
- Regressão de Poisson
Contagem
Contínua ou categórica
Dicotômica
Contínua ou categórica
- Regressão Logística
Tempo até o evento
Contínua ou categórica
- Análise de Sobrevivência
- Loglinear
Quadro 1: Algumas técnicas estatísticas adequadas ao tipo de resposta.
Fonte: Elaborado pela autora.
Nelder & Wedderburn (1972) mostraram que a maioria dos problemas que
envolvem tratamentos estatísticos pode ser formulada como modelos de regressão
envolvendo
uma
variável
resposta
univariada,
variáveis
explanatórias
(ou
48
covariáveis) e uma amostra aleatória de n observações. Na realidade, eles
mostraram que uma série de técnicas comumente estudadas separadamente podem
ser reunidas sob o nome de Modelos Lineares Generalizados (MLG), como uma
extensão dos modelos lineares clássicos.
Um Modelo Linear Generalizado (MLG) (McCULLAGH; NELDER, 1989) é
composto por três elementos: (1) Componente aleatório: Y (variável resposta); (2)
Componente sistemático: η = X t β (preditor linear) e (3) Função de ligação: g(µ) = η ,
em que X é a matriz n x p do planejamento (covariáveis em estudo), β é o vetor pdimensional de parâmetros e µ = E(Y) (média populacional de Y). Dessa maneira,
ampliam-se as opções da variável resposta, permitindo que ela pertença a uma
família exponencial de distribuição de probabilidades, dando maior flexibilidade para
a função de ligação.
O´Brien (1992) utiliza a teoria de McCullag & Nelder (1989) e apresenta uma
descrição bastante acessível dos modelos lineares generalizados. Com algumas
adaptações, pode-se descrever cada componente da equação apresentada por
McCullag & Nelder (1989) da seguinte maneira:
a)
Componente aleatório: Y - cada observação (y) do componente
aleatório Y, variável resposta, pode ser escrita como uma combinação linear
de dois componentes: o primeiro é a parte predita pelo modelo ( µ ) e o
segundo é a parte que o modelo não conseguiu predizer, chamado de erro
aleatório ( ε ), obtido pela diferença entre o valor que foi observado e o valor
predito pelo modelo. Então, a observação pode ser escrita por: y = µ + ε , que
é o modelo linear clássico. Em uma matriz de dados, cada linha contém a
informação de uma observação, assim, denotando por i o número da linha, i =
1, 2,..., n, em que n é o número total de observações ou o tamanho da
amostra, pode-se escrever: para a primeira observação: i = 1 ⇒ y1 = µ1 + ε1 ;
para a segunda observação: i = 2 ⇒ y 2 = µ 2 + ε 2 ; e assim sucessivamente
até a última observação. Genericamente, a i-ésima observação será:
y i = µ i + εi .
b)
Preditor linear: η = X t β - essa é a escrita no formato matricial.
Efetuando esse produto, tem-se para uma observação genérica i, o preditor
49
linear escrito por: ηi = β 0 + β1x i1 + β 2 x i2 + ... + β p x ip , em que os β ´s são os
parâmetros desconhecidos a serem estimados na modelagem e x ij , j =
1,2,...p, referem-se às p características coletadas para a i-ésima observação.
c)
Função de ligação: g(µ) = η - a função de ligação relaciona o preditor
linear a y, ou seja, ela associa a influência do dado observado com o
componente a ser predito de y. Portanto, g é uma função que “liga” o
componente aleatório ao componente sistemático. Utilizando a inversa da
função g, pode-se escrever, para uma observação genérica i: µi = g−1(ηI ) .
Combinando esse resultado com o obtido em (a) tem-se y i = g −1(ηi ) + ε i e,
finalmente
esse
resultado
com
(b)
tem-se:
y i = g −1(β 0 + β1x i1 + β 2 x i2 + ... + β p x ip ) + ε i .
d)
O erro aleatório, ε , segue uma distribuição de probabilidade de acordo
com a função de ligação. A importância do conhecimento dessa distribuição
está no teste de significância efetuado para os coeficientes estimados.
As funções de ligação podem ter vários formatos em aplicações de
modelagem com dados geográficos. Na clássica regressão linear, a função de
ligação é a identidade, ou seja, g = 1, então ηi = µ i . O Quadro 2 apresenta algumas
funções de ligação mais comumente utilizadas e o Quadro 3 alguns tipos de
modelos lineares generalizados, suas funções de ligação e a distribuição de
probabilidade do erro.
Os métodos de estimação nos modelos lineares generalizados baseiam-se
fundamentalmente na teoria da máxima verossimilhança (MV). Se não for possível
especificar uma função de verossimilhança, ou seja, uma distribuição de
probabilidade explícita e completa para a variável resposta, uma aproximação
possível é a construção de uma função de quase-verossimilhança (QV) ou quaseverossimilhança estendida (QVE) (McCULLAGH; NELDER, 1989).
Portanto, uma decisão importante na escolha do modelo linear generalizado é
a escolha do trinômio:
i) distribuição da variável resposta (Y);
ii) matriz do modelo (X) e
50
iii) função de ligação (g).
Ligação
Função de ligação ( η = )
Identidade
µ
Logarítmica
log(µ )
Logit
 µ 
log

m−µ
Probit
µ
Φ − 1 
m
Raiz quadrada
Potência
Recíproca
µ
µ k (k é um no)
1
µ
Quadro 2: Principais funções de ligação em Modelos Lineares Generalizados.
Fonte: O´Brien (1992, p.174-175).
O Quadro 3 apresenta alguns tipos de modelos lineares generalizados, suas
funções de ligação e a distribuição de probabilidade do erro:
51
Modelo
Ligação
Distr. Probabilidade do
Erro aleatório ( ε )
Regressão Linear
Identidade
Normal
ANOVA
Identidade
Normal
Identidade
Gama
Logarítmica
Poisson
Logit
Binomial ou Multinomial
Regressão Logística
Logit
Binomial ou Multinomial
Regressão Probit
Probit
Binomial ou Multinomial
ANOVA (efeitos
aleatórios)
Modelo Loglinear
(simétrico)
Modelo Loglinear
(assimétrico)
Quadro 3: Exemplos de alguns tipos de modelos lineares generalizados.
Fonte: Adaptado de O´Brien (1992, p.174-175).
Neste trabalho utiliza-se o Modelo Linear Hierárquico (MLH) ou multinível, que
é uma extensão dos modelos lineares generalizados de McCullagh e Nelder, pois
permite a existência de correlação entre os dados e variabilidade não constante, ou
seja, ele é um modelo de efeitos mistos. A variável resposta é contínua e será a
proficiência em Matemática ou Língua Portuguesa dos alunos da 4ª e 8ª séries do
Ensino Fundamental do Estado de Minas Gerais.
A proficiência é uma medida do desempenho do aluno na aquisição de
habilidades e competências nas séries finais do Ensino Fundamental de acordo com
uma escala pedagógica numérica que varia de 0 a 500. As escalas variam de 25 em
25 pontos, e o desempenho, interpretado em termos de competência e habilidades,
é explicado em nove níveis para Língua Portuguesa (de 125 a 350) e em dez níveis
para Matemática (de 125 a 375) (ANEXO C). A escala utilizada é única para cada
disciplina, mas seus resultados estão na mesma métrica para as duas séries
avaliadas, o que possibilita comparação entre elas. O desempenho é apresentado
52
em ordem crescente e cumulativa. Por meio dessa escala é possível saber as
habilidades que os alunos já desenvolveram e quais ainda são esperadas que
desenvolvam (ANEXO C). Essa escala foi construída de tal maneira que as
pontuações finais são esperadas para os alunos da 8ª série, ou seja, ao término do
Ensino Fundamental. Dessa maneira, a comparação com a média igual a 250,
referência do Saeb, só deverá ser feita para esses alunos (INEP, 2007).
Os dados a serem modelados são os coletados na Prova Brasil 2007 com
objetivo de verificar o efeito do indivíduo, da escola e do município e os do Saeb
2005 para verificar o efeito da dependência administrativa da escola: pública ou
privada, para o Estado de Minas Gerais. Esses dados, coletados pelo INEP,
promoveram as informações socioeconômicas dos alunos pertencentes à 4ª e à 8ª
séries do Ensino Fundamental. Para os dados do Saeb 2005 serão utilizadas as
Unidades da Federação como unidade geográfica na comparação da rede de ensino
pública ou privada para a proficiência em Matemática dos alunos da 8ª série do
Ensino Fundamental.
No processo de análise e modelagem dos dados da Prova Brasil 2007,
recortados para o Estado de Minas Gerais, surgiu uma limitação dos softwares
estatísticos atuais na convergência dos ajustes dos modelos lineares hierárquicos
em três níveis devido à grande quantidade de parâmetros. Esses dados forneceram
as informações de 5.441 escolas para os 853 municípios mineiros, o que produziu
mais de quatro milhões de parâmetros para serem estimados nas iterações de
convergência no ajustamento do modelo. Para possibilitar a inserção das unidades
geográficas no terceiro nível, o recurso foi diminuir a quantidade de parâmetros por
meio de amostragem.
Para que uma amostra seja informativa, são necessários alguns cuidados, tais
como a garantia da igualdade da probabilidade na seleção das unidades a serem
estudadas; os pesos das unidades estratificadas e o prévio conhecimento da
variabilidade da população em estudo. Todas essas informações estão disponíveis
nos dados censitários originais, possibilitando, portanto, uma coleta amostral
confiável.
O embasamento teórico para o cálculo amostral bem como o planejamento da
coleta de dados estão ampla e detalhadamente comprovados em Foreman (1991) e
em Lehtonen (2004). Além desses, Pfeffermann (2002) publicou um estudo
53
específico sobre a garantia das inferências com estimadores não viciados em
desenhos amostrais informativos para modelos hierárquicos generalizados.
O tamanho da amostra, para este estudo, considerou o desenho para dados
complexos e foi calculado em dois estágios, município e escola, pelo aninhamento
entre eles, com a variância combinada das proficiências. Com o objetivo de garantir
a homocedasticidade, a confiabilidade das estimativas e a representatividade da
população, os municípios, primeiro estágio, foram considerados por microrregiões,
unidades geográficas criadas pelo IBGE – Instituto Brasileiro de Geografia e
Estatística por suas similaridades sociais e econômicas. A seleção dos dados foi
feita por amostragem aleatória simples no primeiro estágio, municípios por
microrregião e, logo após, também por amostragem aleatória simples, foi feita a
seleção das escolas em cada um dos municípios amostrados. Todos os alunos das
escolas amostradas fizeram parte da amostra. O software estatístico utilizado para
as análises foi o SPSS – Statistical Package for the Social Sciences, versão 18.
Assim, o modelo hierárquico neste estudo considera os alunos como primeiro
nível, a escola como segundo nível e a microrregião como terceiro.
De maneira geral, um modelo base14, ou nulo, para a análise desses três
níveis pode ser escrito como15:
a)
Considerações – os índices i, j, k representam aluno, escola e a
microrregião e sua variação e significados serão:
i = 1, 2, ..., njk - aluno da escola j da microrregião k
j = 1, 2, ..., Jk - escola da microrregião k
k = 1, 2, ..., K - microrregião
b)
Primeiro nível: aluno – modela a proficiência para cada aluno como
função da média da escola mais um erro aleatório:
Yijk = π 0 jk + e ijk
Em que:
Yijk – é proficiência do aluno i da escola j e da microrregião k;
π 0 jk – é a média da proficiência da escola j da microrregião k
(intercepto);
14
Modelo base ou modelo nulo significa ausência de covariáveis explicativas ou preditoras em cada
um dos níveis.
15
Formulação adaptada de Raudenbush & Bryk (2002, p.229).
54
eijk – é o efeito aleatório associado ao aluno (nível 1), ou seja, é
o desvio do escore do aluno ijk em relação à proficiência média da
escola. Esse efeito é suposto como normalmente distribuído com
média zero e variância σ 2 .
c)
Segundo nível: escola – cada média da escola, π 0 jk , é resultado da
variação aleatória em torno da média da microrregião:
π 0 jk = β 00k + r0 jk
Em que:
β 00k – é a média da proficiência da microrregião k (intercepto);
r0jk – é o efeito aleatório associado à escola (nível 2), ou seja, é o
desvio do escore da escola jk em relação à proficiência média da
microrregião. Esse efeito é suposto como normalmente distribuído com
média zero e variância τ π . Dentro de cada microrregião a variabilidade
entre as escolas é suposta como igual.
d)
Terceiro nível: município – o modelo desse nível representa a
variabilidade da microrregião. A média da microrregião, β 00k , como uma
variação aleatória em torno da média geral.
β 00k = γ 000 + u 00k
Em que:
γ 000 – é a média geral da proficiência;
u00k – é o efeito aleatório associado à microrregião (nível 3), ou
seja, é o desvio do escore da microrregião k em relação à média geral
da proficiência. Esse efeito é suposto como normalmente distribuído
com média zero e variância τ β .
A variabilidade total de um modelo hierárquico em três níveis pode ser
particionada em três componentes: (nível 1) variação dos alunos dentro da escola,
σ 2 ; (nível 2) variação das escolas dentro das microrregiões, τ π ; e (nível 3) variação
entre as microrregiões, τ β . A relação de cada um desses componentes com a
variação total representa a proporção da variação que é explicada por cada um
desses componentes, ou seja,
55
a)
b)
σ2
σ 2 + τ π + τβ
τπ
σ + τ π + τβ
2
– proporção da variação dos alunos dentro da escola;
– proporção da variação das escolas dentro das
microrregiões;
c)
τβ
σ + τ π + τβ
2
– proporção da variação entre as microrregiões.
Outra medida é a confiabilidade dos coeficientes estimados por mínimos
quadrados. Essa confiabilidade é estimada em dois níveis: o da escola, π̂ 0 jk , e o dos
municípios, β̂ 00 k . Dessa maneira, tem-se que, para cada escola jk do nível 2, a
confiabilidade da média amostral utilizada na discriminação das escolas dentro da
mesma microrregião é obtida por:
confiabilidade ( π̂ 0 jk ) =
τπ
τπ + σ
2
n jk
Analogamente, tem-se que, para cada microrregião k do nível 3, a
confiabilidade da média amostral das microrregiões para estimar a verdadeira média
da proficiência é dada por:
confiabilidade ( β̂ 00 k ) =
τβ
−1
 

2

τ β + ∑ τ π + σ n  
jk  
 

−1
A média das confiabilidades de cada nível pode ser utilizada para caracterizar
a confiabilidade das escolas, nível 2, e a confiabilidade das microrregiões, nível 3.
Se no modelo base forem acrescentadas, em pelo menos um dos níveis,
características que auxiliem a explicação ou predição dos ajustes, por exemplo, no
nível 1, do aluno, acrescentar informações sobre o sexo e/ou classe econômica,
esse modelo passa, então, a ser chamado de condicional. Apesar de alguma
característica de um nível estar associada com o rendimento escolar, nem sempre
se pode ter garantia plena de que não exista influência de alguma outra que não foi
mensurada no estudo, por exemplo, sexo do aluno pode estar relacionado com
56
algumas características do professor, e essa interação pode ser a responsável pela
significância da variável sexo no modelo. Situações análogas podem ocorrer nos
demais níveis.
De qualquer maneira, o ideal é fazer a formulação de um modelo16 com
estrutura generalizada para cada um dos níveis, conforme descrição a seguir:
a)
Primeiro nível: aluno – dentro de cada escola, modela-se a
proficiência para cada aluno como função de variáveis
preditoras,
características, dos alunos mais um erro aleatório:
Yijk = π 0 jk + π1jk a1ijk + π 02k a 2ijk + ... + πPjk aPijk + eijk
Em que:
Yijk – é proficiência do aluno i da escola j e do município k;
π 0 jk – é a média da proficiência da escola j do município k
(intercepto);
a pijk – são as p = 1, 2, ..., P características que predizem
o desempenho do aluno.
π pjk
–
são
os
coeficientes
correspondentes
às
características do aluno e indicam a direção e a força da associação
entre cada característica, ap, e os resultados da escola jk;
eijk – é o efeito aleatório associado ao aluno (nível 1) e
representa o desvio do escore do aluno ijk em relação ao escore
predito no modelo do nível do aluno. Os efeitos residuais são supostos
normalmente distribuídos com média zero e variância σ 2 .
b)
Segundo nível: escola – cada coeficiente de regressão do modelo do
nível do aluno (incluindo o intercepto) pode ser visto como um efeito fixo, ou
seja, sem variação aleatória. Essas possibilidades conduzem à formulação do
modelo para variação entre as escolas dentro dos municípios. Para cada
efeito da escola:
πpjk = βp0k +
Qp
∑ βpqk X qjk + rpjk
q =1
Em que:
16
Formulação adaptada de Raudenbush & Bryk (2002, p. 231).
57
β p0k – é o intercepto para o município k do efeito π pjk no
modelo das escolas;
X qjk
– é a característica da escola utilizada como
preditora do efeito da escola π pjk (observe que cada π p tem um único
conjunto de preditores do segundo nível X qjk , q = 1, 2, ..., Qp);
β pqk – é o coeficiente correspondente que representa a
direção e a força da associação entre as características da escola X qjk
e π pjk ;
rpjk – é o efeito aleatório associado à escola (nível 2), e
representa o desvio do coeficiente do nível 1 da escola jk, π pjk , do
seu valor predito baseado no modelo ao nível da escola. Esses efeitos
são supostos com distribuição normal multivariada, cada uma com
média zero, com alguma variância τ pp e covariância entre os
elementos rpjk e rp´ jk de τ pp´ . Essas variâncias e covariâncias
formam uma matriz denominada Τπ cuja dimensão depende do
número de coeficientes do nível 1 especificados como aleatórios.
c)
Terceiro nível: microrregião – um modelo similar é replicado para o
nível da microrregião. Cada coeficiente β pq , do terceiro nível, pode ser predito
por alguma característica da microrregião:
β pqk = γ pq0 +
Spq
∑ γ pqs Wsk + upqk
s =1
Em que:
γ pq0 – é o termo do intercepto do modelo no nível da
microrregião para β pqk ;
W sk – é a característica da microrregião utilizada para
predizer o efeito da microrregião, β pqk (observe que cada β pq tem um
único conjunto de preditores do terceiro nível W sk , s = 1, 2, ..., Spq);
58
γ pqs – é o coeficiente correspondente ao terceiro nível que
representa a direção e a força de associação entre a característica da
microrregião Wsk e β pqk ;
d)
upqk – é o efeito aleatório associado à microrregião (nível 3) que
representa o desvio do coeficiente da escola k, β pqk , do seu valor predito pelo
modelo do nível da microrregião. Os resíduos desse modelo são supostos
com distribuição normal multivariada, cada uma com média zero, com alguma
variância e covariância que formam uma matriz denominada Τβ cuja dimensão
depende do número de coeficientes do nível 2 especificados como aleatórios.
A verificação da importância da inclusão de um efeito aleatório no modelo
será realizada por meio da análise da diferença entre os valores da estatística da
verossimilhança (-2LL)17 para o modelo ajustado na presença do efeito (com a
covariável) e o ajustado na ausência dele (sem a covariável) (RAUDENBUSH;
BRYK, 2002). O valor da diferença obtido é comparado com o ponto crítico de uma
distribuição qui-quadrado, com o nível de confiança desejado, geralmente de 5%. A
hipótese nula para esse teste pode ser, por exemplo, o efeito associado com a
escola poder ser omitido no modelo. De certa maneira esse teste verifica se a
estrutura hierárquica é adequada. Usualmente, os valores da estatística do logaritmo
da verossimilhança são números grandes.
Neste trabalho, serão modelados os dados coletados pela Prova Brasil 2007
para verificar o efeito do indivíduo, da escola e da microrregião, e os do Saeb 2005
para verificar o efeito da dependência administrativa da escola: pública ou privada,
para o Estado de Minas Gerais. Esses dados promoveram as informações
socioeconômicas e o resultado da proficiência em Matemática e Língua Portuguesa
dos alunos pertencentes a 4ª e 8ª séries do Ensino Fundamental.
As respostas aos itens do questionário aplicado, tanto para a Prova Brasil
2007 quanto para o Saeb 2005, possibilitaram a geração da variável NSE – nível
socioeconômico do aluno, utilizando o Critério de Classificação Econômica Brasil
adotado pela ABA – Associação Brasileira dos Anunciantes; ABIPEME – Associação
Brasileira de Institutos de Pesquisa de Mercado e ANEP – Associação Nacional de
17
-2LL = (-2) vezes o Log-Likelihood (logaritmo da verossimilhança).
59
Empresas de Pesquisa (ANEXO B). As respostas geraram uma pontuação
classificatória do nível socioeconômico dos alunos e a média dessa pontuação foi
utilizada para gerar o nível socioeconômico das escolas. Para o nível da
microrregião foi utilizado o IDHM-2000, último publicado no Brasil pela Fundação
João Pinheiro de Belo Horizonte, e o Ideb 2007.
A análise da inclusão das variáveis explicativas para cada um dos níveis com
o objetivo de verificar a influência de outros fatores, de efeito fixo, que interferem
nessa variabilidade apresentada pelos efeitos aleatórios será feita por meio do teste
da razão das verossimilhanças, estatística G, similar ao da verificação para a
estrutura hierárquica, obtida pela fórmula enunciada por McCullagh & Nelder (1989):
 verossimil lhança SEM a covariável 
2
G = −2 ln
 ~ χp (p : no. de parâmetros)
 verossimil lhança COM a covariável 
Essa estatística verifica a razão entre o logaritmo da verossimilhança na
ausência da variável preditora ou explicativa de interesse e o logaritmo da
verossimilhança na presença dessa covariável. A estatística G segue uma
distribuição de probabilidade qui-quadrado com p graus de liberdade ( χ p2 ), em que p
é o número de parâmetros do modelo. Dessa maneira, ao ser feita a razão entre os
logaritmos da verossimilhança dos modelos com e sem a covariável, o valor obtido
da estatística G terá 1 grau de liberdade, ou seja, o valor será comparado com o
ponto crítico de 3,84 considerando o nível de significância, α, de 5%. O teste
considera como hipótese nula: “a presença da covariável não é importante para o
modelo”, ou seja, se o p-valor do teste da estatística G for menor que 5%, então
essa hipótese nula é falsa, e a covariável é aceita no modelo.
3.2 Modelos Espaciais
Para análise e compreensão dos fenômenos espaciais, um conceito básico é
o de dependência espacial. A noção desse conceito faz parte da chamada primeira
lei da Geografia enunciada por Tobler, em 1970, ou pela afirmação de Noel Cressie
(1993, p.3): “a dependência (espacial) está presente em todas as direções e fica
mais fraca à medida que se aumenta a dispersão na localização dos dados”. Dessa
60
maneira, pode-se dizer que a maioria das ocorrências, qualquer que seja sua
natureza, apresenta entre si uma relação dependente da distância.
A dependência espacial é analisada por meio da autocorrelação espacial.
Esse conceito é derivado do conceito de correlação, entre duas variáveis aleatórias,
utilizado na Estatística. Nos casos geográficos, o acréscimo da preposição “auto”
indica que a medida é feita para uma variável aleatória observada em vários locais
distintos do espaço. Um indicador de autocorrelação espacial é o Índice de Moran, o
qual mostra como os valores estão correlacionados no espaço – caracterização da
dependência espacial. Baseia-se na estimativa de quanto um atributo de uma região
é dependente dos valores desta mesma variável nas localizações vizinhas. De
maneira geral, o Índice de Moran é um teste cuja hipótese nula (H0) é de
independência espacial. Considerando as medidas padronizadas, esse índice varia
de -1 a 1, sendo que o valor zero indica independência espacial, os valores
negativos correlação inversa e os positivos correlação direta (CÂMARA, 2004). O
software Geoda (ANSELIN, 1995) calcula esses índices pela abordagem da pseudosignificância gerada por meio de permutações do arranjo espacial da matriz de
vizinhança (teste de permutação), pois assim não é necessário associar uma
distribuição de probabilidade ao índice para verificar sua significância estatística.
Seu valor pode ser calculado por:
n
I=
W
∑ ∑ w ij ziz j
i
j
∑
z i2
, i≠ j
i
em que:
n : número de subregiões – nesse estudo, as microrregiões;
wij : elementos da matriz de vizinhanças para o par i, j
W : soma dos ponderadores da matriz;
z : média das informações da região;
zi e zj : são os desvios em relação à média z.
O diagrama apresentado pelo Índice de Moran, também chamado, em
algumas literaturas, de Espalhamento de Moran (CÂMARA, 2004), pode ser visto
com analogia ao Diagrama de Dispersão (scatter plot) entre duas variáveis contínuas
do plano. Utilizando a notação de Anselin (1995), o diagrama de dispersão obtido no
GeoDa, para duas variáveis contínuas, padronizadas em relação a suas respectivas
61
média e desvio-padrão, estão distribuídas em quatro quadrantes que definem o tipo
de associação entre elas: o primeiro quadrante (Q1 = alta-alta) apresenta valores
positivos, médias positivas, e o segundo (Q2 = baixa-baixa) apresenta valores
negativos, médias negativas; esses quadrantes revelam associação positiva. Por
outro lado, o terceiro quadrante (Q3 = alta-baixa) apresenta valores positivos, médias
negativas, e o quarto (Q4 = baixa-alta) apresenta valores negativos, médias
positivas, e revelam associação negativa. O valor da inclinação (slope) indica a
correlação entre as duas variáveis. O diagrama de Moran apresenta, portanto, a
estrutura espacial nas duas escalas de análise: vizinhança e tendência (CÂMARA,
2004; ANSELIN, 1995).
A autocorrelação espacial local pode ser obtida por meio de uma visualização
dos aglomerados (clusters) gerados pela decomposição das contribuições de cada
observação do indicador global de Moran. Essa técnica é chamada de LISA – Local
Indicator of Spatial Association e faz parte das técnicas exploratórias de análise de
dados espaciais (ESDA18). A estatística LISA apresenta a influência das localizações
individuais na magnitude da estatística global como, por exemplo, no Índice de
Moran, e identifica “outliers”. Dessa maneira, ela é mais sensível na presença da
heterogeneidade espacial (ANSELIN,1995).
Anselin (1995) sugere uma definição operacional para a estatística LISA por
meio de duas condições necessárias: (a) para cada observação o LISA fornece uma
indicação para estender valores similares pelas vizinhanças de um cluster espacial
significativo; (b) a soma de todas as estatísticas LISA individuais é proporcional ao
indicador global de associação espacial.
Os clusters espaciais locais são chamados algumas vezes de “hot spots” e
podem ser identificados por um conjunto de locais contíguos para os quais o LISA é
significativo.
Outro recurso espacial é a visualização dos outliers, localizações com valores
extremos altos ou baixos, por meio de um mapa cloropético contendo as
informações dos percentis da medida de interesse.
A autocorrelação espacial pode ser analisada utilizando mais de uma medida,
ou seja, de forma multivariada. Os princípios do Índice de Moran e do LISA podem
ser estendidos diretamente para o formato bivariado. O teste global é visualizado por
18
ESDA – Exploratory Spatial Data Analysis.
62
meio de médias no diagrama de Moran, a inclinação da reta de regressão ajustada
corresponde ao índice de Moran e os testes de significância utilizam o teste de
permutação. Os mapas descrevem as localizações com as estatísticas locais de
Moran (mapas de significância LISA) e classificam esses locais pelo tipo de
associação (mapa de clusters LISA). Dessa maneira, o mapa gerado pelo LISA ou
BiLisa apresenta a autocorrelação espacial considerando os quatro quadrantes do
Índice de Moran por meio de quatro cores: (1) vermelho = alta-alta; (2) azul escuro =
baixa-baixa; (3) rosa = alta-baixa e (4) azul claro= baixa-alta. O vermelho e o azul
escuro indicam as localizações formados por cluster com associação espacial, e o
rosa e o azul claro são indicações de outliers espaciais. Usualmente o BiLisa é
utilizado como informação de espaço e tempo, mas pode ser utilizado de forma
adaptada para verificar se existe autocorrelação espacial entre duas variáveis nas
vizinhanças consideradas (ANSELIN, 2006).
Valores significativos da autocorrelação espacial evidenciam a dependência
espacial na amostra estudada e esse fato invalida a premissa de independência
exigida pela maioria dos tradicionais modelos estatísticos, tais como regressão
linear, análise de variância, dentre outros. Os modelos hierárquicos, por sua vez,
permitem a existência de dados correlacionados, pois analisam amostras com
estrutura de variabilidade complexa produzidas pelo aninhamento das fontes de
variação (RAUDENBUSH; BRYK, 2002). Por outro lado, os modelos espaciais
permitem a análise dos padrões de associação que ocorrem entre as unidades
geográficas, possibilitando uma agregação na análise dos modelos lineares
hierárquicos, bem como na validação e corroboração de seus resultados.
A análise espacial será feita nos dados dos municípios do Estado de Minas
Gerais e irá considerar as variáveis: IDHM-2000, Ideb 2007, as proficiências em
Matemática e Língua Portuguesa para o município e o nível socioeconômico médio
das escolas dos municípios, padronizado entre os municípios. A distribuição espacial
será apresentada por meio de cartogramas gerados pelo GeoDa (ANSELIN, 1995).
Serão estudados os efeitos locais por meio das técnicas do Índice de Moran e LISA
na forma uni e bivariada.
Em trabalhos futuros pretende-se verificar as discrepâncias observadas por
meio de visitas técnicas in loco (trabalho de campo), para tentar buscar explicações
para suas possíveis causas associando, a esse estudo, uma análise qualitativa.
63
4 ANÁLISE DOS DADOS
4.1 Resultados Saeb 2005
Primeiramente, será aplicada a técnica de ajustamento dos dados por
modelagem hierárquica nos dados do Saeb 2005. Nesses dados será possível
apenas o ajuste do modelo em dois níveis, pois os dados são coletados por
amostragem no território brasileiro, não fornecendo, portanto, informações do
município. O objetivo em fazer uma breve análise desses dados é a possibilidade de
uma comparação entre a rede administrativa pública e a particular das escolas.
Foram analisados 8.224 alunos válidos do Ensino Fundamental, 4ª e 8ª séries, em
191 escolas, sendo 65,9% da rede pública e com localização urbana no Estado de
Minas Gerais.
O Gráfico 1 apresenta a distribuição das proficiências nas disciplinas de
Língua Portuguesa (50,1%) e Matemática (49,9%) dos alunos. As proficiências das
duas séries encontram-se em conjunto, sendo que 59,3% pertencem à 4ª série.
Quanto ao sexo, os alunos encontram-se igualmente distribuídos (50,2% feminino).
O Gráfico 2 apresenta o intervalo com 95% de confiança para as médias
obtidas nas proficiências da Língua Portuguesa e de Matemática para os alunos da
8ª série das redes públicas e particular do Estado de Minas Gerais, donde se pode
observar que os melhores rendimentos estão na rede particular, apesar do bom
desempenho na proficiência em Matemática das escolas públicas.
No Quadro 4 estão descritas as variáveis utilizadas na modelagem dos dados
do Saeb 2005.
64
40
Frequência
Língua Portuguesa
100 160 220 280 340 400
Matemática
800
800
700
700
600
600
500
500
400
400
300
300
200
200
100
100
0
0
40
100 160
220
280
340 400
Gráfico 1: Distribuição das proficiências em Língua Portuguesa e em Matemática dos alunos
da 4ª e 8ª séries de Minas Gerais no Saeb 2005.
Fonte: Dados do Saeb 2005.
Gráfico 2: Intervalo de 95% de confiança para as médias das proficiências em Língua
Portuguesa e em Matemática dos alunos da 8ª série em Minas Gerais no Saeb 2005.
Fonte: Dados do Saeb 2005.
65
Nível 1 – Alunos
Resultados dos alunos nos testes aplicados no
Proficiência
Saeb transformados na Escala única do Saeb
(250,50) (informação original)
Série
Série do aluno (0 = 4a.; 1 = 8a.) (informação
original)
Nível socioeconômico dos alunos, calculado pelo
NSE_aluno
Critério Brasil, padronizado dentro da escola
(variação -3 a 3 dp) (informação gerada da original)
Nível 2 – Escolas
Rede
Administração (0 = Pública; 1 = Particular)
(informação original)
Nível socioeconômico das escolas obtido pela
NSE_escola
média dos alunos e padronizado entre as escolas
(variação -3 a 3 dp) (informação gerada da original)
Quadro 4: Descrição das variáveis utilizadas na modelagem dos dados de Minas Gerais no
Saeb 2005.
Fonte: Dados do Saeb 2005.
Na Tabela 1 pode-se observar o resultado do modelo hierárquico nulo
ajustado para as proficiências em Língua Portuguesa e Matemática, na escala do
Saeb com média 250 e desvio-padrão 50, considerando as duas séries em conjunto.
O modelo linear hierárquico nulo apresenta a estimativa da média geral da
proficiência dos alunos, intercepto, e o efeito aleatório é expresso como a parte da
variação não explicada dentro da escola e que é devida entre as escolas. Isso
significa que os alunos diferem dentro de uma escola, por suas próprias
características, e as escolas diferem entre si. Pode-se dizer que alunos semelhantes
em escolas distintas têm desempenhos distintos. Por exemplo, na proficiência em
Matemática, a média geral estimada para os alunos foi de 233,14 pontos, a variância
dentro da escola, residual, foi de 2.006,80 e a variação entre as escolas foi de
2.226,08.
66
Tabela 1: Ajuste do modelo linear hierárquico nulo para as proficiências em Língua Portuguesa
e Matemática dos alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005.
Disciplina
Parâmetro
I.C. 95%
Estimativa
Erro
padrão
T
p-valor
L. Inf
L.Sup
Parte fixa
Língua
Portuguesa
Intercepto
215,52
3,23
66,81
0,000
209,16
221,89
Matemática
Intercepto
233,14
3,53
66,03
0,000
226,18
240,11
Parte aleatória
Correlação Intraclasse
(ICC)
Língua
Portuguesa
Dentro da escola
(entre alunos)
1996,66
45,06
Entre escolas
1836,26
205,30
Dentro da escola
(entre alunos)
2006,80
45,38
Entre escolas
2226,08
244,97
47,9%
Matemática
52,6%
Fonte: Dados do Saeb 2005.
Nota: * Nível 1: “Dentro das Escolas” e Nível 2: “Entre as Escolas”.
Os resultados da Tabela 1 mostram a correlação intraclasse para Língua
1836,26


Portuguesa de 0,479  =
 , ou seja, 47,9% da variabilidade total é
 1996,66 + 1836,26 
devida às diferenças entre as escolas. Para a proficiência em Matemática essa
correlação foi de 52,6%. Considerando que nesse banco de dados tem-se a
presença de escolas públicas e particulares, essa variabilidade pode ser maior
devido às diferenças naturais existentes entre esses dois tipos de administração.
67
Tabela 2: Ajuste do modelo linear hierárquico final para as proficiências em Língua Portuguesa
e Matemática para os alunos da 4ª e 8ª séries de Minas Gerais no Saeb 2005.
Disciplina
I.C. 95%
Estimativa
Erro
padrão
t
p-valor
Intercepto
200,95
2,36
85,31
Série
50,49
1,83
Nse_aluno
5,40
Rede
Parâmetro
L. Inf
L.Sup
0,000
196,30
205,60
27,57
0,000
46,90
54,08
1,04
5,18
0,000
3,36
7,45
7,93
4,52
1,75
0,081
-0,99
16,85
Nse_escola
23,24
2,23
10,41
0,000
18,84
27,63
Intercepto
216,42
2,69
80,59
0,000
211,13
221,72
Série
50,19
1,94
25,83
0,000
46,38
54,00
Nse_aluno
9,03
1,06
8,54
0,000
6,96
11,10
Rede
14,26
5,16
2,76
0,006
4,07
24,44
Nse_escola
22,03
2,52
8,74
0,000
17,06
26,99
Parte fixa
Língua
Portuguesa
Matemática
Parte aleatória
Correlação Intraclasse (ICC)
Língua
Portuguesa
Dentro da
escola (entre
alunos)
1710,31
Entre escolas
170,68
28,17
Dentro da
escola (entre
alunos)
1750,24
39,61
38,72
9,1%
Matemática
12,5%
Entre escolas
251,02
36,94
Fonte: Dados do Saeb 2005.
No modelo linear hierárquico final, apresentado na Tabela 2, foram inseridas
as variáveis explicativas do nível dos alunos: (i) série, indicando a existência de um
acréscimo nas duas proficiências de 50 pontos, o que significa que a escola
68
promove um aumento no desempenho nos alunos da 8ª série; (ii) acréscimo, em
torno de 5 pontos, na pontuação da proficiência em Língua Portuguesa e em 9
pontos na proficiência em Matemática para os alunos com maiores níveis
socioeconômicos. A inclusão das variáveis na segunda hierarquia: (i) nível
socioeconômico da escola indica que os melhores desempenhos são dos alunos em
escolas com maiores níveis econômicos; (ii) a variável rede mostra um efeito positivo
para as escolas com administração particular, pois representa um acréscimo de 8
pontos para a proficiência em Língua Portuguesa e de 14 pontos para a de
Matemática.
Considerando a definição de Soares & Andrade (2006), após inclusão do nível
socioeconômico dos alunos o desempenho dos alunos ficou alterado positivamente.
Isso significa que quanto maior o nível socioeconômico do aluno, melhor o seu
desempenho cognitivo. Dessa maneira, a escola não atende o quesito de qualidade
como capacidade de diminuir esse efeito entre os alunos. O nível socioeconômico da
escola, como segunda hierarquia, está padronizado entre as escolas. Dessa
maneira, o quesito de equidade também não é satisfeito, pois escolas com maiores
níveis socioeconômicos produzem melhores desempenhos cognitivos. Como
esperado, a rede particular também produz maiores desempenhos.
Apesar da existência de diferenças entre as redes públicas e particulares
torna-se necessária a agregação de outras medidas de avaliação, principalmente as
de contexto, pois apenas os resultados da proficiência não garantem que elas
possam ser devidas às suas práticas pedagógicas, infraestrutura, administração ou
qualidade de seus professores.
A correlação intraclasse para Língua Portuguesa, condicionada à inclusão das
covariáveis, foi 9,1% da variabilidade total devida às diferenças entre as escolas.
Isso significa que as covariáveis utilizadas no modelo foram importantes na
explicação da proficiência. O percentual de redução na proporção explicada e devida
 47,9 − 9,1 
a elas na proficiência em Língua Portuguesa foi de 81,0%  =
 e para a
47,9 

proficiência em Matemática essa correlação foi de 12,5%, com 76,2% de redução.
A unidade geográfica apresentada nos dados do Saeb 2005 são as Unidades
Federativas do Brasil. Considerando que a 8ª série é o final do ciclo do Ensino
Fundamental foi feita uma análise dos escores nas habilidades e competências
promovidas a eles para a proficiência em Matemática. O objetivo foi verificar a
69
posição do Estado de Minas Gerais em relação às demais Unidades Federativas da
União.
Nos dados do Saeb 2005 foram obtidas as informações de 33.189 alunos da
8ª série em 1.952 escolas que fizeram o exame de proficiência em Matemática,
sendo 33,4% provenientes de escola particular. O Gráfico 3 apresenta o gráfico
contendo os intervalos com 95% de confiança para a média da proficiência em
Matemática, desses alunos, para todas as Unidades Federativas.
Gráfico 3: Intervalo com 95% de confiança para a média da proficiência em Matemática dos
alunos da 8ª série por Unidade da Federação no exame do Saeb 2005.
Fonte: Dados do Saeb 2005.
Pode-se observar que o desempenho das escolas particulares está
praticamente todo acima da linha de referência da média do Saeb, que é de 250
pontos, uma indicação de que o desempenho na proficiência em Matemática tem um
forte componente econômico, pois as políticas dessas escolas estão mais ligadas,
principalmente, a um público com melhores condições financeiras. Comparando o
Estado de Minas Gerais com as demais Unidades Federativas, observa-se que o
desempenho em Matemática das escolas públicas encontra-se praticamente na linha
70
de referência da média e com boa colocação em relação às demais Unidades
Federativas e o das escolas particulares foi o que apresentou o desempenho mais
alto dentro dessa categoria no Brasil.
O ajuste de um modelo hierárquico nulo em dois níveis para os dados dos
alunos da 8ª série do território brasileiro apresenta uma correlação intraclasse de
39,7%, sendo essa a proporção da variação entre as escolas brasileiras (TAB. 3).
Tabela 3: Ajuste do modelo linear hierárquico nulo, em dois níveis, para as proficiências em
Matemática dos alunos da 8ª série para todo o território brasileiro no Saeb 2005.
I.C.
Parâmetro
Estimativa Erro padrão
t
p-valor
95%
L. Inf
L.Sup
246,20
249,45
Parte fixa
Intercepto
247,82
0,83
298,82
0,000
Parte aleatória
Correlação Intraclasse (ICC)
Dentro da escola
(entre alunos)
1822,26
14,58
39,7%
Entre escolas
1198,00
42,72
Fonte: Dados do Saeb 2005.
No modelo linear hierárquico em três níveis para os dados do Saeb 2005 da
proficiência em Matemática dos alunos da 8ª série para todo o território brasileiro,
não foi possível acrescentar no ajuste do modelo o aninhamento das escolas dentro
das Unidades Federativas devido ao excesso de parâmetros (limites do software).
Esse aninhamento é responsável pela explicação da variação das escolas dentro de
suas respectivas Unidades Federativas, ou seja, é condicionante para a localização
da escola. Somente foi possível o ajuste considerando os efeitos aleatórios de cada
um dos níveis separadamente e, dessa maneira, o modelo ajustado é considerado
menos eficiente, pois sua variabilidade poderia ser um pouco maior do que a
esperada caso a variação interna pudesse ser computada. Assim, a Tabela 4 mostra
a correlação intraclasse calculada diretamente pela relação da sua covariância e a
variação total dos efeitos aleatórios. Dessa forma, entre as escolas ela foi de 33,9%
71
1034,29


=
 e houve uma pequena diminuição da variabilidade na
 1822,32 + 1034,29 + 196,01 
 1198,0 − 1034,29 
presença do efeito das Unidades Federativas, de 13,7%  =
.
1198,0


Tabela 4: Ajuste do modelo linear hierárquico nulo, em três níveis, para as proficiências em
Matemática dos alunos da 8ª série em todo o território brasileiro no Saeb 2005.
I.C. 95%
Parâmetro
Estimativa Erro padrão
t
p-valor
L. Inf
L.Sup
240,64
252,28
Parte fixa
Intercepto
246,46
2,82
87,29
0,000
Dentro da escola
(entre alunos)
1822,32
14,58
Correlação Intraclasse (ICC)
Entre escolas
1034,29
37,73
33,9%
Entre UF´s
196,01
61,06
6,4%
Parte aleatória
Fonte: Dados do Saeb 2005.
A correlação intraclasse entre as Unidades Federativas no modelo linear
hierárquico em três níveis para os dados do Saeb 2005 da proficiência em
Matemática dos alunos da 8ª série para todo o território brasileiro foi de 6,4%, ou
seja, esse é o percentual da variabilidade total devida ao seu efeito aleatório. No
estudo de Cesar & Soares (2001), essa correlação intraclasse foi de 7,4% para os
dados do Saeb 99, no ajuste do modelo linear hierárquico nulo para o território
brasileiro. Considerando que os exames do Saeb preservam a mesma métrica
desde 1997, houve uma redução na variação da proficiência em Matemática entre as
Unidades Federativas nesse período de aproximadamente quatro anos de 13,5%.
72
4.2 Resultados da Prova Brasil 2007
A Prova Brasil 2007 objetiva avaliar o rendimento escolar e apresenta os
resultados da proficiência em Língua Portuguesa e em Matemática em duas escalas,
uma transformada na escala única do Saeb/97 – Sistema Nacional de Avaliação da
Educação Básica – com média 250 e desvio-padrão 50; e a outra calculada na
escala única do Saeb, com média zero e desvio-padrão 1 na população de
referência. Para efeito deste estudo serão utilizadas as escalas padronizadas com
média 250 e desvio-padrão 50, do Saeb/97, para as duas proficiências.
A Prova Brasil 2007 é aplicada no formato censitário, portanto, os dados
originais fornecidos pelo INEP serão considerados como a população de escolares
da 4ª e 8ª séries do Ensino Fundamental do Estado de Minas Gerais. Dessa
maneira, tornam-se conhecidas a média, a variância e a distribuição de
probabilidade da proficiência em Língua Portuguesa e Matemática, que será
assumida, pelo teorema central do limite, como aproximadamente normal (GAF.4).
70
Língua Portuguesa
Frequência
100000
130 190 250 310 370 430
Matemática
100000
80000
80000
60000
60000
40000
40000
20000
20000
0
0
70
130 190 250 310 370
Gráfico 4: Distribuição da proficiência da população de escolares da 4ª e 8ª séries do Ensino
Fundamental de Minas Gerais na Prova Brasil 2007.
Fonte: Dados da Prova Brasil 2007.
73
A Tabela 5 apresenta os resultados obtidos na proficiência em Língua
Portuguesa e Matemática, por série, na escala transformada do Saeb/97 com média
250 e desvio-padrão 50, para a população dos escolares do Estado de Minas
Gerais. A escala do Sabe/97 permite a comparação entre os resultados obtidos por
série dentro de cada avaliação. Assim, na proficiência da Língua Portuguesa, a
diferença entre os resultados da 8ª e 4ª séries é de aproximadamente 58 pontos e
essa diferença é estatisticamente significativa ao nível de 5% (teste Z, p-valor =
0,000). Analogamente, a diferença para a proficiência em Matemática é de
aproximadamente 53 pontos e é estatisticamente significativa ao nível de 5% (teste
Z, p-valor = 0,000). Do ponto de vista estatístico, essas diferenças mostram uma
melhoria no desempenho, ou seja, um ganho de habilidades e competências
promovidas pelo ensino, apesar de essa comparação ser do ponto de vista macro,
ou seja, considera somente os alunos como unidade de medida, deixando de lado o
contexto das escolas.
A descrição na Tabela 5 mostra que a proficiência em Língua Portuguesa dos
alunos da 8ª série está com pontuação abaixo da média de referência do Saeb, igual
a 250, e essa diferença é estatisticamente significativa ao nível de 5% (Teste Z, pvalor = 0,000). Apesar de a média ser deficitária em Língua Portuguesa, pelo menos
25% dos alunos conseguiram ficar acima da média de referência (percentil 75). Por
outro lado, em Matemática, 50% (mediana) dos alunos da 8ª série encontram-se
acima da média de referência.
O Gráfico 5 apresenta a comparação dos intervalos de 95% de confiança para
a média em Matemática dos alunos da 8ª série para os 26 Estados e o Distrito
Federal do Brasil. Como pode ser observado, apenas seis Unidades Federativas
encontram-se acima da média igual a 250, referência do Saeb/97, são elas: Distrito
Federal, Minas Gerais, Mato Grosso, Paraná, Rio Grande do Sul e Santa Catarina.
74
Tabela 5: Descrição das proficiências em Língua Portuguesa e em Matemática na escala
19
Saeb(250,50) , por série, na população dos escolares de Minas Gerais na Prova Brasil 2007.
Proficiência em
Língua Portuguesa
(Saeb(250,50))
Proficiência em
Matemática
(Saeb(250,50))
N
Média
Desvio-padrão
Amplitude
Mínimo
Máximo
Percentil 25
Mediana
Percentil 75
261.247
179,92
43,97
274
73
347
148
178
209
261.247
199,69
45,76
281
87
368
166
197
231
N
228.256
228.254
Média
237,29
252,65
Desvio-padrão
44,82
45,66
Amplitude
282
278
Mínimo
114
139
Máximo
396
417
Percentil 25
205
221
Mediana
237
251
Percentil 75
269
284
Série
Estatísticas
Descritivas
4a série
a
8 série
Fonte: Dados Prova Brasil 2007.
19
Saeb(250,0): escala transformada do Saeb/97 com média=250 e desvio-padrão=50.
75
Gráfico 5: Intervalo de 95% de confiança para a média em Matemática no exame da Prova
Brasil 2007 dos alunos da 8ª série para as Unidades Federativas do Brasil.
Fonte: Dados da Prova Brasil 2007.
A população dos escolares da 4ª e 8ª séries, do Estado de Minas Gerais, nos
dados da Prova Brasil 2007, consta de 489.509 alunos válidos do Ensino
Fundamental, em 5.441 escolas públicas com localização urbana. Pelas políticas
próprias do instrumento de avaliação do INEP, as provas foram aplicadas no formato
universal (censitário) e em turmas com mais de 20 alunos na série. As dependências
administrativas das escolas são públicas, federal, estadual e municipal, sendo que a
maioria é estadual (GRAF. 6).
76
70,0%
60,8%
60,0%
50,0%
39,1%
40,0%
30,0%
20,0%
10,0%
0,1%
0,0%
Federal
Estadual
Municipal
Gráfico 6: Distribuição da população dos alunos do Estado de Minas Gerais por dependência
administrativa das escolas na Prova Brasil 2007.
Fonte: Dados Prova Brasil 2007.
Na distribuição total dos alunos dessa população, 53,4% são provenientes da
4ª série (GRAF. 7). Algumas respostas foram perdidas e os percentuais válidos
variaram de acordo com a informação prestada, por exemplo, apenas 75% dos
alunos informaram o sexo e 77,9% declararam sua cor de pele, mas 90% deles
informaram se tinham computador em casa. Do total válido de cada variável, 52,8%
dos alunos eram do sexo feminino (GRAF. 7); 49,9% se declararam de cor parda e
30,0% de cor branca (GRAF. 8); 60,0% afirmaram não ter computador em casa e
22,4% possuem computador com internet (GRAF. 9). O nível socioeconômico pode
ser calculado em 98% dos alunos e, destes, 43,2% pertencem à classe econômica C
e 34,7% à D (GRAF. 10). Segundo a ABEP – Associação Brasileira de Empresas de
Pesquisa, Critério Brasil, a renda familiar média mensal, em 2010, da classe
econômica D é de R$ 750,00 e da C varia entre R$ 1.100,00 e R$ 1.650,0020.
20
Informação obtida em: <http://www.ipcbr.com>. Acesso em: 15 ago. 2010.
77
Feminino
52,8%
4a. série
53,4%
8a. série
46,6%
Masculino
47,2%
Gráfico 7: Distribuição da população dos alunos do Estado de Minas Gerais por série e a
distribuição por sexo na Prova Brasil 2007.
Fonte: Dados Prova Brasil 2007.
60,0%
49,9%
50,0%
40,0%
30,9%
30,0%
20,0%
11,3%
10,0%
3,9%
4,0%
0,0%
Branco(a) Pardo(a)
Preto(a) Amarelo(a) Indígena
Gráfico 8: Distribuição da população dos alunos do Estado de Minas Gerais por cor da pele
por ele considerada na Prova Brasil 2007.
Fonte: Dados Prova Brasil 2007.
78
Sim, com
internet
22,4%
Não
66,7%
Sim, sem
internet
10,9%
Gráfico 9:: Distribuição da população dos alunos do Estado de Minas Gerais em relação à
posse de computador domiciliar na Prova Brasil 2007.
Fonte: Dados Prova Brasil 2007.
2007
50,0%
43,2%
45,0%
40,0%
34,7%
35,0%
30,0%
25,0%
20,0%
13,0%
15,0%
8,4%
10,0%
5,0%
0,7%
0,0%
A
B
C
D
E
Gráfico 10:: Distribuição da população dos alunos do Estado de Minas Gerais de acordo com
classe econômica na Prova Brasil 2007.
2007
Fonte: Dados Prova Brasil 2007.
2007
A modelagem dos dados pela técnica de modelos lineares hierárquicos foi
feita em uma amostra selecionada da população dos escolares do Ensino
Fundamental de Minas Gerais, coletadas na Prova Brasil 2007.
2007
As Tabelas 6 e 7 apresentam as distribuições, agrupadas por meso e
microrregiões,
rregiões, da população e da amostra selecionada dessa população.
79
Tabela 6: Descrição da população dos escolares da 4ª e 8ª séries do Ensino Fundamental do
Estado de Minas Gerais por meso e microrregiões na Prova Brasil 2007.
(continua)
Microrregião
Mesorregião
Campo das Vertentes
Central Mineira
Jequitinhonha
Metropolitana de BH
Noroeste de Minas
Norte de Minas
Municípios
Escolas
Freq. Perc. Freq. Perc.
Alunos
Freq.
Perc.
Barbacena
12
1,4%
71
1,3%
5.763
1,2%
Lavras
9
1,1%
39
0,7%
3.676
0,8%
São João Del Rei
15
1,8%
52
1,0%
4.398
0,9%
Bom Despacho
12
1,4%
52
1,0%
4.373
0,9%
Curvelo
11
1,3%
61
1,1%
4.668
1,0%
Três Marias
7
0,8%
43
0,8%
2.833
0,6%
Almenara
16
1,9%
70
1,3%
5.481
1,1%
Araçuaí
8
0,9%
51
0,9%
4.122
0,8%
Capelinha
14
1,6%
85
1,6%
6.485
1,3%
Diamantina
8
0,9%
37
0,7%
3.006
0,6%
Pedra Azul
5
0,6%
30
0,6%
2.795
0,6%
Belo Horizonte
Conceição do Mato
Dentro
Conselheiro Lafaiete
24
2,8%
919
16,9%
113.650
23,2%
13
1,5%
44
0,8%
2.690
0,5%
12
1,4%
89
1,6%
6.399
1,3%
Itabira
18
2,1%
130
2,4%
10.726
2,2%
Itaguara
9
1,1%
24
0,4%
1.530
0,3%
Ouro Preto
4
0,5%
54
1,0%
4.684
1,0%
Pará de Minas
5
0,6%
37
0,7%
3.413
0,7%
Sete Lagoas
20
2,3%
123
2,3%
11.089
2,3%
Paracatú
10
1,2%
64
1,2%
6.385
1,3%
Unaí
9
1,1%
41
0,8%
4.106
0,8%
Bocaiúva
5
0,6%
25
0,5%
2.031
0,4%
Grão Mogol
6
0,7%
19
0,3%
1.235
0,3%
Janaúba
13
1,5%
71
1,3%
5.627
1,1%
Januária
16
1,9%
74
1,4%
6.749
1,4%
Montes Claros
22
2,6%
186
3,4%
15.025
3,1%
Pirapora
10
1,2%
64
1,2%
5.048
1,0%
Salinas
17
2,0%
66
1,2%
5.534
1,1%
80
(conclusão)
Microrregião
Mesorregião
Oeste de Minas
Sul/Sudoeste de
Minas
Vale do Rio Doce
Zona da Mata
Escolas
Alunos
Freq.
Perc.
Freq.
Perc.
Freq.
Perc.
Campo Belo
7
0,8%
31
0,6%
2.404
0,5%
Divinópolis
11
1,3%
123
2,3%
11.801
2,4%
Formiga
8
0,9%
52
1,0%
3.979
0,8%
Oliveira
9
1,1%
42
0,8%
3.343
0,7%
Piuí
9
1,1%
28
0,5%
1.887
0,4%
Alfenas
12
1,4%
63
1,2%
5.519
1,1%
Andrelândia
13
1,5%
27
0,5%
2.052
0,4%
Itajubá
13
1,5%
61
1,1%
4.960
1,0%
Passos
14
1,6%
65
1,2%
5.871
1,2%
Poços de Caldas
13
1,5%
86
1,6%
7.575
1,5%
Pouso Alegre
20
2,3%
76
1,4%
7.396
1,5%
Santa Rita do Sapucaí
15
1,8%
44
0,8%
3.712
0,8%
São Lourenço
São Sebastião do
Paraíso
Varginha
16
1,9%
61
1,1%
5.240
1,1%
14
1,6%
76
1,4%
6.799
1,4%
16
1,9%
112
2,1%
11.380
2,3%
Araxá
10
1,2%
58
1,1%
5.015
1,0%
Frutal
12
1,4%
54
1,0%
4.224
0,9%
6
0,7%
41
0,8%
3.578
0,7%
10
1,2%
67
1,2%
6.690
1,4%
11
1,3%
69
1,3%
5.372
1,1%
Uberaba
7
0,8%
74
1,4%
7.318
1,5%
Uberlândia
10
1,2%
162
3,0%
17.130
3,5%
Nanuque
10
1,2%
53
1,0%
3.457
0,7%
Teófilo Otoni
13
1,5%
89
1,6%
7.548
1,5%
Ituiutaba
Triângulo Mineiro/Alto
Patos de Minas
Paranaíba
Patrocínio
Vale do Mucuri
Municípios
Aimorés
13
1,5%
65
1,2%
3.489
0,7%
Caratinga
20
2,3%
103
1,9%
6.350
1,3%
Governador Valadares
25
2,9%
140
2,6%
10.580
2,2%
Guanhães
15
1,8%
46
0,8%
3.607
0,7%
Ipatinga
13
1,5%
139
2,6%
13.883
2,8%
Mantena
7
0,8%
26
0,5%
1.707
0,3%
Peçanha
9
1,1%
26
0,5%
1.779
0,4%
Cataguases
14
1,6%
78
1,4%
4.964
1,0%
Juiz de Fora
33
3,9%
186
3,4%
16.542
3,4%
Manhuaçu
20
2,3%
87
1,6%
6.332
1,3%
Muriaé
20
2,3%
90
1,7%
6.420
1,3%
Ponte Nova
18
2,1%
75
1,4%
4.695
1,0%
Ubá
17
2,0%
79
1,5%
6.309
1,3%
Viçosa
20
2,3%
66
1,2%
5.081
1,0%
Total
Fonte: Dados da Prova Brasil 2007.
853
100,0% 5.441 100,0% 489.509 100,0%
81
Tabela 7: Descrição da amostra selecionada dos escolares da 4ª e 8ª séries do Ensino
Fundamental do Estado de Minas Gerais por meso e microrregiões na Prova Brasil 2007.
(continua)
Microrregião
Mesorregião
Campo das Vertentes
Central Mineira
Jequitinhonha
Metropolitana de BH
Noroeste de Minas
Norte de Minas
Municípios
Escolas
Alunos
Freq. Perc. Freq. Perc. Freq. Perc.
Barbacena
2
0,9%
5
1,5%
349
1,2%
Lavras
1
0,5%
1
0,3%
65
0,2%
São João Del Rei
4
1,8%
4
1,2%
314
1,1%
Bom Despacho
2
0,9%
2
0,6%
93
0,3%
Curvelo
3
1,4%
5
1,5%
428
1,5%
Três Marias
3
1,4%
3
0,9%
304
1,0%
Almenara
3
1,4%
3
0,9%
199
0,7%
Araçuaí
4
1,8%
6
1,8%
441
1,5%
Capelinha
5
2,3%
5
1,5%
339
1,2%
Diamantina
2
0,9%
2
0,6%
199
0,7%
Pedra Azul
1
0,5%
1
0,3%
26
0,1%
Belo Horizonte
16
7,2%
58
17,2% 6.279
21,3%
Conceição do Mato Dentro
2
0,9%
2
0,6%
53
0,2%
Conselheiro Lafaiete
4
1,8%
5
1,5%
345
1,2%
Itabira
5
2,3%
6
1,8%
436
1,5%
Itaguara
2
0,9%
2
0,6%
38
0,1%
Ouro Preto
3
1,4%
5
1,5%
676
2,3%
Pará de Minas
2
0,9%
3
0,9%
381
1,3%
Sete Lagoas
3
1,4%
6
1,8%
433
1,5%
Paracatú
2
0,9%
3
0,9%
155
0,5%
Unaí
2
0,9%
3
0,9%
267
0,9%
Bocaiúva
1
0,5%
1
0,3%
142
0,5%
Grão Mogol
2
0,9%
2
0,6%
144
0,5%
Janaúba
6
2,7%
11
3,3%
600
2,0%
Januária
3
1,4%
3
0,9%
207
0,7%
Montes Claros
6
2,7%
8
2,4%
842
2,9%
Pirapora
3
1,4%
4
1,2%
372
1,3%
Salinas
2
0,9%
2
0,6%
245
0,8%
82
(conclusão)
Microrregião
Mesorregião
Oeste de Minas
Sul/Sudoeste de Minas
Triângulo Mineiro/Alto
Paranaíba
Vale do Mucuri
Vale do Rio Doce
Zona da Mata
Municípios
Escolas
Alunos
Freq.
Perc.
Freq.
Perc.
Freq.
Perc.
Campo Belo
2
0,9%
2
0,6%
117
0,4%
Divinópolis
5
2,3%
9
2,7%
877
3,0%
Formiga
3
1,4%
3
0,9%
221
0,8%
Oliveira
1
0,5%
3
0,9%
116
0,4%
Piuí
0
0,0%
0
0,0%
0
0,0%
Alfenas
2
0,9%
2
0,6%
162
0,5%
Andrelândia
1
0,5%
1
0,3%
47
0,2%
Itajubá
5
2,3%
5
1,5%
453
1,5%
Passos
4
1,8%
4
1,2%
226
0,8%
Poços de Caldas
4
1,8%
6
1,8%
426
1,4%
Pouso Alegre
6
2,7%
7
2,1%
753
2,6%
Santa Rita do Sapucaí
2
0,9%
2
0,6%
393
1,3%
São Lourenço
1
0,5%
1
0,3%
116
0,4%
São Sebastião do Paraíso
4
1,8%
7
2,1%
473
1,6%
Varginha
5
2,3%
6
1,8%
684
2,3%
Araxá
1
0,5%
1
0,3%
15
0,1%
Frutal
3
1,4%
4
1,2%
352
1,2%
Ituiutaba
0
0,0%
0
0,0%
0
0,0%
Patos de Minas
3
1,4%
3
0,9%
202
0,7%
Patrocínio
3
1,4%
5
1,5%
548
1,9%
Uberaba
4
1,8%
8
2,4%
956
3,2%
Uberlândia
5
2,3%
11
3,3%
831
2,8%
Nanuque
2
0,9%
2
0,6%
195
0,7%
Teófilo Otoni
3
1,4%
7
2,1%
552
1,9%
Aimorés
5
2,3%
6
1,8%
245
0,8%
Caratinga
7
3,2%
8
2,4%
555
1,9%
Governador Valadares
1
0,5%
2
0,6%
221
0,8%
Guanhães
2
0,9%
2
0,6%
83
0,3%
Ipatinga
6
2,7%
12
3,6%
1.955
6,6%
Mantena
1
0,5%
1
0,3%
63
0,2%
Peçanha
3
1,4%
3
0,9%
93
0,3%
Cataguases
4
1,8%
5
1,5%
422
1,4%
Juiz de Fora
4
1,8%
7
2,1%
522
1,8%
Manhuaçu
5
2,3%
5
1,5%
368
1,2%
Muriaé
3
1,4%
4
1,2%
226
0,8%
Ponte Nova
7
3,2%
9
2,7%
624
2,1%
Ubá
6
2,7%
8
2,4%
519
1,8%
Viçosa
5
2,3%
5
1,5%
473
1,6%
222
100,0%
337
Total
Fonte: Dados da Prova Brasil 2007.
100,0% 29.456 100,0%
83
No Gráfico 11 pode-se observar nos gráficos com áreas empilhadas a mesma
representação pela amostra da população em estudo, por microrregião.
Alunos Amostra
Ponte Nova
Mantena
Juiz de Fora
Governador Valadares
Uberaba
Teófilo Otoni
Varginha
Ituiutaba
Passos
Santa Rita do Sapucaí
Alfenas
Salinas
Escolas População
Formiga
Januária
Barbacena
Ponte Nova
Mantena
Juiz de Fora
Governador Valadares
Uberaba
Teófilo Otoni
Varginha
Ituiutaba
Passos
Santa Rita do Sapucaí
Alfenas
Salinas
Formiga
Januária
Bocaiúva
Itaguara
Sete Lagoas
Almenara
Diamantina
Barbacena
Bom Despacho
0%
Conceição do Mato …
2%
Bocaiúva
4%
Itaguara
6%
Almenara
8%
Diamantina
10%
Bom Despacho
35%
30%
25%
20%
15%
10%
5%
0%
Sete Lagoas
Escolas Amostra
Municípios População
Conceição do Mato …
Municípios Amostra
12%
Alunos População
50%
40%
30%
20%
Ponte Nova
Juiz de Fora
Mantena
Governador Valadares
Uberaba
Teófilo Otoni
Varginha
Ituiutaba
Passos
Santa Rita do Sapucaí
Alfenas
Salinas
Formiga
Januária
Bocaiúva
Sete Lagoas
Itaguara
Almenara
Diamantina
Bom Despacho
Barbacena
0%
Conceição do Mato …
10%
Gráfico 11: Áreas empilhadas da população e amostra dos municípios, escolas e alunos da 4ª
e 8ª séries do Ensino Fundamental do Estado de Minas Gerais, por microrregião na Prova
Brasil 2007.
Fonte: Dados Prova Brasil 2007.
A partir desse ponto, as análises serão feitas apenas no estudo da amostra
selecionada da avaliação Prova Brasil 2007 para o Estado de Minas Gerais. No
Gráfico 12 podem-se observar os intervalos de 95% de confiança para a proficiência
em Matemática para a 4ª e 8ª séries e por microrregião. O ponto mais alto
observado refere-se à estimativa intervalar da maior média da proficiência em
Matemática produzida pela amostra, para a 8ª série, pertencente à microrregião de
Peçanha na mesorregião do Vale do Rio Doce.
Para efeito da modelagem dos dados, os alunos da 4ª e 8ª séries foram
considerados em conjunto. No Quadro 5 estão descritas as variáveis estudadas e
sua proveniência: origem direta do banco de dados fornecido pelo INEP ou geradas
a partir dos dados originais especialmente para essa análise. A variável dependente,
ou resposta, é a proficiência, resultado nos testes aplicados pela Prova Brasil no ano
de 2007, em Língua Portuguesa (leitura) e Matemática (resolução de problemas).
84
Gráfico 12: Intervalo com 95% de confiança para a média da proficiência em Matemática dos
alunos amostrados da 4ª e 8ª séries do Ensino Fundamental por microrregião do Estado de
Minas Gerais na Prova Brasil 2007.
Fonte: Dados Prova Brasil 2007.
Apesar de a amostra selecionada contar com 385 municípios, o software
apresentou limitação na geração dos coeficientes dos parâmetros para o nível dos
municípios. A estratégia final adotada foi a geração dos modelos considerando as
microrregiões como variável geográfica no terceiro nível. Os resultados dos modelos
hierárquicos ajustados para as proficiências em Língua Portuguesa e em Matemática
serão analisados separadamente, na ausência e na presença das variáveis
explicativas (covariáveis).
Primeiramente foi ajustado um modelo linear hierárquico nulo, sem a
presença de covariáveis, em três níveis: aluno, escola e microrregião, ou seja, os
interceptos aleatórios são os da escola e os da microrregião. Os níveis podem ser
85
percebidos pelo natural aninhamento entre eles. Dessa maneira, o primeiro nível, o
dos alunos, é o mais interno, pois está dentro das escolas, segundo nível, que por
sua vez encontram-se aninhadas dentro do terceiro nível, mais abrangente, que
serão, para esse estudo, as microrregiões.
Nível 1 – Alunos
Alunoid
Identificação do aluno (informação original)*
Resultados dos alunos nos testes aplicados na
Proficiência em Língua Prova Brasil, em 2007, transformados na Escala
Portuguesa e Matemática Única do Saeb/97 com média 250 e desviopadrão 50 (informação original)*
Série
Computador
Série do aluno (0 = 4a.; 1 = 8a.) (informação
original)*
Se possui computador na residência (0=não;
1=sim) (informação transformada da original)
Nível socioeconômico dos alunos, calculado pelo
NSE_aluno
Critério Brasil, padronizado dentro da escola
(variação -3 a 3 dp) (informação gerada no
estudo)
Nível 2 – Escolas
Escolaid
Identificação da escola (informação original)*
Nível socioeconômico das escolas obtido pela
NSE_escola
média dos alunos e padronizado entre as escolas
(variação -3 a 3 dp) (informação gerada no
estudo)
Nível 3 – Microrregião
Microid
IDHM-2000
Identificação
gerada)
da
microrregião
(informação
*
Índice de Desenvolvimento Humano do Município
2000 (informação obtida no Atlas IDH2000)
Quadro 5: Descrição das variáveis utilizadas na análise dos dados da Prova Brasil 2007.
*Nota: Informação original = informação obtida diretamente no banco de dados do INEP.
86
4.2.1 Modelos Lineares Hierárquicos para a Proficiência em Língua Portuguesa
A Tabela 8 apresenta as estimativas do ajuste do modelo linear hierárquico
nulo para a proficiência em Língua Portuguesa e a Tabela 9 o coeficiente de
correlação
intraclasse,
que
é
uma medida
que
descreve
a
similaridade
(homogeneidade) da proficiência dentro de cada um dos fatores aleatórios.
Tabela 8: Resultados do modelo linear hierárquico nulo para a proficiência em Língua
Portuguesa dos alunos da amostra de Minas Gerais
Estimativa
Erro
padrão
t
p-valor
200,35
2,08
98,35
0,000
Dentro da escola (entre
alunos)
2008,11
17,03
Entre escolas dentro da
microrregião
822,21
72,71
Entre microrregiões
71,84
47,50
Parâmetro
*
I.C. 95%
**
L. Inf
L.Sup
196,15
204,54
Parte fixa
Intercepto
Parte aleatória
Fonte: Dados da Prova Brasil 2007.
Nota: * Estatística t-Student; ** I.C 95% = Intervalo com 95% de Confiança.
No modelo nulo ajustado na amostra dos alunos de Minas Gerais da Prova
Brasil 2007, o único efeito fixo é o intercepto. Dessa maneira a estimativa representa
a média da proficiência em Língua Portuguesa no nível da escola. A estimativa
intervalar dessa média é uma pontuação entre 196 e 205 aproximadamente. No
caso da Língua Portuguesa, os parâmetros estimados da covariância apresentam o
efeito aleatório dentro da escola de 2008,11, entre as escolas dentro da microrregião
de 822,21 e entre as microrregiões de 71,84.
A relação entre essas covariâncias mostra a correlação intraclasse, que
assume valores entre 0 e 1, sendo que os valores menores indicam uma pequena
variação na proficiência dos alunos devido ao efeito em análise e essa medida
justifica o emprego de um modelo hierárquico, pois indica a presença de mais de um
termo residual no modelo (GOLDSTEIN, 1999).
87
Tabela 9: Correlação intraclasse no modelo linear hierárquico nulo para a proficiência em
Língua Portuguesa dos alunos amostrados em Minas Gerais.
Correlação Intraclasse (ICC)
Entre escolas dentro da
microrregião
30,8%
Entre microrregiões
2,5%
Fonte: Dados da Prova Brasil 2007.
Entre as escolas dentro da microrregião a correlação intraclasse é 0,308
obtida pela relação:
822,21 + 71,84
. Por ser essa uma medida da proporção
2008,11 + 822,21 + 71,84
do total da variância que é devida entre as escolas dentro da microrregião, tem-se,
nesse caso, que 30,8% da variabilidade é devida à diferença entre as escolas. Por
outro lado, entre as microrregiões a correlação intraclasse é de 0,025
71,84


=
 , indicando que entre as microrregiões uma pequena
 2008,11 + 822,21 + 71,84 
proporção da variabilidade é devida a elas, ou seja, os alunos são mais similares
dentro das microrregiões.
Foram feitos os testes da razão da verossimilhança, um para verificar se a
escola era importante para o modelo nulo ajustado para a proficiência da Língua
Portuguesa e o outro para verificar a inclusão ou não da microrregião e os dois
apresentaram como resultado a importância da permanência desses dois efeitos no
modelo. Isso significa que a estrutura hierárquica é adequada para esses dados.
De maneira análoga, foram feitos os testes para verificar a importância da
inclusão no modelo para cada uma das variáveis explicativas e logo após o modelo
final foi ajustado e o resultado encontra-se apresentado na Tabela 10. Nesse modelo
foram inseridas as variáveis explicativas do primeiro nível cuja interpretação, para
cada uma delas, mantendo fixas as demais, é: série indica a existência de acréscimo
na proficiência para a 8ª série; melhoria no desempenho para os alunos que
possuem computador em sua residência; nível socioeconômico do aluno, indicando
que os melhores desempenhos são dos alunos com maiores níveis econômicos.
88
Tabela 10: Resultados do ajuste do modelo linear hierárquico final para a proficiência em
Língua Portuguesa dos alunos amostrados de Minas Gerais na Prova Brasil 2007.
Estimativa
Erro
padrão
t
p-valor
Nível 1: Intercepto
176,51
13,23
13,34
Nível 1: Série
52,91
0,74
Nível 1: Computador
6,66
Nível 1: Nse_aluno
Parâmetro
I.C. 95%
L. Inf
L.Sup
0,000
150,43
202,58
71,41
0,000
51,46
54,36
0,65
10,21
0,000
5,38
7,94
2,33
0,28
8,37
0,000
1,78
2,87
Nível 2: Nse_escola
10,61
0,89
11,93
0,000
8,86
12,36
Nível 3: IDHM2000
7,33
17,63
0,42
0,678
-27,41
42,08
Dentro da escola
(entre alunos)
1664,18
14,89
Entre escolas
dentro da
microrregião
143,03
14,97
Entre
microrregiões
27,66
12,10
Parte fixa
Parte aleatória
Fonte: Dados Prova Brasil 2007.
Nota: * Nível 1: “Dentro das Escolas”; Nível 2: “Entre as Escolas dentro das microrregiões”;
Nível 3: “Entre microrregiões”.
Na segunda hierarquia, o nível socioeconômico da escola representa uma
medida de equidade da escola, ao passo que o intercepto representa a qualidade da
escola, ou seja, se ela consegue promover acréscimo na proficiência dos alunos, de
acordo com a definição utilizada por Soares & Andrade (2006). No modelo
apresentado na Tabela 10, maiores níveis socioeconômicos promovem um
acréscimo no desempenho da leitura. Pelo fato de esse nível socioeconômico estar
diretamente relacionado com o dos alunos, percebe-se que alunos com melhor nível
socioeconômico estão também em escolas de mesmo nível social; por outro lado, se
houver aluno com nível socioeconômico menor, ele também será beneficiado por
essas escolas. Por esse nível ter sido feito com a opção de aninhamento entre
escola e microrregião, o efeito do nível socioeconômico da escola agrega também a
informação do IDHM 2000, variável associada ao terceiro nível. Assim, as escolas
promovem uma melhoria no desempenho associado aos maiores índices de
desenvolvimento humano dos municípios.
89
Em relação à correlação intraclasse, pode-se observar, comparando os dados
da Tabela 9 (modelo nulo) e da Tabela 11 (modelo condicionado às covariáveis),
que a influência dos efeitos fixos é positiva, pois houve uma redução da variabilidade
 30,8 − 9,3 
no nível da escola dentro das microrregiões de 69,8%  =
 e de 40,0%
30,8 

 2,5 − 1,5 
=
 no nível das microrregiões.
2,5 

Tabela 11: Correlações Intraclasse do modelo linear hierárquico final ajustado, na presença de
variáveis explicativas, para proficiência em Língua Portuguesa na amostra de Minas Gerais na
Prova Brasil 2007.
Correlação Intraclasse (ICC)
Entre escolas dentro da
microrregião
9,3%
Entre microrregiões
1,5%
Fonte: Dados Prova Brasil 2007.
4.2.2 Modelos Lineares Hierárquicos para a Proficiência em Matemática
Analogamente aos procedimentos de análise realizados para a proficiência
em Língua Portuguesa, foram ajustados os modelos nulo e completo, ou
condicionado, para a proficiência em Matemática. Os resultados do ajuste do modelo
nulo estão apresentados nas Tabelas 12 e suas correlações intraclasse na Tabela
13. Os resultados do modelo completo, ou condicionado, para a proficiência em
Matemática na presença das variáveis explicativas estão apresentados na Tabela 14
e as correlações intraclasse após inclusão das variáveis explicativas na Tabela 15.
O modelo hierárquico final ajustado para a proficiência em Matemática
apresenta a mesma direção indicada pelos coeficientes ajustados do modelo final
para a proficiência em Língua Portuguesa, exceto para a variável sexo, que por ser
positivo, indica que o desempenho em Matemática é melhor entre os alunos do sexo
masculino em relação ao feminino. Mantendo as demais características dos
modelos, os homens perdem 12 pontos na leitura, mas ganham 4 pontos no
90
raciocínio lógico. Também nesse modelo, o IDH-M apresenta-se com indicação de
impacto negativo.
Tabela 12: Resultados do modelo linear hierárquico nulo para a proficiência em Matemática na
amostra dos alunos de Minas Gerais na Prova Brasil 2007.
Estimativa
Erro
padrão
t
p-valor
219,05
2,09
104,64
0,000
Dentro da escola (entre
alunos)
2045,82
17,35
Entre escolas dentro da
microrregião
776,67
68,92
Entre microrregiões
81,95
47,81
Parâmetro
I.C. 95%
L. Inf
L.Sup
214,83
223,27
Parte fixa
Intercepto
Parte aleatória
Fonte: Dados Prova Brasil 2007.
Tabela 13: Correlações intraclasse do modelo linear hierárquico nulo para a proficiência em
Matemática dos alunos na amostra de Minas Gerais na Prova Brasil 2007.
Correlação Intraclasse (ICC)
Entre escolas dentro da
microrregião
29,6%
Entre microrregiões
2,8%
Fonte: Dados Prova Brasil 2007.
91
Tabela 14: Resultados do modelo linear hierárquico final ajustado na presença de variáveis
explicativas para a proficiência em Matemática dos alunos amostrados em Minas Gerais na
Prova Brasil 2007.
I.C. 95%
Estimativa
Erro
padrão
t
p-valor
Nível 1: Intercepto
195,88
15,15
12,93
Nível 1: Série
49,09
0,76
Nível 1: Computador
8,22
Nível 1: Nse_aluno
Parâmetro
L. Inf
L.Sup
0,000
166,02
225,73
64,33
0,000
47,60
50,59
0,67
12,36
0,000
6,92
9,53
3,20
0,28
11,31
0,000
2,65
3,76
Nível 2: Nse_escola
10,37
1,00
10,32
0,000
8,39
12,34
Nível 3: IDHM2000
7,52
20,20
0,37
0,710
-32,30
47,34
1727,12
15,45
Entre escolas
dentro da
microrregião
191,14
19,15
Entre
microrregiões
40,61
16,27
Parte fixa
Parte aleatória
Dentro da escola
(entre alunos)
Fonte: Dados Prova Brasil 2007.
Nota: * Nível 1: “Dentro da Escola”; Nível 2: “Entre as Escolas dentro das microrregiões”; Nível
3: “Entre microrregiões”.
Tabela 15: Correlações intraclasse do modelo linear hierárquico final ajustado, na presença de
variáveis explicativas, para a proficiência em Matemática dos alunos amostrados em Minas
Gerais na Prova Brasil 2007.
Correlação Intraclasse (ICC)
Entre escolas dentro da
microrregião
11,8%
Entre microrregiões
2,1%
Fonte: Dados Prova Brasil 2007
Comparando as correlações intraclasse do modelo nulo na Tabela 13 e do
modelo final ajustado na Tabela 15 para a proficiência em Matemática, verifica-se
 29,6 − 11,8 
que houve uma redução de aproximadamente 60%  =
 na variabilidade
29,6 

devida às escolas dentro das microrregiões e uma redução de aproximadamente
92
 2,8 − 2,1 
25%  =
 na variabilidade devida entre as microrregiões, após a inclusão das
2,8 

variáveis explicativas.
Para testar o efeito da inclusão da unidade geográfica, foi ajustado um modelo
final, similar ao apresentado na Tabela 14 com exceção do acréscimo do terceiro
nível. Os dados ajustados do modelo linear hierárquico final encontram-se
apresentados na Tabela 16. No modelo ajustado em três níveis (TAB. 14) a
correlação intraclasse devida à escola dentro das microrregiões foi de 11,8% e a
correlação intraclasse devida somente às escolas (TAB. 16) foi de 12,2%. Assim, a
redução na correlação intraclasse foi de 3,3%. Apesar de não ser uma diferença
muito grande, ela indica que a inclusão da unidade geográfica no terceiro nível é
importante. Esse resultado corrobora o teste da razão da verossimilhança que foi
positivo para a inclusão da microrregião no modelo.
Tabela 16: Modelo linear hierárquico final ajustado em dois níveis, na presença de variáveis
explicativas, para a proficiência em Matemática dos alunos amostrados em Minas Gerais na
Prova Brasil 2007.
I.C. 95%
Estimativa
Erro
padrão
t
p-valor
Intercepto
199,75
1,04
191,67
0,000
197,71 201,80
Série
49,24
0,76
64,58
0,000
47,74
50,73
Computador
8,17
0,67
12,27
0,000
6,86
9,47
Nse_aluno
3,21
0,28
11,33
0,000
2,65
3,76
Nse_escola
10,18
0,94
10,88
0,000
8,34
12,02
Parâmetro
L. Inf
L.Sup
Parte fixa
Parte
aleatória
Correlação Intraclasse
(ICC)
Dentro da
escola (entre
alunos)
1726,98
Entre escolas
239,54
15,45
12,2%
21,40
Fonte: Dados Prova Brasil 2007.
O Gráfico 13 mostra a tendência de linearidade entre os valores preditos pelo
modelo linear hierárquico final e os valores observados tanto para a proficiência em
93
Língua Portuguesa quanto para a em Matemática na amostra dos alunos de Minas
Gerais.
Gráfico 13: Tendência linear entre os valores preditos e observados na proficiência em Língua
Portuguesa e em Matemática obtidos nos MLH ajustados na amostra dos alunos de Minas
Gerais na Prova Brasil 2007.
Fonte: Dados Prova Brasil 2007.
4.2.3 Abordagem Espacial
Nos dados da Prova Brasil 2007, as escolas foram georeferenciadas e, dessa
maneira, foi possível uma abordagem espacial nos dados dos 853 municípios
mineiros utilizando os resultados do Ideb de 2007, da proficiência em Língua
Portuguesa e em Matemática dos alunos da 8ª série e as medidas do IDHM-2000,
Índice de Desenvolvimento Humano do Município publicado para o ano de 2000,
nessa unidade geográfica. A escolha dos alunos da 8ª série deve-se ao fato de ser
essa a série final de um ciclo sendo, portanto, esperados os maiores escores das
proficiências os quais indicam a incorporação das habilidades e competências do
Ensino Fundamental (ANEXO C). Assim, será feita a análise das variáveis dentro do
terceiro nível, mais abrangente, do modelo linear hierárquico e o objetivo é validar e
corroborar os resultados obtidos na análise utilizando recursos dessa técnica
estatística. Os resultados do Ideb 2007 foram obtidos diretamente no sítio do INEP.
94
Q4
Q2
Q1
Q3
Gráfico 14: Índice de Moran entre o Ideb dos alunos da 8ª série e o IDH-M 2000 dos municípios
de Minas Gerais.
Fonte: Dados Prova Brasil 2007 e Atlas IDH2000.
O diagrama com o Índice de Moran, apresentado no Gráfico 14, foi gerado no
GeoDa para as variáveis contínuas Ideb e IDHM-2000, padronizadas em relação às
suas respectivas média e desvio-padrão e forneceu a correlação de 0,4270 entre
elas. Os valores de contribuição para esse índice global estão distribuídos em quatro
quadrantes: o primeiro quadrante (Q1 = alta-alta) apresenta valores positivos, médias
positivas, e o segundo (Q2 = baixa-baixa) apresenta valores negativos, médias
negativas. Esses quadrantes revelam associação positiva. Por outro lado, o terceiro
quadrante (Q3 = alta-baixa) apresenta valores positivos, médias negativas, e o
quarto (Q4 = baixa-alta) apresenta valores negativos, médias positivas, e revelam
associação negativa. O diagrama de Moran apresenta a estrutura espacial global
para as duas escalas de análise: autocorrelação e tendência da associação. Nesse
caso, a estatística I de Moran global indica que as variáveis Ideb e IDM-2000 estão
autocorrelacionadas e a tendência de associação entre elas é positiva. Isso significa
que quanto maior o IDHM-2000 maior será o valor do Ideb.
95
A distribuição do Ideb e do IDHM-2000 está apresentada no Mapa 1 (a) e (b).
Observa-se a formação dos clusters espaciais obtidos pelas autocorrelações altaalta e baixa-baixa, com relação positiva e as autocorrelações alta-baixa e baixa-alta
mostram os outliers espaciais, com relação inversa. Todas as autocorrelações locais
são significativas ao nível de 5%. A comparação entre essas duas distribuições
mostram que tanto os clusters quanto os outliers espaciais encontram-se nas
mesmas áreas, indicando a correlação positiva ou negativa entre as duas
características.
Ideb
(a)
96
IDHM-2000
(b)
Mapa 1: Distribuição dos clusters e outliers obtidos no LISA para o Ideb (a) e o IDH-M 2000 (b)
dos municípios de Minas Gerais.
Fonte: Dados Prova Brasil 2007 e Atlas IDH2000.
O Mapa 2 apresenta o mapa bivariado, o BiLISA, dos clusters e outliers
formados para o Ideb ao utilizar o efeito ponderador do IDHM-2000, ou seja, o eixo
coordenado Y representa o Ideb e o eixo coordenado X o IDHM-2000. Dessa
maneira, verifica-se a autocorrelação do Ideb nos municípios considerando a média
para as vizinhanças do IDHM-2000. Para aumentar a sensibilidade das informações
foi utilizado um maior número de permutações aleatórias para a pseudo-distribuição
empregada no cálculo da significância das autocorrelações. O Ideb em relação ao
IDHM-2000 possui autocorrelação espacial positiva, alta-alta, principalmente em
grandes partes das mesorregiões Noroeste, Central, Oeste e Sul, contrastando com
as autocorrelações baixa-baixa de grandes partes das mesorregiões Norte,
Jequitinhonha e Vale do Mucuri.
97
Mapa 2: Mapa BiLISA (clusters e outliers) para o Ideb 2007 pelo IDH-M 2000 para os alunos da
8ª série de Minas Gerais.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
Outra modalidade apresentada para a correspondência espacial utilizada na
estatística local de associação espacial (LISA) é a EB21 LISA, a qual apresenta as
regiões com os clusters e outliers por meio da razão padronizada das medidas em
análise, nesse caso a razão entre Ideb, definida como o Evento, e IDHM-2000,
definido como Base. Essa é uma modalidade de suavização das instabilidades que
podem ser apresentadas por meio de inferências espúrias e utiliza em sua
computação o método de distribuição de probabilidades empírica de Bayes
(abordagem bayesiana). O Índice de Moran calculado para essa estatística não
apresentou melhorias e ficou com valor nominal menor (I = 0,1941) do que a
calculada anteriormente considerando as variáveis de forma independente nos eixos
21
EB = Event and Base (variáveis do Evento e de Base).
98
(I=0,4270). No Mapa 3 pode-se observar que a mesorregião do Triângulo,
anteriormente sem indicação de cluster significativo, apresenta indicação de
autocorrelação baixa-baixa na presença da razão entre as variáveis. Nas demais
mesorregiões não houve alterações nas relações com sentido positivo ou negativo
entre as autocorrelações verificadas na Figura 16.
Mapa 3: Mapa EB LISA. O Evento Ideb 2007 pela Base IDH-M 2000 dos alunos da 8ª série de
Minas Gerais.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
A abordagem espacial feita até o presente momento considera o Ideb
indicador oficial do INEP e a variável indicadora do nível socioeconômico do terceiro
nível utilizado nos modelos hierárquicos. O Ideb utiliza o rendimento obtido nas
proficiências da Prova Brasil, mas alia a essa medida o percentual de
aproveitamento das escolas. Para estabelecer a relação espacial direta com os
modelos estatísticos gerados será feita uma abordagem espacial utilizando os
99
rendimentos em Matemática e Língua Portuguesa calculados pelo INEP para os
municípios. Outra variável de investigação será o nível socioeconômico dos
municípios calculados pela média do nível socioeconômico de seus alunos e
padronizados entre os municípios. Assim, espera-se obter uma maior relação de
estreitamento entre as duas técnicas aqui utilizadas.
O Mapa 4 mostra a distribuição por percentil das proficiências em Língua
Portuguesa (a) e Matemática (b) dos alunos da 8ª série dos municípios de Minas
Gerais. As informações apresentadas pelos mapas são muito similares, ou seja, não
existem discrepâncias quanto ao desempenho nas duas proficiências isoladamente.
(a)
100
(b)
Mapa 4: Distribuição por percentis das proficiências em Matemática (a) e Língua Portuguesa
(b) dos alunos da 8ª série e o IDHM-2000 para os municípios de Minas Gerais.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
A correlação espacial entre a proficiência em Língua Portuguesa e em
Matemática para o município dos alunos da 8ª série e o IDHM- 2000 pode ser
observada na Figura 19. O Índice de Moran foi de 0,3024 para a proficiência em
Língua Portuguesa e de 0,3179 para a proficiência em Matemática. Apesar de as
correlações serem baixas, elas são positivas e indicam a existência de dependência
espacial entre as proficiências do município e o seu IDHM-2000. Comparando com
os resultados do modelo linear hierárquico, o coeficiente estimado para o IDHM2000 foi positivo para as duas proficiências. Assim, a indicação é de melhoria no
desempenho cognitivo em municípios com melhores índices de desenvolvimento
humano.
101
Gráfico 15: Índice de Moran entre as proficiências em Matemática e Língua Portuguesa dos
alunos da 8ª série e o IDHM-200 para os municípios de Minas Gerais.
Fonte: Dados da Prova Brasil 2007.
A análise de clusters será apresentada por meio do EB LISA, por ser essa
uma relação direta entre as variáveis de evento, proficiência em Língua Portuguesa
e Matemática, e a de base, o IDHM-2000. Por essa modalidade dessa técnica, o
Índice de Moran foi de 0,2099 para a proficiência em Língua Portuguesa e de 0,2046
para a proficiência em Matemática. Comparando os Mapas 5 e 1, pode ser
observado que a proficiência em Língua Portuguesa apresenta uma relação baixabaixa em grande parte da mesorregião do Triângulo e uma boa parte da
mesorregião Noroeste. Porém, na mesorregião do Triângulo, a relação é invertida
em relação aos clusters alta-alta obtidos no IDHM-2000, indicando que quanto maior
o IDHM-2000 do município menor o desempenho obtido na proficiência em Língua
Portuguesa.
Analogamente, a região apresentada no Mapa 6 para a proficiência em
Matemática não apresentou resultados diferentes dos apresentados para Língua
Portuguesa. Dessa maneira, também na região do Triângulo, principalmente a
autocorrelação espacial aponta uma relação invertida entre o desempenho e o
IDHM-2000.
102
Mapa 5: Mapa EB LISA para o Evento proficiência em Língua Portuguesa dos alunos da 8ª
série pela Base IDH-M 2000 para os municípios de Minas Gerais.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
A formação dos clusters por meio da estatística local LISA bivariada para a
proficiência em Língua Portuguesa e Matemática em relação ao IDHM-2000 do
município não difere da distribuição apresentada pelo Ideb. Esse fato é
compreensível, pois o Ideb utiliza as informações dessas proficiências em seu
cálculo.
No modelo hierárquico foi utilizada a informação do nível socioeconômico dos
alunos calculados por meio das informações coletadas pelo INEP e essas
informações foram acrescentadas no nível do aluno e no nível da escola.
Similarmente, foi calculada a média da pontuação socioeconômica dos alunos por
município e em seguida elas foram padronizadas entre os municípios. Considerando
que o modelo hierárquico utilizou como medida socioeconômica do município o
IDHM-2000, será apresentada a autocorrelação espacial entre essas duas medidas
103
pelo Índice de Moran e pelo agrupamento em clusters do BiLISA. Os resultados
encontram-se nas Figuras 22 e 23.
Mapa 6: Mapa EB LISA para o Evento proficiência em Matemática dos alunos da 8ª série pela
Base IDH-M 2000 para os municípios de Minas Gerais.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
104
Gráfico 16: Índice de Moran entre o IDHM-2000 e o nível socioeconômico dos alunos
padronizado para os municípios.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
Mapa 7: Mapa BiLISA para a medida do nível socioeconômico dos alunos padronizado entre os
municípios e o IDHM-2000.
Fonte: Dados da Prova Brasil 2007 e Atlas IDH2000.
105
O Índice de Moran (GRAF. 22) foi de 0,5491, indicando a existência de
autocorrelação espacial de moderado a forte entre eles. A análise bivarida do LISA
(MAPA 23) apresenta a formação de clusters significativos e com sentido positivo,
com distribuição similar ao do IDHM-2000 ao ser considerado isoladamente. Dessa
maneira, a utilização da medida do IDHM-2000 no terceiro nível do modelo
hierárquico é considerada adequada.
Finalizando a abordagem espacial, o Mapa 8 apresenta a distribuição do Ideb
dos alunos da 8ª série para os municípios do Estado de Minas Gerais em intervalos
igualmente espaçados. A grande maioria (79,5%) dos municípios apresentou Ideb
entre 2,9 e 4,35. Os maiores valores foram obtidos principalmente pelos municípios
da mesorregião Sul e partes das mesorregiões Oeste e Campo das Vertentes.
Mapa 8: Mapa da distribuição dos clusters com intervalos igualmente espaçados do Ideb 2007
para os municípios de Minas Gerais dos alunos da 8ª série do Ensino Fundamental.
Fonte: Dados da Prova Brasil 2007.
106
As análises espaciais aqui apresentadas corroboram os resultados obtidos
nos modelos lineares hierárquicos, pois se encontram em sintonia com a indicação
de suas predições, além de acrescentarem a eles a possibilidade de visualização da
abrangência de suas estimativas dentro de um contexto de vizinhança. Por outro
lado, a existência de autocorrelação espacial permite a adequada utilização dos
modelos lineares hierárquicos em dados geográficos.
107
5 CONSIDERAÇÕES FINAIS
Todos os modelos ajustados pela técnica de modelos lineares hierárquicos
apresentaram uma redução da variabilidade entre o modelo em que se considera
apenas o intercepto (modelo nulo) e o modelo ajustado na presença de variáveis
explicativas. Nos dados da Prova Brasil 2007, ao se ajustar o modelo em apenas
dois níveis, ou seja, considerando o efeito aleatório da escola, a redução da
proporção da variabilidade explicada pelo modelo completo (final) indicou a
importância da agregação da unidade geográfica no modelo. O resultado para os
dados do Saeb 2005 foi análogo ao da Prova Brasil 2007.
Os dados do Saeb 2005 foram importantes por apresentarem a informação
das escolas particulares, sendo seus resultados comparáveis com os da Prova Brasil
2007 devido à utilização de uma mesma escala de medida referência para a média e
desvio-padrão das proficiências de Língua Portuguesa e Matemática.
No estudo de Cesar & Soares (2001), foi feita uma análise da proficiência em
Matemática para os alunos da 8ª série do Saeb 99 comparando as escolas dentro
das Unidades Federativas. Analisando os dados do Saeb 2005 para a mesma série,
foram encontrados valores que indicam uma pequena, mas significativa alteração
(1,2%; p-valor=0,009) na correlação intraclasse entre os dados do Saeb 99 (35,1%)
e os de 2005 (33,9%).
Pode ser verificado, com os dados do Saeb 2005, que o Ensino Fundamental
no Brasil está abaixo dos padrões das competências e habilidades dele esperadas,
conforme as escalas pedagógicas do exame apresentadas no Anexo C, que indicam
a pontuação de 350 a 375 pontos para o último bloco de objetivos a serem atingidos
ao final de seu ciclo. O Estado de Minas Gerais encontra-se entre os seis melhores
no desempenho da proficiência em Matemática dos alunos da 8ª série, mas apesar
de fazer parte de uma elite brasileira no Ensino Fundamental sua pontuação
encontra-se muito pouco acima da média de 250 pontos.
Embora não tenha sido possível fazer uma abordagem espacial nos dados do
Saeb 2005, foi importante a inclusão das Unidades Federativas como unidade
geográfica na análise de seus dados por possibilitar a visualização do contexto do
Ensino Fundamental no território brasileiro. Essa limitação no georeferenciamento
nos dados do Saeb 2005 apresenta os modelos lineares hierárquicos como uma
108
ferramenta estatística útil para a Geografia, pois sua análise apresenta a tendência
estimada para essas unidades geográficas.
Ao se analisar a correlação intraclasse nos dois modelos lineares hierárquicos
finais, tanto na Prova Brasil 2007 quanto no Saeb 2005, verifica-se praticamente a
mesma diferença entre as escolas, em torno de 10,0 pontos, podendo indicar que o
impacto que um aluno teria na mudança entre somente escolas públicas não parece
estar muito diferenciado em relação ao impacto que ele teria na troca entre as redes
públicas e particulares. Esse fato indica que as escolas não promovem a equidade,
conforme também verificado nos estudos de Cesar & Soares (2001), Soares (2006)
e Soares, Rigotti & Andrade (2008).
No modelo linear hierárquico nulo, em dois níveis (aluno e escola) para a
proficiência em Matemática da 8ª série, ajustado por Fletcher (1998) nos dados do
Saeb de 1995, para todo o território brasileiro foi encontrada uma variabilidade
devida ao efeito aleatório das escolas de 31,2%. Considerando que a metodologia
aplicada pelo Saeb nos exames de proficiência foi implantada a partir de 1995 e vem
sendo mantida desde então, é possível fazer uma análise longitudinal nos dados do
Saeb 2005 para o território nacional, dos alunos da 8ª série para a proficiência em
Matemática e a correlação intraclasse foi de 39,6%. Esse resultado é
estatisticamente maior do que o obtido em 1995 (p-valor=0,000), ou seja, o Ensino
Fundamental vem apresentando sintomas de negligência a longo tempo, tornando
urgente a busca e a aplicação de políticas públicas educacionais.
Por outro lado, Soares (2004) analisou os dados do Saeb 2001 em relação
aos alunos da 8ª série do Ensino Fundamental, além dos quatro questionários
contextuais respondidos pelos alunos, professores, diretores e pelo responsável pela
coleta de dados, para verificar o efeito da escola no desempenho cognitivo dos
alunos. Nos resultados dos estudos da proficiência em Matemática para a 8ª série,
no nível nacional, a técnica dos modelos lineares hierárquicos apresentou uma
variação explicativa de 12,3% da variação total, resultado esse muito similar ao
apresentado neste trabalho para os dados do Saeb de 2005, somente para os
alunos de Minas Gerais.
O artigo de Soares, Rigotti & Andrade (2008) verificou nos dados do SIMAVE
– Sistema Mineiro de Avaliação da Educação Pública, que avalia o desempenho dos
alunos das escolas estaduais na mesma escala do Saeb, a influência do entorno da
escola. O resultado não foi significativo para a cidade de Belo Horizonte-MG. O
109
artigo analisou o nível socioeconômico do espaço geográfico da localização das
escolas por meio de suas Unidades Espaciais Homogêneas – UEH, organizadas
para efeitos de administração da cidade pela Secretaria de Planejamento. Apesar de
a unidade geográfica utilizada no estudo deles não ter sido sensível aos dados, sua
importância sinaliza a favor da utilização do IDHM-2000 como variável explicativa no
terceiro nível, efeito geográfico, dos modelos lineares hierárquicos deste estudo.
Ao considerar o nível socioeconômico dos municípios obtido pela média do
nível socioeconômico dos seus alunos, padronizados entre os municípios, essa
variável surtiu efeito aleatório similar ao IDHM-2000 na explicação da proficiência
dos alunos. Por outro lado, foi possível perceber a necessidade de incorporação de
outras medidas que explicassem melhor esse terceiro nível representado pelo
município, quer seja para o Estado de Minas Gerais ou outro.
A comparação entre os modelos com e sem a presença do efeito da unidade
geográfica apresentou uma diferença pequena (3,0%) na explicação da variabilidade
do desempenho dos alunos. Esse fato acirra a necessidade de busca de outros
indicadores sociais, de diferenças culturais e históricas, além dos econômicos.
Nas avaliações aplicadas pelo INEP, existem outras informações sobre as
escolas, do ponto de vista do aplicador do exame, tais como infraestrutura,
qualidade do material utilizado, cuidados com bibliotecas e laboratórios de
informática, dentre outras, que não foram aproveitadas neste estudo. Também
existem informações obtidas pelas respostas aos questionários aplicados aos
professores e aos diretores das escolas. Essas informações podem ser agregadas
ao conjunto de dados aqui analisados, após uma busca mais acurada na
consistência dos mesmos.
A importância dos aspectos de infraestrutura escolar foi analisada por Riani
(2005) por meio dos dados do Censo Demográfico (IBGE) e do Censo Escolar
(INEP) de 2000, donde concluiu que a qualidade dos recursos humanos e dos
serviços educacionais produz um aumento na média de frequência à escola tanto
quanto a educação da mãe, além dos aspectos de densidade demográfica de jovens
do município. Esse fato corrobora a necessidade de incorporação das demais
informações fornecidas pelo INEP para o enriquecimento na análise presente neste
estudo.
De maneira geral, este estudo conclui sobre a necessidade da inclusão da
unidade geográfica em estudos com dados educacionais, pois elas possibilitam o
110
entendimento e o enriquecimento das estimativas por meio das informações do
entorno da escola bem como do ambiente no qual os alunos estão inseridos.
Mostra a adequabilidade dos modelos lineares hierárquicos como uma
ferramenta estatística útil para a Geografia dado que ela consegue se ajustar na
presença da autocorrelação espacial e preservar as características hierárquicas das
informações geográficas. Essa técnica também possibilita estudos espaciais na
ausência de dados georeferenciados, pois no presente estudo houve convergência
dos resultados obtidos na modelagem estatística e os da abordagem espacial.
Por outro lado, também apresenta a técnica estatística da amostragem em
análises de dados que devido à sua complexidade exigem grandes recursos
computacionais, nem sempre disponíveis ou acessíveis, quer sejam por questões de
restrições dos softwares quer sejam por restrições financeiras.
111
REFERÊNCIAS
AMORIM-FILHO, O. B. A evolução do pensamento geográfico e a fenomenologia.
Sociedade e Natureza, Uberlândia, v.11, n.21 e 22, p.67-87, 2000.
AMORIM-FILHO, O. B. A pluralidade da geografia e a necessidade das abordagens
culturais. Caderno de Geografia, Belo Horizonte, v.16, p.35-58, 2006.
AMORIM-FILHO, O. B. As geografias universais e a passagem do milênio.
Geografia e Ensino, Belo Horizonte, v.3, n.9, p.19-34, 1988.
ANSELIN, L. Centro de estudos do Geoda. Disponível em:
<http://geodacenter.asu.edu/>. Acesso em: 12 maio 2006.
BAILEY, T. C.; GATRELL, T. C. Interactive Spatial Data Analysis. London:
Prentice Hall, 1995.
BUNGE, W. Theoretical geography. Lund: The Royal University of Lund, 1966.
CÂMARA, G.; CARVALHO, M. S.; CRUZ, O. G.; CORRÊA, V. Análise espacial de
dados geográficos. Embrapa, 2004. Disponível em:
<www.dpi.inpe.br/gilberto/livro>. Acesso em: 12 set. 2006.
CAMARA, G.; MONTEIRO, A. M. V.; MEDEIROS, J. S. M. Fundamentos
epistemológicos da Ciência da Geoinformação. In: CÂMARA, G.; MONTEIRO, A. M.
V.; DAVIS, C. Introdução à Ciência da Geoinformação. 2005. Disponível em:
<www.dpi.inpe.br/gilberto/livro>. Acesso em: 20 jul. 2009.
CÉSAR, C. C.; SOARES, J. F. Desigualdades acadêmicas induzidas pelo contexto
escolar. Revista Brasileira de Ensino e População, v.18, nº 1/2, jan./dez. 2001.
CHORLEY, R. J.; HAGGET, P. Modelos, paradigmas e a Nova Geografia. In:
CHORLEY, R. J.; HAGGET, P. (orgs). Modelos integrados em Geografia. Rio de
Janeiro: LTC, 1967.
CHRISTALLER, W. Central places in Southern Germany. (traduzido de sua tese
em 1933 por C.W.Baskin). Englewood Cliffs, Nova Jersey: Prentice-Halls, 1966.
CHRISTOFOLETTI, A. As perspectivas dos Estudos Geográficos. In:
CHRISTOFOLETTI, A. (org). Perspectivas da Geografia. São Paulo: Difel, 1982.
CLAVAL, P. História da Geografia. Lisboa: Edições 70, 2006.
CRESSIE, N. A. C. Statistics for Spatial Data. New York: John Wiley $ Sons, Inc.
1993.
DEBUS, A.G. El hombre y la naturaleza em El Renascimiento. México,D.F.,
Fondo de Cultura Económica, 1996.
112
FERRÃO, M. E. Introdução aos modelos de regressão multinível em Educação.
Campinas: Komedi, 2003.
FLETCHER, P. R. A teoria da Resposta ao Item: medidas invariantes do
desempenho escolar. Ensaio: avaliação e políticas públicas em educação, Rio de
Janeiro, 1(2), p. 21-28, jan./mar. 1994.
FOREMAN, E.K. Survey Sampling Principles. Nova Iorque: Marcel Dekker, Inc,
1991.
GOLDSTEIN, H. Multilevel Statistical Models. London: Edward Arnold, 2th, 1999.
HAINING, R. Spatial Data Analysis. Cambridge: Univ. Press, 2003.
HÄGERSTRAND, T. Innovation diffusion as a spatial process. Chicago: The
University of Chicago Press, 1967.
HARTSHORNE, R. The nature of geography. Annals of Association of Americam
Geographers, Washington, n. XXIX, p.173-658, 1939.
HARVEY, D. Explanation in geography. Londres: Edward Arnold, 1969.
HUBBARD, P.; KITCHIN, R., VALENTINE, G.. Key Thinkers on Space and Place.
London: Sage Publications, 2004.
INEP: Notas Técnicas. Disponível em:
<http://www.inep.gov.br/institucional/Publicacoes>. Acesso em: 07 ago. 2007.
INEP: Metodologia. Disponível em
<http://www.inep.gov.br/basica/saeb/metodologia/testes.htm>. Acesso em: 07 ago.
2007
ISARD, W. Regional Science, the Concept of Region, and Regional Structure.
Papers and Proceedings, Regional Science Association, v.2, p.13-39, 1956.
JOHNSTON, R.J., SIDAWAY, J.D. Geography & Geographers. Nova Iorque:
Oxford University Press Inc., 6th, 2004.
KELVYN, J. Specifying and Estimating Multi-level Models for Geographical
Research. Transactions of the Institute of British Geographers. New series, v.
16, n.2, p.148-159, 1991. Published by Royal Geographical Society and WileyBlackwell.
LEHTONEN, R. PHKINEN, E. Practical Methods for Design and Analysis of
Complex Surveys, 2th ed. England: John Wiley & Sons, 2004.
LÖSCH, A. The economics of location. New Haven, CN: Yale University Press,
1954.
113
MARTIN, G. J. All Possible Words – A History of Geographical Ideas. New York:
Oxford University Press, 4th, 2005.
MCCULLAGH, P.; NELDER, J. A. Generalized linear models. 2nd.ed. London:
Chapman and Hall, 1989.
Microdados. Disponível em:
<http://provabrasil.inep.gov.br/index.php?option=com_wrapper&Itemid=148>. Acesso
em: 07 ago. 2007.
NELDER, J. A.; WEDDERBURN, R. W. M. Generalized linear models. London: J.
R. Stat. Soc Serie A, v.135, n.3, p.370-384, 1972.
O’BRIEN, L. Introducing Quantitative Geography: measurement, methods and
generalized linear models. New York: Routledge, Chapman and Hall, Inc., 1992.
PFEFFERMANN, D.; MOURA, F. A. S.; SILVA, P. L. N. Multi-level modelling under
informative sampling. London: Biometrika, v. 93(4), p.943-959, Dez/2006.
Doi:10.1093/biomet/93.4.943.
PEET, R. The development of radical geography in the United States. Progress
in Human Geography, v.1(2), p.240-263, 1977.
PICKLES, J. Phenomenology, science and geography. Cambridge: Cambridge
University Press, 1985, (p.41-45).
PNUD – Nota Técnica sobre o IDH. Disponível em: <www.pnud.org.br>. Acesso em:
25 maio 2006
RAUDENBUSH, S. W., BRYK, A. S. Hierarchical Linear Models: applications and
data analysis methods. 2n.ed. London: Sage Publications, 2002.
RAUDENBUSH, S. W.; WILLMS, J. D. The estimations of schools effects. Journal of
Educational and Behavioral Statistics, v.20, n.4, p.307-335, 1995.
RIANI, J. L. R. Determinantes do resultado educacional no Brasil: família, perfil
escolar dos municípios e dividendo demográfico numa abordagem hierárquica e
espacial. 2005. Tese (Doutorado). Universidade Federal de Minas Gerais, Centro de
Desenvolvimento e Planejamento Regional, Belo Horizonte.
ROGERSON, P. Statistical Methods for Geography. Lage Publication, 2001.
SCHAEFER, F.K. Exceptionalism in geography: a methodological examination.
Annals of the Association of American Geographers. Washington, ano 431, n.3,
1953, p.226-249.
SCHWARTZMAN, S. Os desafios da educação no Brasil. In: COLIN, B.;
SCHWARTZMAN, S. (org.). Os desafios da educação no Brasil. Rio de Janeiro:
Nova Fronteira, 2005. p.9-50.
114
SOARES, J. F. O efeito da escola no desempenho cognitivo de seus alunos. Reice –
Revista Electrônica Iberoamericana sobre Calidad, Eficácia y Cambio em
Educación, v.2, nº 2, 2004.
SOARES, J. F.; ANDRADE, R. J. Nível socioeconômico, qualidade e eqüidade das
escolas de Belo Horizonte. Ensaio: Avaliação e Políticas Públicas em Educação, Rio
de Janeiro, v.14, n.50, p.107-126, jan./mar. 2006.
SOARES, J. F.; RIGOTTI, J. I. R.; ANDRADE, L. T. As desigualdades socioespaciais
e o efeito das escolas públicas de Belo Horizonte. In: RIBEIRO, L. C. Q.;
KATZTMAN, R. (orgs). A cidade contra a escola?: segregação urbana e
desigualdades educacionais em grandes cidades da América Latina. Rio de Janeiro:
Letra Capital, 2008. p.119-144.
SOARES, T. M. Modelo de três níveis hierárquicos para a proficiência dos alunos da
4ª série avaliados no teste de Língua Portuguesa do SIMAVE/PROEB-2002. Revista
Brasileira de Educação, n.29, p.73-88, maio/jun./jul./ago. 2005.
SOARES, T. M.; MENDONÇA, M. C. M. Construção de um modelo de regressão
hierárquico para os dados do SIMAVE-2000. Pesquisa Operacional, v.23, n.3,
p.421-441, set./dez. 2003.
ULLMAN, E.L. Geography as spatial interaction. In: REUZAN, D.; ENGLEBERT, E.S.
(orgs), Interregional linkages. Berkeley: University of California Press, p.1-12, 1954.
WATSON, J.WE. Geography – A discipline in distance. Scottish Geographical
Magazine. Edinhurgh, v.7, n.1, p.1-13, 1955
115
ANEXOS
ANEXO A: Legislação: Avaliação da Educação Básica
116
117
118
119
120
121
ANEXO B: Critério Único de Classificação Econômica do Brasil
Válido até Dezembro de 2007
122
123
124
125
126
127
128
Válido a partir de 01/01/2008
129
130
131
ANEXO C: Escala das Competências e Habilidades medidas pela Prova Brasil
132
133
134
135
136
137
138
139
Download

Modelos Lineares Hierarquicos