XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
UTILIZAÇÃO DE CLASSIFICADORES BAYESIANOS PARA ANÁLISE DOS
FATORES RELACIONADOS AO DESEMPENHO DOS ALUNOS
DA QUARTA SÉRIE DO ENSINO FUNDAMENTAL
Anderson Amendoeira Namen – [email protected]
Universidade do Estado do Rio de Janeiro, Instituto Politécnico
Universidade Veiga de Almeida
Ana Carolina Soares e Soares – [email protected]
Universidade Veiga de Almeida
Resumo. O artigo apresenta o uso de Classificadores Bayesianos para a identificação de
fatores relacionados ao desempenho dos alunos da quarta série do ensino fundamental do
Estado do Rio de Janeiro em Língua Portuguesa. São apresentadas as tarefas de limpeza e
tratamento dos dados, pré-requisito para a execução do algoritmo de classificação e são
analisados os primeiros resultados obtidos no processo.
Palavras-chave: Classificadores Bayesianos, Descoberta de conhecimento, Ensino
Fundamental
1.
INTRODUÇÃO
Informações sobre escolas, diretores, professores e alunos, coletadas por intermédio do
censo escolar e das avaliações periódicas são armazenadas em uma ampla base de dados
disponibilizada a pesquisadores pelo Instituto Nacional de Estudos e Pesquisas Educacionais
Anísio Teixeira (INEP).
Essas bases de dados possuem informações sobre o desempenho dos alunos da quarta
série nas provas de Língua Portuguesa, bem como dados referentes aos questionários
aplicados aos seus professores, envolvendo aspectos relacionados ao perfil socioeconômico e
aplicação de diferentes metodologias didáticas no ensino de língua portuguesa.
No presente trabalho, é apresentada a utilização de Classificadores Bayesianos com a
finalidade de extrair conhecimento relevante relacionado ao perfil e à atuação dos professores
de língua portuguesa da quarta série do ensino fundamental e suas consequências para o
desempenho dos estudantes.
O artigo apresenta, inicialmente, as bases de dados selecionadas, bem como o processo
desenvolvido para limpeza e transformação de dados, pré-requisito necessário para a
aplicação dos algoritmos utilizados no processo. Uma pequena revisão quanto aos conceitos
de Classificadores Bayesianos é apresentada, seguida da análise dos resultados obtidos,
apresentando-se algumas conclusões a estes relacionadas.
2.
BASES USADAS, LIMPEZA E TRANSFORMAÇÃO DOS DADOS
A cada dois anos, o Governo Federal realiza uma prova de língua portuguesa e
matemática, denominada Prova Brasil, para todos os alunos da quarta e oitava série do ensino
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
fundamental. Além da prova, os alunos respondem um questionário contendo diferentes
perguntas relacionadas ao seu perfil sócio-econômico. Professores e diretores de escolas
também respondem questionários relacionados ao seu perfil e ao da Instituição em que
trabalham. Todos esses dados são armazenados em diferentes arquivos, sendo que os dados
utilizados no presente trabalho referem-se à Prova Brasil do ano de 2007 e foram obtidos a
partir
de
download
de
arquivos
disponibilizados
no
site
http://dados.gov.br/dataset/microdados-prova-brasil.
Os seguintes arquivos foram selecionados neste trabalho:
• TS_ALUNO (Identificação dos alunos juntamente com a proficiência em cada
disciplina);
• TS_QUEST_PROFESSOR (Resposta do questionário aplicado ao professor de
cada série).
As estruturas dos arquivos são apresentadas nas Tabelas 1 e 2.
Tabela 1 – Estrutura do arquivo TS_ALUNO
seq.
Atributo
Tipo
tam.
Descrição
1
2
ID_ALUNO
ID_TURMA
Num
Char
8
7
3
TX_HORARIO_INICIO
Char
5
4
TX_HORARIO_FINAL
Char
5
5
NU_QTD_ALUNO
Num
4
Código do Aluno na Prova Brasil
Código da Turma na Prova Brasil
Horário de Início da aula. As duas primeiras posições correspondem a hora e
as duas ultimas aos minutos.
Horário de Término da aula.As duas primeiras posições correspondem a hora e
as duas ultimas aos minutos.
Número de Alunos matriculados na turma
6
ID_SERIE
Num
1
Código da Série (4 – 4.ª série/5.º ano EF; 8 – 8.ª série / 9.º ano EF)
7
PK_COD_ENTIDADE
Num
8
Código da Escola
8
ID_DEPENDENCIA_ADM
Num
1
Código da Dependência Administrativa da Escola
9
ID_LOCALIZACAO
Num
1
Código da Localização da Escola
10
11
12
13
SIGLA_UF
COD_UF
NO_MUNICIPIO
COD_MUNICIPIO
Char
Num
Char
Num
2
2
50
7
14
ST_LINGUA_PORTUGUESA
Num
1
Sigla da Unidade da Federação
Código da Unidade da Federação
Nome do Município
Código do Município
Situação do Preenchimento da prova de Língua Portuguesa. O valor 0 indica
que a prova não foi preenchida pelo aluno, enquanto o valor 1 indica que a
prova foi preenchida.
15
ST_MATEMATICA
Num
1
16
NU_THETA_L
Num
8
17
NU_SETHETA_L
Num
8
18
NU_THETAT_L
Num
8
19
NU_SETHETAT_L
Num
8
Proficiência do aluno em Língua Portuguesa calculada na escala única do
SAEB, com média = 0 e desvio = 1 na população de referência
Desvio padrão da proficiência em Língua Portuguesa
Proficiência em Língua Portuguesa transformada na escala única do SAEB,
com média = 250, desvio = 50 (do SAEB/97).
Desvio padrão da proficiência transformada em Língua Portuguesa
20
NU_SETHETA_M
Num
8
Desvio padrão da proficiência em Matemática
21
NU_THETAT_M
Num
8
Proficiência do aluno em Matemática transformada na escala única do SAEB,
com média = 250, desvio = 50 (do SAEB/97)
22
NU_SETHETAT_M
Num
8
23
NU_THETA_M
Num
8
Situação do Preenchimento da prova de Matemática
Desvio padrão da proficiência transformada em Matemática
Proficiência do aluno em Matemática calculada na escala única do SAEB, com
média = 0 e desvio = 1 na população de referência
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
Tabela 2 – Estrutura do arquivo TS_QUEST_PROFESSOR
seq.
Atributo
Tipo
tam.
Descrição
Código da Entidade
1
PK_COD_ENTIDADE
Num
8
2
ID_DEPENDENCIA_ADM
Num
1
Código da Dependência
Administrativa da Escola
3
ID_LOCALIZACAO
Num
1
Código da Localização da Escola
4
5
6
7
8
SIGLA_UF
COD_UF
NO_MUNICIPIO
COD_MUNICIPIO
ID_TURMA
Char
Num
Char
Num
Char
2
2
50
7
7
Sigla da Unidade da Federação
Código da Unidade da Federação
Nome do Município
Código do Município
Código da Turma
9
ID_SERIE
1
Código da Série
10
DS_DISCIPLINA
Char
1
Disciplina
11
TX_RESP_QUESTIONARIO
Char
131
Num
Respostas do Questionário de
Professor
Código de Preenchimento
1 - Federal
2 - Estadual
3 - Municipal
1 - Urbana
2 - Rural
4 - 4.ª série/5.º ano EF
8 - 8.ª série / 9.º ano EF
M - Matemática
L - Língua Portuguesa
Ver posição da resposta no
questionário.
O escopo do presente trabalho envolve a análise dos dados dos alunos e professores de
língua portuguesa da quarta série do ensino fundamental do Estado do Rio de Janeiro. Desse
modo, o primeiro processo realizado foi selecionar somente os registros correspondentes aos
alunos/professores do Estado do Rio de Janeiro. Assim, dentre os registros existentes nos
arquivos TS_ALUNO e TS_QUEST_PROFESSOR, foram selecionados apenas os registros
com o atributo SIGLA_UF igual ao valor “RJ” e o atributo ID_SERIE igual a 4. Além disso,
para o arquivo TS_QUEST_PROFESSOR, somente os registros com o atributo
DS_DISCIPLINA igual ao valor “L” (Língua Portuguesa) foram considerados. Finalmente,
somente os registros dos alunos que fizeram a prova de língua portuguesa
(ST_LINGUA_PORTUGUESA = 1) foram selecionados.
Embora a maior parte das técnicas de classificação tolere algum nível de imperfeição
nas entradas, a melhoria da qualidade dos dados provê um grande aprimoramento nas análises
resultantes dos algoritmos de classificação. Alguns trabalhos, como o de Redman (2001) e
Wang et al. (2001) apresentam diferentes aspectos relacionados ao tratamento e garantia da
qualidade dos dados. Para o presente caso, foram realizadas algumas tarefas, tanto de limpeza,
quanto de transformação de dados. Estas foram fundamentais para a posterior execução do
algoritmo de Classificação Bayesiana, apresentado na Seção 3.
2.1 Eliminação dos dados inconsistentes
Como pode ser observado nas Tabelas 1 e 2, o atributo ID_TURMA identifica a turma a
qual o aluno está alocado, acontecendo o mesmo para o professor, sendo que o aluno pode
estar alocado em uma única turma e o professor em mais de uma. Este atributo está presente
nos arquivos TS_ALUNO e TS_QUEST_PROFESSOR. Conforme citado anteriormente, o
arquivo TS_ALUNO possui os dados da proficiência dos alunos, enquanto
TS_QUEST_PROFESSOR possui os dados das respostas aos questionários dos professores.
Desse modo, identificou-se que todo registro com determinado ID_TURMA existente em
TS_ALUNO
deveria
possuir
um
registro
correspondente
no
arquivo
TS_QUEST_PROFESSOR. Caso isso não ocorresse, significava que o aluno possuía os
dados referentes ao seu nível de aprendizado, mas não se encontravam disponíveis os dados
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
referentes ao professor e ao questionário a este aplicado. Foi realizado, então, um processo de
exclusão dos registros de TS_ALUNO que não possuíam registro com ID_TURMA
correspondente em TS_QUEST_PROFESSOR, resultando na eliminação de 10819 registros,
de um total de 169027, permanecendo 158208 registros no arquivo.
2.2 Criação de novos atributos a partir de atributos existentes
O arquivo TS_QUEST_PROFESSOR possui um atributo denominado
TX_RESP_QUESTIONARIO, que identifica as respostas ao questionário do professor. O
campo é do tipo Char com 131 posições, sendo este o número de questões aplicadas ao
professor. Como esse campo é um string de tamanho 131, cada posição do campo
corresponde à letra referente à resposta de uma determinada questão. Exemplificando, a
primeira posição do string pode ser preenchida com os valores ‘A’ ou ‘B’, e corresponde à
primeira pergunta sobre o sexo do professor, sendo a letra ‘A’ a resposta para o sexo
masculino e ‘B’ para o sexo feminino. A vigésima nona posição do string, por sua vez, está
ligada à questão de número 29 (“Frequência em que utiliza, junto aos alunos, atividades de
leitura de contos, crônicas, poesias e romances”) e pode ser preenchida com os valores ‘A’,
‘B’, ‘C’, ‘D’ ou ‘E’, que são as opções referentes às seguintes respostas, respectivamente:
“Semanalmente”; “Algumas vezes por mês”; “Uma vez por mês”; “Uma vez por bimestre”;
“Nunca”. Para acesso a maiores detalhes, todos os questionários estão disponíveis no site do
INEP, no endereço www.inep.gov.br.
O objetivo do presente trabalho é a identificação de variáveis que possam influenciar
positiva ou negativamente a proficiência do aluno em língua portuguesa. Como o atributo
TX_RESP_QUESTIONARIO é representado por um string único, este não possui qualquer
representatividade, dentro dos objetivos aqui buscados. Assim, foi necessária a divisão do
atributo em tantos atributos quantos fossem os números de questões. No arquivo
TS_QUEST_PROFESSOR foram criados 131 atributos, todos do tipo Char de tamanho 1,
cada um deles identificando a resposta à pergunta correspondente aplicada no questionário do
professor. Os atributos foram nomeados de acordo com os enunciados das questões. Por
exemplo, o novo atributo criado no arquivo TS_QUEST_PROFESSOR denominado Q1Sexo,
corresponde à primeira questão sobre o sexo do professor. Ele foi preenchido com o valor
contido na primeira posição do string TX_RESP_QUESTIONARIO do arquivo
TS_QUEST_PROFESSOR. O atributo Q2Idade, preenchido com o valor da segunda posição
do string, corresponde à faixa etária do professor, pergunta de número 2 do questionário, e
assim sucessivamente.
A criação dos novos atributos possibilitou que todas as variáveis caracterizadoras do
perfil e atividades didáticas aplicadas pelos professores ficassem disponíveis no modelo e
pudessem ser usadas como entradas para o algoritmo de classificação.
2.3 Criação de atributo para identificação de classes
O objetivo buscado no presente trabalho é identificar diferentes variáveis relacionadas
ao desempenho dos estudantes. Visando criar classes de professores que pudessem ser
diferenciadas de acordo com o nível de desempenho dos respectivos alunos, foi criado mais
um atributo, denominado SituacaoAlunos, no arquivo TS_QUEST_PROFESSOR. Foi
identificada a média geral dos alunos na prova de língua portuguesa (valor igual a 178,82 –
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
escala variando de 0 a 500), valor esse obtido a partir do cálculo da média do atributo
NU_THETAT_L, pertencente ao arquivo TS_ALUNO (vide Tabela 1). Além disso, foram
computadas as quantidades de alunos para os quais cada professor lecionava, bem como as
quantidades de alunos que obtiveram nota (NU_THETAT_L) acima e abaixo da média geral.
Com base nesses dados, o atributo SituacaoAlunos foi atualizado para todos os registros do
arquivo TS_QUEST_PROFESSOR, de modo a identificar três classes de professores,
apresentadas na Tabela 3:
Tabela 3 – Identificação das classes de professores
Identificação da classe*
0 ≤ N°Alunos acima da média/Total de Alunos ≤ 0,35
SituacaoAlunos
Grande Maioria Abaixo da
Média
0,35 < N°Alunos acima da média /Total de Alunos < 0,65 Outros Casos
0,65 ≤ N°Alunos acima da média /Total de Alunos ≤ 1
Grande Maioria Acima da Média
* considerados apenas os alunos para os quais o professor leciona, ou seja, com mesmo
ID_TURMA
Conforme pode ser observado na Tabela 3, o objetivo da criação do atributo
SituacaoAlunos, contendo 3 valores distintos e, por essa razão, identificando três classes de
professores, foi permitir a identificação de classes de professores que possuíssem a grande
maioria dos alunos com desempenho abaixo da média (ou seja, casos em que no máximo 35
por cento dos alunos do professor estivessem com notas acima da média geral) e classes de
professores que tivessem a grande maioria de seus alunos com desempenho acima da média
(casos em que 65 por cento ou mais dos alunos do professor estivessem com notas acima da
média), identificando-se os casos remanescentes em uma terceira classe (Outros Casos).
Em outras palavras, buscou-se classificar os professores, de modo que pudessem ser
identificados os elementos (a partir das respostas às questões aplicadas ao professor) que
implicassem na formação da grande maioria dos alunos com desempenho abaixo da média e
dos elementos que caracterizassem um desempenho acima da média para a grande maioria
dos alunos. Como poderá ser observado nas seções seguintes, o foco do trabalho foi na
identificação das variáveis relacionadas à primeira e à ultima classe da tabela, não havendo
consideração pela classe remanescente (Outros casos). Desse modo, a criação do atributo
SituacaoAlunos foi pré-requisito essencial para a identificação das classes de entrada
utilizadas quando da aplicação dos Classificadores de Bayes.
3.
CLASSIFICADORES BAYESIANOS
Classificadores Bayesianos são classificadores estatísticos que agrupam um objeto
numa determinada classe, com base na probabilidade deste objeto pertencer a esta classe. Os
classificadores Bayesianos Simples ou Ingênuos (Naïve Bayes) se baseiam na hipótese de que
o efeito do valor de um atributo não-classe é independente dos valores dos outros atributos
não-classe (Tan, Steinbach & Kumar, 2009). Isto é, o valor de um atributo não influencia o
valor dos outros. Classificadores bayesianos são muito utilizados em tarefas de classificação,
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
devido ao bom desempenho computacional obtido (veja Han & Kamber, 2006; MacLennan,
Crivat & Tang, 2008).
O objetivo do presente trabalho é avaliar as diferentes respostas para cada pergunta do
questionário do professor, associando-as às diferentes classes, sendo cada uma das respostas a
cada questão considerada um atributo não-classe distinto. Conforme mencionado
anteriormente, para esse trabalho assumiu-se a hipótese de independência dos atributos.
Imaginando-se que se pretende classificar um exemplo X, descrito por um vetor de
atributos (X1,X2, ..., Xn), num dos possíveis valores da classe C1, C2, ..., Ck, mutuamente
exclusivas. O algoritmo Naïve Bayes classifica o exemplo X na classe Cj que maximiza a
probabilidade à posteriori P(Cj | X). Assim, aplicando o Teorema de Bayes obtém-se:
P(Cj | X) =
P(Cj ) P( X | Cj )
P( X )
(1)
Com a suposição da independência condicional, em vez de calcular-se a probabilidade
condicional da classe para cada combinação de X, apenas é necessário estimar a probabilidade
condicional de cada Xi, dada a classe C. Assim, assumindo-se que os atributos Xi são
independentes entre si, dada a classe C e aplicando o princípio de Bayes, obtêm-se a fórmula :
a
P( C | X) = P(C )∏i =1 P( Xi | C )
onde a = número de atributos
(2)
Com base na Eq. 2, o algoritmo Naïve Bayes, utilizado no presente trabalho, é
dividido então em quatro passos. No primeiro passo, cada classe Cj (j=1, 2, ..., k) do conjunto
de treinamento possui sua probabilidade P(Cj) calculada. O cálculo é feito dividindo-se o
número de instâncias de determinada classe pelo número total de instâncias do conjunto de
treinamento. Em seguida, cada valor de cada atributo da amostra possui sua probabilidade
calculada para cada uma das classes (P (Xi | Cj)). No terceiro passo, as probabilidades
calculadas para os valores da amostra de uma mesma classe são multiplicadas. Em seguida, o
valor obtido é multiplicado pela probabilidade da classe, calculada no primeiro passo,
obtendo-se P(Cj | X). Finalmente, com as probabilidades de cada classe calculadas, verifica-se
qual é a classe Cj que possui maior probabilidade para a amostra. Assim, o algoritmo termina
retornando a classe que possui maior probabilidade de conter a respectiva amostra.
No presente trabalho foi utilizada uma implementação do algoritmo Naïve Bayes,
disponibilizada dentro do ambiente do Sistema Gerenciador de Banco de Dados SQL Server
2008 da Microsoft, ambiente para o qual os arquivos foram importados em formato de tabelas
de banco de dados. Maiores detalhes da ferramenta e do algoritmo Naïve Bayes
disponibilizados por ela podem ser encontrados em Harinath et al. (2009) e MacLennan,
Crivat & Tang (2008).
4.
RESULTADOS OBTIDOS E CONCLUSÕES
Foram identificadas diversas relações entre as respostas ao questionário do professor
(relacionadas ao seu perfil) e o desempenho dos alunos, este último representado pelo atributo
SituacaoAlunos, identificador de três diferentes classes, mencionadas na Seção 2.1. O foco
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
do trabalho foi classificar as respostas às questões de acordo com duas das classes,
exatamente as caracterizadoras de um melhor e de um pior desempenho dos alunos atendidos
pelo professor. Os resultados são apresentados na Tabela 4.
Tabela 4 – Relações entre respostas do questionário do professor e
o desempenho dos alunos da 4ª série do ensino fundamental
Pergunta
Resposta
Q55 Porc Conteudo Previsto
Q57 Qtd Alunos Conc Ens Medio
Q56 Qtd Alunos Conc Ens Fund
Q58 Qtd Alunos Entrarao Universidade
Q58 Qtd Alunos Entrarao Universidade
Q58 Qtd Alunos Entrarao Universidade
Q95 Prob Disciplinares Alunos
Q94 Prob Esc Alto Indice Falta Aluno
Q116 Agredido Verb Aluno
Q44 Utiliza Comp
Q65 Dificuldade Apred Indisciplina Aluno
Q45 Utiliza Internet
Q115 Ameacado Aluno
Q89 Prob Esc Inexistencia Prof Disciplina
Q30 Conv Contos Cronicas Poesias Roman
Q61 Dificuldade Apred Inseguranca
Q29 Leit Contos Cronicas Poesias Roman
Q131 Avaliacao Livros Didaticos
Q105 Agressao Fisica Alunos Por Aluno
Q4 Escolaridade Max Ate Grad
Q118 Vitima Furto
Q130 Livro Didatico Recebido
Q121 Alunos Sob Efeito Drogas Ilicitas
Q131 Avaliacao Livros Didaticos
Q55 Porc Conteudo Previsto
Q56 Qtd Alunos Conc Ens Fund
Q58 Qtd Alunos Entrarao Universidade
Q57 Qtd Alunos Conc Ens Medio
Q57 Qtd Alunos Conc Ens Medio
Q58 Qtd Alunos Entrarao Universidade
Q56 Qtd Alunos Conc Ens Fund
Q57 Qtd Alunos Conc Ens Medio
Q56 Qtd Alunos Conc Ens Fund
Q116 Agredido Verb Aluno
Q44 Utiliza Comp
Q95 Prob Disciplinares Alunos
Q45 Utiliza Internet
Q65 Dificuldade Apred Indisciplina Aluno
Q89 Prob Esc Inexistencia Prof Disciplina
Q115 Ameacado Aluno
Q94 Prob Esc Alto Indice Falta Aluno
Q131 Avaliacao Livros Didaticos
Q61 Dificuldade Apred Inseguranca
Q30 Conv Contos Cronicas Poesias Roman
Q29 Leit Contos Cronicas Poesias Roman
Q105 Agressao Fisica Alunos Por Aluno
Q4 Escolaridade Max Ate Grad
Q118 Vitima Furto
Q94 Prob Esc Alto Indice Falta Aluno
Q131 Avaliacao Livros Didaticos
Q55 Porc Conteudo Previsto
Q130 Livro Didatico Recebido
Q55 Porc Conteudo Previsto
Q121 Alunos Sob Efeito Drogas Ilicitas
Q30 Conv Contos Cronicas Poesias Roman
Q29 Leit Contos Cronicas Poesias Roman
Q118 Vitima Furto
Q130 Livro Didatico Recebido
Mais de 80%
Quase todos os alunos
Quase todos os alunos
Um pouco mais da metade dos alunos
Quase todos os alunos
Um pouco menos da metade dos alunos
Não
Não
Não
Sim, utilizo
Discordo
Sim, utilizo
Não
Não
Mais de uma vez por mês
Discordo
Mais de uma vez por mês
Ӵimo
Não
Ensino Superior
Não
Sim
Não
Bom
Entre 40% e 60%
Um pouco mais da metade dos alunos
Poucos alunos
Um pouco menos da metade dos alunos
Poucos alunos
Não sei
Um pouco menos da metade dos alunos
Não sei
Não sei
Sim
Não utilizo porque a escola não tem
Sim, e foi um problema grave
Não utilizo porque a escola não tem
Concordo
Sim, e foi um problema grave
Sim
Sim, e foi um problema grave
Ruim
Concordo
Entre uma vez ou duas vezes por bimestre
Entre uma vez ou duas vezes por bimestre
Sim
Ensino Médio ou menos
Sim
Sim, mas não foi um problema grave
Razoável
Menos de 40%
Resposta nula
Entre 60% e 80%
Sim
Nunca
Ausente
Resposta nula
Não
Situacaolunos = grande
maioria abaixo da média
Situacaolunos = grande
maioria acima da média
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
A Tabela 4 possui quatro colunas. A primeira e a segunda coluna identificam uma
determinada pergunta do questionário e uma resposta à mesma, respectivamente. As
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
perguntas sempre são iniciadas pelo prefixo Q seguido do número da questão e uma descrição
abreviada da mesma. Por exemplo, Q55 Porc Conteúdo Previsto, apresentado na primeira
linha da tabela, refere-se à questão de número 55, que versa sobre a porcentagem de conteúdo
previsto que foi desenvolvida junto aos alunos. As duas últimas colunas, se preenchidas com
X, indicam que a resposta dada privilegia aquele comportamento relacionado à proficiência
dos alunos em Língua Portuguesa, identificando a respectiva classe. Assim, se a terceira
coluna estiver marcada, indica que o fato de um professor ter respondido daquela forma a uma
determinada questão favoreceu o fato de que a maioria dos alunos (65% ou mais) obteve
resultados nas provas de Língua Portuguesa abaixo da média. Idem para a quarta coluna, onde
o favorecimento seria relacionado a resultados acima da média. Exemplificando, a primeira
linha da Tabela 4 indica que os professores que desenvolveram mais de oitenta por cento do
conteúdo previsto junto aos alunos (pergunta 55 do questionário do professor), tenderam a
obter resultados em que a grande maioria de seus alunos tiveram sua proficiência em Língua
Portuguesa acima da média.
Nota-se que a utilização dos Classificadores Bayesianos possibilitou a descoberta de
diversões padrões, associando o perfil do professor ao desempenho dos seus alunos. Dentro
desse universo, foram selecionadas algumas questões, marcadas em cinza, relacionadas às
expectativas dos professores em relação à situação futura de seus alunos. Essas perguntas
versam sobre a expectativa do professor quanto ao universo de alunos que concluirão o ensino
fundamental (Q56 Qtd Alunos Conc Ens Fund), o ensino médio (Q57 Qtd Alunos Conc Ens
Medio) e que entrarão na universidade (Q58 Qtd Alunos Entrarao Universidade).
Fazendo uma análise mais apurada dessas informações, poderia se afirmar que,
maiores as expectativas dos professores quanto à futura formação educacional de seus alunos,
melhores os resultados obtidos. Pode-se observar que as expectativas dos professores afetam o
desempenho dos alunos. Os primeiros trabalhos que abordam esse fenômeno podem ser
encontrados em Rosenthal e Jacobson (1966 e 1968). Segundo os autores, professores que
têm uma visão positiva dos alunos tendem a estimular o lado bom desses alunos, que tendem
a obter melhores resultados; inversamente, professores que não têm apreço por seus alunos
adotam posturas que acabam por comprometer negativamente o desempenho dos educandos.
Na Tabela 4 também é possível observar que foram identificados alguns padrões de
comportamento relacionados às atividades didáticas realizadas com os alunos. Algumas linhas
da tabela apresentam tendências positivas relacionadas à realização frequente de atividades de
leitura e conversas com os alunos sobre contos, crônicas, poesias e romances (perguntas 29 e
30 do questionário do professor). O presente artigo, no entanto, não tem a pretensão de
analisar todos esses padrões detalhadamente, e nem se encontra aqui espaço suficiente para
isso, cabendo essa tarefa para o futuro, preferencialmente contando com o apoio de
educadores e especialistas na área de educação.
O objetivo principal do presente trabalho foi demonstrar o potencial da utilização de
Classificadores Bayesianos para a descoberta de conhecimento relacionado às bases de dados
da educação básica. Cabe ressaltar que as tarefas de manipulação dos dados, visando à
eliminação de inconsistências, limpeza de dados e criação/transformação de atributos, foram
essenciais para a execução do algoritmo e simulação propriamente dita. Esse processo
envolve elevado nível de trabalho e tempo, mas garante a geração de resultados com nível de
confiabilidade satisfatório.
Ainda com relação à manipulação de dados, observou-se que 10819 registros (vide
seção 2.1), representando cerca de 6.4 por cento do total, foram eliminados do processo, já
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
que indicavam situação de alunos em que não havia questionário respondido pelo professor.
Trabalhos futuros podem ser desenvolvidos no sentido de identificar o perfil desses alunos, ou
seja, desenvolver um processo de descoberta de conhecimento relacionado às variáveis que
podem ter contribuído para esse tipo de situação.
Outros arquivos, com dados de diretores e escolas, também disponibilizados na base
de dados do INEP/MEC, poderão ser utilizados para trabalhos futuros. Desse modo, será
possível identificar também relações entre atributos referentes aos diretores e as escolas, e o
processo de ensino-aprendizagem dos estudantes. Evidentemente, tratamento semelhante em
relação aos dados deverá ser efetuado nesses arquivos, com correção de inconsistências e
transformações, antes da execução dos algoritmos.
Agradecimentos
O presente trabalho foi realizado com o apoio da CAPES e do INEP, por intermédio do
Programa Observatório da Educação.
REFERÊNCIAS
Han, J., Kamber, M. 2006. Data Mining: Concepts and techniques. 2 ed. Morgan Kaufmann
Publishers.
Harinath, S., Matt, C., Meenakshisundaram, S., Zare, R. Lee, D.G. 2009. Professional
Microsoft SQL Server Analysis Services 2008 with MDX. Wiley Publishing Inc.
MacLennan, J., Crivat, B., Tang, Z. 2008. Data Mining with Microsoft SQL Server 2008.
Wiley Publishing Inc.
Redman, T.C. 2001. Data Quality: The Field Guide. Digital Press.
Rosenthal, R.; Jacobson, L., 1966. Teachers' expectancies: determinants of pupils' IQ
gains. Psychological Report, 19, 115-118.
Rosenthal, R.; Jacobson, L., 1968. Pygmalion in the classroom: teacher expectation and
pupils' intellectual development. New York: Holt, Rhinehart & Winston.
Tan, P., Steinbach, M., Kumar, V. 2009. Introdução ao Data Mining – Mineração de Dados.
Rio de Janeiro: Editora Ciência Moderna Ltda.
Wang, R.Y., Ziad, M., Lee, Y.W. 2001. Data Quality. The Kluwer International Series on
Advances in Database Systems, Vol. 23. Kluwer Academic Publishers.
XV Encontro de Modelagem Computacional
III Encontro de Ciência e Tecnologia de Materiais
Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012.
Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM
THE USE OF BAYESIAN CLASSIFIERS FOR KNOWLEDGE DISCOVERY
RELATED TO THE LEARNING OF STUDENTS FROM ELEMENTARY SCHOOL
Abstract. This paper presents the use of Bayesian Classifiers for knowledge discovery related
to Portuguese language learning by students from elementary school in Rio de Janeiro –
Brazil. The process of data cleaning and transformation is presented, which is the
prerequisite to the execution of the classification algorithm. Some first results are reported.
Keywords: Bayesian Classifiers, Knowledge Discovery, Elementary School
Download

utilização de classificadores bayesianos para análise dos fatores