XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM UTILIZAÇÃO DE CLASSIFICADORES BAYESIANOS PARA ANÁLISE DOS FATORES RELACIONADOS AO DESEMPENHO DOS ALUNOS DA QUARTA SÉRIE DO ENSINO FUNDAMENTAL Anderson Amendoeira Namen – [email protected] Universidade do Estado do Rio de Janeiro, Instituto Politécnico Universidade Veiga de Almeida Ana Carolina Soares e Soares – [email protected] Universidade Veiga de Almeida Resumo. O artigo apresenta o uso de Classificadores Bayesianos para a identificação de fatores relacionados ao desempenho dos alunos da quarta série do ensino fundamental do Estado do Rio de Janeiro em Língua Portuguesa. São apresentadas as tarefas de limpeza e tratamento dos dados, pré-requisito para a execução do algoritmo de classificação e são analisados os primeiros resultados obtidos no processo. Palavras-chave: Classificadores Bayesianos, Descoberta de conhecimento, Ensino Fundamental 1. INTRODUÇÃO Informações sobre escolas, diretores, professores e alunos, coletadas por intermédio do censo escolar e das avaliações periódicas são armazenadas em uma ampla base de dados disponibilizada a pesquisadores pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Essas bases de dados possuem informações sobre o desempenho dos alunos da quarta série nas provas de Língua Portuguesa, bem como dados referentes aos questionários aplicados aos seus professores, envolvendo aspectos relacionados ao perfil socioeconômico e aplicação de diferentes metodologias didáticas no ensino de língua portuguesa. No presente trabalho, é apresentada a utilização de Classificadores Bayesianos com a finalidade de extrair conhecimento relevante relacionado ao perfil e à atuação dos professores de língua portuguesa da quarta série do ensino fundamental e suas consequências para o desempenho dos estudantes. O artigo apresenta, inicialmente, as bases de dados selecionadas, bem como o processo desenvolvido para limpeza e transformação de dados, pré-requisito necessário para a aplicação dos algoritmos utilizados no processo. Uma pequena revisão quanto aos conceitos de Classificadores Bayesianos é apresentada, seguida da análise dos resultados obtidos, apresentando-se algumas conclusões a estes relacionadas. 2. BASES USADAS, LIMPEZA E TRANSFORMAÇÃO DOS DADOS A cada dois anos, o Governo Federal realiza uma prova de língua portuguesa e matemática, denominada Prova Brasil, para todos os alunos da quarta e oitava série do ensino XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM fundamental. Além da prova, os alunos respondem um questionário contendo diferentes perguntas relacionadas ao seu perfil sócio-econômico. Professores e diretores de escolas também respondem questionários relacionados ao seu perfil e ao da Instituição em que trabalham. Todos esses dados são armazenados em diferentes arquivos, sendo que os dados utilizados no presente trabalho referem-se à Prova Brasil do ano de 2007 e foram obtidos a partir de download de arquivos disponibilizados no site http://dados.gov.br/dataset/microdados-prova-brasil. Os seguintes arquivos foram selecionados neste trabalho: • TS_ALUNO (Identificação dos alunos juntamente com a proficiência em cada disciplina); • TS_QUEST_PROFESSOR (Resposta do questionário aplicado ao professor de cada série). As estruturas dos arquivos são apresentadas nas Tabelas 1 e 2. Tabela 1 – Estrutura do arquivo TS_ALUNO seq. Atributo Tipo tam. Descrição 1 2 ID_ALUNO ID_TURMA Num Char 8 7 3 TX_HORARIO_INICIO Char 5 4 TX_HORARIO_FINAL Char 5 5 NU_QTD_ALUNO Num 4 Código do Aluno na Prova Brasil Código da Turma na Prova Brasil Horário de Início da aula. As duas primeiras posições correspondem a hora e as duas ultimas aos minutos. Horário de Término da aula.As duas primeiras posições correspondem a hora e as duas ultimas aos minutos. Número de Alunos matriculados na turma 6 ID_SERIE Num 1 Código da Série (4 – 4.ª série/5.º ano EF; 8 – 8.ª série / 9.º ano EF) 7 PK_COD_ENTIDADE Num 8 Código da Escola 8 ID_DEPENDENCIA_ADM Num 1 Código da Dependência Administrativa da Escola 9 ID_LOCALIZACAO Num 1 Código da Localização da Escola 10 11 12 13 SIGLA_UF COD_UF NO_MUNICIPIO COD_MUNICIPIO Char Num Char Num 2 2 50 7 14 ST_LINGUA_PORTUGUESA Num 1 Sigla da Unidade da Federação Código da Unidade da Federação Nome do Município Código do Município Situação do Preenchimento da prova de Língua Portuguesa. O valor 0 indica que a prova não foi preenchida pelo aluno, enquanto o valor 1 indica que a prova foi preenchida. 15 ST_MATEMATICA Num 1 16 NU_THETA_L Num 8 17 NU_SETHETA_L Num 8 18 NU_THETAT_L Num 8 19 NU_SETHETAT_L Num 8 Proficiência do aluno em Língua Portuguesa calculada na escala única do SAEB, com média = 0 e desvio = 1 na população de referência Desvio padrão da proficiência em Língua Portuguesa Proficiência em Língua Portuguesa transformada na escala única do SAEB, com média = 250, desvio = 50 (do SAEB/97). Desvio padrão da proficiência transformada em Língua Portuguesa 20 NU_SETHETA_M Num 8 Desvio padrão da proficiência em Matemática 21 NU_THETAT_M Num 8 Proficiência do aluno em Matemática transformada na escala única do SAEB, com média = 250, desvio = 50 (do SAEB/97) 22 NU_SETHETAT_M Num 8 23 NU_THETA_M Num 8 Situação do Preenchimento da prova de Matemática Desvio padrão da proficiência transformada em Matemática Proficiência do aluno em Matemática calculada na escala única do SAEB, com média = 0 e desvio = 1 na população de referência XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM Tabela 2 – Estrutura do arquivo TS_QUEST_PROFESSOR seq. Atributo Tipo tam. Descrição Código da Entidade 1 PK_COD_ENTIDADE Num 8 2 ID_DEPENDENCIA_ADM Num 1 Código da Dependência Administrativa da Escola 3 ID_LOCALIZACAO Num 1 Código da Localização da Escola 4 5 6 7 8 SIGLA_UF COD_UF NO_MUNICIPIO COD_MUNICIPIO ID_TURMA Char Num Char Num Char 2 2 50 7 7 Sigla da Unidade da Federação Código da Unidade da Federação Nome do Município Código do Município Código da Turma 9 ID_SERIE 1 Código da Série 10 DS_DISCIPLINA Char 1 Disciplina 11 TX_RESP_QUESTIONARIO Char 131 Num Respostas do Questionário de Professor Código de Preenchimento 1 - Federal 2 - Estadual 3 - Municipal 1 - Urbana 2 - Rural 4 - 4.ª série/5.º ano EF 8 - 8.ª série / 9.º ano EF M - Matemática L - Língua Portuguesa Ver posição da resposta no questionário. O escopo do presente trabalho envolve a análise dos dados dos alunos e professores de língua portuguesa da quarta série do ensino fundamental do Estado do Rio de Janeiro. Desse modo, o primeiro processo realizado foi selecionar somente os registros correspondentes aos alunos/professores do Estado do Rio de Janeiro. Assim, dentre os registros existentes nos arquivos TS_ALUNO e TS_QUEST_PROFESSOR, foram selecionados apenas os registros com o atributo SIGLA_UF igual ao valor “RJ” e o atributo ID_SERIE igual a 4. Além disso, para o arquivo TS_QUEST_PROFESSOR, somente os registros com o atributo DS_DISCIPLINA igual ao valor “L” (Língua Portuguesa) foram considerados. Finalmente, somente os registros dos alunos que fizeram a prova de língua portuguesa (ST_LINGUA_PORTUGUESA = 1) foram selecionados. Embora a maior parte das técnicas de classificação tolere algum nível de imperfeição nas entradas, a melhoria da qualidade dos dados provê um grande aprimoramento nas análises resultantes dos algoritmos de classificação. Alguns trabalhos, como o de Redman (2001) e Wang et al. (2001) apresentam diferentes aspectos relacionados ao tratamento e garantia da qualidade dos dados. Para o presente caso, foram realizadas algumas tarefas, tanto de limpeza, quanto de transformação de dados. Estas foram fundamentais para a posterior execução do algoritmo de Classificação Bayesiana, apresentado na Seção 3. 2.1 Eliminação dos dados inconsistentes Como pode ser observado nas Tabelas 1 e 2, o atributo ID_TURMA identifica a turma a qual o aluno está alocado, acontecendo o mesmo para o professor, sendo que o aluno pode estar alocado em uma única turma e o professor em mais de uma. Este atributo está presente nos arquivos TS_ALUNO e TS_QUEST_PROFESSOR. Conforme citado anteriormente, o arquivo TS_ALUNO possui os dados da proficiência dos alunos, enquanto TS_QUEST_PROFESSOR possui os dados das respostas aos questionários dos professores. Desse modo, identificou-se que todo registro com determinado ID_TURMA existente em TS_ALUNO deveria possuir um registro correspondente no arquivo TS_QUEST_PROFESSOR. Caso isso não ocorresse, significava que o aluno possuía os dados referentes ao seu nível de aprendizado, mas não se encontravam disponíveis os dados XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM referentes ao professor e ao questionário a este aplicado. Foi realizado, então, um processo de exclusão dos registros de TS_ALUNO que não possuíam registro com ID_TURMA correspondente em TS_QUEST_PROFESSOR, resultando na eliminação de 10819 registros, de um total de 169027, permanecendo 158208 registros no arquivo. 2.2 Criação de novos atributos a partir de atributos existentes O arquivo TS_QUEST_PROFESSOR possui um atributo denominado TX_RESP_QUESTIONARIO, que identifica as respostas ao questionário do professor. O campo é do tipo Char com 131 posições, sendo este o número de questões aplicadas ao professor. Como esse campo é um string de tamanho 131, cada posição do campo corresponde à letra referente à resposta de uma determinada questão. Exemplificando, a primeira posição do string pode ser preenchida com os valores ‘A’ ou ‘B’, e corresponde à primeira pergunta sobre o sexo do professor, sendo a letra ‘A’ a resposta para o sexo masculino e ‘B’ para o sexo feminino. A vigésima nona posição do string, por sua vez, está ligada à questão de número 29 (“Frequência em que utiliza, junto aos alunos, atividades de leitura de contos, crônicas, poesias e romances”) e pode ser preenchida com os valores ‘A’, ‘B’, ‘C’, ‘D’ ou ‘E’, que são as opções referentes às seguintes respostas, respectivamente: “Semanalmente”; “Algumas vezes por mês”; “Uma vez por mês”; “Uma vez por bimestre”; “Nunca”. Para acesso a maiores detalhes, todos os questionários estão disponíveis no site do INEP, no endereço www.inep.gov.br. O objetivo do presente trabalho é a identificação de variáveis que possam influenciar positiva ou negativamente a proficiência do aluno em língua portuguesa. Como o atributo TX_RESP_QUESTIONARIO é representado por um string único, este não possui qualquer representatividade, dentro dos objetivos aqui buscados. Assim, foi necessária a divisão do atributo em tantos atributos quantos fossem os números de questões. No arquivo TS_QUEST_PROFESSOR foram criados 131 atributos, todos do tipo Char de tamanho 1, cada um deles identificando a resposta à pergunta correspondente aplicada no questionário do professor. Os atributos foram nomeados de acordo com os enunciados das questões. Por exemplo, o novo atributo criado no arquivo TS_QUEST_PROFESSOR denominado Q1Sexo, corresponde à primeira questão sobre o sexo do professor. Ele foi preenchido com o valor contido na primeira posição do string TX_RESP_QUESTIONARIO do arquivo TS_QUEST_PROFESSOR. O atributo Q2Idade, preenchido com o valor da segunda posição do string, corresponde à faixa etária do professor, pergunta de número 2 do questionário, e assim sucessivamente. A criação dos novos atributos possibilitou que todas as variáveis caracterizadoras do perfil e atividades didáticas aplicadas pelos professores ficassem disponíveis no modelo e pudessem ser usadas como entradas para o algoritmo de classificação. 2.3 Criação de atributo para identificação de classes O objetivo buscado no presente trabalho é identificar diferentes variáveis relacionadas ao desempenho dos estudantes. Visando criar classes de professores que pudessem ser diferenciadas de acordo com o nível de desempenho dos respectivos alunos, foi criado mais um atributo, denominado SituacaoAlunos, no arquivo TS_QUEST_PROFESSOR. Foi identificada a média geral dos alunos na prova de língua portuguesa (valor igual a 178,82 – XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM escala variando de 0 a 500), valor esse obtido a partir do cálculo da média do atributo NU_THETAT_L, pertencente ao arquivo TS_ALUNO (vide Tabela 1). Além disso, foram computadas as quantidades de alunos para os quais cada professor lecionava, bem como as quantidades de alunos que obtiveram nota (NU_THETAT_L) acima e abaixo da média geral. Com base nesses dados, o atributo SituacaoAlunos foi atualizado para todos os registros do arquivo TS_QUEST_PROFESSOR, de modo a identificar três classes de professores, apresentadas na Tabela 3: Tabela 3 – Identificação das classes de professores Identificação da classe* 0 ≤ N°Alunos acima da média/Total de Alunos ≤ 0,35 SituacaoAlunos Grande Maioria Abaixo da Média 0,35 < N°Alunos acima da média /Total de Alunos < 0,65 Outros Casos 0,65 ≤ N°Alunos acima da média /Total de Alunos ≤ 1 Grande Maioria Acima da Média * considerados apenas os alunos para os quais o professor leciona, ou seja, com mesmo ID_TURMA Conforme pode ser observado na Tabela 3, o objetivo da criação do atributo SituacaoAlunos, contendo 3 valores distintos e, por essa razão, identificando três classes de professores, foi permitir a identificação de classes de professores que possuíssem a grande maioria dos alunos com desempenho abaixo da média (ou seja, casos em que no máximo 35 por cento dos alunos do professor estivessem com notas acima da média geral) e classes de professores que tivessem a grande maioria de seus alunos com desempenho acima da média (casos em que 65 por cento ou mais dos alunos do professor estivessem com notas acima da média), identificando-se os casos remanescentes em uma terceira classe (Outros Casos). Em outras palavras, buscou-se classificar os professores, de modo que pudessem ser identificados os elementos (a partir das respostas às questões aplicadas ao professor) que implicassem na formação da grande maioria dos alunos com desempenho abaixo da média e dos elementos que caracterizassem um desempenho acima da média para a grande maioria dos alunos. Como poderá ser observado nas seções seguintes, o foco do trabalho foi na identificação das variáveis relacionadas à primeira e à ultima classe da tabela, não havendo consideração pela classe remanescente (Outros casos). Desse modo, a criação do atributo SituacaoAlunos foi pré-requisito essencial para a identificação das classes de entrada utilizadas quando da aplicação dos Classificadores de Bayes. 3. CLASSIFICADORES BAYESIANOS Classificadores Bayesianos são classificadores estatísticos que agrupam um objeto numa determinada classe, com base na probabilidade deste objeto pertencer a esta classe. Os classificadores Bayesianos Simples ou Ingênuos (Naïve Bayes) se baseiam na hipótese de que o efeito do valor de um atributo não-classe é independente dos valores dos outros atributos não-classe (Tan, Steinbach & Kumar, 2009). Isto é, o valor de um atributo não influencia o valor dos outros. Classificadores bayesianos são muito utilizados em tarefas de classificação, XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM devido ao bom desempenho computacional obtido (veja Han & Kamber, 2006; MacLennan, Crivat & Tang, 2008). O objetivo do presente trabalho é avaliar as diferentes respostas para cada pergunta do questionário do professor, associando-as às diferentes classes, sendo cada uma das respostas a cada questão considerada um atributo não-classe distinto. Conforme mencionado anteriormente, para esse trabalho assumiu-se a hipótese de independência dos atributos. Imaginando-se que se pretende classificar um exemplo X, descrito por um vetor de atributos (X1,X2, ..., Xn), num dos possíveis valores da classe C1, C2, ..., Ck, mutuamente exclusivas. O algoritmo Naïve Bayes classifica o exemplo X na classe Cj que maximiza a probabilidade à posteriori P(Cj | X). Assim, aplicando o Teorema de Bayes obtém-se: P(Cj | X) = P(Cj ) P( X | Cj ) P( X ) (1) Com a suposição da independência condicional, em vez de calcular-se a probabilidade condicional da classe para cada combinação de X, apenas é necessário estimar a probabilidade condicional de cada Xi, dada a classe C. Assim, assumindo-se que os atributos Xi são independentes entre si, dada a classe C e aplicando o princípio de Bayes, obtêm-se a fórmula : a P( C | X) = P(C )∏i =1 P( Xi | C ) onde a = número de atributos (2) Com base na Eq. 2, o algoritmo Naïve Bayes, utilizado no presente trabalho, é dividido então em quatro passos. No primeiro passo, cada classe Cj (j=1, 2, ..., k) do conjunto de treinamento possui sua probabilidade P(Cj) calculada. O cálculo é feito dividindo-se o número de instâncias de determinada classe pelo número total de instâncias do conjunto de treinamento. Em seguida, cada valor de cada atributo da amostra possui sua probabilidade calculada para cada uma das classes (P (Xi | Cj)). No terceiro passo, as probabilidades calculadas para os valores da amostra de uma mesma classe são multiplicadas. Em seguida, o valor obtido é multiplicado pela probabilidade da classe, calculada no primeiro passo, obtendo-se P(Cj | X). Finalmente, com as probabilidades de cada classe calculadas, verifica-se qual é a classe Cj que possui maior probabilidade para a amostra. Assim, o algoritmo termina retornando a classe que possui maior probabilidade de conter a respectiva amostra. No presente trabalho foi utilizada uma implementação do algoritmo Naïve Bayes, disponibilizada dentro do ambiente do Sistema Gerenciador de Banco de Dados SQL Server 2008 da Microsoft, ambiente para o qual os arquivos foram importados em formato de tabelas de banco de dados. Maiores detalhes da ferramenta e do algoritmo Naïve Bayes disponibilizados por ela podem ser encontrados em Harinath et al. (2009) e MacLennan, Crivat & Tang (2008). 4. RESULTADOS OBTIDOS E CONCLUSÕES Foram identificadas diversas relações entre as respostas ao questionário do professor (relacionadas ao seu perfil) e o desempenho dos alunos, este último representado pelo atributo SituacaoAlunos, identificador de três diferentes classes, mencionadas na Seção 2.1. O foco XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM do trabalho foi classificar as respostas às questões de acordo com duas das classes, exatamente as caracterizadoras de um melhor e de um pior desempenho dos alunos atendidos pelo professor. Os resultados são apresentados na Tabela 4. Tabela 4 – Relações entre respostas do questionário do professor e o desempenho dos alunos da 4ª série do ensino fundamental Pergunta Resposta Q55 Porc Conteudo Previsto Q57 Qtd Alunos Conc Ens Medio Q56 Qtd Alunos Conc Ens Fund Q58 Qtd Alunos Entrarao Universidade Q58 Qtd Alunos Entrarao Universidade Q58 Qtd Alunos Entrarao Universidade Q95 Prob Disciplinares Alunos Q94 Prob Esc Alto Indice Falta Aluno Q116 Agredido Verb Aluno Q44 Utiliza Comp Q65 Dificuldade Apred Indisciplina Aluno Q45 Utiliza Internet Q115 Ameacado Aluno Q89 Prob Esc Inexistencia Prof Disciplina Q30 Conv Contos Cronicas Poesias Roman Q61 Dificuldade Apred Inseguranca Q29 Leit Contos Cronicas Poesias Roman Q131 Avaliacao Livros Didaticos Q105 Agressao Fisica Alunos Por Aluno Q4 Escolaridade Max Ate Grad Q118 Vitima Furto Q130 Livro Didatico Recebido Q121 Alunos Sob Efeito Drogas Ilicitas Q131 Avaliacao Livros Didaticos Q55 Porc Conteudo Previsto Q56 Qtd Alunos Conc Ens Fund Q58 Qtd Alunos Entrarao Universidade Q57 Qtd Alunos Conc Ens Medio Q57 Qtd Alunos Conc Ens Medio Q58 Qtd Alunos Entrarao Universidade Q56 Qtd Alunos Conc Ens Fund Q57 Qtd Alunos Conc Ens Medio Q56 Qtd Alunos Conc Ens Fund Q116 Agredido Verb Aluno Q44 Utiliza Comp Q95 Prob Disciplinares Alunos Q45 Utiliza Internet Q65 Dificuldade Apred Indisciplina Aluno Q89 Prob Esc Inexistencia Prof Disciplina Q115 Ameacado Aluno Q94 Prob Esc Alto Indice Falta Aluno Q131 Avaliacao Livros Didaticos Q61 Dificuldade Apred Inseguranca Q30 Conv Contos Cronicas Poesias Roman Q29 Leit Contos Cronicas Poesias Roman Q105 Agressao Fisica Alunos Por Aluno Q4 Escolaridade Max Ate Grad Q118 Vitima Furto Q94 Prob Esc Alto Indice Falta Aluno Q131 Avaliacao Livros Didaticos Q55 Porc Conteudo Previsto Q130 Livro Didatico Recebido Q55 Porc Conteudo Previsto Q121 Alunos Sob Efeito Drogas Ilicitas Q30 Conv Contos Cronicas Poesias Roman Q29 Leit Contos Cronicas Poesias Roman Q118 Vitima Furto Q130 Livro Didatico Recebido Mais de 80% Quase todos os alunos Quase todos os alunos Um pouco mais da metade dos alunos Quase todos os alunos Um pouco menos da metade dos alunos Não Não Não Sim, utilizo Discordo Sim, utilizo Não Não Mais de uma vez por mês Discordo Mais de uma vez por mês Ӵimo Não Ensino Superior Não Sim Não Bom Entre 40% e 60% Um pouco mais da metade dos alunos Poucos alunos Um pouco menos da metade dos alunos Poucos alunos Não sei Um pouco menos da metade dos alunos Não sei Não sei Sim Não utilizo porque a escola não tem Sim, e foi um problema grave Não utilizo porque a escola não tem Concordo Sim, e foi um problema grave Sim Sim, e foi um problema grave Ruim Concordo Entre uma vez ou duas vezes por bimestre Entre uma vez ou duas vezes por bimestre Sim Ensino Médio ou menos Sim Sim, mas não foi um problema grave Razoável Menos de 40% Resposta nula Entre 60% e 80% Sim Nunca Ausente Resposta nula Não Situacaolunos = grande maioria abaixo da média Situacaolunos = grande maioria acima da média X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X A Tabela 4 possui quatro colunas. A primeira e a segunda coluna identificam uma determinada pergunta do questionário e uma resposta à mesma, respectivamente. As XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM perguntas sempre são iniciadas pelo prefixo Q seguido do número da questão e uma descrição abreviada da mesma. Por exemplo, Q55 Porc Conteúdo Previsto, apresentado na primeira linha da tabela, refere-se à questão de número 55, que versa sobre a porcentagem de conteúdo previsto que foi desenvolvida junto aos alunos. As duas últimas colunas, se preenchidas com X, indicam que a resposta dada privilegia aquele comportamento relacionado à proficiência dos alunos em Língua Portuguesa, identificando a respectiva classe. Assim, se a terceira coluna estiver marcada, indica que o fato de um professor ter respondido daquela forma a uma determinada questão favoreceu o fato de que a maioria dos alunos (65% ou mais) obteve resultados nas provas de Língua Portuguesa abaixo da média. Idem para a quarta coluna, onde o favorecimento seria relacionado a resultados acima da média. Exemplificando, a primeira linha da Tabela 4 indica que os professores que desenvolveram mais de oitenta por cento do conteúdo previsto junto aos alunos (pergunta 55 do questionário do professor), tenderam a obter resultados em que a grande maioria de seus alunos tiveram sua proficiência em Língua Portuguesa acima da média. Nota-se que a utilização dos Classificadores Bayesianos possibilitou a descoberta de diversões padrões, associando o perfil do professor ao desempenho dos seus alunos. Dentro desse universo, foram selecionadas algumas questões, marcadas em cinza, relacionadas às expectativas dos professores em relação à situação futura de seus alunos. Essas perguntas versam sobre a expectativa do professor quanto ao universo de alunos que concluirão o ensino fundamental (Q56 Qtd Alunos Conc Ens Fund), o ensino médio (Q57 Qtd Alunos Conc Ens Medio) e que entrarão na universidade (Q58 Qtd Alunos Entrarao Universidade). Fazendo uma análise mais apurada dessas informações, poderia se afirmar que, maiores as expectativas dos professores quanto à futura formação educacional de seus alunos, melhores os resultados obtidos. Pode-se observar que as expectativas dos professores afetam o desempenho dos alunos. Os primeiros trabalhos que abordam esse fenômeno podem ser encontrados em Rosenthal e Jacobson (1966 e 1968). Segundo os autores, professores que têm uma visão positiva dos alunos tendem a estimular o lado bom desses alunos, que tendem a obter melhores resultados; inversamente, professores que não têm apreço por seus alunos adotam posturas que acabam por comprometer negativamente o desempenho dos educandos. Na Tabela 4 também é possível observar que foram identificados alguns padrões de comportamento relacionados às atividades didáticas realizadas com os alunos. Algumas linhas da tabela apresentam tendências positivas relacionadas à realização frequente de atividades de leitura e conversas com os alunos sobre contos, crônicas, poesias e romances (perguntas 29 e 30 do questionário do professor). O presente artigo, no entanto, não tem a pretensão de analisar todos esses padrões detalhadamente, e nem se encontra aqui espaço suficiente para isso, cabendo essa tarefa para o futuro, preferencialmente contando com o apoio de educadores e especialistas na área de educação. O objetivo principal do presente trabalho foi demonstrar o potencial da utilização de Classificadores Bayesianos para a descoberta de conhecimento relacionado às bases de dados da educação básica. Cabe ressaltar que as tarefas de manipulação dos dados, visando à eliminação de inconsistências, limpeza de dados e criação/transformação de atributos, foram essenciais para a execução do algoritmo e simulação propriamente dita. Esse processo envolve elevado nível de trabalho e tempo, mas garante a geração de resultados com nível de confiabilidade satisfatório. Ainda com relação à manipulação de dados, observou-se que 10819 registros (vide seção 2.1), representando cerca de 6.4 por cento do total, foram eliminados do processo, já XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM que indicavam situação de alunos em que não havia questionário respondido pelo professor. Trabalhos futuros podem ser desenvolvidos no sentido de identificar o perfil desses alunos, ou seja, desenvolver um processo de descoberta de conhecimento relacionado às variáveis que podem ter contribuído para esse tipo de situação. Outros arquivos, com dados de diretores e escolas, também disponibilizados na base de dados do INEP/MEC, poderão ser utilizados para trabalhos futuros. Desse modo, será possível identificar também relações entre atributos referentes aos diretores e as escolas, e o processo de ensino-aprendizagem dos estudantes. Evidentemente, tratamento semelhante em relação aos dados deverá ser efetuado nesses arquivos, com correção de inconsistências e transformações, antes da execução dos algoritmos. Agradecimentos O presente trabalho foi realizado com o apoio da CAPES e do INEP, por intermédio do Programa Observatório da Educação. REFERÊNCIAS Han, J., Kamber, M. 2006. Data Mining: Concepts and techniques. 2 ed. Morgan Kaufmann Publishers. Harinath, S., Matt, C., Meenakshisundaram, S., Zare, R. Lee, D.G. 2009. Professional Microsoft SQL Server Analysis Services 2008 with MDX. Wiley Publishing Inc. MacLennan, J., Crivat, B., Tang, Z. 2008. Data Mining with Microsoft SQL Server 2008. Wiley Publishing Inc. Redman, T.C. 2001. Data Quality: The Field Guide. Digital Press. Rosenthal, R.; Jacobson, L., 1966. Teachers' expectancies: determinants of pupils' IQ gains. Psychological Report, 19, 115-118. Rosenthal, R.; Jacobson, L., 1968. Pygmalion in the classroom: teacher expectation and pupils' intellectual development. New York: Holt, Rhinehart & Winston. Tan, P., Steinbach, M., Kumar, V. 2009. Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna Ltda. Wang, R.Y., Ziad, M., Lee, Y.W. 2001. Data Quality. The Kluwer International Series on Advances in Database Systems, Vol. 23. Kluwer Academic Publishers. XV Encontro de Modelagem Computacional III Encontro de Ciência e Tecnologia de Materiais Instituto Politécnico (IPRJ-UERJ) e Universidade Federal de Uberlândia (UFU), Uberlândia /MG, Brasil. 28-30 nov. 2012. Associação Brasileira de Engenharia e Ciências Mecânicas – ABCM THE USE OF BAYESIAN CLASSIFIERS FOR KNOWLEDGE DISCOVERY RELATED TO THE LEARNING OF STUDENTS FROM ELEMENTARY SCHOOL Abstract. This paper presents the use of Bayesian Classifiers for knowledge discovery related to Portuguese language learning by students from elementary school in Rio de Janeiro – Brazil. The process of data cleaning and transformation is presented, which is the prerequisite to the execution of the classification algorithm. Some first results are reported. Keywords: Bayesian Classifiers, Knowledge Discovery, Elementary School