1 Análise de Dados da Base ENEM 2013 Adriana Martins, Daniela Justiniano e Guilherme Alves Programa de Pós-graduação em Ciência da Computação Universidade Federal de Uberlândia (UFU) Av. João Naves de Ávila, 2121, Bloco 1B, Campus Santa Mônica – Uberlândia MG, Brasil [email protected], [email protected], [email protected] Resumo—Esse estudo apresenta os resultados de uma análise realizada sobre a base de dados ENEM 2013, atividade proposta na disciplina Reconhecimento de Padrões (PGC204) no Programa de Pós Graduação da Universidade Federal de Uberlândia, no primeiro semestre de 2015. Foi realizado inicialmente a análise descritiva da base utlizando o software SPSS, versão 13.0 para Windows e também o software WEKA versão 3.7.12, seguida de algumas análises estatı́sticas. O objetivo geral consiste na interpretação dos dados quantitativos e qualitativos, a fim de produzir resultados que caracterizem informações relevantes da base de dados descrita. Keywords—Reconhecimento de padrões, análise descritiva e estatı́stica de dados, ENEM. I. I NTRODUÇ ÃO A prosposta deste trabalho é realizar uma avaliação estatı́stica da base de dados ENEM 2013. Essa base é disponibilizada pelo portal do Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira (INEP) e é constituı́da de dados quantitativos e qualitiativos referente ao Exame Nacional do Ensino Médio (ENEM). O ENEM foi criado em 1998 com o objetivo de avaliar o desempenho do estudante ao completar a educação básica, visando assim contribuir para a melhoria da qualidade desse nı́vel de escolaridade. No inı́cio de 2009 passou a ser utilizado como mecanismo de seleção para o ingresso no Ensino Superior em diversas universidades do Brasil e também permitindo acesso aos programas oferecidos pelo Governo Federal, como o Programa Universidade para Todos (ProUni), Fundo de Financiamento Estudantil (Fies) e o programa Ciência sem Fronteiras [1]. É evidente a importância que o Enem assume no cenário educacional brasileiro dado seu impacto na democratização do acesso ao ensino superior e à promoção da reforma curricular no ensino médio. Nesse sentido, o presente trabalho realizou uma análise exploratória dos dados contidos na base ENEM 2013, inicialmente por meio de análise descritiva, a qual foca na organização e resumo dos dados. Após isso, estabeleceu-se algumas hipóteses sobre a base e buscou-se conclusões que melhor caracterizassem as informações nela contidas, como por exemplo, alguma regularidade ou padrão através do uso de algumas técnicas estatı́sticas. O detalhamento das análises realizadas, bem como técnicas estatı́sticas utilizadas estão apresentados nas seções posteriores. II. A BASE DE DADOS ENEM 2013 Os dados utilizados neste trabalho foram coletados no portal online do Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira (Inep), o qual disponibiliza de forma pública bases de dados no formato .csv, com o nome microdados. As bases dos microdados do Enem estão disponı́veis em [2] desde sua primeira edição em 1998. Definiu-se a base de dados “Enem 2013” por ser a mais recente disponibilizada no primeiro semestre de 2015. Os microdados trazem informações genéricas sobre a avaliação, como variáveis de controle do inscrito, de controle da escola, da prova objetiva, da prova de redação e caracterı́sticas do questionário socioeconômico (que contempla questões sobre nı́vel socioeconômico, famı́lia, educação, trabalho, escola, interesses, expectativas, entre outros temas). A partir desses dados é possı́vel extrair uma série de informações, as quais podem direcionar pesquisas e ações diversas voltadas à alunos, escolas, professores e até mesmo polı́ticas governamentais. No que se refere à prova objetiva, a edição de 2013 está estruturada em 4 (quatro) provas, uma de cada área do conhecimento, contendo 45 (quarenta e cinco) questões de múltipla escolha e uma redação, englobando os componentes curriculares descritos na Tabela I. Tabela I: Descrição das Áreas de Conhecimento e Componentes Curriculares do Enem. Área do Conhecimento Linguagens, Códigos e suas tecnologias (LC) Matemática e suas tecnologias (MT) Ciências Humanas e suas tecnologias (CH) Ciências da Natureza e suas tecnologias (CN) Componentes Curriculares Lı́ngua Portuguesa, Literatura, Lı́ngua Estrangeira (Inglês ou Espanhol), Artes, Educação Fı́sica e Tecnologias da Informação e Comunicação Matemática História, Geografia, Filosofia e Sociologia Quı́mica, Fı́sica e Biologia A base original completa tem um alto volume de dados (com 7.410.499 registros totalizando cerca de 7GB de tamanho). Sendo assim, para a realização da análise descritiva e estatı́tica proposta, tornou-se necessário um recorte da base. Em tal caso, foi priorizada somente a região Sudeste, uma vez que esta apresentou a maior representatividade dos dados (isto é, 36% no volume total), como demonstrado na Tabela II. 2 Tabela II: Inscrições por Região - Brasil Região Centro Oeste Nordeste Norte Sudeste Sul Total Qtde Registros 620.998 2.378.678 725.496 2.560.220 888.171 7.173.563 % 9 33 10 36 12 100 A. Análise Descritiva dos Dados - Região Sudeste Após a priorização da região Sudeste, foi realizada análise descritiva como método de análise, focando na apresentação dos dados em forma de gráficos e tabelas. Buscou-se com esse método resumir os dados, priorizando a menor perda de informação possı́vel.A partir disso, as análises foram realizadas com informações apenas dos alunos que compareceram em todas as provas, sendo 1.763.428 registros, ou seja, 69% do total de registros da base (volume de 1,5 GB). No total, foram analisados dados de 2.560.220 participantes, assim distribuı́dos pelos estados: 147.523 (Espı́rito Santo); 797.397 (Minas Gerais); 498.165 (Rio de Janeiro) e 1.117.135 (São Paulo). A distribuição de alunos frequentes por UF é demonstrada na Tabela III. Tabela III: Quantidade de alunos que compareceram em todas as provas por UF UF Espı́rito Santo Minas Gerais Rio de Janeiro São Paulo Total Qtde Inscritos 147.523 797.397 498.165 1.117.135 2.560.220 Qtde Presentes 100.757 561.962 344.334 756.375 1.763.428 % 68 70 69 68 69 As informações selecionadas da base (69%) podem ainda ser compreendidas a partir das categorias Gênero e Cor/Raça, conforme demonstrado, respectivamente, pelas Tabelas IV e V. Tabela IV: Frequência por Gênero Gênero Feminino Masculino Total Qtde Inscritos 1.011.814 751.614 1.763.428 % 57 43 100 essa categoria. A segunda e terceira maior frequência, isto é, 31.3% e 15.3%, são respectivamente, estudantes que até a data do exame ainda estavam cursando o ensino médio e estudantes que o concluı́riam após 2013. O menor ı́ndice de frequência foi 4.2%, representando o número de participantes que não concluiu e não estava cursando o ensino médio (até a data do ENEM 2013). Os três últimos contingentes somados, representam pouco mais da metade dos participantes (50.8%), os quais nessas condições, não possuem os requisitos educacionais formais para ingressar no ensino superior. Tais informações são sumarizadas na tabela VI. Tabela VI: Frequência por Situação do Participante Situação Já concluiu o ensino médio Está cursando e concluirá o ensino médio em 2013 Está cursando e concluirá o ensino médio após 2013 Não concluiu e não está cursando o ensino médio Total Qtde Inscritos 867.037 552.268 270.249 73.874 1.763.428 % 49.2 31.3 15.3 4.2 100 Quando disponibilizados por tipo de escola (Tabela VII), os resultados demonstram que 24% dos participantes no ENEM 2013 declararam-se pertencentes ao tipo de escola Pública e 8% ao tipo Privada. A grande maioria dos participantes não informou essa questão, tendo sido classificados como estudantes egressos. Tabela VII: Frequência por Tipo de Escola do Ensino Médio Tipo Pública Privada Egresso Total Qtde Inscritos 417.082 135.176 1.211.170 1.763.428 % 24 8 69 100 Tem-se ainda que, a grande maioria dos participantes (73%), cursaram ou estavam cursando o ensino médio na modalidade Ensino Regular até a data do exame. Do total de participantes, 20% não informou esse tipo de informação. E, apenas 7% dos estudantes cursaram o ensino médio por meio do Ensino de Jovens e Adultos (EJA). Finalmente, apenas 1% dos estudantes declarou a modalidade Ensino Especial, conforme os dados exibidos na Tabela VIII. Tabela VIII: Frequência por Modalidade Tabela V: Frequência por Cor/Raça Cor/Raça Não declarado Branca Preta Parda Amarela Indı́gena Total Qtde Inscritos 25.032 880.907 211.501 601.046 36.978 7.964 1.763.428 % 1 50 12 34 2 0 100 Apesar de ser facultativo aos concluintes do ensino médio, 49.2% dos participantes do ENEM 2013 são pertencentes a Modalidade Ensino Regular Ensino de Jovens e Adultos Ensino Especial Não informado Total Qtde Inscritos 1.288.700 120.341 8.851 345.536 1.763.428 % 73 7 1 20 100 A partir das informações anteriormente descritas, tornou-se de grande interesse para os autores dessa pesquisa descrever o desempenho dos participantes nos diferentes tipos de provas (LC, MT, CH, CN e REDAÇÃO). A descrição desses dados consistiu em obter resultados quantitativos e/ou quantitativos capazes de expressar 3 informações novas ou de interesse relativas à esse tipo de informação. Para isso, a pesquisa em questão elaborou 4 (quatro) hipótes para realização de uma análise estatı́stica mais detalhada (as quais são apresentadas na seção B). Considerando os dados de interesse, primeiramente tornouse importante compreender a regularidade do conjunto de dados descrito. Para isso, é apresentado na Tabela IX os valores de média, desvio padrão, nota mı́nima e máxima para cada tipo de prova.Tais medidas são úteis para determinar a caracterı́stica de variação do conjunto de dados analisado. Tabela IX: Medidas por Tipo de Prova Tipo Prova CH CN LC MT Redação Média 536.60 485.95 507.46 536.17 532.00 Desv.Padrão 83.29 77.18 74.82 106.27 155.84 Nota Min. 299.50 334.10 286.50 332.40 0 Nota Max. 885.50 897.40 813.13 971.50 1.000 Visando contribuir para a compreensão de tais informações, apresenta-se abaixo a Figura 1. Por meio dessa, é possı́vel observar a existência de outliers na primeira coluna do gráfico (representado pela cor Azul). Essa observação demonstra a quantidade de participantes no ENEM 2013 que tiveram nota baixa na prova de Redação, sendo especificamente 5.474. Pode-se caracterizar esses dados por exibir um grande afastamento dos demais. realizado e seus resultados. 1) Análise de Correlação: O objetivo da hipótese 1 foi avaliar a correlação existente entre algumas variáveis especı́ficas da base de dados. Buscou-se compreender a intensidade e a direção da relação linear [6] entre as variáveis descritas abaixo: a) idade; b) motivo que levou o aluno a participar do ENEM (variável do questionário sócio-econômico) categorizado em 7 respostas possı́veis; c) notas das provas CN, CH, LC, MT (Tabela 01) e da prova de redação. Os valores de média e desvio padrão dessas variáveis são mostrados na Tabela X. Tabela X: Média e Desvio Padrão das Variáveis da Hipótese 01 Variável Idade Motivo 1: Testar conhecimento Motivo 2: Aumentar a possibilidade de conseguir emprego Motivo 3: Progredir no meu emprego atual Motivo 4: Ingressar na Ed. Superior Pública Motivo 5: Ingressar na Ed. Superior Privada Motivo 6: Conseguir bolsa de estudos (Prouni, outras) Motivo 7: Participar do FIES Nota Prova CN Nota Prova CH Nota Prova LC Nota Prova MT Nota Prova Redação Média 22 4 4 2 5 4 4 3 486 537 507 536 532 Desv.Padrão 8 1 2 2 1 2 2 2 77 83 75 106 156 Para a análise de correlação calculou-se a medida estatistica “coeficiente de correlação”. Trata-se de um ı́ndice adimensional com valores situados ente -1,0 e 1.0 inclusive, que reflete a intensidade da relação linear. Uma matriz de correlação (13 x 13) entre as variáveis descritas na Tabela X foi gerada, o gráfico de calor (ou mapa de calor) da mesma é apresentada na figura 3 e os resultados mais relevantes são descritos abaixo: Figura 1: Distribuição de Frequência da nota de Redação. Por fim, para cada uma variáveis CH, CN, LC e MT, tem-se os respectivos gráficos da distribuição de frequência em relação à “Nota de Redação”, conforme apresentado na Figura 2. B. Medidas Estatı́sticas Especı́ficas Conforme descrito anteriormente, a fim de possibilitar a inferência de informações relativas ao desempenho das notas de provas do ENEM 2013, o presente estudo abordou quatro hipóteses. Para cada hipótese foram selecionadas medidas estatı́ticas a fim de estimar diferenças ou similaridades entre as variáveis estudadas. As próximas seções detalham as caracterı́sticas das hipóteses levantadas, bem como o procedimento estatı́stico – – – 0,44 (correl. positiva moderada) entre os motivos 5 e 6; 0,51 (correl. positiva moderada) entre os motivos 6 e 7; 0,39 (correl. positiva fraca) entre os motivos 5 e 7. Já entre as notas das provas obteve-se os seguintes valores de correlação: – – – correlação de 0,66 entre as notas das provas CN e MT; correlação de 0,68 entre as notas das provas CN e CH; correlação de 0,74 entre as notas das provas CH e CL. Os coeficientes encontrados para todos os pares de variáveis relativas às notas das provas indicaram correlação positiva forte, denotando que as variáveis descritas são diretamente proporcionais. 4 (a) Prova CH (b) Prova CN (c) Prova LC (d) Prova MT Figura 2: Distribuição de frequência das notas das provas CN, CH, LC e MT. Ou seja, o intuito foi analisar se o tipo de escola do aluno, bem como seu acesso aos meios de comunicação ou cursos preparatórios variam conjuntamente à nota de redação. Em tal caso, as correlações positivas encontradas mais significativas são: – – Figura 3: Gráfico de Calor das Correlações da Hipótese 1 Esse resultado pode ser visualizado no Gráfico de Calor (Figura 3), sendo representado pela região inferior-direita, destacada pela cor Vermelho, isto é, valores mais próximos à 1(um). A variável idade não apresentou correlação significativa em nenhum dos casos analisados. Todos os coeficientes obtidos tiveram valor abaixo de 0,2 (em módulo). 2) Análise de Regressão Linear: Ainda buscando compreender a existência de correlação no conjunto de dados, a segunda hipótese objetivou mensurar o grau de relacionamento entre algumas variáveis da base. Neste caso, aplicou-se a metodologia Regressão Linear em dois exemplos especı́ficos, descritos a seguir. Exemplo 01: O primeiro exemplo visou analisar o grau de relacionamento entre as variáveis (a-f) em relação à variável f, sendo as mesmas informadas abaixo: a) tipo de escola do ensino médio (particular ou pública); b) acesso a computador em casa ou Internet; c) acesso a TV por assinatura na residência; d) frequência em cursos preparatórios, curso superior ou de lı́ngua estrangeira; e) aluno trabalha ou trabalhou (sim ou não). f) nota da prova de redação. Correlação de 0,31 entre as variáveis nota de redação e tipo de escola; Correlação de 0,48 entre as variáveis trabalha ou trabalhou e frequência em cursos preparatórios. A partir da existência de relação funcional entre as variáveis descritas acima, objetivou-se então determinar uma função matemática a fim de exprimir esse relacionamento. A mensuração dos parâmetros dessa função é objeto da regressão linear. O procedimento foi realizado, chegando-se na Equação 1. 87, 73 + 7, 99 ∗ AceCompInter − 6, 13 ∗ F reqCurso + (1) 3, 07 ∗ T vAssin + 19, 7 ∗ T pEscola − 5, 35 ∗ T rabSN. Ainda na obtenção da equação de regressão, calculou-se o coeficiente de determinação R2 , a fim de avaliar a quantidade de variabilidade dos dados que o modelo de regressão encontrado é capaz de explicar. Pode-se considerá-lo um estimador de qualidade do modelo de regressão. Os valores obtidos são dados no intervalo 0 ≤ R2 ≤ 1 [3]. Para a Equação 1, o R2 calculado foi igual a 0, 119. Esse valor indica que o modelo de regressão não é considerado adequado, uma vez que está distante do valor máximo 1. Isso pode ser explicado pelo baixo grau de correlação entre as variáveis do modelo encontrado. Conforme anteriormente descrito, as correlações positivas mais significativas indicaram, respectivamente, correlação positiva fraca (0,31) e correlação positiva moderada (0,48). Exemplo 02: Para este exemplo, o objetivo foi avaliar se a média da nota de redação pode ser explicada através da UF em que o aluno fez a prova, sexo, idade, situação de conclusão do ensino médio (em andamento ou concluı́da) e classe social. As correlações mais significativas encontradas neste exemplo foram: 5 – Correlação de -0,35 entre a variável média nota de redação e classe social E; – Correlação de 0,22 entre a variável de média de nota de redação e classe social B; – Correlação de 0,25 entre a variável de média da notas de redação e a classe social C. As correlações exibidas acima apresentam um valor crescente em função da classe social combinada com o maior volume de alunos concentrados na classe social C. A correlação da média da nota de redação e o sexo apresentou um valor de -0,7 para alunos do sexo feminino (sendo negativa e fraca). Já em relação a UF em que o aluno fez a prova, o maior valor encontrado foi de 0,02 para a UF do RJ (positiva e fraca). A execução do procedimento realizado gerou a seguinte equação: 478, 25 + 5, 81 ∗ U f M G + 8, 68 ∗ U f RJ − 5, 47 ∗ U f ES (2) Figura 4: Resultado da análise de agrupamento, utilizando o algoritmo DBScan −4, 99 ∗ F em + 150, 23 ∗ ClassA + 130, 10 ∗ ClassB +87, 52 ∗ ClassC + 46, 83 ∗ ClassD + 13, 27 ∗ ClassE. No caso da Equação 2, o R2 calculado foi igual a 0, 203. Esse valor indica que o modelo de regressão também não é adequado para explicar as correlações, já que o valor é baixo em relação ao valor máximo 1. 3) Análise de Agrupamentos: Na terceira hipótese objetivou-se descobrir grupos e identificar padrões na base de dados, a fim de contribuir para o entendimento dos dados. Para isso, abordou-se a técnica Análise de Agrupamentos. Nesta técnica não há classes pré-definidas, sendo os elementos agrupados conforme a similaridade entre eles. Neste contexto, o objetivo inicial foi avaliar a distribuição dos dados relativos a três atributos da base de dados, sendo definidos as notas das seguintes provas: Ciências da Natureza (CN), Ciências Humanas (CH) e Linguagens e Códigos (LC). Para realização deste teste foi utilizado a implementação de dois algoritmos de agrupamento disponı́veis no software Weka. O algoritmo DBSCAN [5] foi o primeiro método avaliado. O algoritmo pertence a classe de métodos baseado em densidade. A estratégia baseada em densidade possibilita a identificação de grupos em formatos não esféricos, uma vantagem em relação as demais técnicas clássicas. Além disso, o usuário não é obrigado a informar um número de grupos a serem identificados. Note que, ao ser executado primeiro em relação as demais técnicas pode-se obter um número k de grupos com um mı́nimo de confiabilidade. Na Figura 4 é apresentado o resultado desse experimento. Observe que, apenas um cluster foi identificado pelo algoritmo DBSCAN, representado pela cor azul. No eixo x foi plotado o atributo CH e no eixo y o atributo CN. Logo, a estratégia para obter, no pior caso, um número k de grupos não foi bem sucedida. O algoritmo K-Means, ou algoritmo das K-médias, foi utilizado em seguida. O K-Means exige que o usuário informe uma quantidade k de clusters a serem identificados. Além disso, é necessário, também, prover uma métrica de distância para mensurar a proximidade ou similaridade entre as amostras. Neste caso, foi utilizada a distância Euclidiana. Na figura 6 é mostrado o resultado obtido da execução do algoritmo K-Means executado sobre as variáveis de nota de prova com k = 8. O eixo x representa a variável da nota da prova CN e o eixo y a variável da nota CH. Note que, como o K-Means é um algoritmo baseado em particionamento, os grupos encontrados, neste experimento, possuem fronteiras bem definidas, ou seja, é possı́vel compor um conjunto de retas que explicam a divisão dos grupos. É notável a identificação de um grupo (cor azul na figura 5) de participantes que obtiveram bom desempenho nas três provas consideradas neste cenário. O mesmo acontece para os participantes com desempenho insatisfatório (amostras em vermelho) nas três provas. É importante ressaltar que, o valor k = 8, escolhido para execução do algoritmo K-Means, considera as 23 combinações de desempenho em que um candidato pode ter nas três provas consideradas. Por exemplo, um candidato pode ter obtido desempenho satisfatório nas três provas, ou pode ter obtido desempenho satisfatório em duas e insatisfatório na terceira e assim por diante. Na figura 7, as amostras são coloridas conforme o desempenho do participante na Redação. Observe que, existe uma relação entre os grupos obtidos pelo experimento com o K-Means e o desempenho dos participantes em Redação. Note que, o grupo com o melhor desempenho nas três provas analisadas (cluster de cor azul na figura 5) possui as amostras com coloração amarelo-avermelhada mais intensa, ou seja, notas melhores em Redação. Finalmente, o algoritmo K-Means foi avaliado considerando um número elevado de grupos, k = 28. O objetivo é obter um agrupamento melhor em relação ao experimento anterior. A ideia é elevar o número k de grupos na esperança que o algoritmo identifique os grupos de maneira a minimizar a 6 Figura 5: Resultado da análise de agrupamento, utilizando o algoritmo K-Means com 8 clusters distância intra-grupo e maximizar a distância inter-grupo. O resultado deste experimento é apresentado na figura 6. O resultado desse experimento não foi considerado satisfatório, pois muitos grupos mostraram-se misturados. Portanto, o aumento do número k de clusters não é uma estratégia bem sucedida neste cenário, e consideramos que k = 8 é um valor aceitável para identificação de grupos de participantes de acordo com seu desempenho nas três provas observadas. Figura 7: Desempenho em Ciências Humanas × Ciências da Natureza, e a nota da Redação (amostras de cor amarelo-avermelhada intensa indicam melhor desempenho em Redação). As regras de associação buscam descrever padrões (novos e úteis) de relacionamento entre os itens de uma base de dados [4]. As regras de associação obtidas estão no formato “A implica B”, onde A e B são dois conjuntos disjuntos de itens dos dados. Pode-se ainda representá-las por meio da notação A −→ B. Para avaliar a força das regras obtidas (grau de interesse) calculou-se a medida Confiança, a qual pode ser representada por conF (A −→ B). Esta medida indica a porcentagem das amostras que suportam B dentre todas as amostras que suportam A. Nesse caso, a quarta hipótese buscou inferir regras de associação para os atributos relacionados às notas dos participantes, a partir dos seguintes atributos: – Nota da – Nota da – Nota da – Nota da – Nota da Figura 6: Resultado da análise de agrupamento, utilizando o algoritmo K-Means com 28 clusters 4) Análise Associativa: Visando descobrir relações interessantes,porém não visı́veis, no conjunto de dados, o presente estudo executou sobre algumas variáveis o método de análise associativa.Trata-se de uma metodologia que visa descobrir relacionamentos a partir da inferência de Regras de Associação. prova prova prova prova prova de de de de de Ciências da Natureza; Ciências Humanas; Linguagens e Códigos; Matemática; Redação. A partir disso, no software Weka, executou-se o algoritmo Apriori [6], que extrai regras de associação, com um suporte mı́nimo de 0.001%. As principais regras inferidas são sumarizadas abaixo: – Regra 1: Participantes com nota de CH entre 529.10 e 530.70 e nota de LC entre 286.50 e 508.90 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 2: Participantes com nota de CH entre 518.30 e 519.90 e nota de LC entre 286.50 e 508.90 e nota de 7 redação entre 0 e 20 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 3: Participantes com nota de CN entre 568.20 e 569.90 e nota de LC entre 286.50 e 508.90 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 4: Participantes com nota de CN entre 299.50 e 538.20 e nota de CH entre 334.10 e 487.40 e nota de MT entre 322.40 e 538.20 têm a tendência de obter nota de LC entre 286.50 e 508.90; – Regra 5: Participantes com nota de CH entre 526 e 527 e nota de LC entre 286.50 e 508.90 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 6: Participantes com nota de CH entre 519.90 e 521.40 e nota de LC entre 286.50 e 508.90 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 7: Participantes com nota de CH entre 527.60 e 529.10 e nota de LC entre 286.50 e 508.90 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 8: Alunos com nota de CN entre 299.50 e 538.20 e nota de LC entre 286.50 e 508.90 e nota de CH entre 334.10 e 487.40 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 9: Participantes com nota de CN entre 556.50 e 558.20 e nota de LC entre 286.50 e 508.90 e nota de redação entre 0 e 20 têm a tendência de obter nota de MT entre 322.40 e 538.20; – Regra 10: Participantes com nota de CH entre 521.40 e 522.90 e nota de LC entre 286.5 e 508.90 têm a tendência de obter nota de MT entre 322.40 e 538.20. Os resultados obtidos mostraram-se relevantes, considerando que os valores de confiança ficaram próximos de 1, conforme apresentado na Tabela XI. Observe que, há uma interseção entre as regras, muitas possuem como consequente a nota da prova de Matemática, ou seja, uma condição A leva a um consequente B, tal que B é a prova de Matemática. Note ainda que, os intervalos da pontuação obtida em matemática, que aparecem nas regras, são baixos. A menor nota em Matemática é 322.4, logo as regras consideram os candidatos que obtiveram o desempenho mais fraco da região sudeste. Pode-se ainda ressaltar o seguinte padrão observado nas regras de associação extraı́das: desempenho fraco, ou abaixo da média, em questões relativas a ciências humanas, da natureza e linguagens (provas de CN, CH e LC) tendem a gerar desempenho também fraco em Matemática, mas o contrário não é claramente observável. O leitor pode estar se questionando sobre a validade da última afirmação, pois a regra 4 afirma, em sı́ntese, que um desempenho fraco em CN, CH e MT (Matemática) tende a gerar desempenho fraco na prova de Tabela XI: Regras de associação. Regra de associação 1,2 3 4 5 6,7 8 9,10 Confiança 1 0.97 0.95 0.92 0.91 0.90 0.89 Linguagens. Contudo, é importante observar que: (a) a regra 4 é a única que coloca MT na condição, entretanto, tem-se 9 regras que corroboram a afirmação anterior, e (b) a regra 4 não está no topo do ranking (conf iança = 0.95). Na figura 2d nota-se que, uma quantidade maior de candidatos obtém desempenho fraco na prova de Matemática, em relação ao número de participantes que vão mal nas demais provas. É notável que o histograma referente a prova de Matemática não apresenta a curva caracterı́stica da distribuição gaussiana precisamente. Essa particularidade corrobora o fato de muitas regras possuı́rem como consequente o desempenho em Matemática. III. C ONCLUS ÃO Este trabalho objetivou realizar uma tarefa especı́fica proposta na disciplina Reconhecimento de Padrões (1/2015) da Universidade Federal de Uberlândia. O objetivo proposto foi realizar uma Análise de dados em uma base previamente definida. Para tanto, a pesquisa em questão explorou a base de dados Enem 2013, disponibilizada pelo Inep. A metodologia de estudo adotada foi a estatı́stica descritiva (ou análise de conteúdo) que descreve as caracterı́sticas dos dados obtidos e busca atribuir ao estudo um caráter quantitativo. Os resultados obtidos foram representados em forma de gráficos e tabelas, o que permitiu uma uma descrição imediata das informações coletadas. Para extração de informações novas (ou relevantes) foram elaboradas quatro hipóteses de estudo, as quais, através de análises estatı́sticas puderam ser exploradas. Os métodos estatı́sticos utilizados, bem como seus resultados foram apresentados e discutidos ao longo desse trabalho. De modo geral, é possı́vel dizer que as hipóteses selecionadas buscaram compreender e/ou extrair informações relativas ao desempenho das provas nas áreas do conhecimento contempladas pelo exame. Os resultados das regiões brasileiras nas diversas áreas do conhecimento variam. Contudo, é importante frisar que o presente estudo realizou experimentos sobre os dados relativos à Região Sudeste. Em tal caso, o estudo apresenta respostas às aplicações das técnicas Análise de Correlação, Análise de Regressão Linear, Análise de Agrupamentos e Análise Associativa. Como últimas considerações, observa-se que devido a complexidade e tamanho da base de dados ENEM 2013, para maiores conclusões sobre o objeto de estudo é necessário a realização de uma análise estatı́stica mais detalhada. Contudo, os esforços realizados na aplicação das técnicas anteriormente descritas, bem como o estudo estatı́stico e exploratório da 8 base de dados ENEM 2013 contribuiu para fixação dos conhecimentos obtidos na disciplina Reconhecimento de Padrões (UFU 01/2015). Isso porque, o desenvolvimento dessa proposta de estudo permitiu aos autores da pesquisa realizar a implementação prática de diversos conceitos vistos em sala de aula. R EFER ÊNCIAS [1] [2] [3] [4] [5] [6] BRASIL. Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira (Inep). Enem: documento básico. Brası́lia, 1998. Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira. Microdados do Enem 2013. Brası́lia: Inep, 2015. Disponı́vel em: ¡http://portal.inep.gov.br/basicalevantamentos-acessar¿. Acesso em: 30 mai. 2015. Análise de Dados: Modelagem Multivariada para Tomada de Decisões, Fávero. Luiz Paulo Lopes, 2009, Elsevier. Introduction to Data Mining. Tan, P.N., Steinbach, M. and Kumar, V., 2005. Addison-Wesley. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Ester, M.; Kriegel, H.-P.; Sander, J. and Xu, X., 1966. Second International Conference on Knowledge Discovery and Data Mining, AAAI Press. p. 226-231. Notas da disciplina de mineração de dados: Aula 2. Sandra de Amo, 2006. Universidade Federal de Uberlândia. Disponı́vel em: http://www.deamo.prof.ufu.br/arquivos/Aula2.pdf.