1
Análise de Dados da Base ENEM 2013
Adriana Martins, Daniela Justiniano e Guilherme Alves
Programa de Pós-graduação em Ciência da Computação
Universidade Federal de Uberlândia (UFU)
Av. João Naves de Ávila, 2121, Bloco 1B, Campus Santa Mônica – Uberlândia MG, Brasil
[email protected], [email protected], [email protected]
Resumo—Esse estudo apresenta os resultados de uma análise
realizada sobre a base de dados ENEM 2013, atividade proposta
na disciplina Reconhecimento de Padrões (PGC204) no Programa
de Pós Graduação da Universidade Federal de Uberlândia, no
primeiro semestre de 2015. Foi realizado inicialmente a análise
descritiva da base utlizando o software SPSS, versão 13.0 para
Windows e também o software WEKA versão 3.7.12, seguida
de algumas análises estatı́sticas. O objetivo geral consiste na
interpretação dos dados quantitativos e qualitativos, a fim de
produzir resultados que caracterizem informações relevantes da
base de dados descrita.
Keywords—Reconhecimento de padrões, análise descritiva e
estatı́stica de dados, ENEM.
I.
I NTRODUÇ ÃO
A prosposta deste trabalho é realizar uma avaliação estatı́stica da base de dados ENEM 2013. Essa base é disponibilizada pelo portal do Instituto Nacional de Estudos e Pesquisas
Educacionais Anı́sio Teixeira (INEP) e é constituı́da de dados
quantitativos e qualitiativos referente ao Exame Nacional do
Ensino Médio (ENEM).
O ENEM foi criado em 1998 com o objetivo de avaliar
o desempenho do estudante ao completar a educação básica,
visando assim contribuir para a melhoria da qualidade desse
nı́vel de escolaridade. No inı́cio de 2009 passou a ser utilizado como mecanismo de seleção para o ingresso no Ensino
Superior em diversas universidades do Brasil e também permitindo acesso aos programas oferecidos pelo Governo Federal,
como o Programa Universidade para Todos (ProUni), Fundo
de Financiamento Estudantil (Fies) e o programa Ciência
sem Fronteiras [1]. É evidente a importância que o Enem
assume no cenário educacional brasileiro dado seu impacto
na democratização do acesso ao ensino superior e à promoção
da reforma curricular no ensino médio.
Nesse sentido, o presente trabalho realizou uma análise
exploratória dos dados contidos na base ENEM 2013, inicialmente por meio de análise descritiva, a qual foca na
organização e resumo dos dados. Após isso, estabeleceu-se
algumas hipóteses sobre a base e buscou-se conclusões que
melhor caracterizassem as informações nela contidas, como
por exemplo, alguma regularidade ou padrão através do uso
de algumas técnicas estatı́sticas.
O detalhamento das análises realizadas, bem como técnicas
estatı́sticas utilizadas estão apresentados nas seções posteriores.
II.
A BASE DE DADOS ENEM 2013
Os dados utilizados neste trabalho foram coletados no portal
online do Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira (Inep), o qual disponibiliza de forma
pública bases de dados no formato .csv, com o nome microdados. As bases dos microdados do Enem estão disponı́veis em
[2] desde sua primeira edição em 1998. Definiu-se a base de
dados “Enem 2013” por ser a mais recente disponibilizada no
primeiro semestre de 2015. Os microdados trazem informações
genéricas sobre a avaliação, como variáveis de controle do
inscrito, de controle da escola, da prova objetiva, da prova
de redação e caracterı́sticas do questionário socioeconômico
(que contempla questões sobre nı́vel socioeconômico, famı́lia,
educação, trabalho, escola, interesses, expectativas, entre outros temas). A partir desses dados é possı́vel extrair uma série
de informações, as quais podem direcionar pesquisas e ações
diversas voltadas à alunos, escolas, professores e até mesmo
polı́ticas governamentais.
No que se refere à prova objetiva, a edição de 2013
está estruturada em 4 (quatro) provas, uma de cada área do
conhecimento, contendo 45 (quarenta e cinco) questões de
múltipla escolha e uma redação, englobando os componentes
curriculares descritos na Tabela I.
Tabela I: Descrição das Áreas de Conhecimento e Componentes Curriculares do Enem.
Área do Conhecimento
Linguagens, Códigos e suas tecnologias (LC)
Matemática e suas tecnologias (MT)
Ciências Humanas e suas tecnologias (CH)
Ciências da Natureza e suas tecnologias (CN)
Componentes Curriculares
Lı́ngua Portuguesa, Literatura,
Lı́ngua Estrangeira (Inglês ou
Espanhol), Artes, Educação Fı́sica
e Tecnologias da Informação e
Comunicação
Matemática
História, Geografia, Filosofia e Sociologia
Quı́mica, Fı́sica e Biologia
A base original completa tem um alto volume de dados (com
7.410.499 registros totalizando cerca de 7GB de tamanho).
Sendo assim, para a realização da análise descritiva e estatı́tica
proposta, tornou-se necessário um recorte da base. Em tal caso,
foi priorizada somente a região Sudeste, uma vez que esta
apresentou a maior representatividade dos dados (isto é, 36%
no volume total), como demonstrado na Tabela II.
2
Tabela II: Inscrições por Região - Brasil
Região
Centro Oeste
Nordeste
Norte
Sudeste
Sul
Total
Qtde Registros
620.998
2.378.678
725.496
2.560.220
888.171
7.173.563
%
9
33
10
36
12
100
A. Análise Descritiva dos Dados - Região Sudeste
Após a priorização da região Sudeste, foi realizada análise
descritiva como método de análise, focando na apresentação
dos dados em forma de gráficos e tabelas. Buscou-se com
esse método resumir os dados, priorizando a menor perda de
informação possı́vel.A partir disso, as análises foram realizadas
com informações apenas dos alunos que compareceram em
todas as provas, sendo 1.763.428 registros, ou seja, 69% do
total de registros da base (volume de 1,5 GB).
No total, foram analisados dados de 2.560.220 participantes,
assim distribuı́dos pelos estados: 147.523 (Espı́rito Santo);
797.397 (Minas Gerais); 498.165 (Rio de Janeiro) e 1.117.135
(São Paulo). A distribuição de alunos frequentes por UF é
demonstrada na Tabela III.
Tabela III: Quantidade de alunos que compareceram em todas
as provas por UF
UF
Espı́rito Santo
Minas Gerais
Rio de Janeiro
São Paulo
Total
Qtde Inscritos
147.523
797.397
498.165
1.117.135
2.560.220
Qtde Presentes
100.757
561.962
344.334
756.375
1.763.428
%
68
70
69
68
69
As informações selecionadas da base (69%) podem ainda
ser compreendidas a partir das categorias Gênero e Cor/Raça,
conforme demonstrado, respectivamente, pelas Tabelas IV e V.
Tabela IV: Frequência por Gênero
Gênero
Feminino
Masculino
Total
Qtde Inscritos
1.011.814
751.614
1.763.428
%
57
43
100
essa categoria. A segunda e terceira maior frequência, isto
é, 31.3% e 15.3%, são respectivamente, estudantes que até
a data do exame ainda estavam cursando o ensino médio e
estudantes que o concluı́riam após 2013. O menor ı́ndice de
frequência foi 4.2%, representando o número de participantes
que não concluiu e não estava cursando o ensino médio
(até a data do ENEM 2013). Os três últimos contingentes
somados, representam pouco mais da metade dos participantes
(50.8%), os quais nessas condições, não possuem os requisitos
educacionais formais para ingressar no ensino superior. Tais
informações são sumarizadas na tabela VI.
Tabela VI: Frequência por Situação do Participante
Situação
Já concluiu o ensino médio
Está cursando e concluirá o ensino médio em 2013
Está cursando e concluirá o ensino médio após 2013
Não concluiu e não está cursando o ensino médio
Total
Qtde Inscritos
867.037
552.268
270.249
73.874
1.763.428
%
49.2
31.3
15.3
4.2
100
Quando disponibilizados por tipo de escola (Tabela VII), os
resultados demonstram que 24% dos participantes no ENEM
2013 declararam-se pertencentes ao tipo de escola Pública
e 8% ao tipo Privada. A grande maioria dos participantes
não informou essa questão, tendo sido classificados como
estudantes egressos.
Tabela VII: Frequência por Tipo de Escola do Ensino Médio
Tipo
Pública
Privada
Egresso
Total
Qtde Inscritos
417.082
135.176
1.211.170
1.763.428
%
24
8
69
100
Tem-se ainda que, a grande maioria dos participantes (73%),
cursaram ou estavam cursando o ensino médio na modalidade
Ensino Regular até a data do exame. Do total de participantes,
20% não informou esse tipo de informação. E, apenas 7% dos
estudantes cursaram o ensino médio por meio do Ensino de
Jovens e Adultos (EJA). Finalmente, apenas 1% dos estudantes
declarou a modalidade Ensino Especial, conforme os dados
exibidos na Tabela VIII.
Tabela VIII: Frequência por Modalidade
Tabela V: Frequência por Cor/Raça
Cor/Raça
Não declarado
Branca
Preta
Parda
Amarela
Indı́gena
Total
Qtde Inscritos
25.032
880.907
211.501
601.046
36.978
7.964
1.763.428
%
1
50
12
34
2
0
100
Apesar de ser facultativo aos concluintes do ensino médio,
49.2% dos participantes do ENEM 2013 são pertencentes a
Modalidade
Ensino Regular
Ensino de Jovens e Adultos
Ensino Especial
Não informado
Total
Qtde Inscritos
1.288.700
120.341
8.851
345.536
1.763.428
%
73
7
1
20
100
A partir das informações anteriormente descritas, tornou-se
de grande interesse para os autores dessa pesquisa descrever
o desempenho dos participantes nos diferentes tipos de provas
(LC, MT, CH, CN e REDAÇÃO).
A descrição desses dados consistiu em obter resultados quantitativos e/ou quantitativos capazes de expressar
3
informações novas ou de interesse relativas à esse tipo de
informação. Para isso, a pesquisa em questão elaborou 4
(quatro) hipótes para realização de uma análise estatı́stica mais
detalhada (as quais são apresentadas na seção B).
Considerando os dados de interesse, primeiramente tornouse importante compreender a regularidade do conjunto de
dados descrito. Para isso, é apresentado na Tabela IX os valores
de média, desvio padrão, nota mı́nima e máxima para cada tipo
de prova.Tais medidas são úteis para determinar a caracterı́stica
de variação do conjunto de dados analisado.
Tabela IX: Medidas por Tipo de Prova
Tipo Prova
CH
CN
LC
MT
Redação
Média
536.60
485.95
507.46
536.17
532.00
Desv.Padrão
83.29
77.18
74.82
106.27
155.84
Nota Min.
299.50
334.10
286.50
332.40
0
Nota Max.
885.50
897.40
813.13
971.50
1.000
Visando contribuir para a compreensão de tais informações,
apresenta-se abaixo a Figura 1. Por meio dessa, é possı́vel
observar a existência de outliers na primeira coluna do gráfico
(representado pela cor Azul). Essa observação demonstra a
quantidade de participantes no ENEM 2013 que tiveram nota
baixa na prova de Redação, sendo especificamente 5.474.
Pode-se caracterizar esses dados por exibir um grande afastamento dos demais.
realizado e seus resultados.
1) Análise de Correlação: O objetivo da hipótese 1
foi avaliar a correlação existente entre algumas variáveis
especı́ficas da base de dados. Buscou-se compreender a
intensidade e a direção da relação linear [6] entre as variáveis
descritas abaixo:
a) idade;
b) motivo que levou o aluno a participar do ENEM (variável
do questionário sócio-econômico) categorizado em 7 respostas
possı́veis;
c) notas das provas CN, CH, LC, MT (Tabela 01) e da prova
de redação.
Os valores de média e desvio padrão dessas variáveis são
mostrados na Tabela X.
Tabela X: Média e Desvio Padrão das Variáveis da Hipótese
01
Variável
Idade
Motivo 1: Testar conhecimento
Motivo 2: Aumentar a possibilidade de conseguir emprego
Motivo 3: Progredir no meu emprego atual
Motivo 4: Ingressar na Ed. Superior Pública
Motivo 5: Ingressar na Ed. Superior Privada
Motivo 6: Conseguir bolsa de estudos (Prouni, outras)
Motivo 7: Participar do FIES
Nota Prova CN
Nota Prova CH
Nota Prova LC
Nota Prova MT
Nota Prova Redação
Média
22
4
4
2
5
4
4
3
486
537
507
536
532
Desv.Padrão
8
1
2
2
1
2
2
2
77
83
75
106
156
Para a análise de correlação calculou-se a medida
estatistica “coeficiente de correlação”. Trata-se de um ı́ndice
adimensional com valores situados ente -1,0 e 1.0 inclusive,
que reflete a intensidade da relação linear. Uma matriz de
correlação (13 x 13) entre as variáveis descritas na Tabela X
foi gerada, o gráfico de calor (ou mapa de calor) da mesma
é apresentada na figura 3 e os resultados mais relevantes são
descritos abaixo:
Figura 1: Distribuição de Frequência da nota de Redação.
Por fim, para cada uma variáveis CH, CN, LC e MT, tem-se
os respectivos gráficos da distribuição de frequência em relação
à “Nota de Redação”, conforme apresentado na Figura 2.
B. Medidas Estatı́sticas Especı́ficas
Conforme descrito anteriormente, a fim de possibilitar a
inferência de informações relativas ao desempenho das notas
de provas do ENEM 2013, o presente estudo abordou quatro
hipóteses.
Para cada hipótese foram selecionadas medidas estatı́ticas a
fim de estimar diferenças ou similaridades entre as variáveis
estudadas. As próximas seções detalham as caracterı́sticas das
hipóteses levantadas, bem como o procedimento estatı́stico
–
–
–
0,44 (correl. positiva moderada) entre os motivos 5 e 6;
0,51 (correl. positiva moderada) entre os motivos 6 e 7;
0,39 (correl. positiva fraca) entre os motivos 5 e 7.
Já entre as notas das provas obteve-se os seguintes valores
de correlação:
–
–
–
correlação de 0,66 entre as notas das provas CN e MT;
correlação de 0,68 entre as notas das provas CN e CH;
correlação de 0,74 entre as notas das provas CH e CL.
Os coeficientes encontrados para todos os pares de variáveis
relativas às notas das provas indicaram correlação positiva
forte, denotando que as variáveis descritas são diretamente
proporcionais.
4
(a) Prova CH
(b) Prova CN
(c) Prova LC
(d) Prova MT
Figura 2: Distribuição de frequência das notas das provas CN, CH, LC e MT.
Ou seja, o intuito foi analisar se o tipo de escola do aluno,
bem como seu acesso aos meios de comunicação ou cursos
preparatórios variam conjuntamente à nota de redação. Em tal
caso, as correlações positivas encontradas mais significativas
são:
–
–
Figura 3: Gráfico de Calor das Correlações da Hipótese 1
Esse resultado pode ser visualizado no Gráfico de Calor
(Figura 3), sendo representado pela região inferior-direita,
destacada pela cor Vermelho, isto é, valores mais próximos
à 1(um).
A variável idade não apresentou correlação significativa em
nenhum dos casos analisados. Todos os coeficientes obtidos
tiveram valor abaixo de 0,2 (em módulo).
2) Análise de Regressão Linear: Ainda buscando
compreender a existência de correlação no conjunto de
dados, a segunda hipótese objetivou mensurar o grau de
relacionamento entre algumas variáveis da base. Neste caso,
aplicou-se a metodologia Regressão Linear em dois exemplos
especı́ficos, descritos a seguir.
Exemplo 01:
O primeiro exemplo visou analisar o grau de relacionamento
entre as variáveis (a-f) em relação à variável f, sendo as
mesmas informadas abaixo:
a) tipo de escola do ensino médio (particular ou pública);
b) acesso a computador em casa ou Internet;
c) acesso a TV por assinatura na residência;
d) frequência em cursos preparatórios, curso superior ou de
lı́ngua estrangeira;
e) aluno trabalha ou trabalhou (sim ou não).
f) nota da prova de redação.
Correlação de 0,31 entre as variáveis nota de redação
e tipo de escola;
Correlação de 0,48 entre as variáveis trabalha ou
trabalhou e frequência em cursos preparatórios.
A partir da existência de relação funcional entre as variáveis
descritas acima, objetivou-se então determinar uma função matemática a fim de exprimir esse relacionamento. A mensuração
dos parâmetros dessa função é objeto da regressão linear. O
procedimento foi realizado, chegando-se na Equação 1.
87, 73 + 7, 99 ∗ AceCompInter − 6, 13 ∗ F reqCurso + (1)
3, 07 ∗ T vAssin + 19, 7 ∗ T pEscola − 5, 35 ∗ T rabSN.
Ainda na obtenção da equação de regressão, calculou-se o
coeficiente de determinação R2 , a fim de avaliar a quantidade
de variabilidade dos dados que o modelo de regressão encontrado é capaz de explicar. Pode-se considerá-lo um estimador
de qualidade do modelo de regressão. Os valores obtidos são
dados no intervalo 0 ≤ R2 ≤ 1 [3].
Para a Equação 1, o R2 calculado foi igual a 0, 119. Esse
valor indica que o modelo de regressão não é considerado
adequado, uma vez que está distante do valor máximo 1.
Isso pode ser explicado pelo baixo grau de correlação entre
as variáveis do modelo encontrado. Conforme anteriormente
descrito, as correlações positivas mais significativas indicaram,
respectivamente, correlação positiva fraca (0,31) e correlação
positiva moderada (0,48).
Exemplo 02:
Para este exemplo, o objetivo foi avaliar se a média da nota
de redação pode ser explicada através da UF em que o aluno
fez a prova, sexo, idade, situação de conclusão do ensino
médio (em andamento ou concluı́da) e classe social.
As correlações mais significativas encontradas neste exemplo
foram:
5
–
Correlação de -0,35 entre a variável média nota de
redação e classe social E;
– Correlação de 0,22 entre a variável de média de nota
de redação e classe social B;
– Correlação de 0,25 entre a variável de média da notas
de redação e a classe social C.
As correlações exibidas acima apresentam um valor crescente em função da classe social combinada com o maior volume de alunos concentrados na classe social C. A correlação
da média da nota de redação e o sexo apresentou um valor de
-0,7 para alunos do sexo feminino (sendo negativa e fraca). Já
em relação a UF em que o aluno fez a prova, o maior valor
encontrado foi de 0,02 para a UF do RJ (positiva e fraca).
A execução do procedimento realizado gerou a seguinte
equação:
478, 25 + 5, 81 ∗ U f M G + 8, 68 ∗ U f RJ − 5, 47 ∗ U f ES (2) Figura 4: Resultado da análise de agrupamento, utilizando o
algoritmo DBScan
−4, 99 ∗ F em + 150, 23 ∗ ClassA + 130, 10 ∗ ClassB
+87, 52 ∗ ClassC + 46, 83 ∗ ClassD + 13, 27 ∗ ClassE.
No caso da Equação 2, o R2 calculado foi igual a 0, 203.
Esse valor indica que o modelo de regressão também não é
adequado para explicar as correlações, já que o valor é baixo
em relação ao valor máximo 1.
3) Análise de Agrupamentos: Na terceira hipótese
objetivou-se descobrir grupos e identificar padrões na base
de dados, a fim de contribuir para o entendimento dos dados.
Para isso, abordou-se a técnica Análise de Agrupamentos.
Nesta técnica não há classes pré-definidas, sendo os elementos
agrupados conforme a similaridade entre eles. Neste contexto,
o objetivo inicial foi avaliar a distribuição dos dados relativos
a três atributos da base de dados, sendo definidos as notas
das seguintes provas: Ciências da Natureza (CN), Ciências
Humanas (CH) e Linguagens e Códigos (LC). Para realização
deste teste foi utilizado a implementação de dois algoritmos
de agrupamento disponı́veis no software Weka.
O algoritmo DBSCAN [5] foi o primeiro método avaliado. O
algoritmo pertence a classe de métodos baseado em densidade.
A estratégia baseada em densidade possibilita a identificação
de grupos em formatos não esféricos, uma vantagem em
relação as demais técnicas clássicas. Além disso, o usuário
não é obrigado a informar um número de grupos a serem
identificados. Note que, ao ser executado primeiro em relação
as demais técnicas pode-se obter um número k de grupos com
um mı́nimo de confiabilidade.
Na Figura 4 é apresentado o resultado desse experimento.
Observe que, apenas um cluster foi identificado pelo algoritmo
DBSCAN, representado pela cor azul. No eixo x foi plotado
o atributo CH e no eixo y o atributo CN. Logo, a estratégia
para obter, no pior caso, um número k de grupos não foi bem
sucedida.
O algoritmo K-Means, ou algoritmo das K-médias, foi utilizado em seguida. O K-Means exige que o usuário informe uma
quantidade k de clusters a serem identificados. Além disso,
é necessário, também, prover uma métrica de distância para
mensurar a proximidade ou similaridade entre as amostras.
Neste caso, foi utilizada a distância Euclidiana.
Na figura 6 é mostrado o resultado obtido da execução do
algoritmo K-Means executado sobre as variáveis de nota de
prova com k = 8. O eixo x representa a variável da nota
da prova CN e o eixo y a variável da nota CH. Note que,
como o K-Means é um algoritmo baseado em particionamento,
os grupos encontrados, neste experimento, possuem fronteiras
bem definidas, ou seja, é possı́vel compor um conjunto de retas
que explicam a divisão dos grupos. É notável a identificação de
um grupo (cor azul na figura 5) de participantes que obtiveram
bom desempenho nas três provas consideradas neste cenário.
O mesmo acontece para os participantes com desempenho
insatisfatório (amostras em vermelho) nas três provas.
É importante ressaltar que, o valor k = 8, escolhido para
execução do algoritmo K-Means, considera as 23 combinações
de desempenho em que um candidato pode ter nas três provas
consideradas. Por exemplo, um candidato pode ter obtido
desempenho satisfatório nas três provas, ou pode ter obtido
desempenho satisfatório em duas e insatisfatório na terceira e
assim por diante.
Na figura 7, as amostras são coloridas conforme o desempenho do participante na Redação. Observe que, existe
uma relação entre os grupos obtidos pelo experimento com
o K-Means e o desempenho dos participantes em Redação.
Note que, o grupo com o melhor desempenho nas três provas
analisadas (cluster de cor azul na figura 5) possui as amostras
com coloração amarelo-avermelhada mais intensa, ou seja,
notas melhores em Redação.
Finalmente, o algoritmo K-Means foi avaliado considerando
um número elevado de grupos, k = 28. O objetivo é obter
um agrupamento melhor em relação ao experimento anterior.
A ideia é elevar o número k de grupos na esperança que
o algoritmo identifique os grupos de maneira a minimizar a
6
Figura 5: Resultado da análise de agrupamento, utilizando o
algoritmo K-Means com 8 clusters
distância intra-grupo e maximizar a distância inter-grupo. O
resultado deste experimento é apresentado na figura 6. O resultado desse experimento não foi considerado satisfatório, pois
muitos grupos mostraram-se misturados. Portanto, o aumento
do número k de clusters não é uma estratégia bem sucedida
neste cenário, e consideramos que k = 8 é um valor aceitável
para identificação de grupos de participantes de acordo com
seu desempenho nas três provas observadas.
Figura 7: Desempenho em Ciências Humanas × Ciências
da Natureza, e a nota da Redação (amostras de cor
amarelo-avermelhada intensa indicam melhor desempenho em
Redação).
As regras de associação buscam descrever padrões (novos e
úteis) de relacionamento entre os itens de uma base de dados
[4].
As regras de associação obtidas estão no formato “A implica
B”, onde A e B são dois conjuntos disjuntos de itens dos
dados. Pode-se ainda representá-las por meio da notação
A −→ B.
Para avaliar a força das regras obtidas (grau de interesse)
calculou-se a medida Confiança, a qual pode ser representada
por conF (A −→ B). Esta medida indica a porcentagem
das amostras que suportam B dentre todas as amostras que
suportam A.
Nesse caso, a quarta hipótese buscou inferir regras de
associação para os atributos relacionados às notas dos
participantes, a partir dos seguintes atributos:
– Nota da
– Nota da
– Nota da
– Nota da
– Nota da
Figura 6: Resultado da análise de agrupamento, utilizando o
algoritmo K-Means com 28 clusters
4) Análise Associativa: Visando descobrir relações interessantes,porém não visı́veis, no conjunto de dados, o presente
estudo executou sobre algumas variáveis o método de análise
associativa.Trata-se de uma metodologia que visa descobrir relacionamentos a partir da inferência de Regras de Associação.
prova
prova
prova
prova
prova
de
de
de
de
de
Ciências da Natureza;
Ciências Humanas;
Linguagens e Códigos;
Matemática;
Redação.
A partir disso, no software Weka, executou-se o algoritmo
Apriori [6], que extrai regras de associação, com um suporte
mı́nimo de 0.001%. As principais regras inferidas são
sumarizadas abaixo:
–
Regra 1: Participantes com nota de CH entre 529.10
e 530.70 e nota de LC entre 286.50 e 508.90 têm
a tendência de obter nota de MT entre 322.40 e 538.20;
–
Regra 2: Participantes com nota de CH entre 518.30 e
519.90 e nota de LC entre 286.50 e 508.90 e nota de
7
redação entre 0 e 20 têm a tendência de obter nota de
MT entre 322.40 e 538.20;
–
Regra 3: Participantes com nota de CN entre 568.20
e 569.90 e nota de LC entre 286.50 e 508.90 têm
a tendência de obter nota de MT entre 322.40 e 538.20;
–
Regra 4: Participantes com nota de CN entre 299.50 e
538.20 e nota de CH entre 334.10 e 487.40 e nota de
MT entre 322.40 e 538.20 têm a tendência de obter
nota de LC entre 286.50 e 508.90;
–
Regra 5: Participantes com nota de CH entre
526 e 527 e nota de LC entre 286.50 e 508.90 têm
a tendência de obter nota de MT entre 322.40 e 538.20;
–
Regra 6: Participantes com nota de CH entre 519.90
e 521.40 e nota de LC entre 286.50 e 508.90 têm
a tendência de obter nota de MT entre 322.40 e 538.20;
–
Regra 7: Participantes com nota de CH entre 527.60
e 529.10 e nota de LC entre 286.50 e 508.90 têm
a tendência de obter nota de MT entre 322.40 e 538.20;
–
Regra 8: Alunos com nota de CN entre 299.50 e
538.20 e nota de LC entre 286.50 e 508.90 e nota de
CH entre 334.10 e 487.40 têm a tendência de obter
nota de MT entre 322.40 e 538.20;
–
Regra 9: Participantes com nota de CN entre 556.50 e
558.20 e nota de LC entre 286.50 e 508.90 e nota de
redação entre 0 e 20 têm a tendência de obter nota de
MT entre 322.40 e 538.20;
–
Regra 10: Participantes com nota de CH entre
521.40 e 522.90 e nota de LC entre 286.5 e 508.90 têm
a tendência de obter nota de MT entre 322.40 e 538.20.
Os resultados obtidos mostraram-se relevantes, considerando
que os valores de confiança ficaram próximos de 1, conforme
apresentado na Tabela XI. Observe que, há uma interseção
entre as regras, muitas possuem como consequente a nota da
prova de Matemática, ou seja, uma condição A leva a um
consequente B, tal que B é a prova de Matemática. Note ainda
que, os intervalos da pontuação obtida em matemática, que
aparecem nas regras, são baixos. A menor nota em Matemática
é 322.4, logo as regras consideram os candidatos que obtiveram
o desempenho mais fraco da região sudeste.
Pode-se ainda ressaltar o seguinte padrão observado nas
regras de associação extraı́das: desempenho fraco, ou abaixo da
média, em questões relativas a ciências humanas, da natureza
e linguagens (provas de CN, CH e LC) tendem a gerar desempenho também fraco em Matemática, mas o contrário não
é claramente observável. O leitor pode estar se questionando
sobre a validade da última afirmação, pois a regra 4 afirma,
em sı́ntese, que um desempenho fraco em CN, CH e MT
(Matemática) tende a gerar desempenho fraco na prova de
Tabela XI: Regras de associação.
Regra de associação
1,2
3
4
5
6,7
8
9,10
Confiança
1
0.97
0.95
0.92
0.91
0.90
0.89
Linguagens. Contudo, é importante observar que: (a) a regra
4 é a única que coloca MT na condição, entretanto, tem-se 9
regras que corroboram a afirmação anterior, e (b) a regra 4 não
está no topo do ranking (conf iança = 0.95).
Na figura 2d nota-se que, uma quantidade maior de candidatos obtém desempenho fraco na prova de Matemática, em
relação ao número de participantes que vão mal nas demais
provas. É notável que o histograma referente a prova de
Matemática não apresenta a curva caracterı́stica da distribuição
gaussiana precisamente. Essa particularidade corrobora o fato
de muitas regras possuı́rem como consequente o desempenho
em Matemática.
III. C ONCLUS ÃO
Este trabalho objetivou realizar uma tarefa especı́fica proposta na disciplina Reconhecimento de Padrões (1/2015) da
Universidade Federal de Uberlândia. O objetivo proposto foi
realizar uma Análise de dados em uma base previamente
definida. Para tanto, a pesquisa em questão explorou a base
de dados Enem 2013, disponibilizada pelo Inep.
A metodologia de estudo adotada foi a estatı́stica descritiva
(ou análise de conteúdo) que descreve as caracterı́sticas dos
dados obtidos e busca atribuir ao estudo um caráter quantitativo. Os resultados obtidos foram representados em forma de
gráficos e tabelas, o que permitiu uma uma descrição imediata
das informações coletadas.
Para extração de informações novas (ou relevantes) foram
elaboradas quatro hipóteses de estudo, as quais, através de
análises estatı́sticas puderam ser exploradas. Os métodos estatı́sticos utilizados, bem como seus resultados foram apresentados e discutidos ao longo desse trabalho. De modo geral,
é possı́vel dizer que as hipóteses selecionadas buscaram compreender e/ou extrair informações relativas ao desempenho das
provas nas áreas do conhecimento contempladas pelo exame.
Os resultados das regiões brasileiras nas diversas áreas do
conhecimento variam. Contudo, é importante frisar que o
presente estudo realizou experimentos sobre os dados relativos
à Região Sudeste. Em tal caso, o estudo apresenta respostas
às aplicações das técnicas Análise de Correlação, Análise
de Regressão Linear, Análise de Agrupamentos e Análise
Associativa.
Como últimas considerações, observa-se que devido a complexidade e tamanho da base de dados ENEM 2013, para
maiores conclusões sobre o objeto de estudo é necessário a
realização de uma análise estatı́stica mais detalhada. Contudo,
os esforços realizados na aplicação das técnicas anteriormente
descritas, bem como o estudo estatı́stico e exploratório da
8
base de dados ENEM 2013 contribuiu para fixação dos conhecimentos obtidos na disciplina Reconhecimento de Padrões
(UFU 01/2015). Isso porque, o desenvolvimento dessa proposta de estudo permitiu aos autores da pesquisa realizar a
implementação prática de diversos conceitos vistos em sala de
aula.
R EFER ÊNCIAS
[1]
[2]
[3]
[4]
[5]
[6]
BRASIL. Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio
Teixeira (Inep). Enem: documento básico. Brası́lia, 1998.
Instituto Nacional de Estudos e Pesquisas Educacionais Anı́sio Teixeira. Microdados do Enem 2013. Brası́lia: Inep, 2015. Disponı́vel
em: ¡http://portal.inep.gov.br/basicalevantamentos-acessar¿. Acesso em:
30 mai. 2015.
Análise de Dados: Modelagem Multivariada para Tomada de Decisões,
Fávero. Luiz Paulo Lopes, 2009, Elsevier.
Introduction to Data Mining. Tan, P.N., Steinbach, M. and Kumar, V.,
2005. Addison-Wesley.
A Density-Based Algorithm for Discovering Clusters in Large Spatial
Databases with Noise. Ester, M.; Kriegel, H.-P.; Sander, J. and Xu, X.,
1966. Second International Conference on Knowledge Discovery and
Data Mining, AAAI Press. p. 226-231.
Notas da disciplina de mineração de dados: Aula 2. Sandra de
Amo, 2006. Universidade Federal de Uberlândia. Disponı́vel em:
http://www.deamo.prof.ufu.br/arquivos/Aula2.pdf.
Download

Análise de Dados da Base ENEM 2013