Métodos Estatísticos para Avaliação
Educacional
Dalton F Andrade (INE/UFSC - [email protected])
40a. Regional da ABE – Maringá, 25/11/05
1
Objetivos

Apresentar alguns métodos estatísticos
utilizados em avaliações educacionais medições
 Planejamento
de Experimento
 Amostragem
 Modelos
Lineares Hierárquicos (ou
Multiníveis) – MLH
 Teoria da Resposta ao Item – TRI
2
Blocos Incompletos Balanceados - BIB

Avaliar uma grande parte de um currículo de uma
determinada disciplina e série: necessário
apresentar um grande número de itens aos alunos,
maior do que eles poderiam responder em 2 horas
de prova. Por exemplo, 169 itens de matemática
para a 3a. série do EM:
13 conjuntos de 13 itens cada
Provas: Cadernos com 3 conjuntos cada
26 Provas, com conjuntos (itens) comuns
3
Amostragem complexa

Selecionar uma amostra de alunos
satisfazendo certos critérios (região,
dependência administrativa, período, ...)

Unidade de interesse: aluno

Não existe lista com todos os alunos

Usar lista de escolas para selecionar escolas
(Censo Escolar do INEP/MEC)
4
Amostragem complexa

Usar lista de alunos, das escolas selecionadas,
para selecionar alunos

Amostragem por conglomerados em dois ou três
níveis

Estratificação
Heleno Bolfarine e Wilton O. Bussab (2005). Elementos
de Amostragem. São Paulo: Edgard Blücher
(ABE-Projeto Fisher)
5
Modelos Lineares Hierárquicos ou Multiníveis

Estudar como fatores de aluno, professor e escola
estão associados com o desempenho dos alunos
Modelos de Regressão com estrutura especial de
dependência
GOLDSTEIN, H. (1995). Multilevel Statistical Models. 2a ed.
London: Edward Arnold.
RAUDENBUSH, S. W. e BRYK, A. S. (2002). Hierarchical Linear
Models. 2a ed. Newbury Park: Sage.
6
Modelos Lineares Hierárquicos ou Multiníveis

Modelo de regressão:
Y = f(X1, ..., Xp, W1, ..., Wq) + Erro
X: características de aluno (gênero, idade, escolaridade dos
pais, tempo de estudo extra classe,...)
W: características de escola (dependência administrativa,
localização, recursos pedagógicos, práticas pedagógicas,
capacitação da equipe técnica,...)
Erro: independentes com distribuição normal
7
Modelos Lineares Hierárquicos ou Multiníveis

Modelo multinível
X1: idade (em anos)
W1: dependência administrativa (1=particular, 0=pública)
Nível 1: aluno (8a. série)
proficij =0j + 1j (X1ij –14) + eij
Nível 2: escola
0j = 00 + 01W1j + u0j
1j = 10 + 11W1j + u1j
8
Teoria da Resposta ao Item - TRI




Medir a proficiência dos alunos
Comparar os resultados entre séries (4a., 8a. EF e
3a. EM)
Comparar os resultados ao longo dos anos (SAEB
realizado a cada dois anos) para uma mesma
série
Realizar diferentes provas entre anos, entre séries
e entre alunos de uma mesma série - BIB
9
Teoria da Resposta ao Item - TRI

Teoria Clássica de Medida - TCM:
1. Resultados dependem do particular conjunto de
questões que compõem a prova e dos indivíduos que a
fizeram, ou seja, as análises e interpretações estão sempre
associadas à prova como um todo e ao grupo de
indivíduos.
2. Comparação entre indivíduos ou grupos de indivíduos
somente é possível quando eles são submetidos às
mesmas provas ou, pelo menos, ao que se denomina de
provas paralelas, quase sempre difíceis de serem
construídas.
10
Teoria da Resposta ao Item

Teoria da Resposta ao Item – TRI:
1. Muda o foco de análise da prova como um todo para a
análise de cada item (questão).
2. Conjunto de modelos matemáticos que relacionam um
ou mais traços latentes (não observados) de um indivíduo
com a probabilidade deste dar uma certa resposta a um
item
3. Traço latente: habilidade/proficiência em Matemática,
Português, etc ...
11
Teoria da Resposta ao Item
4. A partir de respostas dadas por indivíduos a um conjunto
de itens (prova) deseja-se :
estimar os parâmetros dos itens (calibração)
estimar a habilidade/proficiência do aluno
estimar a proficiência média de um grupo de alunos
5. A probabilidade de resposta a um item é modelada
como função da proficiência do aluno e de parâmetros que
expressam certas propriedades dos itens.
12
Teoria da Resposta ao Item
6. Quanto maior a proficiência do aluno, maior a
probabilidade de ele acertar o item (modelo acumulativo).
7. Propriedade importante: os parâmetros dos itens e as
proficiências dos indivíduos são invariantes, exceto pela
escolha de origem e escala.
13
Teoria da Resposta ao Item
Modelos: dependem do tipo de item
• Itens corrigidos como certo/errado: múltipla
escolha ou abertos
Modelo Logístico (unidimensional) com 1, 2 ou 3
parâmetros
P( U ij  1 |  j )  ci  ( 1  ci )
1
1 e
 ai (  j bi )
14
Modelo Logístico de 3 parâmetros
probabilidade de resposta
correta
Curva característica do item - CCI
1,0
a
0,8
0,6
0,4
c
0,2
0,0
-4,0
iiiiiiii
b
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
habilidade (traço latente)
a: discriminação ou inclinação do item
b: dificuldade (medido na mesma métrica do traço latente)
c: probabilidade de acerto para indiv. com baixa habilidade
15
Teoria da Resposta ao Item
• Modelo Nominal: considera todas as categorias de
resposta
P(U ijs  1 |  j ) 
exp[a is ( j  bis )]
mi
 exp[a
h 1
ih
( j  bih )]
com a is e bis como no modelo Logístico
16
Modelo Nominal
Probabilidade
a=(-2,-1,1,0) e b=(-2,-1,2,1)
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
-4,0
-3,0
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
Traço latente
P1
P2
P3
P4
17
Teoria da Resposta ao Item
• Modelo de Resposta Gradual: categorias ordinais
1
P(Uijs  1 |  j ) 

1  exp[ai ( j  bis )]
1

1  exp[ai ( j  bi(s1) )]
bi1  bi 2  ...  bim
i
18
Modelo Resposta Gradual
Probabilidade
a=1,2 e b=(-2,-1,1)
1,2
1,0
0,8
0,6
0,4
0,2
0,0
-4,0 -3,0 -2,0 -1,0 0,0
1,0
2,0
3,0
4,0
Traço latente
P0
P1
P2
P3
19
Teoria da Resposta ao Item
• Modelo de Crédito Parcial: Modelo de Resposta
Gradual sem o parâmetro de discriminação a
• Modelo de Escala Gradual: Modelo de Resposta
Gradual com bis = bi – ds
• Modelo de Grupos Múltiplos (várias populações)
20
Teoria da Resposta ao Item

Resultados

Banco de Itens: itens calibrados na mesma escala

Estimativa dos rendimentos médios na mesma escala,
para cada uma das séries e disciplinas ao longo dos
anos
21
rendimento médio
Matemática - Brasil
300
250
200
150
1997
1995
4a.
8a.
3a.
1999
2001
2003
anos
22
Teoria da Resposta ao Item

Resultados

Equalização entre avaliações estaduais e o SAEB

Estudo do funcionamento de itens (DIF)

Estudo do desgaste de itens (DRIFT)
23
Referências bibliográficas

ANDRADE, D. F., TAVARES, H. R., VALLE, R. C. (2000).
Teoria da Resposta ao Item: conceitos e aplicações. 14o
SINAPE, Associação Brasileira de Estatística.
(Disponível em www.inf.ufsc.br/~dandrade/tri)

BAKER, F. B., (1992). Item Response Theory: Parameter
Estimation Techniques. Marcel Dekker.

BOCK, R.D. & ZIMOWSKI, M.F. (1996). Multiple Group IRT,
in Linden, W.J. van der & Hambleton, R.K. (eds). Handbook
of Modern Item Response Theory, Springer.
24
Referências bibliográficas

KLEIN, R. (2003). Utilização da Teoria de Resposta ao Item
no Sistema Nacional de Avaliação da Educação Básica
(SAEB). Ensaio: Avaliação e Políticas Públicas em
Educação, Rio de Janeiro, v.11, n.40, p.283-296, 2003.

LORD, F.M. (1980). Applications of item response
theory to practical testing problems.Hillsdale:Lawrence
Erlbaum Associates Inc.

Sistema Nacional de Avaliação da Educação Básica: SAEB
2001, Relatório Técnico. (2002). Consórcio Fundação
Cesgranrio/Fundação Carlos Chagas, Rio de Janeiro..
25
Aplicação da TRI em Teste de Progresso

Avaliar o desempenho do aluno de curso de
medicina
Prova realizada uma vez por ano por todos os alunos (1a.6a.)
Comissão de avaliação do curso de medicina da UEL:
Sakai, M., Mashima, D., Ferreira Filho, O.F., Matsuo, T.
26
Aplicações da TRI em outras áreas

Medir o grau de maturidade de uma empresa em
relação a Gestão pela Qualidade
-
Alexandre, J.W.C., Andrade,D.F., Vasconcelos,A.P. e Araújo,
A.M.S.(2002). Uma proposta de análise de um construto para a
medição dos fatores críticos da gestão pela qualidade através da teoria
da resposta ao item. Gestão & Produção, v.9, n.2, p.129-141.

Medir o Nível de Qualidade de Vida
Mesbah, M., Cole, B.F. and Lee, M.L.T.(2002). Ed. Statistical methods
for quality of life studies: design, measurements and analysis.
Boston:Kluwer Academic Publishers
27
Aplicações da TRI em outras áreas

Medir o Grau de Insegurança Alimentar
Parke E. Wilde, Gerald J. and Dorothy R. Friedman (2004). Differential
Response Patterns Affect Food-Security Prevalence Estimates for
Households with and without Children. J. Nutr.134: 1910–1915.
Med. Prev. Unicamp: profa. Ana Maria Segall Corrêa

Medir a Competência Clínica de Médicos
Jishnu Das, Jeffrey Hammer (2005). Which doctor? Combining
vignettes and item response to measure clinical competence. Journal
of Development Economics 78, 348-383.
28
Aplicações da TRI em outras áreas

Medir o Grau de Depressão
Embretson, S. E. and Reise, S. P. (2000). Item response
theory for psychologists. New Jersey: Lawrence Erlbaum
Associates, Inc., Publishers.
Coleman, M. J., Matthysse, S., Levy, D. L., Cook, S., Lo, J.
B. Y.,Rubin, D. B. and Holzman, P. S. (2002). Spatial and
object working memory impairments in schizophrenia
patients: a bayesian item-response theory analysis.
Journal of Abnormal Psychology, 111, number 3, 425435.
Dissertação de doutorado no IME/USP.
29
Aplicações da TRI em outras áreas

Medir o Grau de Satisfação do Consumidor
Costa, M.B.F. (2001). Técnica derivada da teoria da resposta ao
item aplicada ao setor de serviços. Dissertação de Mestrado –
PPGMUE/UFPR
Bayley, S. (2001). Measuring customer satisfaction. Evaluation
Journal of Australasia, v. 1, no. 1, 8-16.
Bortolotti, S.L.V. (2003). Aplicação de um modelo de
desdobramento da teoria da resposta ao item – TRI. Dissertação
de Mestrado. EPS/UFSC.
30
Aplicações da TRI em outras áreas

Medir o Grau de Depressão em Idosos
Yesavage JA, Brink TL Rose TL et al. Development and
validation of a geriatric depression screening scale: a
preliminary report. J Psychiat Res 1983;17:37-49.
UEL – Grupo de pesquisa em psiquiatria: Vargas, H.O.,
Matsuo, T., Blay, S., Andrade, D.F.
31
Download

40Regional da ABE Ma.. - INE