TEORIA DA RESPOSTA AO ITEM:
Conceitos, Modelos e Aplicações
Dalton F. Andrade
Departamento de Informática e Estatística – UFSC
[email protected]
www.inf.ufsc.br/~dandrade
IASI - X Seminario de Estadística Aplicada – Rosario 2006
martes 11-13 y 14-16 miércoles 8:30-10:30
1
Tópicos

Introdução:
Estatística em Avaliação Educacional

Teoria da Resposta ao Item - TRI:
Conceitos
Principais Modelos
Aplicações em Educação e outras áreas




Estimação na TRI e outros modelos
Equalização
Construção e interpretação da escala de proficiência
Aspectos computacionais
2
Referências iniciais: TRI




Lord, F.M., Norvick, M.R. (1968). Statistical Theories of
Mental Test Score. Reading: Addison-Wesley
Lord, F.M. (1980). Applications of Item Response Theory
to Practical Testing Problems. Hillsdale: Lawrence
Erlbaum Associates
Hambleton, R.K., Swaminathan, H., Rogers, H.J. (1991).
Fundamentals of Item Response Theory. Newburry Park:
Sage Publications.
Andrade, D.F., Tavares, H.R., Cunha, R.V. (2000). Teoria da
Resposta ao Item: Conceitos e Aplicações. São Paulo:
Associação Brasileira de Estatística.
3
Introdução: Estatística em Avaliação Educacional

Sistema Nacional de Avaliação da Educação Básica –
SAEB (http://www.inep.gov.br/basica/saeb/
Planejamento
 Amostragem
 Medida de Proficiência
 Estudo de Fatores Associados - HLM

4
Introdução: Estatística em Avaliação Educacional








Foco nas gestões dos sistemas educacionais
Realizado desde 1990. A partir 1995, passou a fazer uso da
TRI.
1995, 1997, ..., 2003, 2005 (em análise).
4a. e 8a. séries do Ensino Fundamental e 3a. Série do Ensino
Médio.
Disciplinas: Português, Matemática, ...
Amostra de estudantes
Proficiência do estudante
Fatores Associados: como características dos estudantes,
professores e escolas estão relacionadas com a
proficiências dos estudantes
5
Introdução: Estatística em Avaliação Educacional
Provas/Planejamento



O número de itens (questões) requerido pelos especialistas,
para cada série e disciplina, é maior do que um estudante
pode responder em 2 horas.
Equalização: obter resultados comparáveis (mesma escala)
para as 4a., 8a. and 3a. séries e também ao longo do tempo.
Matemática, 3a. série: 169 itens.
- 13 conjuntos com 13 itens cada (169=132)
- Provas: cadernos de provas com 3 conjuntos, total de
39=3x13 itens
- Total de 26 cadernos de provas
- Itens de 8a. Série e também de anos anteriores
6
Cadernos de Provas: Planejamento em Blocos
Incompletos Balanceados - BIB
Cadernos
de provas
1
2
3
4
5
6
7
8
9
10
11
12
13
Conjuntos de itens
1
2
3
4
5
6
7
8
9
10
11
12
13
2
3
4
5
6
7
8
9
10
11
12
13
1
5
6
7
8
9
10
11
12
13
1
2
3
4
Cadernos
de provas
14
15
16
17
18
19
20
21
22
23
24
25
26
Conjuntos de itens
1
2
3
4
5
6
7
8
9
10
11
12
13
3
4
5
6
7
8
9
10
11
12
13
1
2
8
9
10
11
12
13
1
2
3
4
5
6
7
> Cada conjunto de 13 itens aparece em 6 cadernos de provas
> Cada conjunto de itens aparece duas vezes em cada uma das 3 posições nos
cadernos de provas
> Um par de conjuntos de itens aparece somente uma vez em um caderno de provas
Estudantes de mesma série respondem diferentes cadernos de provas, mas os
cadernos de provas possuem itens comuns
7
Introdução: Estatística em Avaliação Educacional
Amostragem

Dados de 2002
Série

Alunos
Escolas
4a.
4.304.217
142.495
8a.
3.338.529
42.579
3 a.
2.181.158
17.958
Total
9.823.904
214.188
Amostragem por conglomerado (escola) em dois estágios,
dentro de cada estrato:
Estágio 1: escola
Estágio 2: estudantes das escolas selecionadas
8
Introdução: Estatística em Avaliação Educacional
Medindo a Proficiência






Medir a proficiência do estudante.
Obter resultados comparáveis entre séries (4a., 8a.
EF e 3a. EM).
Obter resultados comparáveis entre anos para a
mesma série.
Diferentes provas entre anos, entre séries e entre
estudantes de uma mesma série.
Teoria Clássica (TC)
Teoria da Resposta ao Item (TRI)
9
Introdução: Estatística em Avaliação Educacional
Análise de Fatores Associados



Como as características dos estudantes,
professores e escola estão relacionadas com a
proficiência dos estudantes.
Modelos de regressão com estruturas especiais de
dependência.
Referências Básicas:
GOLDSTEIN, H. (2003). Multilevel Statistical Models. 3a ed.
London: Edward Arnold.
RAUDENBUSH, S. W. e BRYK, A. S. (2002). Hierarchical
Linear Models. 2a ed. Newbury Park: Sage.
10
Introdução: Estatística em Avaliação Educacional
Análise de Fatores Associados

Modelo de regressão:
Y = f(X1, ..., Xp, W1, ..., Wq) + Erro
X: características do estudante (gênero,idade, anos de
escolaridade dos pais, tempo dedicado aos estudos
fora da escola,...)
W: características da escola (tipo de escola,
localização,
práticas pedagógicas, atitudes do
diretor,...)
Erro: independente, distribuição normal
11
Introdução: Estatística em Avaliação Educacional
Análise de Fatores Associados

Modelagem hierárquica/multinível
Model nulo:
Nível 1: estudante (i)
proficij = 0j + eij
eij: i.i.d. N(0,σ2)
Nível 2: escola (j)
0j = 00 + u0j
u0j: i.i.d. N(0,τ00), independente de eij
Variância total : σ2 + τ00 , Cov(proficij, profici’j) = τ00
12
Introdução: Estatística em Avaliação Educacional
Análise de Fatores Associados

Alguns resultados do SAEB 2001
Decomposição da variância
Disciplina
Matemática
Português
Série
Escola
Estudante
4ª
37,13%
62,87%
8ª
37,71%
62,29%
11ª
43,36%
56,64%
4ª
31,28%
68,72%
8ª
30,50%
69,50%
11ª
34,72%
65,28%
13
Introdução: Estatística em Avaliação Educacional
Análise de Fatores Associados

Alguns resultados do SAEB 2001 : Matemática
Grade
Fator
Intercepto (β0)
4th
8th
11th
172,63 (1,75)
240,31 (1,48)
277,05 (2,07)
Gênero
3,86 (0,32)
14,27 (0,37)
18,93 (0,46)
Raça
1,04 (0,34)
3,16 (0,38)
2,52 (0,48)
-4,15 (0,18)
-6,72 (0,21)
-8,25 (0,23)
3,63 (0,21)
3,97 (0,25)
1,02 (0,30)
Tipo de escola
25,13 (1,10)
24,57 (1,23)
19,57 (1,46)
Nível sócio-econômico
13,62 (0,62)
14,27 (0,71)
20,77 (1,00)
Defasagem média
-3,70 (0,49)
-10,68 (0,49)
-13,80 (0,70)
3,27 (1,50)
12,89 (1,61)
17,28 (1,70)
Defasagem idade
Nível sócio-econômico
Procedimento seleção
14
Teoria Clássica







Baseada no escore total: número de acertos
Seus parâmetros dependem do grupo de respondentes
Parâmetro de dificuldade: proporção de acertos
Correlação bisserial
Parâmetro de discriminação:
proporção de acertos grupo superior – grupo inferior
Como comparar/representar proporção acertos aluno 4a.
série com a proporção de acertos aluno 5a. Série ?
Modelo:
X = T + Erro
15
Teoria da Resposta ao Item (TRI)
1. O foco é no item e não no escore total, como na Teoria
Clássica.
2. São modelos que relacionam um ou mais traços latentes de
um indivíduo, com a probabilidade dele apresentar uma
certa resposta ao item.
3. Traço Latente: proficiência/habilidade em Matemática,
Português, Ciências etc.
4. Baseado nas respostas dadas por um ou mais grupos de
indivíduos, a um conjunto de itens, desejamos:
- estimar os parametros dos itens (processo de
calibração)
- estimar as proficiências dos indivíduos
- estimar a proficiência média de um ou mais grupos de
indivíduos
16
Teoria da Resposta ao Item (TRI)
5. A probabilidade de uma certa resposta a um item é
modelada como função da proficiência do indivíduo e os
parâmetros que representam algumas propriedades dos
item.
6. Modelo acumulativo: quanto maior a proficiência do
indivíduo, maior a probabilidade de uma resposta correta.
7. Propriedade da invariância: os parâmetros dos itens e as
proficiências são invariantes, exceto pela escolha da escala
(métrica).
17
Modelos da TRI
Os modelos dependem do tipo do item
Itens do tipo certo/errado (dicotômico) ou corrigido como
certo/errado (múltipla escolha, aberto)
Modelo Logístico : unidimensional, um grupo, com 1
(Rasch), 2 ou 3 parâmetros.
Pij  P(U ij  1 |  j )  ci  (1  ci )
1
1 e
 ai ( j bi )
18
Modelo Logístico de 3 Parâmetros



a: parâmetro de discriminação
b: parâmetro de dificuldade (medido na mesma escala da
proficiência)
c: parâmetro de acerto casual (probabilidade de que um estudante
com baixa proficiência responda corretamente)
19
Modelo Logístico de 3 Parâmetros
(a=2,5; b=1,2; c=0,2)
probabilidade
1
0,8
0,6
0,4
0,2
0
-6 -5 -4 -3 -2 -1
0
1
2
3
4
5
6
proficiência
P1
P0
20
Modelos da TRI
Modelo Nominal : modela todas as categorias de
resposta s=1,2, ...,mi.
P(U ijs  1 |  j ) 
exp[a is ( j  bis )]
mi
 exp[a
h 1
ih
( j  bih )]
onde ais e bis são como no modelo logístico.
21
Modelo Nominal
a=(-2,-1,1,0) e b=(-2,-1,2,1)
probabilidade
1,0
0,8
0,6
0,4
0,2
0,0
-4,0 -3,0 -2,0 -1,0
0,0
1,0
2,0
3,0
4,0
proficiência
P1
P2
P3
P4
22
Modelos da TRI
Modelo de Resposta Gradual (categorias ordinais)
1
P(U ijs  1 |  j ) 
1  exp[ai ( j  bis )]
1

1  exp[ai ( j  bi ( s 1) )]
bi1  bi 2  ...  bim
i
23
Modelo de Resposta Gradual
a=1,2 e b=(-2,-1,1)
probabilidade
1,0
0,8
0,6
0,4
0,2
0,0
-4,0 -3,0 -2,0 -1,0 0,0
1,0
2,0
3,0
4,0
proficiência
P0
P1
P2
P3
24
Outros Modelos da TRI



Modelo de Crédito Parcial : Modelo de resposta gradual
sem o parâmetro a (Rasch).
Modelo de Escala Gradual: Modelo de resposta gradual
com bis = bi – ds
Modelo dos Grupos Múltiplos (dois ou mais grupos).
P( U ij  1 |  kj )  ci  ( 1  ci )
1
1 e
 ai (  kj bi )
Bock, R.D., Zimowski, M.F. (1997). Multiple group IRT. In
Handbook of Modern Item Response Theory. W.J. van
der Linden and R.K. Hambleton Eds. New York: SpringerVerlag
25
Aplicações em Avaliação Educacional

PISA – Programme for International Student Assessment
(Programa Internacional de Avaliação de Alunos)
- anos: 2000(Leitura), 2003(Matemática), 2006(Ciências)
- alunos com 15 anos (independente da série)
- itens de múltipla escolha e itens abertos (corrigidos 0,1,2)
- modelo de 1 parâmetro (somente parâmetro b: dificuldade)
- esquema BIB
- 32 países em 2000 – OCDE + convidados
- http://www.inep.gov.br/internacional/pisa/
26
Aplicações em Avaliação Educacional

Públicas: Estaduais/Municipais
SARESP (São Paulo)
SPAECE (Ceará)
SAEPE (Pernambuco)
Município do Rio de Janeiro
Município de São Paulo

Privadas
SIMA: Sistema Marista de Avaliação
Fundação Bradesco
27
Outras Aplicações da TRI em Educação

Educação Estatística
θ: extensão do uso de estatística no local de
trabalho.
Questionário com 46 técnicas estatísticas e
métodos de pesquisa (itens).
Harraway, J.A. and Barker, R.J. (2005). Statistics in the
workplace: a survey of use by recent graduates with higher
degrees. Statistics Education Research Journal, 4(2), 43-58,
http://www.stat.auckland.ac.nz/serj
Harraway, J.A., Andrade, D.F.(2006). An item response
analysis of statistics use in the workplace. (apresentado no
ICOTS7, Salvador)
28
Outras Aplicações da TRI em Educação

Educação Médica
Avaliar o desempenho do aluno de curso de medicina
Prova realizada uma vez por ano por todos os alunos (1a.6a.)
Comissão de avaliação do curso de medicina da UEL, PR:
Sakai, M., Mashima, D., Ferreira Filho, O.F., Matsuo, T.
29
Aplicações da TRI em outras áreas

Qualidade de Vida
Mesbah, M., Cole, B.F. and Lee, M.L.T.(2002). Ed.
Statistical methods for quality of life studies:
design, measurements and analysis. Boston:
Kluwer Academic Publishers
30
Aplicações da TRI em outras áreas

HIT (Headache Impact Test): medir o impacto
causado por dor de cabeça em diferentes situações
(no trabalho, em casa e em ocasiões sociais).
Ware, J.E., Bjorner, J. B., Kosinski, M. (2000).
Practical Implications of Item Response Theory and
Computerized Adaptive Testing. A Brief Summary of
Ongoing Studies of Widely Used Headache Impact
Scales. Medical Care, v.38.
www.amihealthy.com
31
Aplicações da TRI em outras áreas

Medir o Grau de Satisfação do Consumidor
Costa, M.B.F. (2001). Técnica derivada da teoria da
resposta ao item aplicada ao setor de serviços.
Dissertação de Mestrado – PPGMUE/UFPR
Bortolotti, S.L.V. (2003). Aplicação de um modelo de
desdobramento da teoria da resposta ao item – TRI.
Dissertação de Mestrado. EPS/UFSC.
Bayley, S. (2001). Measuring customer satisfaction.
Evaluation Journal of Australasia, v. 1, no. 1, 8-16.
32
Aplicações da TRI em outras áreas

Psiquiatria/Psicologia
Escalas psiquiátricas:
Inventário de depressão de Beck (BDI)
Escala de sintomas Depressivos (CES-D)
Escala de rastreamento de dependência de sexo (ERDS)
Schaeffer, N. C. (1988). An Application of Item Response to the
Measurement of Depression. Sociological Methodology, 18,
271–307.
Embretson, S. E. and Reise, S. P. (2000). Item response theory
for psychologists. New Jersey: Lawrence Erlbaum
Associates, Inc., Publishers..
33
Aplicações da TRI em outras áreas

Psiquiatria/Psicologia
Coleman, M. J., Matthysse, S., Levy, D. L., Cook, S., Lo, J. B.
Y.,Rubin, D. B. and Holzman, P. S. (2002). Spatial and object
working memory impairments in schizophrenia patients: a
bayesian item-response theory analysis. Journal of Abnormal
Psychology, 111, number 3, 425-435.
Hays, R., Morales, L. S. e Reise, S. P. (2000). Item response
theory and health outcomes measurement in the 21st century,
Medical Care, v.38.
Kirisci, L., Hsu, T. C. e Tarter, R. (1994). Fitting a two-parameter
logistic item response model to clarify the psychometric
properties of the drug use screening inventory for adolescent
alcohol and drug abusers, Alcohol Clin. Exp. Res 18: 1335–
1341.
34
Aplicações da TRI em outras áreas

Psiquiatria/Psicologia
Langenbucher, J. W., Labouvie, E., Sanjuan, P. M.,
Bavly, L., Martin, C. S. e Kirisci, L. (2004). An
application of item response theory analysis to
alcohol, cannabis and cocaine criteria in DSM-IV,
Journal of Abnormal Psychology 113: 72–80.
Yesavage JA, Brink TL Rose TL et al. (1983).
Development and validation of a geriatric depression
screening scale: a preliminary report. J Psychiat Res,
17:37-49.
35
Aplicações da TRI em outras áreas

Nutrição
Diagnóstico de insegurança alimentar: Escala Brasileira
de Medida de Segurança Alimentar - EBIA.
Profa. Ana Maria Segall Corrêa – Dep. Medicina
Preventiva e Social – FCM/UNICAMP
Parke E. Wilde, Gerald J. and Dorothy R. Friedman
(2004). Differential Response Patterns Affect FoodSecurity Prevalence Estimates for Households with
and without Children. J. Nutr.134: 1910–1915.
36
Aplicações da TRI em outras áreas

Serviço Médico
Jishnu Das, Jeffrey Hammer (2005). Which doctor?
Combining vignettes and item response to measure
clinical competence. Journal of Development
Economics 78, 348-383

Genética
Tavares, H. R.; Andrade, D. F.; Pereira, C.A. (2004)
Detection of determinant genes and diagnostic via
item response theory. Genetics and Molecular
Biology, v. 27, n. 4, p. 679-685.
37
Aplicações da TRI em outras áreas

Gestão pela Qualidade Total
Alexandre, J.W.C., Andrade, D.F., Vasconcelos, A.P. e
Araújo, A.M.S.(2002). Uma proposta de análise de um
construto para a medição dos fatores críticos da
gestão pela qualidade através da teoria da resposta
ao item. Gestão & Produção, v.9, n.2, p.129-141
38
Estimação na TRI


Independência entre as respostas dos estudantes.
Independência entre as respostas dadas aos itens,
para uma dada proficiência (local ou condicional).
Baker, F.B., Kim, S-H.(2004). Item Response Theory: parameter
estimation techniques. New Yook: Marcel Dekker, Inc. 2nd
Edition.
39
Estimação na TRI

Uma população
Máxima verossimilhança conjunta:
N
I
L( ,  )  Pr ob(U |  ,  )   P (1  Pij )
uij
ij
1uij
j 1 i 1
N
I
log L   uij log Pij  (1  uij ) log(1  Pij )
j 1 i 1
onde U=(uij) é a matriz das respostas (NxI) e ξ é o vector(qIx1)
dos parâmetros dos itens. Para o modelo logístico de 3
parâmetros, q=3.
40
Estimação na TRI

Máxima verossimilhança conjunta
Precisamos encontrar os valores de θ and ξ que maximizam
logL.
Técnica Iterativa Newton-Raphson.
Precisamos das derivadas parciais de 1a. e 2a. de logL com
respeito a θ e ξ.
Indeterminação: existem diferentes valores de θ e b que
fornecem o mesmo valor de Pij.
Uma solução: θ’s com média 0 e desvio padrão 1, escala (0,1)
41
Estimação na TRI

Máxima verossimilhança marginal
A idéia básica é “libertar” o processo de estimação
dos parâmetros dos itens de sua dependência de θ.
Passo 1: estimação dos parâmetros dos itens.
Passo 2: assumindo que as estimativas dos
parâmetros dos itens são seus verdadeiros valores,
estimamos os θ’s.
42
Estimação na TRI

Máxima verossimilhança marginal
I
Pr ob(U j |  ,  )   P (1  Pij )
1uij
uij
ij
i 1
Pr ob(U j |  , )   Pr ob(U j |  ,  ) g ( , )d

n
L( , )  Pr ob(U |  , )   Pr ob(U j |  , )
j 1
g(θ|η) é a distribuição de θ, com parâmetros η=(μ,σ2)’. Em
geral, consideramos a normal padrão (μ =0 e σ=1).
43
Estimação na TRI

Máxima verossimilhança marginal
As estimativas dos parâmetros dos itens são os
valores de ξ que maximizam L(ξ,η).
Algoritmo EM: U e θ são os dados completos, e U é
dado observado.
Assumindo ξ “conhecido”, voltamos para L(ξ,θ) = L(θ)
e maximizamos para θ.
44
Estimação na TRI

Estimação Bayesiana
Distribution a priori para a: Lognormal
Distribution a priori para b: Normal
Distribution a priori para c: Beta
Fornece estimativas para todos os itens com u=1 or
u=0 para todos os respondentes. A estimação por
máxima verossimilhança não fornece.
O mesmo para todos os respondentes que
reponderam u=1 or u=0 para todos os itens.
45
Estimação na TRI

Duas ou mais populações
Caso 1: Estimação para cada população em separado.
requer uma “equalização a posteriori” para termos todos os
resultados na mesma escala (métrica).
Caso 2: Estimação envolvendo todas as populações ao mesmo
tempo.
Enfoque de Grupos Múltiplos: Estabelecemos uma das
populações (grupos) como a referência, e obtemos todos os
resultados na mesma escala. Por exemplo, estabelecemos a
escala (0,1) para a população 1, e todos os resultados das
outras populações estarão na mesma escala.
46
Resultados do SAEB
proficiência média
Matemática - Brasil
300
250
200
150
1995
4a.
1997
8a.
3a.
1999
2001
2003
ano
47
Modelos mais recentes da TRI

Modelos Longitudinais : estudantes são
acompanhados ao longo do tempo.
Andrade, D.F. Tavares, H.R. ( 2005). Item response theory for
longitudinal data: population parameter estimation. Journal
of Multivariate Analysis 95,1– 22.
Tavares, H.R., Andrade, D.F.(2006). Item response theory for
longitudinal data; item and population ability parameters
estimation. Test 15(1), 97-123.
48
Exemplo Dados Longitudinais

International Project on Mathematical Attainment IPMA (Profa. Ednéia Consolin Poli – UEL)
1999
2000
2001
2002
2003
G11ª.
G12ª.
G21ª.
G13ª.
G22ª.
G14ª.
G23ª.
G24ª.
22
22
22
20
18
24
16
17
Alunos
568
557
512
395
309
307
282
270
Escolas
8
8
6
8
6
8
6
6
20
40
20
60
40
80
60
80
-
-
-
-
-
sim
-
sim
Professores
No. de itens
Fatores Assoc.
49
Modelos mais recentes da TRI

Modelando a Proficiência Média: curva de
crescimento
μk = f(tk,α)
Tavares, H.R., Andrade, D.F.(2005). Growth curve models for
longitudinal item response data. Presented at AERA2005
in Montreal.
50
Modelos mais recentes da TRI

Modelos de Desdobramento
São modelos não acumulativos
São bastante utilizados em estudos de atitudes
Roberts, J. S., Laughlin, J. E. A.(1996) Unidimensional item response
model for unfolding responses from a graded disagree-agree response
scale. Applied Psychological Measurement, 20, p. 231-255.
Roberts, J. S., Donoghue, J.R., Laughlin, J. E.(2000) A general model for
unfolding Unidimensional polychromous responses using item response
theory. Applied Psychological Measurement, 24, p. 3-32.
Roberts, J. S., LIN, Y., Laughlin, J. E.(2001) Computerized adaptive testing
with the generalized graded unfolding model. Applied Psychological
Measurement, 25, p. 177-196.
51
Modelos mais recentes da TRI

Modelos Multidimensionais: mais de uma
dimensão para representar o traço latente
Mislevy, R.J. (1986). Recent development in the factor analysis
of categorical data. Journal of Educational Statistics, 11,
3-31.
Wood, R., Wilson, D., Gibbons, R., Schilling, S., Muraki, E.,
Bock, D. (2003). Testfact 4: Test Scoring, Item Statistics
and Item Factor Analysis. Chicago: scientific Software, Inc.
52
Modelos mais recentes da TRI

Modelos Multidimensionais: mais de uma
dimensão para representar o traço latente
Reckase, M. D. (1997). A linear logistic multidimensional model
for dichotomous item response data. In W. J. Linden & R. K.
Hambleton (Eds.), Handbook of modern item response
theory (pp. 271-286). New York: Springer.
Nojosa, R. T. (2001). Modelos Multidimensionais para a Teoria
da Resposta ao Item. Dissertação de Mestrado.
Departamento de Estatística. Universidade Federal de
Pernambuco.
53
Modelos mais recentes da TRI

Modelos Multivariados: mais de um traço latente
para o mesmo aluno: matemática e português.
Matos, G. S. (2001). Teoria da Resposta ao Item: Uma
Proposta de Modelo Multivariado. Dissertação de
Mestrado. Departamento de Estatística. Universidade
Federal de Pernambuco.
Exemplo: Projeto FUNDESCOLA / INEP-MEC
Alunos de 4a. série (1999) acompanhados até a 8a. série
(2003) - Longitudinal
Disciplinas: matemática e Português - Bivariado
Dados Incompletos: alunos podem sair e entrar
54
Equalização




Resultados de diferentes provas em uma mesma
escala
Exemplo: SAEB (entre séries e anos)
Como obter resultados comparáveis?
Itens comuns entre séries e anos
Kolen, M.J., Brennan, R.L. (2004). Test Equating: Methods
and Practices (2nd ed.). New York: Springer.
55
Equalização



Calibração (estimação dos parâmetros dos itens) em
separado para cada uma das populações envolvidas
Equalização pelo princípio da invariância: a posteriori
Exemplo: dados do SARESP (estado de São Paulo)
3a. série 96 – 28 itens (abril)
4a. série 97 – 30 itens (abril)
3a. série 97 – 32 itens (novembro)
11 itens comuns entre 3a. 96 e 3a. 97
21 itens comuns entre 4a. 96 e 3a. 97
56
Equalização

Exemplo: dados do SARESP
Estimativas dos parâmetros dos itens comuns aos grupos 3ª série 96 e 97.
Item
C3S01
C3S02
C3S03
C3S04
C3S05
C3S06
C3S07
C3S08
C3S09
C3S10
C3S11
Parâmetro a
3 . 96
3ª 97
ª
1,30
1,71
1,36
1,04
1,05
1,38
0,87
1,01
1,41
2,37
2,29
1,07
1,55
1,61
0,65
0,57
0,82
1,06
1,48
1,07
1,37
1,20
Parâmero b
3 . 96
3ª 97
ª
-2,25
-2,01
-2,35
0,32
0,95
0,91
-0,81
-0,14
-1,23
-0,30
0,08
-3,40
-3,04
-3,24
-0,09
-0,06
0,16
-1,49
-1,09
-2,12
-0,88
-0,18
Parâmetro c
3 . 96
3ª 97
ª
0,07
0,08
0,07
0,10
0,14
0,14
0,07
0,09
0,05
0,05
0,05
0,15
0,17
0,17
0,08
0,08
0,08
0,09
0,09
0,11
0,09
0,08
57
Equalização
Exemplo: dados do SARESP
Gráfico dos itens comuns
1
0
-3
b97

-2
y = 1,1084x - 0,7159
R2 = 0,968
-1
-1
0
1
-2
-3
-4
b96
58
Equalização

Calibração simultânea: Modelo dos Grupos
Múltiplos
P( U ij  1 |  kj )  ci  ( 1  ci )

1
1 e
 ai (  kj bi )
Questões:
- Número e distribuição de itens comuns
- Como ¨posicionar¨ novos grupos em uma escala já construída
- Avaliações Estaduais e outras: itens calibrados + itens novos
Andrade, D.F. (2001). Desempenhos de grupos de alunos por intermédio
da teoria da resposta ao item. Estudos em Avaliação Educacional,
no. 23, 31-70.
59
Construindo e Interpretando Escala
Beaton, A.E., Allen, N.L. (1992). Interpreting scales
through scale anchoring. Journal of Educational
Statistics, 17, 191-204.
Valle, R.C. (2001). Construção e interpretação de escalas
de conhecimento: um estudo de caso. Estudos em
Avaliação Educacional, no. 23, 71-92.
60
Construindo e Interpretando Escala

Educação Estatística
θ: extensão do uso de estatística no local de trabalho.
Questionário com 46 técnicas estatísticas e métodos de
pesquisa (itens).
Harraway, J.A. and Barker, R.J. (2005). Statistics in the workplace: a
survey of use by recent graduates with higher degrees. Statistics
Education Research Journal, 4(2), 43-58,
http://www.stat.auckland.ac.nz/serj
Harraway, J.A., Andrade, D.F.(2006). An item response analysis of
statistics use in the workplace. (apresentado no ICOTS7, Salvador)
61
Construindo e Interpretando Escala

Educação Estatística
% de respondentes que
atingiram o nível
Parametros dos itens
Topic
a
b
GRAPH
0,08
39,21
TESTS
0,12
49,72
SLREG
0,12
50,26
ANOVA
0,14
54,92
POSTHOC
0,11
61,53
MULTREG
0,11
61,78
FACTDES
0,09
69,31
PCA
0,13
69,48
MANOVA
0,10
69,81
NONLREG
0,09
70,00
REPMEAS
0,09
70,22
LOGREG
0,08
71,84
POWER
0,08
73,84
NONPREG
0,10
74,21
RANDEFTS
0,11
74,39
CLUSTER
0,08
74,48
BLOCKING
0,08
75,30
DISCRIM
0,11
76,79
EXPLORFA
0,07
79,84
CANCORR
0,11
80,96
MDS
0,09
81,02
CORRESP
0,11
81,85
PATHANAL
0,07
81,89
CROSSOV
0,06
84,96
SURVANAL
0,06
87,65
META
0,06
88,91
BAYESIAN
0,06
90,43
STOCHAST
0,05
94,56
LGLINMOD
0,08
77,30
COMPINT
0,06
79,27
THEORY
0,05
74,15
MRKRECAP
0,06
87,09
100
5
0,06
0,01
0,01
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,01
0,00
0,01
0,00
0,01
0,00
0,01
0,04
0,01
100
20
0,17
0,03
0,03
0,01
0,01
0,01
0,01
0,00
0,01
0,01
0,01
0,01
0,01
0,01
0,00
0,01
0,01
0,00
0,01
0,00
0,00
0,00
0,01
0,02
0,01
0,02
0,01
0,02
0,01
0,03
0,08
0,02
77
49
21
3
Níveis
35
0,41
0,15
0,14
0,06
0,05
0,05
0,05
0,01
0,03
0,04
0,04
0,04
0,04
0,02
0,01
0,04
0,04
0,01
0,04
0,01
0,02
0,01
0,03
0,05
0,03
0,04
0,03
0,04
0,03
0,07
0,14
0,05
da escala (50,15)
50
65
80
0,71
0,89
0,97
0,51
0,85
0,97
0,49
0,85
0,97
0,34
0,80
0,97
0,22
0,60
0,89
0,21
0,59
0,89
0,16
0,41
0,71
0,07
0,36
0,80
0,13
0,39
0,73
0,13
0,38
0,72
0,14
0,38
0,71
0,14
0,36
0,66
0,13
0,33
0,62
0,09
0,29
0,63
0,06
0,26
0,65
0,13
0,32
0,61
0,12
0,31
0,59
0,05
0,22
0,59
0,10
0,25
0,50
0,03
0,15
0,47
0,06
0,20
0,48
0,03
0,14
0,45
0,09
0,23
0,47
0,11
0,23
0,43
0,08
0,19
0,38
0,09
0,20
0,37
0,07
0,17
0,34
0,09
0,17
0,32
0,10
0,27
0,55
0,15
0,30
0,51
0,25
0,40
0,57
0,11
0,22
0,40
0
95
0,99
0,99
0,99
1,00
0,98
0,98
0,90
0,97
0,92
0,91
0,91
0,87
0,84
0,88
0,91
0,83
0,82
0,88
0,75
0,82
0,77
0,81
0,72
0,65
0,62
0,59
0,57
0,51
0,81
0,72
0,72
0,61
0
110
1,00
1,00
1,00
1,00
1,00
1,00
0,97
0,99
0,98
0,98
0,97
0,96
0,95
0,97
0,98
0,94
0,94
0,97
0,90
0,96
0,93
0,95
0,88
0,82
0,81
0,77
0,78
0,69
0,93
0,86
0,84
0,79
62
Construindo e Interpretando Escala
Escala Nacional de Proficiência – INEP/MEC
“Régua (métrica) criada a partir dos resultados do SAEB

- Média 250 (rendimento médio dos alunos da 8a. Série em 1997)
- Desvio padrão 50
- http://www.inep.gov.br/download/saeb/2004/
resultados/BRASIL.pdf
63
Download

TEORIA DA RESPOSTA AO ITEM - IASI