TEORIA DA RESPOSTA AO ITEM: Conceitos, Modelos e Aplicações Dalton F. Andrade ([email protected]) Departamento de Informática e Estatística – UFSC IME/USP – verão 2005 1 Conteúdo Introdução Modelos matemáticos Estimação: um único grupo (população) Equalização Estimação: dois ou mais grupos A escala de proficiência: construção e interpretação Modelos para dados longitudinais Modelos Multidimensionais Modelos Multivariados 2 Conteúdo DIF e DRIFT Recursos computacionais: em todos os tópicos Principais aplicações no Brasil em Educação Aplicações em outras áreas Qualidade de vida Serviços Gestão pela qualidade etc 3 Referências iniciais Lord, F.M., Norvick, M.R. (1968). Statistical Theories of Mental Test Score. Reading: Addison-Wesley Lord, F.M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale: Lawrence Erlbaum Associates Hambleton, R.K., Swaminathan, H., Rogers, H.J. (1991). Fundamentals of Item Response Theory. Newburry Park: Sage Publications. Andrade, D.F., Tavares, H.R., Cunha, R.V. (2000). Teoria da Resposta ao Item: Conceitos e Aplicações. São Paulo: Associação Brasileira de Estatística. 4 Introdução A Teoria da Resposta ao Item (TRI) é um conjunto de modelos matemáticos que relacionam um ou mais traços latentes (não observados) de um indivíduo com a probabilidade deste dar uma certa resposta a um item Traço latente: habilidade/proficiência em Matemática, grau de satisfação do consumidor, grau de maturidade de uma empresa em Gestão pela Qualidade, etc. Item: questão (prova), pergunta (questionário sobre qualidade de vida), ... 5 A partir de um conjunto de itens (questionário, prova, ...) deseja-se : estimar os parâmetros dos itens (calibração) “estimar” a habilidade, proficiência, grau de satisfação, grau de maturidade, ... Exemplos: prova de matemática para alunos de uma determinada série, questionário sobre os recursos físicos e pedagógicos da escola (Censo Escolar do INEP/MEC), questionário sobre qualidade de vida de pacientes que foram submetidos a determinado tratamento médico, ..) 6 Modelos • Dependem do tipo de item • Item de múltipla escolha (corrigido como certo/errado) Logístico (unidimensional) com 1, 2 ou 3 parâmetros ( p/ itens corrigidos como certo/errado) P( U ij 1 | j ) ci ( 1 ci ) 1 1 e ai ( j bi ) 7 Modelo Logístico de 3 parâmetros probabilidade de resposta correta Curva característica do item - CCI 1,0 a 0,8 0,6 0,4 c 0,2 0,0 -4,0 iiiiiiii b -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 habilidade (traço latente) a: discriminação ou inclinação do item b: dificuldade (medido na mesma métrica do traço latente) c: acerto casual (probabilidade) 8 Modelo Logístico de 3 parâmetros (a=2,5; b=1,2; c=0,2) probabilidade 1 0,8 0,6 0,4 0,2 0 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 habilidade(traço latente) P1 P0 9 • Modelo Nominal (considera todas as categorias de resposta) P(U ijs 1 | j ) exp[a is ( j bis )] mi exp[a h 1 ih ( j bih )] com a is e bis como no modelo Logístico 10 Modelo Nominal Probabilidade a=(-2,-1,1,0) e b=(-2,-1,2,1) 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 Traço latente P1 P2 P3 P4 11 • Modelo de Resposta Gradual (categorias ordinais) 1 P(U ijs 1 | j ) 1 exp[ai ( j bis )] 1 1 exp[ai ( j bi ( s1) )] bi1 bi 2 ... bim i 12 Modelo Resposta Gradual Probabilidade a=1,2 e b=(-2,-1,1) 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0 Traço latente P0 P1 P2 P3 13 • Modelo de Crédito Parcial: Modelo de Resposta Gradual sem o parâmetro de discriminação a •Modelo de Escala Gradual: Modelo de Resposta Gradual com bis = bi – ds 14 Aplicações em Avaliação Educacional SAEB: Sistema Nacional de Avaliação da Educação Básica - anos: 95/97/99/2001/2003(outubro) - séries: 4a. e 8a. do EF e 3a. do EM - disciplinas: Matemática, Português, Ciências, Física, Química, Biologia, História, Geografia - itens de múltipla escolha (95: itens 0,1,2) - um grande número de itens para cobrir a grade curricular - provas diferentes para uma mesma série/disciplina (BIB) - aluno faz somente uma das provas de uma das disciplinas - http://www.inep.gov.br/basica/saeb/ 15 Aplicações em Avaliação Educacional PISA – Programme for International Student Assessment (Programa Internacional de Avaliação de Alunos) - anos: 2000(Leitura), 2003(Matemática), 2006(Ciências) - alunos com 15 anos (independente da série) - itens de múltipla escolha e itens abertos (corrigidos 0,1,2) - modelo de 1 parâmetro (somente parâmetro b: dificuldade) - esquema BIB - 32 países em 2000 - http://www.inep.gov.br/internacional/pisa/ 16 Equalização Kolen, M.J., Brennan, R.L. (1995). Test Equating – Methods and Practices. New York: Springer. Resultados de diferentes provas em uma mesma escala Exemplo: SAEB (entre séries e anos) Como obter resultados comparáveis? Itens comuns entre séries e anos 17 Equalização Calibração em separado: equalização pelo princípio da invariância Exemplo: dados do SARESP Estimativas dos parâmetros dos itens comuns aos grupos 3ª série 96 e 97. Item C3S01 C3S02 C3S03 C3S04 C3S05 C3S06 C3S07 C3S08 C3S09 C3S10 C3S11 Parâmetro a 3 . 96 3ª 97 1,37 1,04 2,29 1,33 2,24 1,18 1,25 1,08 1,63 1,54 1,32 1,57 1,03 0,79 1,04 0,80 1,37 1,70 0,85 1,17 0,99 1,56 ª Parâmero b 3 . 96 3ª 97 -1,27 -2,18 -0,30 -0,90 0,09 -0,18 -2,33 -3,12 -2,09 -2,90 -2,43 -3,14 0,35 0,54 0,96 0,88 0,94 0,82 -0,83 -1,05 -0,12 -0,88 ª Parâmetro c 3 . 96 3ª 97 0,01 0,01 0,01 0,01 0,01 0,01 0,20 0,25 0,21 0,24 0,19 0,24 0,22 0,19 0,29 0,25 0,29 0,27 0,19 0,23 0,22 0,17 ª 18 Equalização 3a. série 1997 2 1 0 -4 -3 -2 -1 -1 0 1 2 -2 -3 -4 3a. série 1996 19 Calibração simultânea: Modelo dos Grupos Múltiplos P( U ij 1 | kj ) ci ( 1 ci ) 1 1 e ai ( kj bi ) Bock, R.D., Zimowski, M.F. (1997). Multiple group IRT. In Handbook of Modern Item Response Theory. W.J. van der Linden and R.K. Hambleton Eds. New York: Springer-Verlag Andrade, D.F. (2001). Desempenhos de grupos de alunos por intermédio da teoria da resposta ao item. Estudos em Avaliação Educacional, no. 23, 31-70. Questões: - Número e distribuição de itens comuns - Como ¨posicionar¨ novos grupos em uma escala já construída - Avaliações Estaduais e outras: itens calibrados + itens novos 20 Escala Nacional de Proficiência – INEP/MEC “Régua (métrica) criada a partir dos resultados do SAEB - Média 250 (rendimento médio dos alunos da 8a. Série em 1997) - Desvio padrão 50 - http://www.inep.gov.br/download/saeb/2004/ resultados/BRASIL.pdf Interpretação pedagógica da escala - Beaton, A.E., Allen, N.L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191-204. - Valle, R.C. (2001). Construção e interpretação de escalas de conhecimento: um estudo de caso. Estudos em Avaliação Educacional, no. 23, 71-92. 21 Escala Nacional de Proficiência – INEP/MEC rendimento médio Língua Portuguesa - Brasil 300 250 200 150 1995 4a. 1997 8a. 3a. 1999 2001 2003 anos 22 Escala Nacional de Proficiência – INEP/MEC rendimento médio Matemática - Brasil 300 250 200 150 1995 4a. 1997 8a. 3a. 1999 2001 2003 anos 23 Dados Longitudinais • PDE/FUNDESCOLA -Alunos de 4a. em 1999 acompanhados até a 8a. s em 2003 -Novos alunos podem entrar no estudo -Dados Incompletos - Duas disciplinas (Mat. e Port.): Bivariado 24 Dados Longitudinais International Project on Mathematical Attainment - IPMA (Profa. Ednéia Consolin Poli – UEL) 1999 2000 2001 2002 2003 G11ª. G12ª. G21ª. G13ª. G22ª. G14ª. G23ª. G24ª. 22 22 22 20 18 24 16 17 Alunos 568 557 512 395 309 307 282 270 Escolas 8 8 6 8 6 8 6 6 20 40 20 60 40 80 60 80 - - - - - sim - sim Professores No. de itens Fatores Assoc. 25 Dados Longitudinais Questões: • Modelos: Longitudinal, Multivariado • Programas computacionais Referência: • Tavares, H. R.(2001). Modelos da Teoria da Resposta ao Item para Dados Longitudinais. Tese de Doutorado. IME/USP. • Andrade, D.F. and Tavares, H.R. (2004). Item response theory for longitudinal data: population parameter estimation. (aceito para publicação em Journal of Multivariate Analysis). • Tavares, H.R. and Andrade, D.F. (2004). Item response theory for longitudinal data: item and population parameter estimation. (aceito para publicação em TEST). 26 • ENEM- Exame Nacional do Ensino Médio Prova multidisciplinar Itens multidimensionais Questões: Estudar a dimensão: análise fatorial Unidimensional: eliminar itens multidimensionais Multidimensional: Propor modelos Interpretar as dimensões/criar escalas Desenvolver programas computacionais • http://www.inep.gov.br/basica/enem/ 27 Aplicações em outras áreas - Gestão pela Qualidade Alexandre, J.W.C., Andrade,D.F., Vasconcelos,A.P. e Araújo, A.M.S.(2002). Uma proposta de análise de um construto para a medição dos fatores críticos da gestão pela qualidade através da teoria da resposta ao item. Gestão & Produção, v.9, n.2, p.129-141. Serviços/Marketing - Costa, M.B.F. (2001). Técnica derivada da teoria da resposta ao item aplicada ao setor de serviços. Dissertação de Mestrado – PPGMUE/UFPR - Bortolotti, S.L.V. (2003). Aplicação de um modelo de desdobramento da teoria da resposta ao item – TRI. Dissertação de Mestrado. EPS/UFSC - Bayley, S. (2001). Measuring customer satisfaction. Evaluation Journal of Australasia, v. 1, no. 1, 8-16. 28 Aplicações em outras áreas Médica - Mesbah, M., Cole, B.F., Lee, T.M. Eds. (2002). Statistical Methods for Quality of Life Studies. Dordrecht: Kluwer Academic Publishers - DeRoos, Y., Allen-Meares, P. (1998). Application of the Rasch Analysis: exploring differences in depression between africanamerican and white children. Journal of Social Service Research, v. 23, no. ¾, 93-107. Biologia/Genética - Tavares, H.R., Andrade, D.F. and Pereira, C.A.B. (2004). Detection of determinant genes and diagnostic via item response theory. (aceito para publicação em Genetics and Molecular Biology). 29