III CONAVE – Congresso Nacional de Avaliação em Educação Produção de Medidas de Desempenho Educacional pela Teoria da Resposta ao Item e sua utilização para a melhoria da qualidade de ensino CME – COORDENAÇÃO DE MEDIDAS EDUCACIONAIS CAEd/UFJF (32)4009-2071 [email protected] CONTEÚDO • • • • 1 – conceitos básicos 2 - Modelos matemáticos da TRI 3 – Interpretação de Resultados 4 – Tendências das avaliações no Brasil 1 - CONCEITOS BÁSICOS 1 - CONCEITOS BÁSICOS UTILIZADOS NA TRI 1 - CONCEITOS BÁSICOS Fundamentos da TRI • O que são itens? – São os elementos que compõem os testes ou questionários • O que é proficiência? – É a medida que representa um determinado traço latente (aptidão) • Teoria da Resposta ao Item (TRI) – Grupo de modelos matemáticos e estatísticos que descrevem a associação entre a aptidão de um indivíduo e a probabilidade de uma resposta a um item 1 - CONCEITOS BÁSICOS PRINCIPAIS PRODUTOS DA TRI - Interpretação pedagógica da escala - Comparabilidade de resultados: - Entre diferentes avaliações em um mesmo período de tempo - Entre diferentes avaliações em diferentes períodos de tempo 1 - CONCEITOS BÁSICOS Como se calcula a proficiência de um aluno? • I - AVALIAÇÃO EM LARGA ESCALA • II – TEORIA DA RESPOSTA AO ITEM - TRI • III – INDICADORES DE DESEMPENHO 1 - CONCEITOS BÁSICOS I –AVALIAÇÃO EM LARGA ESCALA 1 - CONCEITOS BÁSICOS Como construir uma escala 1 - CONCEITOS BÁSICOS Escala: altura de uma pessoa • Item 1 Você consegue guardar as malas no bagageiro interno de um ônibus? • Item 2 Você consegue subir ou descer dois degraus de cada vez em uma escada? • Item 3 Para conversar com as pessoas, você precisa olhar para baixo? 1 - CONCEITOS BÁSICOS Respostas do Questionário Nome Item 1 Item 2 Item 3 Carolina Sim Não Não Priscila Sim Sim Não Leonardo Sim Sim Sim 1 - CONCEITOS BÁSICOS Escala: item x medida Nome Item 1 Item 2 Item 3 Carolina Sim Não Não Priscila Sim Sim Não Leonardo Sim Sim Sim Carolina 1,5 1,6 Priscila 1,8 1,7 Item 1 Leonardo Item 2 1,9 Item 3 1 - CONCEITOS BÁSICOS Questionário de altura 1 - CONCEITOS BÁSICOS 3 – estimação dos parâmetros dos itens 1 - CONCEITOS BÁSICOS Posição dos itens na escala 1,6 1,5 9 4 Guardar a bagagem 16 17 1,8 1,7 15 7 20 18 11 12 10 14 5 13 1,9 6 3 2 19 8 1 Atrás na fila Pés fora da cama 1 - CONCEITOS BÁSICOS Posição dos itens e pessoas na escala 43,6% 32% 14.6% 9.8% 1,6 1,5 9 4 16 17 1,8 1,7 15 7 20 18 11 12 10 14 5 13 1,9 6 3 2 19 8 1 1 - CONCEITOS BÁSICOS II – TEORIA DA RESPOSTA AO ITEM - TRI • HISTÓRICO TRI • FUNDAMENTOS – TRI • MEDIDAS E ESCALAS 1 - CONCEITOS BÁSICOS Avaliações em larga escala com a TRI • Análise segundo a TRI – Lord (1952) – Probabilidade de acerto ao item em função da habilidade – Posicionamento dos itens em função da dificuldade na mesma escala da proficiência • Década de 1970 – Desenvolvimento de testes adaptativos • Década de 1980 – Desenvolvimento de softwares específicos para TRI • Década de 1990 – Desenvolvimento de testes informatizados (CBT’s) e testes adaptativos informatizados (CAT’s) 1 - CONCEITOS BÁSICOS Características das avaliações em larga escala no Brasil • Até 1993: TCT • A partir de 1995: TRI • INEP SAEB 1995 1997 1999 2001 2003 2005 2007 2009 SAEB e Prova Brasil • Avaliações estaduais e municipais MG (2000), CE (1992), RS, RJ, PE, SP, ES, BA. 1 - CONCEITOS BÁSICOS Características das avaliações em larga escala no Brasil 1° Momento 2° Momento 3° Momento 1 - CONCEITOS BÁSICOS BIB - SAEB ATÉ 2005 CADERNO 1 2 3 4 5 6 7 8 9 10 11 12 13 POS1 1 2 3 4 5 6 7 8 9 10 11 12 13 BLOCOS POS2 2 3 4 5 6 7 8 9 10 11 12 13 1 POS3 5 6 7 8 9 10 11 12 13 1 2 3 4 CADERNO 14 15 16 17 18 19 20 21 22 23 24 25 26 POS1 1 2 3 4 5 6 7 8 9 10 11 12 13 BLOCOS POS2 3 4 5 6 7 8 9 10 11 12 13 1 2 POS3 8 9 10 11 12 13 1 2 3 4 5 6 7 1 - CONCEITOS BÁSICOS BIB - A PARTIR DE 2005 1 - CONCEITOS BÁSICOS MEDIDAS E ESCALAS • A ESCALA SAEB • CONTRUÇÃO DE TESTES 1 - CONCEITOS BÁSICOS ESCALA SAEB • Matriz de referência • Design do teste 1 - CONCEITOS BÁSICOS ESCALAS DE PROFICIÊNCIA Curva normal 1 - CONCEITOS BÁSICOS ESCALA SAEB 1 - CONCEITOS BÁSICOS ESCALA SAEB 1 - CONCEITOS BÁSICOS 190 250 270 ESCALA SAEB 2 – MODELOS MATEMÁTICOS 2 – MODELOS MATEMÁTICOS DA TRI CME – COORDENAÇÃO DE MEDIDAS EDUCACIONAIS CAEd/UFJF (32)4009-2071 [email protected] 2 – MODELOS MATEMÁTICOS DA TRI 1 PL Dicotômico 2 PL 3 PL UIRT Modelo de crédito parcial Politômico Modelo Modelo de crédito parcial generalizado Modelo de resposta ponderada Modelo de resposta nominal Dicotômico MIRT Politômico MODELOS MATEMÁTICOS 2 – MODELOS MATEMÁTICOS DA TRI FUNDAMENTOS DA TRI MÉTODOS DE LINKAGENS MÉTODOS DE ESTIMAÇÃO LINEARES PARÂMETROS DE ITENS REGRESSÃO LINEAR MODELO LOGÍSTICO 1LP 1LP MML MÉDIA/SIGMA MMAP MÉDIA/MÉDIA 2LP 2LP 3LP 3LP CURVA CARACTERÍSTICA SCORES ML NÃO LINEARES MAP EAP CALIBRAÇÃO SIMULTÂNEA PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP Testes Unidimensionais compostos por itens dicotômicos 2 – MODELOS MATEMÁTICOS DA TRI Relação não-linear P( Xi 1 / , bi , ai , ci ) ci (1 ci ) 1 1 e aiD ( bi ) 2 – MODELOS MATEMÁTICOS DA TRI 2 – MODELOS MATEMÁTICOS DA TRI MODELOS DA TRI – 3PL Probabilidade de Acerto ITEM 1 1 0,65 0,5 0,3 250 Proficiência PARÂMETROS A B C 0,010 250 0,30 2 – MODELOS MATEMÁTICOS DA TRI MODELOS DA TRI – 3PL Probabilidade de Acerto ITEM 1 2 1 2 1 0,65 0,5 0,3 250 Proficiência PARÂMETROS A B C 0,010 250 0,30 0,020 250 0,30 2 – MODELOS MATEMÁTICOS DA TRI MODELOS DA TRI – 3PL Probabilidade de Acerto ITEM 1 2 3 1 2 1 0,65 0,5 3 0,3 250 350 Proficiência PARÂMETROS A B C 0,010 250 0,30 0,020 250 0,30 0,020 350 0,30 2 – MODELOS MATEMÁTICOS DA TRI MODELOS DA TRI – 3PL Probabilidade de Acerto ITEM 1 2 3 4 1 2 1 0,65 0,5 3 0,3 4 250 350 Proficiência PARÂMETROS A B C 0,010 250 0,30 0,020 250 0,30 0,020 350 0,30 0,020 350 0,20 2 – MODELOS MATEMÁTICOS DA TRI ITENS DE UM TESTE 2 – MODELOS MATEMÁTICOS DA TRI EXEMPLOS DE ITENS – discriminação boa 2 – MODELOS MATEMÁTICOS DA TRI EXEMPLOS DE ITENS – discriminação ruim 2 – MODELOS MATEMÁTICOS DA TRI FUNDAMENTOS DA TRI MÉTODOS DE LINKAGENS MÉTODOS DE ESTIMAÇÃO LINEARES PARÂMETROS DE ITENS REGRESSÃO LINEAR MODELO LOGÍSTICO 1LP 1LP MML MÉDIA/SIGMA MMAP MÉDIA/MÉDIA 2LP 2LP 3LP 3LP CURVA CARACTERÍSTICA SCORES ML NÃO LINEARES MAP EAP CALIBRAÇÃO SIMULTÂNEA PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP Testes Unidimensionais compostos por itens dicotômicos 2 – MODELOS MATEMÁTICOS DA TRI Métodos de Estimação • Verossimilhança n L(u1s , u2 s ,..., uns | ) Pi ( s )usi Qi ( s )1usi i 1 Pi (s ) ci (1 ci ) 1 1 e aiD (s bi ) Qi (s) (1 ci ) (1 ci ) 1 1 e aiD(s bi ) 2 – MODELOS MATEMÁTICOS DA TRI Métodos de Estimação • Máxima Verossimilhança - ML n LogL(uis 1| ) uis log Pi( ) (1 uis ) log Qi( ) i 1 Métodos interativos • Máxima Verossimilhança Marginal – MML • Máxima Verossimilhança Conjunta 2 – MODELOS MATEMÁTICOS DA TRI Métodos de Estimação • Métodos Bayesianos Distribuição à posteriori Função de verossimilhança x Prioris - Distribuições utilizadas nas prioris População: normal Parâmetros dos itens o a – log-normal o b – normal o c – beta • Máxima Distribuição Marginal à Posteriori – MMAP • Máxima à Posteriori – MAP • Esperado à Posteriori - EAP 2 – MODELOS MATEMÁTICOS DA TRI FUNDAMENTOS DA TRI MÉTODOS DE LINKAGENS MÉTODOS DE ESTIMAÇÃO LINEARES PARÂMETROS DE ITENS REGRESSÃO LINEAR MODELO LOGÍSTICO 1LP 1LP MML MÉDIA/SIGMA MMAP MÉDIA/MÉDIA 2LP 2LP 3LP 3LP CURVA CARACTERÍSTICA SCORES ML NÃO LINEARES MAP EAP CALIBRAÇÃO SIMULTÂNEA PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP Testes Unidimensionais compostos por itens dicotômicos 2 – MODELOS MATEMÁTICOS MÉTODOS DE LINKAGEM • Cultura de uma escala única nacional – SAEB • Características da avaliação em larga escala de 1995 a 2007 2 – MODELOS MATEMÁTICOS Equalização Vertical • • • • Avaliações do SAEB Testes com conteúdos diferentes Testes com descritores diferentes Populações não equivalentes 2 – MODELOS MATEMÁTICOS Designs ou Delineamentos para coleta de dados Design para grupos não equivalentes através de itens comuns Forma X Itens comunsc omum Grupo 1 Forma Y Itens comunsc omum Grupo 2 2 – MODELOS MATEMÁTICOS LINKAGEM • Processo para colocar diferentes testes em uma mesma escala (equalização vertical) DESIGN TESTE SAEPE 2008 LÍNGUA PORTUGUESA 4ª SÉRIE EF 8ª SÉRIE EF 3º ANO EM ITENS COMUNS ENTRE GRUPOS • Método adotado: Vertical equating 2 – MODELOS MATEMÁTICOS TRI padrão SAEB MÉTODOS DE LINKAGENS MÉTODOS DE ESTIMAÇÃO LINEARES PARÂMETROS DE ITENS REGRESSÃO LINEAR MODELO LOGÍSTICO 1LP 1LP MML MÉDIA/SIGMA MMAP MÉDIA/MÉDIA 2LP 2LP 3LP 3LP CURVA CARACTERÍSTICA SCORES ML NÃO LINEARES MAP EAP CALIBRAÇÃO SIMULTÂNEA PRÉ-FIXAÇÃO DE PARÂMETROS - FPIP Testes Unidimensionais compostos por itens dicotômicos 3 – Interpretação de resultados • • • • Precisão do teste Ajuste do teste à população Interpretação de escala Indicadores de desempenho 3 – Interpretação de resultados PRECISÃO DO TESTE 3 – Interpretação de resultados AJUSTE DO TESTE COM A POPULAÇÃO TESTE BEM AJUSTADO 3 – Interpretação de resultados AJUSTE DO TESTE COM A POPULAÇÃO TESTE DESAJUSTADO 3 – Interpretação de resultados INTERPRETÇÃO DA ESCALA 3 – Interpretação de resultados Ancoragem dos itens na escala • Estatística: PONTO DE ANCORAGEM DO ITEM: Proficiência que corresponde a uma probabilidade de acerto de 65% • Especialistas pedagógicos: Alocação dos itens na escala por descritor e ponto de ancoragem 3 – interpretação de resultados INDICADORES DE DESEMPENHO • Interpretação de medidas de desempenho • Série histórica SAEB • IDEB 3 – Interpretação de resultados Interpretação de medidas de desempenho educacional Posição: média Variação: percentuais por padrão de desempenho 3 – Interpretação de resultados Interpretação de medidas de desempenho educacional Posição: média Variação: percentuais por padrão de desempenho 3 – Interpretação de resultados Interpretação de medidas de desempenho educacional Posição: média Variação: percentuais por padrão de desempenho 3 – Interpretação de resultados Interpretação de medidas de desempenho educacional 3 – Interpretação de resultados • Série histórica SAEB – Rede pública LÍNGUA PORTUGUESA 310.0 290.0 270.0 250.0 5ºEF 230.0 9ºEF 210.0 3ºEM 190.0 170.0 150.0 1995 1997 1999 2001 2003 2005 2007 2009 3 – Interpretação de resultados Série histórica SAEB – Rede pública MATEMÁTICA 290 270 250 5ºEF 230 9ºEF 210 3ºEM 190 170 150 1995 1997 1999 2001 2003 2005 2007 2009 3 – Interpretação de resultados IDEB • Forma geral do Ideb: IDEB = N . P • N = média da proficiência em Língua Portuguesa e Matemática, padronizada para um indicador entre 0 e 10, no exame realizado ao final da etapa de ensino • P = indicador de rendimento baseado na taxa de aprovação da etapa de ensino 3 – Interpretação de resultados 3 – Interpretação de resultados Evolução do Ideb - Brasil • Rede Pública – Anos Iniciais Ens. Fundamental 3 – Interpretação de resultados Evolução do Ideb - Brasil • Rede Pública – Anos Finais Ens. Fundamental 3 – Interpretação de resultados Evolução do Ideb - Brasil • Rede Pública – Ensino Médio 3 – Interpretação de resultados Evolução do Ideb - Estados • Rede Pública – Anos Iniciais Ens. Fundamental 4 - Tendências • • • • Utilização de itens politômicos Subescalas Criticidade de corretores CAT 4 - Tendências • Utilização de itens politômicos - Testes de escrita para alfabetização - Redação 4 - Tendências • Subescala • Leitura/escrita - Alfabetização • Física/Química/Biologia e História/Geografia Ensino médio padrão ENEM 4 - Tendências • Criticidade de corretores - 3 facetas - consistência e coincidência - BIB de corretores