Faculdade de Ciência da Informação Elementos que influenciam a escolha da medida de eficácia ideal, revocação ou precisão em um Sistema de Recuperação de Informação Disciplina: Fundamentos da Organização da Informação Profª: Lilian Alvares Alunos: GRUPO 4 Fundamentos em Organização da Informação Ernesto João Mallen Luziaro Michel Zane Março/2013 Faculdade de Ciência da Informação Revisão Conceitual Recuperação (da Informação) Localizar documentos que tenham sido objeto de armazenamento, com a finalidade de permitir o acesso dos usuários aos itens de informação, objetos de uma solicitação . (Fonte: notas de aula) Índice (acepção estatística) Eficácia Termo da métrica que significa a relação de valores exprimíveis por números. Razão/proporção entre duas dimensões Qualidade do eficaz. Que produz o efeito desejado (Fonte: dicionário Michaelis) (Fonte: dicionário Michaelis) Revocação Precisão Ato de rechamar, evocar, chamar novamente Qualidade de ser certeiro, exatidão, regularidade na execução. (Fonte: dicionário Michaelis) (Fonte: dicionário Michaelis) Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Contexto do Problema • Grande quantidade de informações são produzidas e disponibilizadas diariamente • Elevada quantidade de documentos • Dificuldade no processo de recuperação de informação • Baixa qualidade dos documentos disponíveis Prejuízo na recuperação de informações relevantes Medidas de Eficácia Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Processo de um SRI Fonte: Gey 1992 Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Qualidades de um SRI Precisão Habilidade de recuperar documentos mais bem classificados em relevância. Revocação Habilidade de pesquisa para encontrar todos os itens relevantes de uma coleção. Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Medidas de Avaliação de SRI Índice de Precisão ou Pertinência (IP) •Indica a fração dos documentos já examinados que são relevantes •Indica a capacidade de evitar documentos recuperados inúteis (Índice de Ruídos, VAN DER LAAN, 2005). (DRv DRc) Doc. Recuperados Doc. Relevantes Relevantes Doc. Recuperados IP = DRvRc <= 1 DRc Universo Documental Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Medidas de Avaliação de SRI Índice de Revocação/Recall (IR) •Indica a fração dos documentos relevantes recuperada dentre os documentos relevantes •Indica a proporção dos documentos pertinentes recuperados em relação ao total de documentos pertinentes existentes. Doc. Retcuperados Relevantes Doc. Relevantes Doc. Recuperados IR = DRvRc DRv <= 1 Universo Documental Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Aplicando os Índices na Avaliação de SRI Caso 1 •Alta precisão, Baixa revocação. DRc DRv DRvRc UD = 1000 DRv = 250 DRc = 50 DRvRc = 45 IP = DRvRc = 45 = 0,9 DRc = 50 UD Fundamentos em Organização da Informação IR = DRvRc = 45 = 0,18 DRv = 250 Março/2013 Faculdade de Ciência da Informação Aplicando os Índices na Avaliação de SRI Caso 2 •Baixa precisão, Alta revocação. DRc DRv DRvRc UD = 1000 DRv = 250 DRc = 900 DRvRc = 200 IP = DRvRc = 200 = 0,22 DRc = 900 UD Fundamentos em Organização da Informação IR = DRvRc = 200 = 0,8 DRv = 250 Março/2013 Faculdade de Ciência da Informação Aplicando os Índices na Avaliação de SRI Caso 3 •Alta precisão, Alta revocação. DRc DRv DRvRc UD = 1000 DRv = 250 DRc = 230 DRvRc = 200 IP = DRvRc = 200 = 0,87 DRc = 230 UD Fundamentos em Organização da Informação IR = DRvRc = 200 = 0,8 DRv = 250 Março/2013 Faculdade de Ciência da Informação Dilema entre Revocação e Precisão Retorna documentos relevantes mas perde muitos úteis também Ideal Precisão 1 0 Revocação Fundamentos em Organização da Informação 1 Retorna muitos documentos relevantes mas também muito lixo Março/2013 Faculdade de Ciência da Informação Busca por Equilíbrio 1- PRECISÃO SRI / O REVOCAÇÃO Fundamentos em Organização da Informação | 1 Março/2013 Faculdade de Ciência da Informação Busca por Equilíbrio F-Measure/ F-Score Medida de performance que leva em conta a Revocação e Precisão bucando harmonia entre ambas. 2 PR 2 F 1 1 P R RP Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Busca por Equilíbrio E-Measure (F-Measure parametrizada) Uma variante de F-measure que permite ponderação (de peso) entre Precisão e Revocação. (1 ) PR (1 ) E 2 1 2 PR R P 2 Fundamentos em Organização da Informação 2 = 1: Peso igual entre Precisão e Revocação > 1: Peso maior para Revocação < 1: Peso maior para Precisão. Março/2013 Faculdade de Ciência da Informação Conclusão Quais Elementos influenciam a escolha da medida de eficácia ideal, Revocação ou Precisão em um Sistema de Recuperação de Informação? Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Conclusão DRvRc = DRv IP = DRc foca nível de RELEVÂNCIA DRvRc = DRc DRv foca volume RECUPERADO IR = F-Measure/ F-Score Fundamentos em Organização da Informação Busca equilíbrio entre nivel de RELEVÂNCIA e volume RECUPERADO Março/2013 Faculdade de Ciência da Informação Referências CARDOSO, OLINDA NOGUEIRA PAES. Recuperação de Informação. Disponível em: http://www.dcc.ufla.br/infocomp/artigos/v2.1/art07.pdf. Acessado em: Março/2013. Araújo Jr, Ci. Inf., Brasília, v. 35, n. 3, p. 236-247, set./dez. 2006, Precisão no processo de busca e recuperação da informação: uso da mineração de textos. Ghosh, Joydeep. Lee, Dik. Performance Evaluation of Information Retrieval Systems. Disponível em: www.cs.utexas.edu/~mooney/ircourse/slides/Evaluation.ppt. Acessado em: Março/2013. Fundamentos em Organização da Informação Março/2013 Faculdade de Ciência da Informação Elementos que influenciam a escolha da medida de eficácia ideal, revocação ou precisão em um Sistema de Recuperação de Informação Discussão Alunos: GRUPO 4 Fundamentos em Organização da Informação Ernesto João Mallen Luziaro Michel Zane Março/2013