Mineração de Opiniões Juliano Rabelo [email protected] Introdução • Dois tipos de informação na web – Fatos e opiniões • Engenhos de busca são dirigidos a fatos – Fatos são bem representados por palavraschave – Já opiniões... • O que as pessoas acham do novo celular da Motorola? – Estratégia de ordenação dos resultados não apropriada para busca de opiniões Introdução • Boca-a-boca na web – Sites de review, fóruns, grupos de discussão, blogs, etc • Experiências pessoais e opiniões sobre tudo – Informação valiosa em escala global • Objetivo: minerar opiniões no conteúdo gerado por usuários – Problema complexo – Com várias aplicações práticas Introdução “(1) Sábado passado eu comprei um celular Nokia e minha namorada comprou um Motorola. (2) Quando chegamos em casa nos ligamos. (3) A voz dela não estava tão limpa no meu celular, achei pior que no meu antigo aparelho. (4) Já a câmera é boa. (5) Minha namorada gostou bastante do celular dela. (6) Eu queria um celular com boa qualidade de voz, (7) então minha compra foi muito frustrante. (8) Acabei devolvendo o celular ontem.” Introdução – Aplicações • Empresas: benchmarking de produtos e serviços e pesquisas de mercado – Atualmente feitos através de pesquisas de opinião “manuais” • Indivíduos: buscam opiniões de outras pessoas – Ex: ao comprar produtos • Propaganda dirigida – Anúncios apropriados para as opiniões emitidas • Busca de opiniões – Engenho de busca genérico para opiniões Introdução • Três tipos de opinião – Direta: “Essa câmera é muito boa” • Subjetiva – Indireta: “O fone quebrou depois de dois dias” • Objetiva – Comparação: “Essa câmera é melhor do que aquela” • Subjetiva ou objetiva • Comparativa! Busca de Opiniões • Antes de tomar uma decisão, consultamse outras pessoas • Atualmente isso não pode ser feito na web – Opiniões: “celulares Motorola” – Comparações: “celulares Motorola x Nokia” Consultas de Opinião Típicas • O que alguém pensa sobre algo – Eg, qual a opinião de Lula sobre privatizar a Petrobras? – Um fato = vários fatos – IR usual resolve com o uso de queries adequadas • Achar opiniões negativas e positivas sobre algo – – – – Opiniões de usuários sobre um produto Opiniões sobre um tema político Um fato != vários fatos Algum tipo de agregação/sumarização é necessário • Como as opiniões sobre algo variam ao longo do tempo • Comparações Roteiro • Mineração de opiniões: abstração • Mineração de opiniões – Por documento – Por sentença – Por característica Sentenças comparativas e extração de relação • Conclusão Mineração de opiniões: abstração • Componentes de uma opinião – Emissor, objeto e opinião – Objeto: produto, evento, organização, evento ou tópico • Hierarquia de componentes, subcomponentes e atributos – Opinião sobre cada componente ou atributo • Característica Modelo de uma review • Objeto O representado por um conjunto de características F = {f1, f2, ..., fn} – Cada fi pode ser expressa através de um conjunto Wi de palavras ou frases (sinônimos) • Modelo: um emissor j comenta sobre um subconjunto Sj F de O – Para cada fk, o emissor: • Escolhe uma palavra ou frase de Wk • Expressa uma opinião positiva, negativa ou neutra Tarefas • No nível de documento: classificação de sentimento de documentos (reviews) – Classes: positiva, negativa e neutra – Assume que cada documento foca num único objeto e contém opiniões de um único emissor • No nível de sentença – Tarefa 1: identificar sentenças subjetivas – Tarefa 2: classificar sentimento de sentenças • Assume que cada sentença contém uma única opinião Tarefas • No nível de característica – Tarefa 1: identificar características que foram comentadas por um emissor – Tarefa 2: classificar as opiniões – Tarefa 3: agrupar características sinônimas • Identificar emissores é importante, mas normalmente mais simples • Tarefa em comum: produzir um sumário baseado em características Palavras Opinativas • Palavras e frases opinativas – Positivas: bonita, ótima, excelente – Negativas: ruim, péssimo, horrível, custa o olho da cara • Três formas de construir uma lista – Manualmente (esforço único) – Através de corpus – Através de dicionários • Importante – Palavras dependentes de contexto (eg: grande) e independentes de contexto (eg: ótimo) – Ironia e sarcasmo dificultam a classificação Corpus • Duas linhas principais: – Baseadas em padrões sintáticos ou de coocorrência em corpora grandes – Uso de restrições ou convenções sobre conectivos • “Esse carro é bonito e espaçoso” Dicionário • Normalmente usam o WordNet – Partem de um conjunto-semente pequeno – Buscam sinônimos e antônimos no WordNet • Pode ser necessária inspeção manual – Desvantagem • Não encontram palavras dependentes de contexto – SentiWordNet Roteiro • Mineração de opiniões: abstração • Mineração de opiniões – Por documento – Por sentença – Por característica • Sentenças comparativas e extração de relação • Conclusão Mineração por Documento • Classificar documentos de acordo com sentimentos expressos por emissores – Positivo, negativo e neutro – O é uma característica • Busca-se a opinião sobre O em cada documento • Parecido com classificação de texto baseada em tópicos – Mas palavras “opinativas” são mais importantes que palavras de tópico Mineração por Documento • Várias abordagens – N-gramas, POS taggers, etc – Combinam a polaridade das palavras “opinativas” – Sentimento geral é dado de acordo com essa combinação • Granularidade inadequada para muitas aplicações Roteiro • Mineração de opiniões: abstração • Mineração de opiniões – Por documento – Por sentença – Por característica • Sentenças comparativas e extração de relação • Conclusão Mineração por Sentença • Primeira tarefa: identificar sentenças “opinativas” – Todas as técnicas usam aprendizagem de máquina • Rilloff e Wiebe: Bootstrapping – Parte de um conjunto manual de indicadores de subjetividade – Aprendem padrões sintáticos de sentenças opinativas Mineração por Sentença • Ainda pouco detalhada para muitas aplicações • Não encontra o que o emissor gostou e não gostou • Sentimento negativo sobre um objeto não indica que o emissor não gostou de nada e vice-versa Roteiro • Mineração de opiniões: abstração • Mineração de opiniões – Por documento – Por sentença – Por característica • Sentenças comparativas e extração de relação • Conclusão Mineração de opiniões baseada em características • Objetivo: achar as características e as opiniões acerca delas • Potencialmente muitas características, fontes, emissores, etc – Sumarização dos resultados é essencial Tarefas – Relembrando • • • • Tarefa 1: identificar características Tarefa 2: classificar as opiniões Tarefa 3: agrupar característica sinônimas Produzir um sumário baseado em características Extração de características • Normalmente cada segmento de sentença contém uma característica – Segmentos separados por vírgula, ponto, ponto-e-vírgula, “e”, “mas”, etc – “as fotos são muito boas” • Característica explícita: foto – “pequena o suficiente para caber no bolso” • Característica implícita: tamanho • Extração baseada em frequência Extração baseada em frequência • Características frequentes: comentadas por muitos emissores • Emissores diferentes se expressam de formas diferentes • Quando características de objetos são discutidas, o vocabulário converge – Características principais Extração de características infrequentes • Como encontrá-las? • A mesma palavra opinativa pode ser usada para descrever características diferentes – “As fotos ficam realmente excelentes” – “O software da câmera é excelente” Classificação de opiniões • Para cada característica, identificar o sentimento expresso • Quase todas as abordagens usam palavras e frases opinativas – Observando contexto conforme apropriado Agregação de opiniões • Dada uma sentença s que contém opinião sobre f • Identificar as palavras opinativas e somar suas orientações (+1, -1, 0) • A orientação da opinião sobre f é dada pelo resultado • Pequenas variações ponderando o orientação pela distância de cada palavra opinativa a f Identificar sinônimos • Primeiras tentativas usando apenas WordNet • Abordagens mais sofisticadas baseadas em medidas de similaridade – Similaridade de string, sinônimos e distâncias calculadas através do WordNet – Desvantagem: requer que uma taxonomia de características seja dada Sumarização • Construção de um sumário estruturado • Alternativas – Votação – Selecionar opiniões-chave (de acordo com emissor, assunto ou característica, por exemplo) – Identificar pontos de desacordo e de consenso – Estabelecer níveis de autoridade entre os autores Sumarização • Textual – Característica 1: “foto” – Positivas: 12 • ... – Negativas: 2 • ... – Característica 2: “tamanho” • ... Sumarização • Gráfico Sumário para câmera A Foto Comparativo entre câmeras AeB Bateria Zoom Tamanho Peso Roteiro • Mineração de opiniões: abstração • Mineração de opiniões – Por documento – Por sentença – Por característica • Sentenças comparativas e extração de relação • Conclusão Extração de comparativos • Dois tipos de opiniões – Direta: “Esse carro é ruim” – Comparação: “X é tão bom quanto Y” • Usam diferentes construções • Tarefas – Identificar sentenças comparativas – Extrair delas relações comparativas Perspectiva linguística • Sentenças comparativas usam termos como “mais”, “menos”, “tanto quanto”, etc • Limitações – Cobertura reduzida • “A Intel está muito à frente da AMD” – Não comparativos com palavras comparativas • “No contexto de velocidade, mais rápido significa melhor” Comparativos mensuráveis • Mensurável não igual – Expressões como melhor, à frente, etc – “o visor da câmera A é melhor que o de B” • Mensurável igual – Expressões como igual, equivale, ambos, etc – “câmeras A e B são ambas muito boas” • Superlativo – Expressões como a melhor, a maior, etc • “a câmera A é a mais barata do mercado” Comparativos não mensuráveis • Sentenças que comparam características entre objetos mas não as mensuram. Implicam: – Objeto A é similar/diferente do B em relação a algumas características – Objeto A tem f1, objeto B tem f2 (f1 e f2 são equivalentes) – Objeto A tem f e B não tem Roteiro • Mineração de opiniões: abstração • Mineração de opiniões – Por documento – Por sentença – Por característica • Sentenças comparativas e extração de relação • Conclusão Conclusão • Três tipos de avaliação – Opiniões diretas e indiretas • Em nível de documento, sentença e característica • Sumário estruturado de vários documentos – Comparações • Identificação de sentenças comparativas • Extração de relações • Problemas complexos e desafiadores – Técnicas atuais ainda incipientes • Aplicações comerciais estão surgindo – Inclusive em Recife Mineração de Opiniões Juliano Rabelo [email protected]