Mineração de Opiniões
Juliano Rabelo
jcbr@cin.ufpe.br
Introdução
• Dois tipos de informação na web
– Fatos e opiniões
• Engenhos de busca são dirigidos a fatos
– Fatos são bem representados por palavraschave
– Já opiniões...
• O que as pessoas acham do novo celular da
Motorola?
– Estratégia de ordenação dos resultados não
apropriada para busca de opiniões
Introdução
• Boca-a-boca na web
– Sites de review, fóruns, grupos de discussão,
blogs, etc
• Experiências pessoais e opiniões sobre tudo
– Informação valiosa em escala global
• Objetivo: minerar opiniões no conteúdo
gerado por usuários
– Problema complexo
– Com várias aplicações práticas
Introdução
“(1) Sábado passado eu comprei um celular Nokia
e minha namorada comprou um Motorola. (2)
Quando chegamos em casa nos ligamos. (3) A
voz dela não estava tão limpa no meu celular,
achei pior que no meu antigo aparelho. (4) Já a
câmera é boa. (5) Minha namorada gostou
bastante do celular dela. (6) Eu queria um
celular com boa qualidade de voz, (7) então
minha compra foi muito frustrante. (8) Acabei
devolvendo o celular ontem.”
Introdução – Aplicações
• Empresas: benchmarking de produtos e
serviços e pesquisas de mercado
– Atualmente feitos através de pesquisas de opinião
“manuais”
• Indivíduos: buscam opiniões de outras pessoas
– Ex: ao comprar produtos
• Propaganda dirigida
– Anúncios apropriados para as opiniões emitidas
• Busca de opiniões
– Engenho de busca genérico para opiniões
Introdução
• Três tipos de opinião
– Direta: “Essa câmera é muito boa”
• Subjetiva
– Indireta: “O fone quebrou depois de dois dias”
• Objetiva
– Comparação: “Essa câmera é melhor do que
aquela”
• Subjetiva ou objetiva
• Comparativa!
Busca de Opiniões
• Antes de tomar uma decisão, consultamse outras pessoas
• Atualmente isso não pode ser feito na web
– Opiniões: “celulares Motorola”
– Comparações: “celulares Motorola x Nokia”
Consultas de Opinião Típicas
• O que alguém pensa sobre algo
– Eg, qual a opinião de Lula sobre privatizar a Petrobras?
– Um fato = vários fatos
– IR usual resolve com o uso de queries adequadas
• Achar opiniões negativas e positivas sobre algo
–
–
–
–
Opiniões de usuários sobre um produto
Opiniões sobre um tema político
Um fato != vários fatos
Algum tipo de agregação/sumarização é necessário
• Como as opiniões sobre algo variam ao longo do tempo
• Comparações
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões
– Por documento
– Por sentença
– Por característica Sentenças comparativas e
extração de relação
• Conclusão
Mineração de opiniões: abstração
• Componentes de uma opinião
– Emissor, objeto e opinião
– Objeto: produto, evento, organização, evento
ou tópico
• Hierarquia de componentes, subcomponentes e
atributos
– Opinião sobre cada componente ou atributo
• Característica
Modelo de uma review
• Objeto O representado por um conjunto de
características F = {f1, f2, ..., fn}
– Cada fi pode ser expressa através de um conjunto
Wi de palavras ou frases (sinônimos)
• Modelo: um emissor j comenta sobre um
subconjunto Sj  F de O
– Para cada fk, o emissor:
• Escolhe uma palavra ou frase de Wk
• Expressa uma opinião positiva, negativa ou neutra
Tarefas
• No nível de documento: classificação de
sentimento de documentos (reviews)
– Classes: positiva, negativa e neutra
– Assume que cada documento foca num único objeto
e contém opiniões de um único emissor
• No nível de sentença
– Tarefa 1: identificar sentenças subjetivas
– Tarefa 2: classificar sentimento de sentenças
• Assume que cada sentença contém uma única opinião
Tarefas
• No nível de característica
– Tarefa 1: identificar características que foram
comentadas por um emissor
– Tarefa 2: classificar as opiniões
– Tarefa 3: agrupar características sinônimas
• Identificar emissores é importante, mas
normalmente mais simples
• Tarefa em comum: produzir um sumário
baseado em características
Palavras Opinativas
• Palavras e frases opinativas
– Positivas: bonita, ótima, excelente
– Negativas: ruim, péssimo, horrível, custa o olho da
cara
• Três formas de construir uma lista
– Manualmente (esforço único)
– Através de corpus
– Através de dicionários
• Importante
– Palavras dependentes de contexto (eg: grande) e
independentes de contexto (eg: ótimo)
– Ironia e sarcasmo dificultam a classificação
Corpus
• Duas linhas principais:
– Baseadas em padrões sintáticos ou de coocorrência em corpora grandes
– Uso de restrições ou convenções sobre
conectivos
• “Esse carro é bonito e espaçoso”
Dicionário
• Normalmente usam o WordNet
– Partem de um conjunto-semente pequeno
– Buscam sinônimos e antônimos no WordNet
• Pode ser necessária inspeção manual
– Desvantagem
• Não encontram palavras dependentes de contexto
– SentiWordNet
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões
– Por documento
– Por sentença
– Por característica
• Sentenças comparativas e extração de
relação
• Conclusão
Mineração por Documento
• Classificar documentos de acordo com
sentimentos expressos por emissores
– Positivo, negativo e neutro
– O é uma característica
• Busca-se a opinião sobre O em cada documento
• Parecido com classificação de texto
baseada em tópicos
– Mas palavras “opinativas” são mais
importantes que palavras de tópico
Mineração por Documento
• Várias abordagens
– N-gramas, POS taggers, etc
– Combinam a polaridade das palavras
“opinativas”
– Sentimento geral é dado de acordo com essa
combinação
• Granularidade inadequada para muitas
aplicações
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões
– Por documento
– Por sentença
– Por característica
• Sentenças comparativas e extração de
relação
• Conclusão
Mineração por Sentença
• Primeira tarefa: identificar sentenças
“opinativas”
– Todas as técnicas usam aprendizagem de
máquina
• Rilloff e Wiebe: Bootstrapping
– Parte de um conjunto manual de indicadores
de subjetividade
– Aprendem padrões sintáticos de sentenças
opinativas
Mineração por Sentença
• Ainda pouco detalhada para muitas
aplicações
• Não encontra o que o emissor gostou e
não gostou
• Sentimento negativo sobre um objeto não
indica que o emissor não gostou de nada
e vice-versa
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões
– Por documento
– Por sentença
– Por característica
• Sentenças comparativas e extração de
relação
• Conclusão
Mineração de opiniões baseada
em características
• Objetivo: achar as características e as
opiniões acerca delas
• Potencialmente muitas características,
fontes, emissores, etc
– Sumarização dos resultados é essencial
Tarefas – Relembrando
•
•
•
•
Tarefa 1: identificar características
Tarefa 2: classificar as opiniões
Tarefa 3: agrupar característica sinônimas
Produzir um sumário baseado em
características
Extração de características
• Normalmente cada segmento de sentença
contém uma característica
– Segmentos separados por vírgula, ponto,
ponto-e-vírgula, “e”, “mas”, etc
– “as fotos são muito boas”
• Característica explícita: foto
– “pequena o suficiente para caber no bolso”
• Característica implícita: tamanho
• Extração baseada em frequência
Extração baseada em frequência
• Características frequentes: comentadas
por muitos emissores
• Emissores diferentes se expressam de
formas diferentes
• Quando características de objetos são
discutidas, o vocabulário converge
– Características principais
Extração de características
infrequentes
• Como encontrá-las?
• A mesma palavra opinativa pode ser
usada para descrever características
diferentes
– “As fotos ficam realmente excelentes”
– “O software da câmera é excelente”
Classificação de opiniões
• Para cada característica, identificar o
sentimento expresso
• Quase todas as abordagens usam
palavras e frases opinativas
– Observando contexto conforme apropriado
Agregação de opiniões
• Dada uma sentença s que contém opinião
sobre f
• Identificar as palavras opinativas e somar
suas orientações (+1, -1, 0)
• A orientação da opinião sobre f é dada
pelo resultado
• Pequenas variações ponderando o
orientação pela distância de cada palavra
opinativa a f
Identificar sinônimos
• Primeiras tentativas usando apenas
WordNet
• Abordagens mais sofisticadas baseadas
em medidas de similaridade
– Similaridade de string, sinônimos e distâncias
calculadas através do WordNet
– Desvantagem: requer que uma taxonomia de
características seja dada
Sumarização
• Construção de um sumário estruturado
• Alternativas
– Votação
– Selecionar opiniões-chave (de acordo com
emissor, assunto ou característica, por
exemplo)
– Identificar pontos de desacordo e de
consenso
– Estabelecer níveis de autoridade entre os
autores
Sumarização
• Textual
– Característica 1: “foto”
– Positivas: 12
• ...
– Negativas: 2
• ...
– Característica 2: “tamanho”
• ...
Sumarização
• Gráfico
Sumário para
câmera A
Foto
Comparativo
entre câmeras
AeB
Bateria
Zoom
Tamanho
Peso
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões
– Por documento
– Por sentença
– Por característica
• Sentenças comparativas e extração de
relação
• Conclusão
Extração de comparativos
• Dois tipos de opiniões
– Direta: “Esse carro é ruim”
– Comparação: “X é tão bom quanto Y”
• Usam diferentes construções
• Tarefas
– Identificar sentenças comparativas
– Extrair delas relações comparativas
Perspectiva linguística
• Sentenças comparativas usam termos
como “mais”, “menos”, “tanto quanto”, etc
• Limitações
– Cobertura reduzida
• “A Intel está muito à frente da AMD”
– Não comparativos com palavras
comparativas
• “No contexto de velocidade, mais rápido significa
melhor”
Comparativos mensuráveis
• Mensurável não igual
– Expressões como melhor, à frente, etc
– “o visor da câmera A é melhor que o de B”
• Mensurável igual
– Expressões como igual, equivale, ambos, etc
– “câmeras A e B são ambas muito boas”
• Superlativo
– Expressões como a melhor, a maior, etc
• “a câmera A é a mais barata do mercado”
Comparativos não mensuráveis
• Sentenças que comparam características
entre objetos mas não as mensuram.
Implicam:
– Objeto A é similar/diferente do B em relação a
algumas características
– Objeto A tem f1, objeto B tem f2 (f1 e f2 são
equivalentes)
– Objeto A tem f e B não tem
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões
– Por documento
– Por sentença
– Por característica
• Sentenças comparativas e extração de
relação
• Conclusão
Conclusão
• Três tipos de avaliação
– Opiniões diretas e indiretas
• Em nível de documento, sentença e característica
• Sumário estruturado de vários documentos
– Comparações
• Identificação de sentenças comparativas
• Extração de relações
• Problemas complexos e desafiadores
– Técnicas atuais ainda incipientes
• Aplicações comerciais estão surgindo
– Inclusive em Recife
Mineração de Opiniões
Juliano Rabelo
jcbr@cin.ufpe.br
Download

Mineração de Opiniões