Nuclear Expert Web Mining System
Monitoring and Analysis of Nuclear
Acceptance by Information Retrieval and
Opinion Extraction on the Internet
Thiago Reis
Antonio C. O. Barroso
Kengo Imakuma
Contents


Introduction
Methodology





Methodological Framework
Mining Algorithm
Performance Evaluation
xxx
Conclusions
Introduction
Introduction


Although nuclear energy
is a well-established
method in many
countries, the "nuclear
theme" often raises major
concerns in the
population.
Public opinion can
influence institutions and
governments decisions
with respect to nuclear
development.
Nuclear
Energy
Public
Acceptance
Influence
Decisions
Introduction


Recently, the Fukushima
Dai-ichi nuclear power
plant accident evidenced
this fact.
Many people over the
world expressed their
views and opinions about
the nuclear energy.
Introduction


These manifestations
were especially observed
and massively registered
in web pages, blogs,
forums, and social
networking web sites on
the Internet.
Thus creating a valuable
information repository
about public opinion.
Introduction

However, due to the
characteristics of the
Internet information basis,
finding and collecting
relevant information, and
especially monitoring
opinion sources, in a
large-scale manner, are
nontrivial tasks.
Heterogeneous
Colaborative
Dinamic
Internet
Multicultural
Noisy
Introduction


This presents both great
challenges and
opportunities for mining
the Internet information
from its unstructured and
noisy data.
Efforts and techniques
directed to these
problems are usually
referred as pertaining to a
new research field called
Web Mining.
Introduction

We present a research initiative that aims to
collect nuclear related information and to
analyze opinionated texts by mining the
hypertextual data environment and social
networks web sites on the Internet.
Nuclear
Acceptance
Research
Initiative
Internet
Introduction

Instead of using
traditional statistical
techniques, it is
proposed a novel
Web Mining
approach, built
around the concept of
Expert Systems, for
massive and
autonomous data
collection and
analysis.


Firstly we have
designed a framework
capable of supporting
the identified needs
and goals.
This framework
represents the initial
methodological
approach.
Methodology
Methodology

This framework was designed to support and integrate
four main Web Mining tasks:

Web crawling task


Webpage topic identification


to decide whether a webpage contains information related to the
nuclear domain;
Webpage opinion identification


regarding to search and collect webpages by browsing the
hypertextual web graph;
to the decide whether a webpage text presents an opinionated
content;
Webpage opinion polarity task

regarding to the identification if the opinionated text is positive,
negative or neutral.
Methodology
An adaptation of the focused web crawling
algorithm called InfoSpider was chosen as
the basis method to accomplish the Web
crawling and Webpage topic identification
tasks.
 The OpinionObserver algorithm is used as
the basis method to accomplish the
Webpage opinion identification and
Webpage opinion polarity tasks.

Methodological Framework
The basic data unit in this framework is the
webpage.
 There are three major elements that use
as feedstock the webpage data unit and
manipulate the graph data structure:

 the
Internet;
 the Nuclear Experts;
 and the Expert System.
Método
Justificativa

E, por fim, sendo uma
pesquisa singular na
intersecção dos
campos de Web Mining,
Inteligência Artificial e
Aceitação Nuclear,
contribuindo para o
desenvolvimento destes
campos.
Área
Nuclear
Proposta
Trabalho
Inteligência
Artificial
Web
Mining
Método

Os métodos oriundos de
Web Mining e das suas
disciplinas interrelacionadas podem ser
integrados em uma
variedade de
combinações para a
condução de uma
solução ao problema
apresentado.
Método

Logo, é proposta uma opção que se concentra
nos métodos que possuem:
o
maior grau de desenvolvimento até a atualidade,
considerados o "estado da arte" em seus campos de
estudo, em conjunto de
 uma arquitetura de sistema computacional que possa
ter suas funções estendidas para a junção posterior
de técnicas de Opinion Mining, fornecendo os
alicerces para trabalhos futuros.
Método

Este métodos serão implementados dentro de
uma arquitetura computacional baseada nos
fundamentos de um Expert System devido a
necessidade de:
 um
conhecimento léxico profundo, estruturado e
extensível da área nuclear,
 obtido de especialistas nucleares,
 para a inferência computacional e avaliação
autônoma da relevância da informação coletada.
Procedimento Metodológico

Nesta arquitetura existem três grandes componentes
que interagem no processo de recuperação de
informação:



(1) a Internet, que contem informações inter-relacionadas e
altamente distribuídas, provendo o sistema com dados para o
processamento;
(2) os especialistas no domínio, que provêem o sistema com a
base de conhecimento terminológica como também realizam o
feedback do processamento como meio de aprendizado
supervisionado; e
(3) o Sistema Especialista, responsável por integrar a Base de
Conhecimento, o Mecanismo de Inferência, o Focused Web
Crawler e o Banco de Dados.
Procedimento Metodológico
Internet
Especialistas
Sistema especialista de webcrawling
Mecanismo de persistência
Avaliação
de relevância
Relevância
da página
(Cosine
Similarity)
Repositório
de páginas
Focused webcrawling agent
Termos
ponderados
Coletor
HTTP
Vetor
de links
HTML
Parser
Links
relevantes
Fronteira
de busca
(estratégia
best-nfisrt)
L1
.
L2
Repositório
de
metadados
NLP
L3
Ln
Coletor
links
Base de conhecimento
Mecanismo de inferência
Rede neural artificial
Páginas
relevantes
Vetor
de termos
X0
X1
W1
X2
W2
W0
T1
Taxonomia
nuclear
T2
T3
?
X3
W3
Xn
Wn
Tn
tanh()
Y
Aprendizado
por retro
propagação
do erro
Procedimento Metodológico

Nesta abordagem, o
principal “componente”
do sistema são os
especialistas, onde eles:


irão prover o sistema com
o conhecimento léxico da
área nuclear
e possuirão o papel de
“tutores” do sistema,
efetuando feedbacks
sobre a relevância da
informação coletada.
Procedimento Metodológico



Internamente no sistema, a
Base de Conhecimento
contem as heurísticas
necessárias para o processo
de inferência.
Estas heurísticas são
extraídas do conhecimento e
experiência dos especialistas
da área nuclear.
A Base de Conhecimento é
estruturada na forma de uma
taxonomia prática dos
assuntos da área nuclear.
Procedimento Metodológico



Os termos de busca utilizados no
Mecanismo de Inferência e no
Focused Web Crawler são
extraídos da taxonomia prática.
Estes termos representam o
conhecimento dos especialistas
de quais palavras-chave melhor
discriminam os documentos
relevantes dos não relevantes.
São associados a um número
real, de 0 à 1, que representa a
importância do termo. Estes
pesos são utilizados para a
iniciação dos pesos sinápticos da
RNA, discutido adiante.
Procedimento Metodológico

A Base de Conhecimento será modelada por
meio de consultas e entrevistas com
especialistas no domínio nuclear, de acordo
com o processo de aquisição de conhecimento.
Dados,
problemas,
questões
Especialista
Especialista
do
domínio
do domínio
Engenharia do
Engenharia do
conhecimento
conhecimento
Conhecimentos,
conceitos,
soluções
Conhecimento
estruturado e
formalizado
Base de
conhecimento
Procedimento Metodológico

O processo de modelagem da Base de
Conhecimento é um ponto crítico para o
sucesso do sistema, pois todo o
conhecimento a priori do domínio do
problema estará contido nela.
Procedimento Metodológico


Além de uma Base de
Conhecimento, um Expert
System deve possuir um
Mecanismo de Inferência que
simule a capacidade de
julgamento de um
especialista em uma
determinada tarefa.
O Mecanismo de Inferência e
o Focused Web Crawler
adotados são uma adaptação
do conceituado sistema de
Adaptive Focused Web
Crawling denominado
InfoSpider.
Procedimento Metodológico


O Mecanismo de Inferência é uma feedforward RNA
formada por um perceptron de uma única camada.
Ela possui como entrada um vetor de termos e sua
saída é um coeficiente que representa a relevância
estimada do documento-alvo.
Mecanismo de inferência
Rede neural artificial
X0
X1
W1
X2
W2
X3
W3
Xn
Wn
W0
∑
tanh()
Y
Aprendizado
por retro
propagação
do erro
Procedimento Metodológico

Especificamente, para cada hiperlink contido
em um determinado documento recuperado,
 cada
entrada da RNA é computada através da
contagem das palavras do documento recuperado
que correspondem aos termos existentes no vetor de
termos,

onde cada termo do vetor de termos, por sua vez,
corresponde a um determinado nó de entrada da RNA.
Procedimento Metodológico


Esta contagem é ponderada por pesos que decaem com o aumento
da distância do termo em relação ao hiperlink em questão, dentro
de uma janela de tamanho p.
Para cada hiperlink l e cada termo k, a RNA recebe como entrada:
Procedimento Metodológico

Onde ki é a i-ésima
ocorrência do termo k no
documento D e dist(ki, l)
é a contagem dos
hiperlinks existentes
entre ki e l (incluindo l e
até no máximo de p
hiperlinks de distância).
Procedimento Metodológico


A saída da RNA é o coeficiente
que representa a relevância
estimada do documento-alvo e é
computada através da função de
ativação tanh (tangente
hiperbólica), logo sua saída é um
número real no intervalo de -1 à 1.
A função tanh é adotada, pois
pode modelar tanto uma
correspondência positiva quanto
negativa entre os termos de
entrada e a relevância estimada
de um documento.
Procedimento Metodológico

A saída da RNA é a primeira estimação da relevância do
documento. Após o documento-alvo ser recuperado, é
executada uma segunda estimativa da sua relevância,
utilizando os termos contidos nele e que anteriormente
eram desconhecidos, através da computação da função
de Cosine Similarity:
Procedimento Metodológico




Onde q é o termo, p é o documento e fkd é a freqüência do termo k
em d.
O resultado da função de Cosine Similarity é utilizado como sinal de
reforço do ambiente e valor esperado de saída da RNA para o
cálculo do erro e execução on-line do algoritmo de aprendizado
backpropagation, assim constituindo um aprendizado por reforço.
O Feedback de Relevância feito sob orientação dos especialistas
também é utilizado no aprendizado da RNA, constituindo um
aprendizado supervisionado, neste caso.
A ponderação dos termos da taxonomia prática existente na Base
de Conhecimento é utilizada para iniciar os pesos sinápticos da
RNA.
Procedimento Metodológico



O Focused Web Crawler é o
componente responsável por
coletar as informações na
Internet, “navegando” através
do grafo formado pelos
documentos e seus hiperlinks.
Para este fim, o Focused Web
Crawler implementa um
algoritmo de busca que define
a forma pela qual os
documentos serão “visitados”.
Neste trabalho, o algoritmo de
busca a ser utilizado é o BestN-First.
Procedimento Metodológico


O processo de busca do algoritmo
Best-N-First (fig. b) é utilizado
pelos Focused Web Crawler que
visam procurar e coletar somente
documentos relevantes para um
determinado tópico, executando
uma busca heurística
Estratégias de busca tradicionais
empregam o algoritmo BreadthFirst (fig. a) como o objetivo de
recuperar documentos
independentemente do seu
conteúdo, executando uma busca
exaustiva.
Procedimento Metodológico


O algoritmo Best-N-First e a contagem
ponderada dos termos no documento para a
entrada da RNA se valem do Topical Locality
como heurística no processo de busca.
Além disto, a Base de Conhecimento conterá
uma pequena coleção de documentos
previamente identificados como relevantes e
que logo serão os pontos iniciais das buscas
dentro dos clusters de documentos relacionados
à área nuclear.
Procedimento Metodológico



Adicionalmente, no processo de Web Crawling é
necessário a utilização de técnicas de NLP para o préprocessamento e “limpeza” do texto extraído dos
documentos da Internet.
Para este fim, serão utilizadas técnicas de Stemming,
para a transformação das palavras para a sua forma
raiz, e Stopword Removal, para exclusão de palavras
sem relevância semântica do texto.
Estas técnicas também serão aplicadas no vetor de
termos extraído da Base de Conhecimento.
Procedimento Metodológico

O Mecanismo de Persistência
utilizado é um banco de dados
relacional, integrado ao Sistema
Especialista de Web Crawling,
que possui a função de
armazenar o conteúdo coletado
da Internet como também os
metadados gerados no processo
(como a estrutura do grafo dos
documentos coletados, coeficiente
de relevância dos documentos,
pesos sinápticos da RNA, etc)
serão armazenados para
posteriores avaliações.
Procedimento Metodológico

Nesta arquitetura, os sub-componentes do Sistema
Especialista de Web Crawling podem ser alterados
independentemente de modo a refinar os resultados das
buscas de informação, como:




refinamento da taxonomia contida na base de conhecimento,
adição de outros métodos de inferência além da RNA
(classificador bayesiano, máquinas de suporte vetorial),
adição de outros algoritmos de busca no Focused Web Crawler.
Além disto, as técnicas e algoritmos de NLP podem ser
alterados para o processamento de outras línguas alem
da língua inglesa.
Procedimento Metodológico

Esta proposta de arquitetura visa atingir os objetivos
definidos para este trabalho onde, em resumo:


A Base de Conhecimento concede ao sistema um conhecimento
léxico especializado na área nuclear e, juntamente com o
Mecanismo de Inferência, habilita o sistema a atuar de forma
autônoma e adaptável.
O Focused Web Crawler em conjunto com o Mecanismo de
Persistência concedem ao sistema a capacidade de efetuar
buscas recorrentes e escaláveis, armazenando os documentos
coletados a cada nova busca.
Avaliação de Resultados

O processo de avaliação e ajustes será conduzido de
acordo com as seguintes etapas:





Execução de uma busca a partir de um ponto inicial (documento
existente na Base de Conhecimento) que recupere uma
quantidade significante de documentos;
Feedback de Relevância do sistema, orientado pelos
especialistas, dos documentos relevantes e não relevantes
recuperados;
Avaliação dos parâmetros utilizados no processo de busca e
ajustes, se necessário;
Calculo de métricas de desempenho;
Documentação dos resultados e execução de uma nova
avaliação, se necessário.
Avaliação de Resultados

Este processo de avaliação e ajustes
deverá ser re-executado até ponto em que
as métricas de desempenho estejam
satisfatórias.
Avaliação de Resultados

A principal métrica para a avaliação de
desempenho é o Precision. Esta métrica
corresponde à fração de documentos
recuperados que são relevantes.
Avaliação de Resultados

Outra métrica de desempenho é o Recall, sendo
ela a fração de documentos relevantes que
foram recuperados do total de documentos
relevantes.
Avaliação de Resultados


A Base de Conhecimento poderá ser ajustada,
sob a orientação dos especialistas, para compor
novos termos que se verificarem importantes e
novos pontos iniciais de busca.
A RNA será ajustada, por meio de aprendizado
supervisionado, através do Feedback de
Relevância, também orientado pelos
especialistas.
Cronograma
Cronograma
Atividades
Modelagem da taxonomia prática
Desenvolvimento do sistema
Avaliação e ajustes do sistema
Obtenção de créditos em disciplinas
Seminários de área
Publicação de artigo
Redação da dissertação
Defesa da dissertação
1 2 3 4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 2 3 4 5 6
1 2 3 4 5 6 7 8
1 2 3
1 2 3
1 2 3
dez/12
nov/12
out/12
set/12
ago/12
jul/12
jun/12
mai/12
abr/12
mar/12
fev/12
jan/12
dez/11
nov/11
out/11
set/11
ago/11
A seguir está a proposta de cronograma para o desenvolvimento do
trabalho até a conclusão e defesa da dissertação. Este cronograma
contempla dezoito meses de atividades. Deve-se considerar que
essa proposta de trabalho já está em andamento desde o início do
ano de 2010, tendo o candidato já feito vários cursos como ouvinte
e estudado o problema com bastante profundidade. Isto faz com
que o prazo proposto seja bem realista.
jul/11

1
Obrigado!
Mestrado TNA
Aluno: Thiago Reis
Orientador: Prof. Dr. Antonio Barroso
Método

























Extensibilidade
Internet
World Wide Web (html)
Social Web (twitter/facebook/youtube)
Semantic Web
Experts
Knowledge Base
Taxonomy
Ontology
Lexical Database (wordnet/sentiwordnet)
Inference Engine
Information Retrieval
Retrieval Models
Artificial Neural Networks
Naive Bayesian Classifiers
Suport Vector Machines
Opinion Extraction
Web Crawler
Exhaustive Algorithm
Heuristic Algorithm
Persistence Engine
Relational Database
Document Warehouse
Graph Database
NoSQL Database
Fundamentação Teórica

Estatística
Web Mining é um campo da
Ciência da Computação


Recuperação
de Informação
Internet
com o objetivo de


extrair padrões
de grandes bancos de dados
(Internet)
 pela combinação de métodos de
Web
Mining
Análise de
Redes Sociais

relativamente novo e
interdisciplinar

Inteligência
Artificial




Data
Mining
Data Mining,
Estatística,
Inteligência Artificial,
Análise de Redes Sociais
Recuperação de Informação.
Fundamentação Teórica
Web
Mining
Structure
Mining
•Estrutura
hipertexto/dom
•Grafo
•Páginas relevantes/
relações sociais
•Teoria dos
grafos/análise de
redes sociais
Content
Mining
Usage
Mining
•Conteúdo
hipertexto
•Texto natural
•Páginas relevantes/
extração de
informação
•Text mining/NLP/IR
•Logs de servidores
•Dados tabulares
•Padrões de
utilização
•Data mining
Nuclear Web Mining

Como coletar e
processar estes
dados?
Data Mining

Estatística
Field of computer science



And is the process of



Inteligência
Artificial
Banco
de Dados
relatively young and
interdisciplinary
extracting patterns
from large data sets
by combining methods
from



statistics,
artificial intelligence and
database management
Web Mining

Estatística
Recuperação
de Informação
Internet

Análise de
Redes Sociais
Inteligência
Artificial
Is the application of data
mining techniques to
discover patterns from
the Web
According to analysis
targets, web mining can
be divided into



Web usage mining,
Web content mining and
Web structure mining
Opinion Mining
Processamento
de Linguagem
Natural


Identify and extract subjective
information
Using

natural language processing,
 computational linguistics,
 and text analytics

Lingüística
Computacional
Mineração
de Texto
To determine the attitude of a
speaker or a writer

judgment or evaluation
 affective state
 intended emotional
communication
Proposta de Pesquisa