Governo do Estado do Rio Grande do Norte
Secretariado de Estado da Educação e Cultura - SEEC
UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE - UERN
Pró-Reitoria de Pesquisa e Pós-Graduação – PROPEG
Departamento de Pesquisa
Campus Universitário BR-110, KM-46 - Costa e Silva – Fone: (084) 3315-2180 - Ramal 52180
CEP: 59600-970 - e-mail: [email protected]
FORMULÁRIO PARA APRESENTAÇÃO DE PROJETO DE PESQUISA - PIBIC
TÍTULO DO PROJETO
Mineração de Grafos usando Ontologias
COORDENADOR
Marcelino Pereira dos Santos Silva
Co-ORIENTADOR (Opcional)
Marilyn Cristine Serafim de Oliveira
ORIENTANDO
RENOVAÇÃO DE PROJETO *
SIM
✘
NÃO
1. RESUMO DO PROJETO (até 2000 caracteres com espaço)
Um dos grandes desafios da pesquisa em computação no Brasil é a modelagem computacional de sistemas complexos
artificiais, naturais e sócio-culturais e da interação homem-natureza. Avanços relevantes nestas áreas motivam um grande leque
de pesquisas, que integram algoritmos, estruturas de dados e modelos de diferentes disciplinas para propor novas abordagens. O
aumento do volume e da complexidade das bases de dados têm motivado a pesquisa de novas técnicas de mineração de dados.
Muitas destas bases possuem características estruturais, cujos dados são compostos por segmentos e relacionamentos entre
estes, o que remete à teoria dos grafos. Nesta ótica, a mineração de grafos pode viabilizar diferentes tarefas de descoberta de
conhecimento sobre bases de dados estruturais. Este projeto visa a utilização de um relevante formalismo matemáticocomputacional (grafos) para representar sistemas, estruturas e problemas reais com o intuito de realizar busca inteligente de
padrões (mineração de dados) nestes grafos através de uma âncora semântica: ontologias.
2. INTRODUÇÃO/JUSTIFICATIVA (até 7000 caracteres com espaço)
Um dos grandes desafios da pesquisa em computação no Brasil [SBC, 2006] é a modelagem computacional de sistemas
complexos artificiais, naturais e sócio-culturais e da interação homem-natureza. Avanços econômicos e sociais oriundos destas
áreas motivam um grande leque de pesquisas, que integram algoritmos, estruturas de dados e modelos de diferentes áreas para
propor novas abordagens. Este projeto caminha nesta direção, com a intenção de utilizar um relevante formalismo matemáticocomputacional (grafos) para representar sistemas, estruturas e problemas reais com o intuito de realizar a busca inteligente de
padrões (mineração de dados) nestes grafos através de uma âncora semântica: ontologias. No que segue, é contextualizado como
a mineração de grafos aliada a recursos de ontologia de domínios constitui-se em poderosa tecnologia computacional para a
modelagem, análise e compreensão de problemas complexos.
Um grafo é uma abstração matemática apropriada para resolver diferentes tipos de problemas. Fundamentalmente, um
grafo consiste de um conjunto de vértices, e de um conjunto de arcos (um arco conecta dois vértices). Um grafo consiste de um
par (V, E), onde V é um conjunto finito de vértices, e E é uma relação binária em V [Netto, 1996]. Diferentes modelos de grafos
(grafos hierárquicos, grafos relacionais de atributos, grafos conceituais etc.) agregam recursos à representação básica,
permitindo que estes sejam utilizados para representar e manipular informações em diferentes domínios: genética, bioinformática,
imagens, redes de computadores, fluxo de tráfego urbano, rotas aéreas, dentre outros. Além de ser um formalismo computacional
bem fundamentado e pesquisado, grafos representam naturalmente objetos e relacionamentos, através de uma abstração
poderosa e detentora de um grande número de algoritmos e abordagens.
Mineração de dados é o processo não trivial de identificar em dados padrões que sejam válidos, novos (previamente
desconhecidos), potencialmente úteis e compreensivos, visando melhorar o entendimento de um problema ou um procedimento
de tomada de decisão [Fayyad et al., 1996]. O aumento do volume e da complexidade das bases de dados têm motivado a
pesquisa de novas técnicas de mineração de dados. Muitas destas bases possuem características estruturais, cujos dados são
compostos por segmentos e relacionamentos entre estes. Assim, a mineração de grafos tem contemplado diferentes tarefas sobre
bases de dados estruturais. Iniciativas relevantes neste domínio são abordadas a seguir.
A mineração de subestruturas busca subgrafos semelhantes num conjunto de grafos. Subestruturas descobertas são
utilizadas para comprimir os dados originais, permitindo abstrair estruturas detalhadas e representar conceitos estruturais nestes
dados. Assim, uma subestrutura descoberta é usada para simplificar os dados, substituindo instâncias da subestrutura por um
1
ponteiro para esta nova subestrutura descoberta. A mineração de padrões de subestruturas é proposta por [Yan & Han, 2003]
utilizando a busca em profundidade em grafos (DFS). O trabalho argumenta que uma DFS gera uma ordem linear, que pode ser
mapeada para um “código DFS”, que por sua vez é minerado por um algoritmo específico. Esta abordagem reduz a complexidade
do grafo a uma estrutura linear, passível de mineração através de técnicas já consolidadas de mineração de dados convencionais.
A detecção de anomalias possui diferentes aplicações, como identificação de fraudes e descoberta de intrusões em
redes de computadores. [Noble & Cook, 2003] introduz duas técnicas para este domínio: a detecção de subestrutura anômala e a
detecção de subgrafo anômalo. A primeira examina um grafo inteiro e indica estruturas incomuns contidas nele, utilizando uma
variante do princípio MDL, uma vez que uma anomalia pode ser encarada como o oposto de padrão (padrões ocorrem
freqüentemente num grafo, anomalias não). Isto significa que subgrafos anômalos tendem a permitir menos compressão, pois
possuem poucos padrões comuns. Já a segunda técnica consiste na partição do grafo em estruturas distintas (subgrafos)
visando determinar o quão anômalo cada subgrafo é em comparação aos outros.
Neste contexto, representar problemas reais através de grafos constitui-se em estratégia atraente, uma vez que estes
grafos possam ser minerados. Estruturas de comunidades, de uso de redes de computadores, de fenômenos naturais ou de
interações químicas podem conter informações estratégicas não explícitas. Minerar eficientemente tais grafos significa extrair
padrões novos, úteis, válidos e compreensíveis, o que é extremamente relevante na compreensão de problemas complexos e no
processo de tomada de decisão.
Entretanto, gerar conhecimento a partir de padrões descobertos demanda embasamento semântico. Os trabalhos que
envolvem mineração de grafos não contemplam esta necessidade. Padrões estruturais resultantes da mineração de grafos
precisam de um arcabouço que expresse apropriadamente o significado da estrutura minerada. Nossa abordagem, que propõe a
efetivação desta tarefa através de ontologias, avança nesta área. Uma ontologia (como artefato de engenharia) descreve uma
certa realidade com um vocabulário específico, utilizando um conjunto de hipóteses relativas ao significado intencional das
palavras deste vocabulário [Fonseca & Egenhofer, 1999]. Pode-se também definir ontologia como teorias de conteúdos, as quais
possuem um conjunto geral de fatos a serem compartilhados, cuja principal contribuição é identificar classes específicas de
objetos e relacionamentos que existam em determinado domínio [Câmara et al., 2001]. Dentre os benefícios almejados pela
utilização de ontologias, podemos citar interoperabilidade (acesso mútuo de componentes a informações e funcionalidades),
pesquisa e navegação (utilização e meta-conhecimento para auxiliar engenhos de busca e estender consultas), reuso (evitando a
reconstrução de componentes existentes), e base de estruturação (redução de prazos e investimentos na construção de novos
componentes) [Menzies, 1999].
Neste sentido, esta proposta visa investigar e aplicar métodos e tecnologias amplamente pesquisadas, propondo
representar contextos relevantes [Han, 2007] (como redes de computadores, fenômenos sociais, genética, bioinformática,
interações químicas, fluxo de tráfego) através de grafos e, a partir da mineração destes com embasamento semântico
(ontologias), permitir que informações estratégicas não explícitas dos domínios representados sejam descobertas e
transformadas em conhecimento relevante.
O desenvolvimento de tecnologias estratégicas, através da pesquisa ora proposta, demanda pesquisadores
comprometidos e colaboradores envolvidos. O aporte da bolsa de iniciação cientifica
será fundamental para que um graduando (trabalhando em sintonia com o coordenador do projeto, co-orientador e um mestrando
com pesquisa nesta área) dedique-se às atividades de pesquisa, garantindo o efetivo sucesso do projeto.
* Em caso de renovação de projeto, o coordenador deverá explicitar as razões para tal, justificando com os dados preliminares.
3. OBJETIVOS (até 2200 caracteres com espaço)
- Investigar, avaliar e propor mecanismos de representação, otimização e mineração de grafos, bem como utilizar abordagens
ontológicas
que
representem
adequadamente
a
semântica
de
domínios.
- Buscar, analisar e desenvolver componentes de software que permitam modelar e analisar processos artificiais, naturais, sociais
ou
ambientais.
- Gerar novas abordagens e tecnologias que avancem nesta área de conhecimento, agregando conhecimento científico,
permitindo o estabelecimento de novas frentes de pesquisa, bem como o fomento de novos projetos e parcerias intra e inter
institucionais.
4. METODOLOGIA (até 4000 caracteres com espaço)
Através de estudo e levantamento bibliográfico, será verificado o estado-da-arte em modelagem de processos e sistemas
através de grafos. Serão avaliadas também técnicas e softwares de mineração de grafos e, caso estes não atendam plenamente às
demandas
desta
fase
inicial,
componentes
essenciais
serão
desenvolvidos.
A partir destes estudos e avaliações, serão realizados testes com as tecnologias de modelagem e mineração. Aplicações
em problemas reais definirão a abordagem de melhor custo-benefício computacional para os objetivos do projeto.
Estes problemas reais serão selecionados e uma ontologia de domínio prototípica será construída para os mesmos.
Precedendo esta construção, haverá o estudo das técnicas e ferramentas mais apropriadas para modelagem e definição de
2
elementos
semânticos,
visando
a
apropriada
representação
ontológica
do
problema.
Permeando as fases acima, estará a investigação de mecanismos que, além de mediar o processo de mineração, realizem
a adequada interface e processamento da ontologia definida para o domínio, ponto este estratégico para o mapeamento de
padrões
descobertos
que
permitam
a
geração
do
conhecimento.
Concluída a etapa de implementação, atividades de teste e validação da tecnologia desenvolvida serão realizadas com o
intuito de verificar a adequação, usabilidade e eficiência da arquitetura para o problema proposto.
A documentação e publicação do projeto será realizada conforme o cronograma apresentado, visando harmonizar e
sincronizar as diferentes atividades. Os documentos e publicações previstos são uma uma monografia de graduação, dois artigos
científicos e os relatórios técnicos pertinentes ao projeto.
5. RESULTADOS E APLICAÇÕES ESPERADAS (até 4000 caracteres com espaço)
A
partir
do
trabalho
desenvolvido
neste
projeto,
espera-se
que:
- sejam adquiridos novos conhecimentos e competências na exigente área da modelagem computacional, abstração por grafos,
mineração de dados avançada, representação/processamento semântico e descoberta de conhecimento relevante;
- a investigação científica realizada permita sugerir melhorias e implementar avanços nesta área;
- a abordagem computacional, através dos componentes implementados, contribua efetivamente com a redução de custos e o
aumento da eficiência no que tange à representação e compreensão de sistemas/processos complexos;
- o trabalho desenvolvido possibilite novas parcerias e gere novos tópicos de pesquisa na área;
- o conjunto destas atividades permita a elaboração de trabalhos acadêmicos de qualidade, dentre os quais monografias de
graduação e artigos científicos de alto nível.
6. REFERÊNCIAS BIBLIOGRÁFICAS (até 3000 caracteres com espaço)
Bratko,
I.
Prolog
Programming
for
Artificial
Intelligence.
Addison
Wesley,
2000.
- Câmara, G.; Egenhofer, M.; Fonseca, F.; Monteiro, A. M. V. What’s In An Image?, in Conference on Spatial Information Theory,
Santa
Barbara,
2001.
Elmasri,
R.,
Navathe,
S.
Fundamentals
of
Database
Systems.
Addison
Wesley,
2006.
- Fayyad, U. M.; Piatesky-Shapiro, G.; Smith, P. Advances in Knowlege Discovery and Data Mining. Massachusetts: MIT Press,
1996.
560
p.
- Fonseca, F.; Egenhofer, M., Ontology-Driven Geographic Information Systems, ACM GIS’ 99, Kansas City, 1999.
- Gonzalez, J.; Holder, L.; Cook, D. Graph-Based Concept Learning. American Association for Artificial Intelligence, 2001.
Han,
J.,
Kamber,
M.
Data
Mining:
Concepts
and
Techniques.
Morgan
Kaufmann,
2006.
- Han, J. Research Frontiers in Advanced Data Mining Technologies and Applications. Advances in Knowledge Discovery and Data
Mining
–
LNCS,
Springer,
2007.
- Holder, L.; Cook, D.; Gonzalez, J.; Jonyer, I. Structural Pattern Recognition in Graphs, in Pattern Recognition and String Matching,
Kluwer
Academic
Publishers,
2002.
Menzies,
T.
Cost
Benefits
of
Ontologies,
in
Intelligence,
Fall
1999.
p.
27-31.
- Netto, P. O. B. Grafos: Teoria, Modelos e Algoritmos. Edgard Blucher Ed., 1996. 304 p.
- Noble, C.; Cook, D. Graph-Based Anomaly Detection, in ACM International Conference on Knowledge Discovery and Data Mining,
2003.
- Sociedade Brasileira de Computação. Grandes Desafios da Pesquisa em Computação no Brasil – 2006 – 2016. Relatório sobre o
Seminário
realizado
em
8
e
9
de
maio
de
2006
em
São
Paulo.
- Yan, X.; Han, J. GSpan: Graph-Based Substructure Pattern Mining, in International Conference on Data Mining, Japan, 2003.
7. ORÇAMENTO
RUBRICAS/DISCRIMINAÇÃO
Material de Consumo
Quantidade
Valor Individual R$
Valor Total R$
3
Serviço de Terceiros Pessoa Física
Serviço de Terceiros Pessoa Jurídica
Total de Material de Consumo
Quantidade
Valor Unitário R$
Total de Serviço de Terceiros Pessoa Física
Valor Total R$
Quantidade
Valor Unitário R$
Total de Serviço de Terceiros Pessoa Jurídica
Valor Total R$
Passagens/Trecho
Passagem Natal-Rio-Natal
Quantidade
01
Valor Unitário R$
1.000,00
Passagens – Total
Valor Total R$
1.000,00
1.000,00
Diárias
Diária para atividade técnica fora da cidade
Quantidade
05
Valor Unitário R$
100,00
Diárias - Total
Valor Total R$
500,00
500,00
4
Bolsa de iniciação científica
Quota de bolsa Pibic
Quantidade
Valor Unitário R$
12
300,00
Bolsa de Iniciação Científica - Total
VALOR TOTAL DO PROJETO
Valor Total R$
3.600,00
3.600,00
5.100,00
8. TERMO DE COMPROMISSO DO SOLICITANTE
Declaro, para fins de direito, conhecer as normas gerais fixadas pelo presente edital, pelo CNPq e pela UERN para a concessão de Bolsas
de Iniciação Científica.
Mossoró, 17 de Abril de 2009.
Assinatura do(a) Coordenador(a)
5
Download

Projeto completo