EXTRAÇÃO DE CORRELAÇÕES EM DADOS NÃO ESTRUTURADOS –
INVENTÁRIO DOCUMENTAL DO PATRIMÔNIO IMATERIAL MATOGROSSENSE
1
Cássia Bisinoto - [email protected]
2
Allan G. de Oliveira - [email protected]
2
Claudia A. Martins – [email protected]
3
Denilton C. Gaio – [email protected]
4
Heloisa A. Ariano - [email protected]
1 - CTI/SEMA – Coordenadoria de Tecnologia da Informação. Secretaria de Estado de Meio
Ambiente - Cuiabá/MT
2 - IC/UFMT – Instituto de Computação. Universidade Federal de Mato Grosso - Cuiabá/MT
3 - PGFA/UFMT – Pós Graduação Em Física Ambiental. Universidade Federal de Mato Grosso Cuiabá/MT
4 - Departamento de Antropologia. Universidade Federal de Mato Grosso - Cuiabá/MT
RESUMO
O projeto de pesquisa Inventário Documental do Patrimônio Imaterial Mato-grossense é
realizado pelo Museu Rondon, Departamento de Antropologia da UFMT, em parceria
com a Fundação Uniselva e o Instituto do Patrimônio Histórico e Artístico Nacional
(IPHAN), desde 2008. Neste projeto foram catalogados 404 documentos, nos quais
estão inscritas uma ou mais das seguintes categorias do patrimônio imaterial matogrossense: saberes e modos de fazer, formas de expressão, celebrações e lugares ou
espaços de práticas culturais coletivas e edificações. Os 404 documentos catalogados
estão registrados em planilhas eletrônicas cujos dados essenciais encontram-se em
formato textual. Habitualmente, os dados textuais não possuem um padrão definido
para campos multivalorados, ou descritivos, e são denominados como dados Não
Estruturados. Um processo de mineração de dados, busca extrair padrões de grandes
volumes de dados. No entanto, dados não estruturados não permitem à aplicação direta
dos métodos convencionais de mineração de dados na busca de correlações ou
descoberta de conhecimento, exigindo assim um pré-processamento nos dados ou uso
de técnicas específicas não convencionais para atingir tal objetivo. Neste trabalho, o
processo utilizado para extrair informações nos dados não estruturados foi constituído
em duas fases: estruturação básica dos dados e aplicação de métodos de busca de
correlações. Na fase de estruturação, primeiramente foi realizada a padronização dos
separadores de campos multivalorados. Campos como município e localização
possuíam múltiplos valores separados por vírgulas, pontos-e-vírgulas ou barras. Esta
padronização permitiu, após a importação dos dados em banco de dados Oracle, que
os registros fossem individualizados automaticamente via procedures, para que então
pudessem ser analisados com maior precisão. Estando os registros individualizados, foi
realizada, também por meio de procedures, uma secção de todas as palavras dos
campos descritivos. As palavras seccionadas foram registradas em uma tabela
específica, na qual constava todo o texto descritivo, mas com cada palavra armazenada
em um registro individual vinculado ao registro de origem por meio de integridade
relacional. As palavras seccionadas exigiram a remoção de caracteres especiais para
facilitar a análise dos dados. Para a fase de aplicação de métodos de busca de
correlações, foi utilizado o recurso Oracle Full Text Search com indexação do tipo
CTXRULE. Este método de indexação promove uma classificação de textos por meio
de regras pré-definidas. Tais regras consistem basicamente em uma tabela de
palavras-chave. Para elaboração da tabela de regras foi registrado o conjunto das 100
palavras que mais se repetiram em todos procedures os registros descritivos. Não
foram considerados os artigos, pronomes, preposições, entre outros, preservando-se
basicamente os substantivos. Por meio de procedures, todos os campos descritivos
originais foram classificados com base na tabela de regras. Esta classificação
possibilitou a visualização de dois tipos de fatores: vínculos não evidentes e confronto
de repetições. A análise de vínculos não evidentes entre os registros originais refere-se
à descoberta de correlações entre as referências culturais, que é o objeto fim do
Inventário Documental. Tais vínculos apresentam-se do seguinte modo exemplar: foi
observado que das 26 ocorrências em registros que continham a palavra dança, 3
vezes ocorreu também a palavra arroz. Tal fato foi apresentado nas Denominações
Culturais: Festa de São Gonçalo, Cururu e Bonecos. Neste caso, a Denominação
Bonecos aparece primariamente como uma correlação não esperada em relação às
duas primeiras. Entretanto, analisando sua descrição cultural observa-se que “[...] Dez
motivos ligados à cultura ou ao folclore norteiam a confecção desses bonecos: a Dança
dos mascarados, o Chorado, o Congo, o Cururu e o Siriri, o plantador de algodão, o
homem pantaneiro, o pilão de socar arroz e paçoca [...]”. O segundo fator observado, o
confronto de repetições, refere-se à quantidade de repetições de determinada palavra
dentro do campo descritivo em relação à quantidade de registros em que esta mesma
palavra ocorreu. A palavra festa foi a palavra que mais apresentou repetições. Repetiuse 233 vezes em 66 registros dos 404 catalogados, seguida pela palavra dança que se
repetiu 155 vezes em 26 registros. Em contrapartida, a palavra dia se apresentou,
dentre as demais palavras, no maior número de registros: apareceu em 95 dos 404
registros catalogados, seguida pela palavra casa, que ocorreu em 82 registros. Tal fator
de observação permite a realização da análise de relevância da palavra considerada,
pois, uma vez que a mesma ocorre em uma grande quantidade de registros pode tratarse, possivelmente, de uma palavra de caráter trivial para quaisquer abordagens. O uso
dos métodos não convencionais de busca de correlações em dados não estruturados
descritos se mostrou favorável, em primeiro momento, na descoberta de informação útil
para análise dos dados. Contudo, o fato de não terem sido utilizadas técnicas mais
complexas de análise em dados não estruturados como análise sintática, análise
semântica, Natural Language Processing (NLP), entre outras, combinadas a
tecnologias de banco de dados em grafo por exemplo, não tornou possível a
descoberta de correlações mais precisas em referências culturais formadas por uma
composição de palavras como “chá com bolo” ou “viola de cocho”. Entretanto, por
tratar-se de testes embrionários, os métodos aplicados serão como fundamento para a
pesquisa e metodologias futuras, na próxima etapa.
PALAVRAS-CHAVE
Correlação, Texto, Inventário, Cultura, Mato Grosso
Agencia financiadora
O projeto Inventário Documental do Patrimônio Imaterial Mato-grossense foi financiado pelo Instituto do
Patrimônio Histórico e Artístico Nacional
Download

extração de correlações em dados não estruturados inventário