EXTRAÇÃO DE CORRELAÇÕES EM DADOS NÃO ESTRUTURADOS – INVENTÁRIO DOCUMENTAL DO PATRIMÔNIO IMATERIAL MATOGROSSENSE 1 Cássia Bisinoto - [email protected] 2 Allan G. de Oliveira - [email protected] 2 Claudia A. Martins – [email protected] 3 Denilton C. Gaio – [email protected] 4 Heloisa A. Ariano - [email protected] 1 - CTI/SEMA – Coordenadoria de Tecnologia da Informação. Secretaria de Estado de Meio Ambiente - Cuiabá/MT 2 - IC/UFMT – Instituto de Computação. Universidade Federal de Mato Grosso - Cuiabá/MT 3 - PGFA/UFMT – Pós Graduação Em Física Ambiental. Universidade Federal de Mato Grosso Cuiabá/MT 4 - Departamento de Antropologia. Universidade Federal de Mato Grosso - Cuiabá/MT RESUMO O projeto de pesquisa Inventário Documental do Patrimônio Imaterial Mato-grossense é realizado pelo Museu Rondon, Departamento de Antropologia da UFMT, em parceria com a Fundação Uniselva e o Instituto do Patrimônio Histórico e Artístico Nacional (IPHAN), desde 2008. Neste projeto foram catalogados 404 documentos, nos quais estão inscritas uma ou mais das seguintes categorias do patrimônio imaterial matogrossense: saberes e modos de fazer, formas de expressão, celebrações e lugares ou espaços de práticas culturais coletivas e edificações. Os 404 documentos catalogados estão registrados em planilhas eletrônicas cujos dados essenciais encontram-se em formato textual. Habitualmente, os dados textuais não possuem um padrão definido para campos multivalorados, ou descritivos, e são denominados como dados Não Estruturados. Um processo de mineração de dados, busca extrair padrões de grandes volumes de dados. No entanto, dados não estruturados não permitem à aplicação direta dos métodos convencionais de mineração de dados na busca de correlações ou descoberta de conhecimento, exigindo assim um pré-processamento nos dados ou uso de técnicas específicas não convencionais para atingir tal objetivo. Neste trabalho, o processo utilizado para extrair informações nos dados não estruturados foi constituído em duas fases: estruturação básica dos dados e aplicação de métodos de busca de correlações. Na fase de estruturação, primeiramente foi realizada a padronização dos separadores de campos multivalorados. Campos como município e localização possuíam múltiplos valores separados por vírgulas, pontos-e-vírgulas ou barras. Esta padronização permitiu, após a importação dos dados em banco de dados Oracle, que os registros fossem individualizados automaticamente via procedures, para que então pudessem ser analisados com maior precisão. Estando os registros individualizados, foi realizada, também por meio de procedures, uma secção de todas as palavras dos campos descritivos. As palavras seccionadas foram registradas em uma tabela específica, na qual constava todo o texto descritivo, mas com cada palavra armazenada em um registro individual vinculado ao registro de origem por meio de integridade relacional. As palavras seccionadas exigiram a remoção de caracteres especiais para facilitar a análise dos dados. Para a fase de aplicação de métodos de busca de correlações, foi utilizado o recurso Oracle Full Text Search com indexação do tipo CTXRULE. Este método de indexação promove uma classificação de textos por meio de regras pré-definidas. Tais regras consistem basicamente em uma tabela de palavras-chave. Para elaboração da tabela de regras foi registrado o conjunto das 100 palavras que mais se repetiram em todos procedures os registros descritivos. Não foram considerados os artigos, pronomes, preposições, entre outros, preservando-se basicamente os substantivos. Por meio de procedures, todos os campos descritivos originais foram classificados com base na tabela de regras. Esta classificação possibilitou a visualização de dois tipos de fatores: vínculos não evidentes e confronto de repetições. A análise de vínculos não evidentes entre os registros originais refere-se à descoberta de correlações entre as referências culturais, que é o objeto fim do Inventário Documental. Tais vínculos apresentam-se do seguinte modo exemplar: foi observado que das 26 ocorrências em registros que continham a palavra dança, 3 vezes ocorreu também a palavra arroz. Tal fato foi apresentado nas Denominações Culturais: Festa de São Gonçalo, Cururu e Bonecos. Neste caso, a Denominação Bonecos aparece primariamente como uma correlação não esperada em relação às duas primeiras. Entretanto, analisando sua descrição cultural observa-se que “[...] Dez motivos ligados à cultura ou ao folclore norteiam a confecção desses bonecos: a Dança dos mascarados, o Chorado, o Congo, o Cururu e o Siriri, o plantador de algodão, o homem pantaneiro, o pilão de socar arroz e paçoca [...]”. O segundo fator observado, o confronto de repetições, refere-se à quantidade de repetições de determinada palavra dentro do campo descritivo em relação à quantidade de registros em que esta mesma palavra ocorreu. A palavra festa foi a palavra que mais apresentou repetições. Repetiuse 233 vezes em 66 registros dos 404 catalogados, seguida pela palavra dança que se repetiu 155 vezes em 26 registros. Em contrapartida, a palavra dia se apresentou, dentre as demais palavras, no maior número de registros: apareceu em 95 dos 404 registros catalogados, seguida pela palavra casa, que ocorreu em 82 registros. Tal fator de observação permite a realização da análise de relevância da palavra considerada, pois, uma vez que a mesma ocorre em uma grande quantidade de registros pode tratarse, possivelmente, de uma palavra de caráter trivial para quaisquer abordagens. O uso dos métodos não convencionais de busca de correlações em dados não estruturados descritos se mostrou favorável, em primeiro momento, na descoberta de informação útil para análise dos dados. Contudo, o fato de não terem sido utilizadas técnicas mais complexas de análise em dados não estruturados como análise sintática, análise semântica, Natural Language Processing (NLP), entre outras, combinadas a tecnologias de banco de dados em grafo por exemplo, não tornou possível a descoberta de correlações mais precisas em referências culturais formadas por uma composição de palavras como “chá com bolo” ou “viola de cocho”. Entretanto, por tratar-se de testes embrionários, os métodos aplicados serão como fundamento para a pesquisa e metodologias futuras, na próxima etapa. PALAVRAS-CHAVE Correlação, Texto, Inventário, Cultura, Mato Grosso Agencia financiadora O projeto Inventário Documental do Patrimônio Imaterial Mato-grossense foi financiado pelo Instituto do Patrimônio Histórico e Artístico Nacional