Ferramentas para Análise e Mineração de Dados e Textos Roberto de Camargo Penteado Filho Empresa Brasileira de Pesquisa Agropecuária Embrapa Luc Quoniam, Leandro Faria, Eric Boutin, Alan Porter Sociedade do conhecimento 85% dos dados guardados no mundo são em formato texto e dobram a cada três meses. 95% das informações necessárias às organizações já estão disponíveis em domínio público (mas não necessariamente de graça). Maioria das informações necessárias às organizações já estão disponíveis dentro delas. Escassez de competências, pessoal e métodos para recuperar, catalogar e utilizar estas informações. As organizações só utilizam, em geral, de 10 a 20% do seu potencial informacional. Como manter-se informado Antigamente…. • A quantidade de informação que podíamos recuperar era mais ou menos semelhante à quantidade de informação que podíamos ler. Fonte: Porter (2006) Bem-vindos à era da “superoferta de informação" • Mas hoje vivemos num ambiente onde a quantidade de informação que podemos recuperar excede em muito nossa capacidade de leitura. Fonte: Porter (2006) Superoferta de informação + 700.000 livros p/ano (2.000/dia!) + 2,5 bilhões de páginas na Web 100.000 - 300.000 revistas científicas + 550 bilhões de docs linkados na Web + 10.000.000 de novos artigos por ano + 8.000 bases de dados na Internet + 1.000.000 patentes por ano Centenas de ferramentas de busca "Estamos afogados em informação, mas sedentos de conhecimento" - J. Naisbitt Fonte: Faria e Quoniam (2002) Informação x Inteligência Disponível Abundante Incompleta Documentos Bases de dados Duvidosa Pública Confusa Jornais Patentes Contatos telefônicos Análises de especiaistas Televisão Livros Treinamentos Internet Necessária Sintética Completa Desenvolvimento Confiável Confidencial Precisa Relatório Sintético Fonte: Faria e Quoniam (2002) Lucro Desafio: aplicar ferramentas e métodos de análise • Usar softwares para obter múltiplas perspectivas da informação. Utilizar coleções de informação muito maiores que as usadas antes. Fonte: Porter (2006) Mineração de dados • Processo que combina vários métodos matemáticos, estatísticos ou com origem em algoritmos, para determinar uma solução para um problema, em um universo decisional (Jambu, 2000, p. 8). • Dados podem ser textos ou números (quantitativos). • Mineração de dados quantitativos: regras associativas; hierarquias de classificação; padrões seqüenciais; padrões de séries temporais; categorização e segmentação. • Área em convergência objeto de forte concorrência por parte de grandes protagonistas. Mineração de dados nas empresas está evoluindo para o “Business Intelligence” (BI). Famílias de ferramentas Existem diferentes famílias de ferramentas e soluções: umas privilegiam mais a análise outras a gestão. 1. Softwares livres: R, Weka, Mondrian, Talend. 2. Estatística que criaram suítes de mineração e gestão empresarial: SAS, SPSS, Statistica. 3. Softwares empresariais que criaram suítes de mineração: SAP, Oracle, IBM (Cognos), Microsoft. 4. Softwares de gestão empresarial e mineração: Business Objects, Microstrategy, Information Builders. A competição é feroz porque existe uma enorme demanda não atendida na área. O porquê da enorme demanda Financeiro Recursos Humanos Sistemas e bases Vendas Produção MKT Clientes Financeiro Recursos Humanos Ambiente Operacional Datawarehouse DW Vendas Produção MKT Clientes Ambiente de análise Mineração de textos • Técnicas de mineração de dados em textos. Busca por padrões. • Pode ser usada para descobrir conhecimento, gerar perfis e análises da evolução da ciência, de técnicas, tecnologias, patentes e recursos humanos, da internet e monitoramento do macroambiente, em particular, o monitoramento de um tema, um produto, um político ou uma empresa na mídia, de concorrentes ou de todo um setor da economia. • Utiliza ferramentas específicas para análise bibliométrica: reformatação (Infotrans, Datapipe) e análise (Matheo, VantagePoint, WinIdams*...). * software livre Minerar por padrões Como achar padrões em textos? A resposta é a co-ocorrência • Bibliometria de co-ocorrência de palavras – Se duas palavras aparecem juntas no mesmo documento, elas podem estar conectadas – Se as mesmas duas palavras aparecem juntas em muitos documentos, há uma relação entre elas Palavra 1 Palavra 2 Fonte: Porter (2006) O que minerar? Dados textuais em campos O que são dados textuais brutos em campos? • Delimitados • Estruturados Fonte: Porter (2006) Porque dados estruturados? • Relações de co-ocorrência de palavras fazem sentido num conjunto de documentos estruturados (Base de dados). • Para minerar informação semi e não-estruturada são necessários métodos e ferramentas específicos. • Exemplo: Temis, Neotia, LexisNexis Analytics (Datops). • É um campo portador de futuro, com custos decrescentes e mercado e demanda crescentes. Web Bruta Textos Livres De olho no futuro • Uma vertente a registrar são os sistemas de monitoramento da Web, de rádio, telefones e celulares utilizados por enquanto pelas comunidades de segurança como o Projeto Echelon da National Security Agency dos Estados Unidos e o Enfopol da Comunidade Econômica Européia. • Poderosos softwares de busca e recuperação de dados procuram por certas palavras chaves. Quando as encontram, os resultados são gravados, baixados e analisados. • Mesmo princípio começa a ser utilizado em outras áreas como a mídia. Como o preço das ferramentas está caindo, novas utilizações vão aparecer. Tudo começa com uma questão: • Qual a produção total de artigos da Embrapa Recursos Genéticos e Biotecnologia e qual a sua evolução de 1977 a 2006? • Quais os autores mais prolíficos e como sua produção evoluiu? • Quais competências estão em risco? • Quais os temas principais das pesquisas e como eles evoluíram? • Quais os principais parceiros e como evoluiu esta cooperação no mundo? Fonte: Penteado (2008) Processo de mineração de textos 1. Entender e mapear a questão a ser respondida 2. Identificar as bases de dados adequadas 3. Buscar e recuperar (provável iteração) os dados 4. Limpar os dados 5. Analisar e interpretar 6. Representar a informação da forma mais efetiva (visualização) 7. Comunicar (interativamente) para responder à questão Fonte: Porter (2006) Entender, buscar, recuperar • Em 27/09/2007 foi realizada uma busca geral nas bases de dados Science Citations Index Expanded (SCIEXPANDED), Social Science Citation Index (SSCI) e Arts & Humanities Citation Index (A&HCI) da ThomsonInstitute for Scientific Information (ISI) Web of Science (WOS) no período de 1977 a 2006, de todos os registros, em todas as línguas e de todos os tipos de documentos, com menção do nome Embrapa no endereço dos autores. • Foram encontrados 4832 registros. Normalizados e segmentados os campos Author (Autor), Author Affiliation (Afiliação do Autor), Country (País), Publication Year (Ano de Publicação), Publisher (Editor), Source (Periódico) e Times Cited (Número de Citações). Fonte: Penteado (2008) Limpar e enriquecer os dados • No campo Author Affiliation, por exemplo, foram encontradas 568 formas diferentes de os autores identificarem a Embrapa Recursos Genéticos e Biotecnologia. • Os 634 registros referentes à Embrapa Recursos Genéticos e Biotecnologia (13,1 % do total), objeto de estudo, foram separados da base de dados geral. • + 3 bases da Embrapa: o Guia de Fontes (disponível em http://www.embrapa.br/imprensa/pesquisadores); o Sistema de Informação de Recursos Humanos (SIRH) e a Agenda de Pesquisa e Desenvolvimento da Embrapa (DPD). • Foram estudados os 135 pesquisadores da Embrapa Recursos Genéticos e Biotecnologia. Segmentados em 8 faixas de idade: até 29 anos, 30 a 34 anos, 35 a 39 anos, 40 a 44 anos, 45 a 49 anos, 50 a 54 anos, 55 a 59 anos e 60 anos ou mais. • Para estudar as competências de cada coorte foram feitas matrizes Coorte de pesquisadores x Linhas de Pesquisa e Coorte x Atuação. Fonte: Penteado (2008) Artigos por ano Matriz co-ocorrência – tendências e relacionamentos 600 550 500 450 400 350 Embrapa 300 Rec.Gen.Biotec 250 200 150 100 0 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 50 Principais autores Matriz Co-ocorrência – tendências e relacionamentos Class. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # Artigos Autores 1977_81 1982_86 1987_91 1992_96 1997_01 2002_06 56 Bloch, C 1 13 42 52 Rigden, D J* 13 39 51 Grossi-de-Sa, M F 1 1 6 18 25 29 Grattapaglia, D 2 12 15 26 Rech, E L 6 10 10 25 Valls, J F M 7 18 24 Aragao, F J L 5 7 12 22 Franco, O L ** 2 20 20 Tigano, M S 2 7 11 18 Borges, M 1 4 5 8 18 Valadares-Inglis, M C* 1 11 6 18 Mello, L V* 1 4 13 17 Inglis, P W** 12 5 17 Magalhães, B P* 1 5 6 5 16 Monnerat, R G 2 14 15 Neshich, G* 3 4 8 15 Gander, E S 1 2 4 1 7 14 Mariante, A S 1 13 14 McManus, C** 2 12 13 Carneiro, RMDG 1 2 10 Mapas e clusters para conhecer relações redes de conhecimento Competências em risco Visões em detalhe - forças organizacionais Pesquisadores + 60 Linha de Pesquisa * 4 Conservação e Uso de Recursos Genéticos 2 Fitopatologia ÁREAS DE ATUAÇÃO: QUARENTENA RECURSOS GENÉTICOS CONSERVACAO RECURSOS GENÉTICOS 1 Analise Genômica BIOLOGIA MOLECULAR DOCUMENTAÇÃO RECURSOS GENÉTICOS 1 Caracterização e Valoração da Biodiversidade FISIOLOGIA VEGETAL BIOQUÍMICA DOS MICROOGANISMOS 1 (co) Tecnologia de Sementes e Mudas CARACTERIZACAO RECURSOS GENÉTICOS CONSERVACAO DE ALIMENTOS PARA ANIMAIS 1 Entomologia 1 (ne, co, nac) Comunicação e Negócios 1 (se) Biologia Celular e Cultura de Tecidos ECOLOGIA DE ECOSSISTEMAS ENRIQUECIMENTO RECURSOS GENÉTICOS FISIOLOGIA FISIOLOGIA DE PLANTAS CULTIVADAS * (os parênteses indicam a prioridade regional ou nacional da Linha de Pesquisa) FITOPATOLOGIA LABORATÓRIOS PRODUÇÃO E BENEFICIAMENTO DE SEMENTES Assuntos/temas em evidência Evoluções no tempo Class. 1 2 3 4 # Artigos 48 33 42 20 5 11 6 11 7 8 9 10 11 4 13 45 18 15 Palavras-chave 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 DNA 3 1 5 7 3 3 5 5 4 8 PLANTS 2 3 2 2 2 3 2 6 6 GENE ou GENES 3 1 4 3 3 3 6 5 6 RESISTANCE 4 6 3 1 1 1 4 ARABIDOPSISTHALIANA 1 4 1 2 3 NUCLEAR POLYHEDROSIS-VIRUS 1 3 1 1 2 3 AGROBACTERIUMTUMEFACIENS 1 3 EVOLUTION 2 2 3 3 3 EXPRESSION 2 1 5 3 1 6 6 5 5 3 PURIFICATION 1 1 2 2 5 1 3 3 RAPD MARKERS 1 1 4 3 3 3 Principais parceiros Evoluções no tempo Class. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 # Artigos 138 49 60 23 23 16 22 18 12 10 11 12 13 16 9 13 9 15 Parceiros UNB UCB USP (Consolidada) ESALQ-Piracicaba USDA-ARS UNICAMP USP-São Paulo UNESP CHILDHSOAK LNLS-CNPq UFC CIRAD/IRD/Orstom UFMG UFV IAC-APTA UFLORIDA USP-São Carlos UCAL 1977_81 1 1982_86 2 1987_91 1 1992_96 13 7 1 4 1 4 2 1 2 2 1 1997_01 35 4 9 3 4 1 4 3 1 3 4 5 7 2 4 1 8 2002_06 87 45 44 19 14 14 14 13 11 10 8 8 8 8 7 7 6 6 Parceiros no Brasil 100 90 80 UNICAMP 70 UFV 60 UNESP 50 UCB 40 USP 30 UNB 20 10 0 1977_81 1982_86 1987_91 1992_96 1997_01 2002_06 Parceiros na Europa 9 CIRAD/IRD/Orstom 8 7 6 ROTHAMST_CABIUK 5 UWAGENNIGEN 4 UCATLOUVAIN 3 UEDINBURG 2 1 INRA 0 1987_91 1992_96 1997_01 2002_06 Parceiros nos EUA Canada 16 14 12 USDA-ARS 10 CHILDHSOAK UFLORIDA 8 UCAL 6 AAFCAN 4 UWISCMAD 2 0 1992_96 1997_01 2002_06 Conclusão: A importância da análise • As ferramentas de análise de dados e textos não substituem as pessoas e muito menos as competências. • Processo de mineração de dados e textos valoriza e potencializa informações já disponíveis nas organizações mas dispersas em diversos locais e diferentes bases de dados para se tornarem estratégicas e contribuírem para melhorar as decisões nas organizações. A importância da sustentabilidade • Falamos de competitividade e monitoramento. • A sustentabilidade complementa as duas. • Assuntos tratados em meu livro “Organizações inteligentes: guia para a competitividade e a sustentabilidade nos negócios”. • Como utilizar a comunicação e a inteligência para fins de sucesso organizacional. http://livraria.sct.embrapa.br/liv2/consultaProduto.do?metodo=detalhar&codigoProduto=00081730 Livraria Virtual da Embrapa – www.embrapa.br Bibliografia: • Faria, L. I. L. e Quoniam, L., Ferramentas para Estudos Prospectivos - Tutorial. In 3º Workshop Brasileiro de Inteligência Competitiva e Gestão do Conhecimento, São Paulo - SP, 16 a 18 de setembro de 2002. •Jambu, M., Introduction au Dataminig: Analyse intelligente des donnees. Paris: Editions Eyrolles, 2000, 120p. • Porter, Alan. L., VantagePoint Training: Discovering Knowledge on S,T&I Text & Numeric Databases. In: II Seminário Internacional Ferramentas de Inteligência Competitiva, Brasília - DF, 13 a 17 de fevereiro de 2006. •Penteado Filho, R. de C., Organizações inteligentes: guia para a competitividade e a sustentabilidade nos negócios, Brasília: Embrapa Assessoria de Comunicação Social, 2007, 245p. • Penteado Filho, R. de C. e Dias, J. M. C. de S., Monitorando a produção científica, os recursos humanos e as parcerias de uma organização de PD&I com a bibliometria e a cientometria. In 5th International Conference on Information Systems and Technology Management – CONTECSI, São Paulo – SP, 4 a 6 de junho de 2008. Obrigado! Roberto Penteado [email protected] www.embrapa.br