Ferramentas para Análise e
Mineração de Dados e Textos
Roberto de Camargo Penteado Filho
Empresa Brasileira de Pesquisa Agropecuária
Embrapa
Luc Quoniam, Leandro Faria, Eric Boutin, Alan Porter
Sociedade do conhecimento
85% dos dados guardados no mundo são em formato texto e
dobram a cada três meses.
95% das informações necessárias às organizações já estão
disponíveis em domínio público (mas não
necessariamente de graça).
Maioria das informações necessárias às organizações já
estão disponíveis dentro delas.
Escassez de competências, pessoal e métodos para
recuperar, catalogar e utilizar estas informações.
As organizações só utilizam, em geral, de 10 a 20% do seu
potencial informacional.
Como manter-se informado
Antigamente….
• A quantidade de informação que podíamos
recuperar era mais ou menos semelhante à
quantidade de informação que podíamos ler.
Fonte: Porter (2006)
Bem-vindos à era da
“superoferta de informação"
• Mas hoje vivemos num ambiente onde a
quantidade de informação que podemos
recuperar excede em muito nossa
capacidade de leitura.
Fonte: Porter (2006)
Superoferta de informação
+ 700.000 livros
p/ano (2.000/dia!)
+ 2,5 bilhões de
páginas na Web
100.000 - 300.000
revistas científicas
+ 550 bilhões de
docs linkados na Web
+ 10.000.000 de
novos artigos por ano
+ 8.000 bases de
dados na Internet
+ 1.000.000 patentes
por ano
Centenas de
ferramentas de busca
"Estamos afogados em informação,
mas sedentos de conhecimento" - J. Naisbitt
Fonte: Faria e Quoniam (2002)
Informação x Inteligência
Disponível
Abundante
Incompleta
Documentos
Bases de dados
Duvidosa
Pública
Confusa
Jornais
Patentes
Contatos
telefônicos
Análises de
especiaistas
Televisão
Livros
Treinamentos
Internet
Necessária
Sintética
Completa
Desenvolvimento
Confiável
Confidencial
Precisa
Relatório Sintético
Fonte: Faria e Quoniam (2002)
Lucro
Desafio:
aplicar ferramentas e métodos de análise
• Usar softwares para obter múltiplas
perspectivas da informação. Utilizar coleções
de informação muito maiores que as usadas
antes.
Fonte: Porter (2006)
Mineração de dados
• Processo que combina vários métodos matemáticos,
estatísticos ou com origem em algoritmos, para
determinar uma solução para um problema, em um
universo decisional (Jambu, 2000, p. 8).
• Dados podem ser textos ou números (quantitativos).
• Mineração de dados quantitativos: regras associativas;
hierarquias de classificação; padrões seqüenciais;
padrões de séries temporais; categorização e
segmentação.
• Área em convergência objeto de forte concorrência por
parte de grandes protagonistas. Mineração de dados
nas empresas está evoluindo para o “Business
Intelligence” (BI).
Famílias de ferramentas
Existem diferentes famílias de ferramentas e soluções:
umas privilegiam mais a análise outras a gestão.
1. Softwares livres: R, Weka, Mondrian, Talend.
2. Estatística que criaram suítes de mineração e
gestão empresarial: SAS, SPSS, Statistica.
3. Softwares empresariais que criaram suítes de
mineração: SAP, Oracle, IBM (Cognos), Microsoft.
4. Softwares de gestão empresarial e mineração:
Business Objects, Microstrategy, Information
Builders.
A competição é feroz porque existe uma enorme
demanda não atendida na área.
O porquê da enorme demanda
Financeiro
Recursos
Humanos
Sistemas e bases
Vendas
Produção
MKT
Clientes
Financeiro
Recursos
Humanos
Ambiente Operacional
Datawarehouse DW
Vendas
Produção
MKT
Clientes
Ambiente de análise
Mineração de textos
• Técnicas de mineração de dados em textos. Busca
por padrões.
• Pode ser usada para descobrir conhecimento, gerar
perfis e análises da evolução da ciência, de técnicas,
tecnologias, patentes e recursos humanos, da
internet e monitoramento do macroambiente, em
particular, o monitoramento de um tema, um produto,
um político ou uma empresa na mídia, de
concorrentes ou de todo um setor da economia.
• Utiliza ferramentas específicas para análise
bibliométrica: reformatação (Infotrans, Datapipe) e
análise (Matheo, VantagePoint, WinIdams*...).
* software livre
Minerar por padrões
Como achar padrões em textos?
A resposta é a co-ocorrência
• Bibliometria de co-ocorrência de palavras
– Se duas palavras aparecem juntas no mesmo
documento, elas podem estar conectadas
– Se as mesmas duas palavras aparecem juntas
em muitos documentos, há uma relação entre
elas
Palavra 1
Palavra 2
Fonte: Porter (2006)
O que minerar?
Dados textuais em campos
O que são
dados
textuais
brutos em
campos?
• Delimitados
• Estruturados
Fonte: Porter (2006)
Porque dados estruturados?
• Relações de co-ocorrência de
palavras fazem sentido num
conjunto de documentos
estruturados (Base de dados).
• Para minerar informação semi e
não-estruturada são necessários
métodos e ferramentas específicos.
• Exemplo: Temis, Neotia, LexisNexis
Analytics (Datops).
• É um campo portador de futuro,
com custos decrescentes e
mercado e demanda crescentes.
Web
Bruta
Textos
Livres
De olho no futuro
• Uma vertente a registrar são os sistemas de
monitoramento da Web, de rádio, telefones e celulares
utilizados por enquanto pelas comunidades de segurança
como o Projeto Echelon da National Security Agency dos
Estados Unidos e o Enfopol da Comunidade Econômica
Européia.
• Poderosos softwares de busca e recuperação de dados
procuram por certas palavras chaves. Quando as
encontram, os resultados são gravados, baixados e
analisados.
• Mesmo princípio começa a ser utilizado em outras áreas
como a mídia. Como o preço das ferramentas está caindo,
novas utilizações vão aparecer.
Tudo começa com uma questão:
• Qual a produção total de artigos da Embrapa
Recursos Genéticos e Biotecnologia e qual a sua
evolução de 1977 a 2006?
• Quais os autores mais prolíficos e como sua
produção evoluiu?
• Quais competências estão em risco?
• Quais os temas principais das pesquisas e como
eles evoluíram?
• Quais os principais parceiros e como evoluiu esta
cooperação no mundo?
Fonte: Penteado (2008)
Processo de mineração de textos
1. Entender e mapear a questão a ser respondida
2. Identificar as bases de dados adequadas
3. Buscar e recuperar (provável iteração) os
dados
4. Limpar os dados
5. Analisar e interpretar
6. Representar a informação da forma mais
efetiva (visualização)
7. Comunicar (interativamente) para responder à
questão
Fonte: Porter (2006)
Entender, buscar, recuperar
• Em 27/09/2007 foi realizada uma busca geral nas bases
de dados Science Citations Index Expanded (SCIEXPANDED), Social Science Citation Index (SSCI) e Arts
& Humanities Citation Index (A&HCI) da ThomsonInstitute for Scientific Information (ISI) Web of Science
(WOS) no período de 1977 a 2006, de todos os registros,
em todas as línguas e de todos os tipos de documentos,
com menção do nome Embrapa no endereço dos autores.
• Foram encontrados 4832 registros. Normalizados e
segmentados os campos Author (Autor), Author Affiliation
(Afiliação do Autor), Country (País), Publication Year (Ano
de Publicação), Publisher (Editor), Source (Periódico) e
Times Cited (Número de Citações).
Fonte: Penteado (2008)
Limpar e enriquecer os dados
• No campo Author Affiliation, por exemplo, foram encontradas 568
formas diferentes de os autores identificarem a Embrapa Recursos
Genéticos e Biotecnologia.
• Os 634 registros referentes à Embrapa Recursos Genéticos e
Biotecnologia (13,1 % do total), objeto de estudo, foram separados da
base de dados geral.
• + 3 bases da Embrapa: o Guia de Fontes (disponível em
http://www.embrapa.br/imprensa/pesquisadores); o Sistema de
Informação de Recursos Humanos (SIRH) e a Agenda de Pesquisa e
Desenvolvimento da Embrapa (DPD).
• Foram estudados os 135 pesquisadores da Embrapa Recursos
Genéticos e Biotecnologia. Segmentados em 8 faixas de idade: até
29 anos, 30 a 34 anos, 35 a 39 anos, 40 a 44 anos, 45 a 49 anos, 50
a 54 anos, 55 a 59 anos e 60 anos ou mais.
• Para estudar as competências de cada coorte foram feitas matrizes
Coorte de pesquisadores x Linhas de Pesquisa e Coorte x Atuação.
Fonte: Penteado (2008)
Artigos por ano
Matriz co-ocorrência – tendências e relacionamentos
600
550
500
450
400
350
Embrapa
300
Rec.Gen.Biotec
250
200
150
100
0
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
50
Principais autores
Matriz Co-ocorrência – tendências e relacionamentos
Class.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# Artigos Autores
1977_81 1982_86 1987_91 1992_96 1997_01 2002_06
56
Bloch, C
1
13
42
52
Rigden, D J*
13
39
51
Grossi-de-Sa, M F
1
1
6
18
25
29
Grattapaglia, D
2
12
15
26
Rech, E L
6
10
10
25
Valls, J F M
7
18
24
Aragao, F J L
5
7
12
22
Franco, O L **
2
20
20
Tigano, M S
2
7
11
18
Borges, M
1
4
5
8
18
Valadares-Inglis, M C*
1
11
6
18
Mello, L V*
1
4
13
17
Inglis, P W**
12
5
17
Magalhães, B P*
1
5
6
5
16
Monnerat, R G
2
14
15
Neshich, G*
3
4
8
15
Gander, E S
1
2
4
1
7
14
Mariante, A S
1
13
14
McManus, C**
2
12
13
Carneiro, RMDG
1
2
10
Mapas e clusters para
conhecer relações redes de conhecimento
Competências em risco
Visões em detalhe - forças organizacionais
Pesquisadores + 60
Linha de Pesquisa *
4
Conservação e Uso de Recursos Genéticos
2
Fitopatologia
ÁREAS DE ATUAÇÃO:
QUARENTENA RECURSOS GENÉTICOS
CONSERVACAO RECURSOS GENÉTICOS
1
Analise Genômica
BIOLOGIA MOLECULAR
DOCUMENTAÇÃO RECURSOS GENÉTICOS
1
Caracterização e Valoração da Biodiversidade
FISIOLOGIA VEGETAL
BIOQUÍMICA DOS MICROOGANISMOS
1
(co) Tecnologia de Sementes e Mudas
CARACTERIZACAO RECURSOS GENÉTICOS
CONSERVACAO DE ALIMENTOS PARA ANIMAIS
1
Entomologia
1
(ne, co, nac) Comunicação e Negócios
1
(se) Biologia Celular e Cultura de Tecidos
ECOLOGIA DE ECOSSISTEMAS
ENRIQUECIMENTO RECURSOS GENÉTICOS
FISIOLOGIA
FISIOLOGIA DE PLANTAS CULTIVADAS
* (os parênteses indicam a prioridade regional ou nacional da Linha de Pesquisa)
FITOPATOLOGIA
LABORATÓRIOS
PRODUÇÃO E BENEFICIAMENTO DE SEMENTES
Assuntos/temas em evidência
Evoluções no tempo
Class.
1
2
3
4
# Artigos
48
33
42
20
5
11
6
11
7
8
9
10
11
4
13
45
18
15
Palavras-chave
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
DNA
3
1
5
7
3
3
5
5
4
8
PLANTS
2
3
2
2
2
3
2
6
6
GENE ou GENES
3
1
4
3
3
3
6
5
6
RESISTANCE
4
6
3
1
1
1
4
ARABIDOPSISTHALIANA
1
4
1
2
3
NUCLEAR
POLYHEDROSIS-VIRUS
1
3
1
1
2
3
AGROBACTERIUMTUMEFACIENS
1
3
EVOLUTION
2
2
3
3
3
EXPRESSION
2
1
5
3
1
6
6
5
5
3
PURIFICATION
1
1
2
2
5
1
3
3
RAPD MARKERS
1
1
4
3
3
3
Principais parceiros
Evoluções no tempo
Class.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
#
Artigos
138
49
60
23
23
16
22
18
12
10
11
12
13
16
9
13
9
15
Parceiros
UNB
UCB
USP (Consolidada)
ESALQ-Piracicaba
USDA-ARS
UNICAMP
USP-São Paulo
UNESP
CHILDHSOAK
LNLS-CNPq
UFC
CIRAD/IRD/Orstom
UFMG
UFV
IAC-APTA
UFLORIDA
USP-São Carlos
UCAL
1977_81
1
1982_86
2
1987_91
1
1992_96
13
7
1
4
1
4
2
1
2
2
1
1997_01
35
4
9
3
4
1
4
3
1
3
4
5
7
2
4
1
8
2002_06
87
45
44
19
14
14
14
13
11
10
8
8
8
8
7
7
6
6
Parceiros no Brasil
100
90
80
UNICAMP
70
UFV
60
UNESP
50
UCB
40
USP
30
UNB
20
10
0
1977_81 1982_86 1987_91 1992_96 1997_01 2002_06
Parceiros na Europa
9
CIRAD/IRD/Orstom
8
7
6
ROTHAMST_CABIUK
5
UWAGENNIGEN
4
UCATLOUVAIN
3
UEDINBURG
2
1
INRA
0
1987_91
1992_96
1997_01
2002_06
Parceiros nos EUA Canada
16
14
12
USDA-ARS
10
CHILDHSOAK
UFLORIDA
8
UCAL
6
AAFCAN
4
UWISCMAD
2
0
1992_96
1997_01
2002_06
Conclusão:
A importância da análise
• As ferramentas de análise de dados e
textos não substituem as pessoas e muito
menos as competências.
• Processo de mineração de dados e
textos valoriza e potencializa informações
já disponíveis nas organizações mas
dispersas em diversos locais e diferentes
bases de dados para se tornarem
estratégicas e contribuírem para melhorar
as decisões nas organizações.
A importância da sustentabilidade
• Falamos de competitividade e monitoramento.
• A sustentabilidade complementa as duas.
• Assuntos tratados em meu livro
“Organizações inteligentes: guia para a
competitividade e a sustentabilidade nos
negócios”.
• Como utilizar a comunicação e a inteligência
para fins de sucesso organizacional.
http://livraria.sct.embrapa.br/liv2/consultaProduto.do?metodo=detalhar&codigoProduto=00081730
Livraria Virtual da Embrapa – www.embrapa.br
Bibliografia:
• Faria, L. I. L. e Quoniam, L., Ferramentas para Estudos Prospectivos - Tutorial.
In 3º Workshop Brasileiro de Inteligência Competitiva e Gestão do
Conhecimento, São Paulo - SP, 16 a 18 de setembro de 2002.
•Jambu, M., Introduction au Dataminig: Analyse intelligente des donnees.
Paris: Editions Eyrolles, 2000, 120p.
• Porter, Alan. L., VantagePoint Training: Discovering Knowledge on S,T&I Text &
Numeric Databases. In: II Seminário Internacional Ferramentas de Inteligência
Competitiva, Brasília - DF, 13 a 17 de fevereiro de 2006.
•Penteado Filho, R. de C., Organizações inteligentes: guia para a
competitividade e a sustentabilidade nos negócios, Brasília: Embrapa
Assessoria de Comunicação Social, 2007, 245p.
• Penteado Filho, R. de C. e Dias, J. M. C. de S., Monitorando a produção
científica, os recursos humanos e as parcerias de uma organização de PD&I com
a bibliometria e a cientometria. In 5th International Conference on Information
Systems and Technology Management – CONTECSI, São Paulo – SP, 4 a 6 de
junho de 2008.
Obrigado!
Roberto Penteado
[email protected]
www.embrapa.br
Download

Painelista 1 - Roberto de Camargo Penteado Filho