Buscando Dados Estratégicos: Uma Abordagem Baseada em Inteligência
Computacional
Autoria: Christian Nunes Aranha, Luis Felipe de Carvalho, Emmanuel Lopes Passos
Resumo
A enorme evolução das tecnologias de computação e o aumento drástico da
quantidade de informação gerada estão forçando as empresas a repensarem a forma como
utilizam estas informações para competir. Apesar de entenderem o valor da informação como
vantagem competitiva, muitas empresas ainda entendem a busca por informação como uma
ação e não como um processo. Em ambientes de mudança o caráter temporal da informação é
agravado. A competição é baseada no tempo e por isso o valor da informação também muda
com o tempo. Desenvolver um processo contínuo de gerenciamento estratégico demanda
fluxos contínuos de informação. Mas como tratar tantas informações de forma rápida? Como
se beneficiar das informações disponíveis em meios digitais? Como reduzir o tempo de busca
para aumentar o tempo de análise das informações? Este artigo integra elementos da teoria de
dados, técnicas de análise de conteúdo, mineração de textos, inteligência artificial, e pesquisa
em estratégia para discutir sobre estas questões.
1. Introdução
Nas duas últimas décadas do século XX experimentamos um enorme desenvolvimento
nas tecnologias de computação e um crescimento acelerado na quantidade de informação
sendo produzida. Mas até que ponto as empresas estão utilizando estas informações
espalhadas principalmente por meios digitais? Até que ponto as utiliza para aumentar sua
vantagem competitiva?
É certo que a maioria das empresas reconhece a informação como um ativo.
Acreditam no valor da informação para o seu planejamento estratégico (Shapiro, C. 1999).
Porém, uma grande dificuldade é lidar com a informação em um ambiente de mudanças.
Fazer o planejamento de forma anual parece não ser mais suficiente. A dinâmica do ambiente
é mais rápida do que isso. O caráter temporal da informação se torna cada vez mais em um
fator crítico. Uma informação é válida hoje, mas amanhã pode não ser mais. Pensar a empresa
e tomar as decisões requer um fluxo constante de informação. A informação deixa de ser um
bloco estático para ser um bloco construtor de uma realidade temporal.
O domínio conhecido como Inteligência Competitiva tem papel vital nesta nova forma
de lidar com a informação em negócios (Fuld, L. 1995; Cook, M. 2000). Se no passado as
empresas imprimiam enorme esforço em colher a informação para depois analisar e agir, no
futuro o esforço maior passa a ser em analisar e agir. A colheita deixa de ser uma ação para se
tornar um processo. Se antes havia uma torneira de informação que podia ser aberta e fechada,
hoje existe um rio de informação que não para nunca.
Neste trabalho estaremos focando em um tipo específico de informação: a informação
textual. Este tipo de informação engloba todo tipo de texto armazenado em formato digital.
Não consideramos informações visuais, sonoras ou de qualquer outra espécie. Nossa proposta
é fazer uma revisão bibliográfica na área de mineração de textos. Posteriormente discutimos
sua aplicação como uma ferramenta de tecnologia para geração contínua de informações
competitivas. Para ilustrar esta discussão utilizamos os relatórios 10-K fornecidos pela SEC
(US Securities and Exchange Comission). Este relatório é compulsório para as empresas com
ações negociadas nas bolsas norte-americanas e seu conteúdo provê informações financeiras e
operacionais das empresas. O 10-K é uma rica fonte de informação de mercado e reflete a
grande tendência global de disclousure de informações por parte da empresas. Apesar de ser
1
direcionado para o investidor da empresa, serve como interessante fonte de informação para a
concorrência. No nosso entendimento é uma amostra clara do potencial textual informativo
disponível em meios digitais. O desafio é tratar de forma rápida as inúmeras informações de
fluxo contínuo e utilizá-las dentro de um sistema mais amplo de inteligência competitiva.
2. Descrição da Abordagem Tecnológica para Tratamento de Textos
A área de mineração de textos (Text Mining) tem uma origem forte na área de
mineração de dados e KDD (Knowledge Discovery on Database), sendo chamada por alguns
de Text Data Mining ou KDT (Knowledge Discovery in Text). Porém, as influências de áreas
correlatas como Processamento da Linguagem Natural (PLN), de Recuperação da Informação
(RI), Inteligência Artificial (IA) e Ciência Cognitiva fizeram dela uma área própria. Cada uma
destas áreas dão enfoque diferente de acordo com a necessidade: PLN tem uma preocupação
lingüística e é bastante aplicada em interfaces humano-computador, RI desenvolve algoritmos
de indexação para achar o mais rápido possível um documento específico, IA se preocupa
com aprendizagem e a Ciência Cognitiva com a compreensão e raciocínio usando uma língua.
Por ser uma área muito recente, existem, hoje, poucos núcleos de pesquisa.
Adicionalmente, processar textos envolve necessariamente conhecimento de uma língua, o
que segmenta mais ainda os núcleos de estudo. Em nosso caso a maior parte dos documentos
processados são em Inglês ou Português. Dentro destes segmentos temos como exemplo os
núcleos de pesquisa de Stanford (Schutze, H. e Manning, C.), Portugal, França (Lebart, L.),
Dinamarca e Brasil (CLIC – Centro de Lingüística Computacional da PUC-Rio e NILC –
Núcleo Interinstitucional de Lingüística Computacional da USP).
2.1. Valor Agregado
Atualmente, o que encontramos com grande freqüência em ferramentas de análise, que
acabam sendo utilizadas como apoio à área de estratégia, são tecnologias de busca de
informação. Estas ferramentas baseiam-se essencialmente na procura por keywords (palavraschave) no conteúdo textual de um documento. São encontradas também, com grande
freqüência, ferramentas um pouco mais sofisticadas que permitem uma busca mais flexível,
baseada em ‘expressões regulares’. Esse tipo de motor de busca permite a utilização de
caracteres especiais (wildcards) que possibilitam a execução de funções matemáticas de
primeira ordem como truncamentos e operadores lógicos AND (E) e OR (OU). Em outras
palavras, esse tipo de motor permite que o usuário realize uma busca mais ampla e flexível,
como por exemplo, buscar documentos que contenham as palavras ‘Sales ou Revenue’, ou
mais focada, como documentos que contenham ‘Promotion e Marketing’.
Porém, esse tipo de tecnologia deixa normalmente o usuário sobrecarregado na fase de
construção da tabela de análise (ou base de dados da pesquisa), tendo que tecer uma complexa
teia lógica para extrair a informação que procura diante de uma enorme quantidade de
documentos. A idéia subjacente a este trabalho é minimizar essa primeira etapa, deixando o
usuário usar seu tempo na parte mais nobre do processo, a análise. Veja figura 1.
Figura 1. Valor agregado pela Mineração de Textos (MT) no processo de análise de informações textuais.
2
Para realizar o teste de mineração de texto proposto com os relatórios 10-K, estamos
utilizando a plataforma Cortex Intelligence. A tecnologia presente nesta plataforma auxilia o
usuário na organização das informações de bases textuais. A seguir descreveremos o
funcionamento do sistema.
2.2. Abordagem do Sistema
A tecnologia por trás da plataforma propõe abordar o problema de análise de
informação não somente através de uma visão técnica. O sistema busca efetivamente
reproduzir a forma de análise do conhecimento humano. Embora isto represente apenas um
pequeno deslocamento do ponto de vista da abordagem do problema, traz consigo grandes
impactos em sua modelagem.
O primeiro grande impacto desta abordagem é a necessidade de conhecimentos de
diferentes áreas do saber. A matemática e a computação não dão mais conta do problema de
forma isolada. São necessários também profundos conhecimentos da área de Letras e
Psicologia. Dentre elas podemos citar conhecimentos como lingüística e aquisição da
linguagem, modelo cognitivo da mente e desenvolvimento do pensamento humano. A Figura
2 ilustra as áreas de conhecimento que permeiam a tecnologia empregada na plataforma
Cortex Intelligence.
Algorítimos
Engenharia de Software
Informática
Ciência da informação
Ciência Cognitiva
Linguística
Cortex
Competitiva
Letras
Psicologia
CRM
Redes Lexicais
Matemática
Controle
Estatística
Figura 2. Representação das diferentes áreas de conhecimento envolvidas na abordagem do problema.
2.3. Aprendizado
A tecnologia é inspirada no funcionamento do cérebro humano e foi modelada
seguindo de perto as características de como o cortex cerebral processa as informações
textuais transformando-as em conhecimento e decisão (Pinker 2002). Desta forma sua
arquitetura é composta por um módulo central que permanece constantemente processando
informações textuais e é capaz de ‘compreender’ grande parte do conteúdo processado, isto é,
ele é capaz de apreender, com o texto, informações para seu próprio uso lingüístico no futuro,
assim como também extrair informações relevantes de interesse do usuário do sistema
3
(Rangel et al, 2004 sessão 5). Esta característica é fundamental no processamento automático
da linguagem natural (PLN), uma vez que a língua humana não é estática e muda no decorrer
do tempo, o que mostra a importância de um sistema adaptativo e, de preferência, automático
de aprendizagem.
2.4. Léxico
Todas as palavras da língua são armazenadas em um repositório de informações
chamado léxico. No entanto, como novas palavras surgem o tempo todo em uma língua,
automatizar o processamento das informações e o gerenciamento do léxico é um dos
importantes objetivos desta tecnologia. Através da combinação de modelos estatísticos e
semânticos a tecnologia permite que grande parte da informação processada seja classificada
e armazenada em um léxico localizado dentro do banco de dados (Boguraev & Pustejovsky,
1996). Isso possibilita o aprendizado contínuo do sistema e faz com que ele seja capaz de
realizar relacionamentos entre classes de palavras e expressões identificadas no próprio texto.
2.5. Trabalhos Recentes
Dentro da área de aprendizado automático, recentemente tem-se investido muito em
Machine Learning (ML) para a resolução de problemas de PLN como: etiquetagem
morfossintática (Brill, 1995; Ratnaparkhi, 1998), identificação automática de compostos
(Oliveira, C. 2004) e análise sintática parcial (Ramshaw & Marcus, 1995; Koeling, 2000;
Tjong, 2002; Megyesi, 2002). Dentre as técnicas de aprendizado de máquina mais utilizadas
podemos citar Cadeias de Markov Escondidas (Seymore, 1999), Bayesian Model Merging,
Entropia Máxima, Aprendizado Baseado em Casos (Memory Based Learning) e Aprendizado
Baseado em Transformações (Nogueira, 2005).
2.6. Evolução do Aprendizado
Para mostrar como essas tecnologias de aprendizado automático se comportam ao
longo do tempo, a figura 3 é um gráfico da evolução da quantidade de novas palavras que são
aprendidas. Essas palavras são objetos lingüísticos que contém algum significado. Estes
objetos são responsáveis pela representação de todo o conhecimento passível de ser utilizado
e analisado pelo usuário.
Em cada transversal do eixo X temos uma foto da proporção de palavras aprendidas de
cada tipo em cada instante. O eixo Y é a proporção em porcentagem da quantidade de
palavras novas relativas a cada tipo. Cada tipo de palavra é representado por uma cor. Na
legenda se encontra o nome de cada uma.
Esses tipos de palavra são, na verdade, objetos linguísticos classificados segundo uma
ontologia do conhecimento humano especializada para o ambiente de IC. Uma organização
ontológica é estritamente necessária para a representação do conhecimento. Nirenburg e
Raskin (2004) descrevem a teoria de ontologias apontando que a solução deve ser
especializada para cada ambiente. As diferentes séries de diferentes cores representam grupos
ou classes de objetos que têm funções categoricamente semelhantes, como verbos, operadores
estruturais como preposições, nomes, substantivos e etc.
4
Legenda:
- Agentes
- Determinantes
- Operadores Lógicos
- Nomes
- Polimórficos
- Qualificadores
- Substantivos
- URLs
- Verbos
Tempo
Figura 3. Representação do aprendizado automático do sistema ao logo do tempo.
Todos os novos objetos são classificados pelo sistema de forma automática através de
sistemas especialistas e apresentam hoje uma eficiência acima de 95%. Quando o léxico
começa a ficar muito grande ele passa por um forte tratamento estatístico que visa selecionar
apenas os itens lexicais mais aptos e com maior importância na língua, em detrimento de itens
que podem ser corrompidos ou sem valor. De posse de uma base rica em objetos lingüísticos
significantes, diversos agentes computacionais são acionados para atuar em cima dela. Cada
agente é responsável por uma função específica. A seguir encontra-se a descrição de alguns
agentes computacionais:
Agente formador da rede lexical. Um dos principais agentes. Responsável pela
formação da rede lexical. Ele percorre a base de conhecimento identificando e
relacionando grupos de palavras que apresentam informações redundantes, incluindo
flexões verbais (Stemming), nominalização (Mello e Margarida, 1981), sinonímia,
acrônimos (Yeates, 1999), etc. Este agente resolve ainda casos particulares de anáforas
– ligações lexicais temporárias que pertencem apenas ao contexto lido.
Agentes de polissemia. Estes agentes se dedicam a resolver problemas de palavras
que podem ter mais de um significado possível, e escolher qual o significado correto
de acordo com o contexto do documento. Um agente é responsável pela detecção de
compostos na língua, isto é, multi-itens lexicais de significado cristalizado.
Entendendo o contexto como um conjunto de palavras vizinhas, a tarefa se resume em
executar procedimentos estatísticos para verificar a dependência da palavra alvo às
suas palavras vizinhas. Se a dependência for significante existe uma grande
probabilidade de o composto assumir um significado que difere do significado das
palavras envolvidas. O composto passa a constituir um novo item lexical com
significado próprio resolvendo boa parte dos casos de polissemia, como por exemplo
‘lua de mel’, ‘banco de dados’, ‘lucro líquido’, entre outros. (Oliveira, C. et al 2004).
Um outro agente é o desambigüizador. Ele é responsável por manter o sistema
atualizado permanentemente através da execução de um processo de clusterização
semântica. Esta análise permite ao sistema identificar os possíveis usos de uma palavra-alvo
ao agrupar contextos encontrados e extrair seus possíveis perfis (Aranha, C. N. et al 2004).
5
A figura 4 a seguir é um grafo que ilustra o procedimento de clustering, no qual as cores
indicam os possíveis contextos.
Figura 4. Grafo ilustrativo do processo de clusterização semântica.
Agentes de metalinguagem. Agentes dotados de procedimentos como Cadeia de
Markov Escondidas (HMM na sigla em Inglês) são capazes de explorar os objetos
lexicais do texto extraindo uma metalinguagem que permite a classificação ontológica
dentro dos contextos relevantes. Classes como empresas, locais, pessoas são
identificadas automaticamente no texto. Com isso o sistema é capaz de estabelecer
relações através dos padrões sintáticos aprendidos, como por exemplo: ‘Mário Fleck é
sócio-diretor da Accenture’, ‘Buenos Aires é a capital da Argentina’, etc. (Stolcke,
1994).
Agente de classificação. Este agente é o responsável por desenvolver e aprimorar as
regras de classificação contextual do sistema. É através dele que as notícias e
documentos são classificados de acordo com os contextos competitivos pré-definidos
(inspirado em Aggarwal, 2000). Os documentos são projetados em um ambiente
multidimensional onde é, então, realizado uma técnica estatística supervisionada de
análise de discriminantes. O resultado desta análise é um conjunto de regras que serão
aplicadas na classificação das notícias.
2.7. Representação do Conhecimento
Estes são alguns dos agentes responsáveis pela análise, contextualização e
classificação da tecnologia presente na plataforma Cortex Intelligence. O objetivo de toda a
tecnologia é transformar um texto de um formato natural para um formato ERC (Estrutura de
6
Representação Cortex), utilizando um modelo XML (Extended Markup Language), que
permite a realização de diversas análises e correlações entre os textos e as entidades nele
presentes, como em LingPipe. Na figura a seguir apresentamos um exemplo de uma notícia
processada pela tecnologia.
Figura 5. Notícia processada pelo Cortex. Destacada em cores a Estrutura de Representação Cortex (ERC).
De uma forma geral a abordagem tecnológica utilizada pela plataforma reúne uma gama
de técnicas estatísticas e de PLN (Processamento de Linguagem Natural) que proporcionam um
misto de flexibilidade e alto grau de precisão do sistema.
3. Teste utilizando dados reais
Para testar a aplicação do sistema na área de negócios, selecionamos uma indústria de
teste. No caso, a indústria de artigos esportivos, que é composta pelos fabricantes de produtos
para a prática das diversas modalidades esportivas. No mundo, ela é estimada em USD 600 bi em
vendas no varejo, envolvendo uma rede de pequenos e grandes negócios focados principalmente
no público com idade entre 16-25 anos. Os três maiores segmentos são o de acessórios
esportivos, o de calçados esportivos e o de equipamentos esportivos. Os quatro maiores
fabricantes são a Nike, Adidas, VF Corporation e Reebok. Com exceção da Adidas, todos os
outros três fabricantes são norte-americanos (Carvalho, L. 2005).
A amostra selecionada por conveniência foi de 24 firmas e para cada uma delas coletamos
o relatório 10-k do ano fiscal de 2003. Este relatório fornece uma série de informações de
mercado, mas selecionamos 7 variáveis de estudo, que seriam o resultado final da coleta. Foram
elas o total de vendas no ano, o lucro líquido, capital de giro, gastos com propaganda, número de
pontos de venda, número de funcionários e número de marcas comercializadas.
Em um documento de informações estratégicas padrão, como no caso o 10-k, costuma-se
encontrar dois tipos de dados: não-estruturados e semi-estruturados. Os dados não-estruturados
são os textos livres, um parágrafo escrito em linguagem natural corrente. E dados semiestruturados são tabelas presentes dentro desses textos que fazem a associação sem o intermédio
de uma gramática, e sim por uma estrutura de linhas e colunas.
Para o primeiro caso apresentamos o exemplo da Figura 5, acima. Para o segundo caso, o
dos dados tipo semi-estruturados. É necessário que o sistema saiba reconhecer o que é uma
tabela, e, para isso utiliza-se de um tratamento imagético de textos para reconhecer que em
determinado ponto existe uma estrutura mais rígida e estruturada. Depois de reconhecida as
linhas e as colunas, o texto é processado igualmente ao caso não-estruturado. O sistema trabalha
7
ainda dois tipos de associação semântica de tabelas (Figura 6). No primeiro tipo temos a
contextualização de uma variável, no segundo temos a descrição de uma propriedade.
Tipo 1
|
2003
|
2002
|
2001
Net income | $ 58,516 | $ 37,591 | $ 28,021
Leitura: The Net income in 2003 is $ 58,516
Tipo 2
Brand
Roxy
|
|
Category
Juniors
|
|
MarketShare
20%
|
|
Expenditures
$ 25,457
Leitura: The Category of Roxy brand is Juniors
Figura 6. Exemplo de dados semi-estruturados.
Para dados não-estruturados o sistema funciona de seguinte maneira, primeiro detectamos
a ocorrência de uma quantidade, depois os objetos que estão relacionados a ela, e finalmente o
contexto. No exemplo abaixo da Figura 7 o contexto aparece no início da frase seguido por dois
pontos.
foreign countries: Quiksilver also have approximately 50 employees
in Hong Kong
Employees:
Employees:
Employees:
Employees:
Quiksilver had approximately 3,400 employees
consisting of approximately 2,000 in the United States.
approximately 950 in Europe
approximately 450 in Asia/Pacific
Figura 7. Exemplo de dados não estruturados.
Outra tarefa quantitativa é a contagem. Nesse caso não temos números aparentes para
procurar, atuando como indicadores de informação de variáveis estratégicas. Nessa tarefa, são
detectados todos os nomes de marcas existentes em uma sessão contextualizada do documento.
Os nomes das marcas são aprendidos através de uma metalinguagem que inclui as palavras
brand, product e category. Após a extração dos nomes, o sistema conta a quantidade de marcas
diferentes que a empresa possui gerando assim o valor quantitativo da variável. Um exemplo
dessa abordagem é mostrado na figura 8.
Products and Brands
Our first product was the famous Quiksilver boardshort developed by two
Australian surfers who founded Quiksilver Australia in the late 1960’s. The
Quiksilver boardshort, identified by its distinctive mountain and wave logo,
became known in the core surfing world as a technically innovative and
stylish product. The reputation and popularity of the Quiksilver boardshort
8
grew, having been brought to the beaches of California and Southwest France
in the 1970’s by the founders of our company and Quiksilver Europe.
Since the first boardshort, our product lines have been greatly expanded,
but our brands continue to represent innovation and quality. In the 1990’s
we called on the Quiksilver heritage to reach out to the girls market by
creating the Roxy brand for juniors, which has become our fastest growing
brand. In addition to Quiksilver and Roxy, we have developed a stable of
other brands to address a wide variety of consumers and markets. We believe
this multibrand strategy will allow us to continue to grow across a diverse
range of products and distribution with broad appeal across gender, age
groups and geographies.
Quiksilver Our Quiksilver product line now includes shirts, walkshorts, tshirts, fleece, pants, jackets, snowboardwear, footwear, hats, backpacks,
wetsuits, watches, eyewear and other accessories. Quiksilver has also
expanded demographically and currently includes young men, boys and
toddlers. Quiksilveredition is our brand targeted at men. In fiscal 2003,
the Quiksilver line of products represented approximately 58% of our
revenues.
Roxy
Our Roxy brand for young women is a surf-inspired collection that we
introduced in fiscal 1991. The Roxy line is branded with a heart logo
composed of back-to-back images of the Quiksilver mountain and wave logo and
includes a full range of sportswear, swimwear, footwear, backpacks,
fragrance, beauty care, bedroom furnishings and other accessories for young
women. Through fiscal 1997, Roxy included juniors sizes only, but was then
expanded as Teenie Wahine and Roxy Girl into the girls categories. In fiscal
2003, the Roxy product line accounted for approximately 32% of our revenues.
Other Brands
In fiscal 2003, our other brands represented approximately 10% of our
revenues.
· Raisins, Radio Fiji, Leilani - Raisins and Radio Fiji are swimwear labels
in the juniors category while Leilani is a contemporary swimwear label. We
also produce private label swimwear.
· Hawk - Tony Hawk, the world-famous skateboarder, is the inspiration for
our Hawk Clothing brand which we added to our portfolio in fiscal 2000. Our
target audience for the Hawk product line is boys who recognize Tony from
his broad media and video game exposure.
· Gotcha - We have added Gotcha to our European labels to give us product
to address European street fashion for young men.
· Fidra - We entered the golf apparel business in fiscal 2000 with a new
brand, Fidra, conceived and developed by golf industry pioneer, John
Ashworth, and endorsed by world famous golfer, Ernie Els.
· Lib Tech, Gnu, Bent Metal - We address the core snowboard market through
our Lib Technologies and Gnu brands of snowboards and accessories and Bent
Metal snowboard bindings.
Figura 8. Exemplo de contagem. Foram identificadas 13 marcas segundo associações com a metalinguagem que inclui
brand, product, category e labels.
4. Resultado
O primeiro relatório a ser tratado foi o da empresa Quiksilver Inc. e baseado nas
variáveis selecionadas, pudemos extrair uma tabela de resultados apresentada pela figura 9.
Firma
Quiksilver
Vendas 2003
USD
975.000.000
Lucro
Liquido
2003
58.516.000
Capital de
Giro 2003
286.600.000
Gastos
Advertising
2003
40.300.000
PVs
16400
Número
de
Marcas
3.400
13,00
Funcionários
em 2003
Figura 9. Dados sobre a Quiksilver (os mesmos mostrados nos exemplos anteriores, mas de forma compacta).
Em seguida reproduzimos o mesmo trabalho para toda a amostra de 24 firmas,
utilizando o mesmo processo e o mesmo relatório 10-k. Para algumas firmas que não
negociavam ações nas bolsas americanas (no caso a Adidas-Salomon, Puma, Mizuno,
Alpargatas e Calçados Azaléia), utilizamos relatórios anuais para investidores (equivalentes
9
ao 10-k) disponíveis nas páginas de Internet das empresas. Apresentando os dados
compilados, montamos a tabela da figura 10.
Firma
Vendas 2003
USD
Nike
12.253.000.000
Adidas-Salomon
7.081.710.000
VF Corporation
5.207.000.000
Reebok
3.490.000.000
Luxottica
3.191.838.680
Polo Ralph Lauren
2.650.000.000
Puma
1.911.395.000
Tommy Hilfiger
1.875.800.000
Abercrombie & Fitch 1.708.000.000
Timberland
1.340.000.000
Mizuno
1.326.026.490
Amer Sports
1.247.520.000
Russel Corporation
1.186.000.000
Quiksilver
975.000.000
Columbia Sportswea
951.700.000
Wolverine
889.000.000
K2
718.539.000
Oakley
521.500.000
Head
431.000.000
Kswiss
429.162.000
Johnson Outdoors
315.892.000
Alpargatas
294.921.000
Calçados Azaléia
187.081.200
Rocky Shoes & Boot
106.200.000
Lucro
Liquido
2003
945.600.000
293.800.000
398.000.000
157.200.000
302.097.590
171.000.000
202.647.420
132.100.000
205.100.000
118.000.000
-47.729.423
73.111.000
43.000.000
58.516.000
120.100.000
51.700.000
11.424.000
38.196.000
-14.600.000
50.056.000
5.421.000
27.142.000
3.310.000
6.000.000
Capital de
Giro 2003
3.503.000.000
1.619.290.000
1.337.000.000
1.161.000.000
623.421.000
770.200.000
175.828.000
689.000.000
472.600.000
342.600.000
322.961.211
132.775.000
404.000.000
286.600.000
79.000.000
300.870.000
281.571.000
154.300.000
206.875.000
177.400.000
145.100.000
86.996.399
29.293.500
54.200.000
Gastos
Advertising
2003
1.378.000.000
911.910.000
258.600.000
150.200.000
252.474.440
112.300.000
55.257.000
49.100.000
33.600.000
33.900.000
89.631.031
46.240.000
45.700.000
40.300.000
52.500.000
35.200.000
18.124.000
17.600.000
36.900.000
27.857.000
18.282.000
16.550.000
7.579.900
1.777.000
PVs
48000
45000
45000
45000
5500
8900
10000
8000
700
10000
27500
10000
15000
16400
12000
10000
6000
15000
32000
4000
3000
16700
16700
3000
Funcioná Número
rios em
de
2003
Marcas
24.667
11,00
15.686
10,00
52.300
43,00
7.760
5,00
36.900
23,00
13.000
10,00
2.826
5,00
5.400
3,00
30.200
3,00
5.500
2,00
4.034
1,00
4.013
4,00
13.644
12,00
3.400
13,00
2.092
4,00
4.784
13,00
3.500
16,00
2.456
1,00
2.301
5,00
442
2,00
1.300
15,00
9.966
17,00
15.400
4,00
1.010
2,00
Figura 10. Resultados compilados da amostra de 24 firmas (nota: dados financeiros convertidos para US Dolar).
Paralelo ao processo computadorizado dos dados, realizamos o mesmo processo pelo
método tradicional. Ou seja, coleta dos textos e leitura com extração das informações
relevantes. Neste processo foram necessários 2 dias para a coleta e 8 dias para chegar às
informações (Carvalho, L. 2005). Já com o sistema computadorizado de mineração de texto,
foram gastos 2 dias de coleta e apenas 4 dias para extrair as informações.
5. Discussão e Sugestão de Pesquisa
O resultado apresentado neste trabalho é uma pequena amostra da possibilidade de
utilização de inteligência computacional para buscar e tratar dados da competição em meios
digitais. Mas as possibilidades são muito maiores do que isto. Tomemos o exemplo desse
único relatório 10-K, disponibilizado anualmente pelas empresas. Ele contém informações
sobre o negócio, sobre produção, fornecedores, clientes, custo de mercadorias, investimentos
em propaganda, em pesquisa e desenvolvimento, dentre muitas outras informações
estratégicas. No caso da amostra utilizada da Indústria de Artigos Esportivos, que fornecem
anualmente o relatório 10-K (dentre elas Nike, Reebok, Oakley, VF Corporation, etc)
chegamos a um total de 24 firmas concorrentes. Os relatórios são individuais e cada um deles
tem em média 100 páginas. Se o analista quiser fazer uma análise da indústria em um espaço
temporal de 5 anos, estaremos falando de aproximadamente 9.500 páginas a serem
consultadas. Isso sem contar as páginas de internet das empresas, que também fornecem
valiosas informações sobre linhas de produtos e amplitude de oferta.
10
No teste realizado neste trabalho utilizamos somente 1 relatório por firma. Testar mais
a fundo a economia de tempo entre os dois métodos de análise (leitura manual vs. Inteligência
computacional) e a diferença de eficácia entre os dois métodos é uma boa sugestão de
pesquisa futura.
Também cabe ressaltar a questão temporal. Utilizando métodos de inteligência
computacional, abre-se uma porta para a continuidade na busca de informações. Apesar da
ferramenta utilizada nesta pesquisa não realizar busca automática de fontes de dados na
Internet, é perfeitamente viável a construção de mecanismos de busca automática. Com isso o
analista teria uma espécie de robô virtual que fica buscando constantemente novas
informações na rede e trazendo para sua base de dados de pesquisa. Se no método manual
depende-se do tempo e disponibilidade de uma pessoa para buscar as informações, no método
computacional isso passa a ser automático. O tempo gasto na coleta passa a ser aplicado na
análise e ação em cima das informações levantadas.
6. Conclusão
Este artigo apresentou uma revisão bibliográfica sobre métodos de mineração de dados
e discutiu a aplicação destes métodos de inteligência computacional no gerenciamento
estratégico da empresa. Para testar esta aplicação, selecionamos uma amostra de 24 firmas da
indústria de artigos esportivos e coletamos os respectivos relatórios 10-k (relatório anual
padrão da SEC) ou relatório anual disponível na página de Internet da empresa para o ano de
2003. Juntos, estes relatórios totalizaram mais de 1.500 páginas de texto. Constituída a base
de documentos em formato digital, selecionamos 7 variáveis (total de vendas no ano, o lucro
líquido, capital de giro, gastos com propaganda, número de pontos de venda, número de
funcionários e número de marcas comercializadas) que seriam o alvo de busca nestes
relatórios.
Inicialmente foi feita a busca pela método tradicional de leitura e extração das
informações relevantes. Paralelamente foi feita a mesma busca, mas utilizando método
computacional através de uma plataforma de mineração de textos (Rangel et al 2004). O
objetivo de ambas era o de gerar uma tabela compilada com estes dados para cada uma das 24
firmas da amostra. O processo utilizando o auxílio de inteligência computacional demonstrou
um ganho significativo de tempo nesta busca. Também demonstrou potencial para melhor
lidar com um fluxo contínuo de informação em relação ao método tradicional de leitura.
7. Bibliografia
Aggarwal, C.C., Gates, S.C. e Yu, P.S. (1999). On the merits of building categorization
systems by supervised clustering, in: Proceedings of the Fifth ACM Conference on
Knowledge Discovery and Data Mining (KDD’99), San Diego, USA, August, pp. 352–356.
Aranha, C. N., Freitas, M.C, Dias, M. C. e Passos, E. (2004) “Um modelo de
desambigüização de palavras e contextos” . TIL 2004: Workshop de Tecnologia da
Informação e da Linguagem Humana.
Boguraev, B e Pustejovsky, J. (1996). Corpus Processing for Lexical Acquisition. The MIT
Press.
Brill, E. (1995). “Transformation-Based Error-Driven Learning and Natural Language
Processing: A Case Study in Part of Speech Tagging”. Computational Linguistics,
December.
11
Carvalho, L. F. (2005). Análise da Indústria de Artigos Esportivos com Base na Teoria de
Michael Porter. Rio de Janeiro, 2005. 110 p. Dissertação de Mestrado – Departamento de
Administração de Empresas, PUC-Rio.
Cook, M., Cook, C. (2000). “Competitive intelligence: create an intelligent organization and
compete to win”. London, Dover, NH: Kogan Page.
Fuld, L. M. (1995) “The new competitor intelligence: the complete resource for finding,
analyzing and using information about competitors”. New York: Wiley.
Koeling, R. “Chunking with maximum entropy models”. CoNLL-2000. Lisbon, Portugal.
Manning, C & Schütze, H. (1999). Foundations of Statistical Natural Language Processing.
Cambridge, Massachusetts: The MIT Press.
Megyesi, B. (2002) “Shallow Parsing with PoS Taggers and Linguistic Features”. Journal of
Machine Learning Research: Special Issue on Shallow Parsing, JMLR (2): 639-668. MIT
Press
Mello, M. e Margarida, B. (1981). “Sufixos formadores de substantivos: graus de
produtividade”. Dissertação de mestrado – PUC-Rio.
Nirenburg, S. e Raskin, V.(2004). Ontological Semantics. The MIT Press.
Oliveira C., Freitas M. C., Garrão M.O., Santos C.N. e Aranha C. (2004). A extração de
expressões multivocabulares: uma abordagem estatística. Revista PaLavra, no. 12, 2004.
páginas 172-192
Pinker, S. (2002). O Instinto da Linguagem: Como a Mente Cria a Linguagem. Editora
Martins Fontes
Ramshaw, L. A. e Marcus, M. P. (1995). “Text Chunking using Transformation-Based
Learning.” In Proceedings of the ACL Third Workshop on Very Large Corpora, June 1995,
pp. 82-94.
Rangel, L., Pires, D., Aranha, C. e Massari G. (2004). Cortex Competitiva: O Primeiro
Sistema Integrado de Inteligência Competitiva Nacional. Prêmio Inovação ABRAICFINEP.
Ratnaparkhi, A. (1998). “Unsupervised Statistical Models for Prepositional Phrase
Attachment”. In Proceedings of the Seventeenth International Conference on Computational
Linguistics, Aug. 10-14. Montreal, Canada.
Santos, C. N. (2005). Aprendizado de Máquina na Identificação de Sintagmas Nominais: O
Caso do Português Brasileiro. Dissertação de Mestrado – IME. Rio de Janeiro.
Seymore, K., Mccallum, A., Rosenfeld, R. (1999) “Learning Hidden Markov Model Structure
for Information Extraction”. In Proceedings if the AAAI-99 Workshop on ML for IE.
12
Shapiro, Carl, Varian, Hal R. (1999). “Information rules: a strategic guide to the network
economy”. Boston: Harvard Business School Press.
Stolcke, A. & Omohundro, S. (1994) “Inducing Probabilistic Grammars by Bayesian Model
Merging”. In Grammatical Inference and Applications, R. C. Carrasco & J. Oncina (eds.),
Springer, pp. 106–118
Tjong Kim Sang Erik F. (2002) “Memory-based shallow parsing”. In: Journal of machine
learning research, 2, p. 559-594.
Yeates, S. (1999). “Automatic Extraction of Acronyms from Text”. New Zealand Computer
Science Research Students' Conference.
13
Download

1 Buscando Dados Estratégicos: Uma Abordagem Baseada em