Buscando Dados Estratégicos: Uma Abordagem Baseada em Inteligência Computacional Autoria: Christian Nunes Aranha, Luis Felipe de Carvalho, Emmanuel Lopes Passos Resumo A enorme evolução das tecnologias de computação e o aumento drástico da quantidade de informação gerada estão forçando as empresas a repensarem a forma como utilizam estas informações para competir. Apesar de entenderem o valor da informação como vantagem competitiva, muitas empresas ainda entendem a busca por informação como uma ação e não como um processo. Em ambientes de mudança o caráter temporal da informação é agravado. A competição é baseada no tempo e por isso o valor da informação também muda com o tempo. Desenvolver um processo contínuo de gerenciamento estratégico demanda fluxos contínuos de informação. Mas como tratar tantas informações de forma rápida? Como se beneficiar das informações disponíveis em meios digitais? Como reduzir o tempo de busca para aumentar o tempo de análise das informações? Este artigo integra elementos da teoria de dados, técnicas de análise de conteúdo, mineração de textos, inteligência artificial, e pesquisa em estratégia para discutir sobre estas questões. 1. Introdução Nas duas últimas décadas do século XX experimentamos um enorme desenvolvimento nas tecnologias de computação e um crescimento acelerado na quantidade de informação sendo produzida. Mas até que ponto as empresas estão utilizando estas informações espalhadas principalmente por meios digitais? Até que ponto as utiliza para aumentar sua vantagem competitiva? É certo que a maioria das empresas reconhece a informação como um ativo. Acreditam no valor da informação para o seu planejamento estratégico (Shapiro, C. 1999). Porém, uma grande dificuldade é lidar com a informação em um ambiente de mudanças. Fazer o planejamento de forma anual parece não ser mais suficiente. A dinâmica do ambiente é mais rápida do que isso. O caráter temporal da informação se torna cada vez mais em um fator crítico. Uma informação é válida hoje, mas amanhã pode não ser mais. Pensar a empresa e tomar as decisões requer um fluxo constante de informação. A informação deixa de ser um bloco estático para ser um bloco construtor de uma realidade temporal. O domínio conhecido como Inteligência Competitiva tem papel vital nesta nova forma de lidar com a informação em negócios (Fuld, L. 1995; Cook, M. 2000). Se no passado as empresas imprimiam enorme esforço em colher a informação para depois analisar e agir, no futuro o esforço maior passa a ser em analisar e agir. A colheita deixa de ser uma ação para se tornar um processo. Se antes havia uma torneira de informação que podia ser aberta e fechada, hoje existe um rio de informação que não para nunca. Neste trabalho estaremos focando em um tipo específico de informação: a informação textual. Este tipo de informação engloba todo tipo de texto armazenado em formato digital. Não consideramos informações visuais, sonoras ou de qualquer outra espécie. Nossa proposta é fazer uma revisão bibliográfica na área de mineração de textos. Posteriormente discutimos sua aplicação como uma ferramenta de tecnologia para geração contínua de informações competitivas. Para ilustrar esta discussão utilizamos os relatórios 10-K fornecidos pela SEC (US Securities and Exchange Comission). Este relatório é compulsório para as empresas com ações negociadas nas bolsas norte-americanas e seu conteúdo provê informações financeiras e operacionais das empresas. O 10-K é uma rica fonte de informação de mercado e reflete a grande tendência global de disclousure de informações por parte da empresas. Apesar de ser 1 direcionado para o investidor da empresa, serve como interessante fonte de informação para a concorrência. No nosso entendimento é uma amostra clara do potencial textual informativo disponível em meios digitais. O desafio é tratar de forma rápida as inúmeras informações de fluxo contínuo e utilizá-las dentro de um sistema mais amplo de inteligência competitiva. 2. Descrição da Abordagem Tecnológica para Tratamento de Textos A área de mineração de textos (Text Mining) tem uma origem forte na área de mineração de dados e KDD (Knowledge Discovery on Database), sendo chamada por alguns de Text Data Mining ou KDT (Knowledge Discovery in Text). Porém, as influências de áreas correlatas como Processamento da Linguagem Natural (PLN), de Recuperação da Informação (RI), Inteligência Artificial (IA) e Ciência Cognitiva fizeram dela uma área própria. Cada uma destas áreas dão enfoque diferente de acordo com a necessidade: PLN tem uma preocupação lingüística e é bastante aplicada em interfaces humano-computador, RI desenvolve algoritmos de indexação para achar o mais rápido possível um documento específico, IA se preocupa com aprendizagem e a Ciência Cognitiva com a compreensão e raciocínio usando uma língua. Por ser uma área muito recente, existem, hoje, poucos núcleos de pesquisa. Adicionalmente, processar textos envolve necessariamente conhecimento de uma língua, o que segmenta mais ainda os núcleos de estudo. Em nosso caso a maior parte dos documentos processados são em Inglês ou Português. Dentro destes segmentos temos como exemplo os núcleos de pesquisa de Stanford (Schutze, H. e Manning, C.), Portugal, França (Lebart, L.), Dinamarca e Brasil (CLIC – Centro de Lingüística Computacional da PUC-Rio e NILC – Núcleo Interinstitucional de Lingüística Computacional da USP). 2.1. Valor Agregado Atualmente, o que encontramos com grande freqüência em ferramentas de análise, que acabam sendo utilizadas como apoio à área de estratégia, são tecnologias de busca de informação. Estas ferramentas baseiam-se essencialmente na procura por keywords (palavraschave) no conteúdo textual de um documento. São encontradas também, com grande freqüência, ferramentas um pouco mais sofisticadas que permitem uma busca mais flexível, baseada em ‘expressões regulares’. Esse tipo de motor de busca permite a utilização de caracteres especiais (wildcards) que possibilitam a execução de funções matemáticas de primeira ordem como truncamentos e operadores lógicos AND (E) e OR (OU). Em outras palavras, esse tipo de motor permite que o usuário realize uma busca mais ampla e flexível, como por exemplo, buscar documentos que contenham as palavras ‘Sales ou Revenue’, ou mais focada, como documentos que contenham ‘Promotion e Marketing’. Porém, esse tipo de tecnologia deixa normalmente o usuário sobrecarregado na fase de construção da tabela de análise (ou base de dados da pesquisa), tendo que tecer uma complexa teia lógica para extrair a informação que procura diante de uma enorme quantidade de documentos. A idéia subjacente a este trabalho é minimizar essa primeira etapa, deixando o usuário usar seu tempo na parte mais nobre do processo, a análise. Veja figura 1. Figura 1. Valor agregado pela Mineração de Textos (MT) no processo de análise de informações textuais. 2 Para realizar o teste de mineração de texto proposto com os relatórios 10-K, estamos utilizando a plataforma Cortex Intelligence. A tecnologia presente nesta plataforma auxilia o usuário na organização das informações de bases textuais. A seguir descreveremos o funcionamento do sistema. 2.2. Abordagem do Sistema A tecnologia por trás da plataforma propõe abordar o problema de análise de informação não somente através de uma visão técnica. O sistema busca efetivamente reproduzir a forma de análise do conhecimento humano. Embora isto represente apenas um pequeno deslocamento do ponto de vista da abordagem do problema, traz consigo grandes impactos em sua modelagem. O primeiro grande impacto desta abordagem é a necessidade de conhecimentos de diferentes áreas do saber. A matemática e a computação não dão mais conta do problema de forma isolada. São necessários também profundos conhecimentos da área de Letras e Psicologia. Dentre elas podemos citar conhecimentos como lingüística e aquisição da linguagem, modelo cognitivo da mente e desenvolvimento do pensamento humano. A Figura 2 ilustra as áreas de conhecimento que permeiam a tecnologia empregada na plataforma Cortex Intelligence. Algorítimos Engenharia de Software Informática Ciência da informação Ciência Cognitiva Linguística Cortex Competitiva Letras Psicologia CRM Redes Lexicais Matemática Controle Estatística Figura 2. Representação das diferentes áreas de conhecimento envolvidas na abordagem do problema. 2.3. Aprendizado A tecnologia é inspirada no funcionamento do cérebro humano e foi modelada seguindo de perto as características de como o cortex cerebral processa as informações textuais transformando-as em conhecimento e decisão (Pinker 2002). Desta forma sua arquitetura é composta por um módulo central que permanece constantemente processando informações textuais e é capaz de ‘compreender’ grande parte do conteúdo processado, isto é, ele é capaz de apreender, com o texto, informações para seu próprio uso lingüístico no futuro, assim como também extrair informações relevantes de interesse do usuário do sistema 3 (Rangel et al, 2004 sessão 5). Esta característica é fundamental no processamento automático da linguagem natural (PLN), uma vez que a língua humana não é estática e muda no decorrer do tempo, o que mostra a importância de um sistema adaptativo e, de preferência, automático de aprendizagem. 2.4. Léxico Todas as palavras da língua são armazenadas em um repositório de informações chamado léxico. No entanto, como novas palavras surgem o tempo todo em uma língua, automatizar o processamento das informações e o gerenciamento do léxico é um dos importantes objetivos desta tecnologia. Através da combinação de modelos estatísticos e semânticos a tecnologia permite que grande parte da informação processada seja classificada e armazenada em um léxico localizado dentro do banco de dados (Boguraev & Pustejovsky, 1996). Isso possibilita o aprendizado contínuo do sistema e faz com que ele seja capaz de realizar relacionamentos entre classes de palavras e expressões identificadas no próprio texto. 2.5. Trabalhos Recentes Dentro da área de aprendizado automático, recentemente tem-se investido muito em Machine Learning (ML) para a resolução de problemas de PLN como: etiquetagem morfossintática (Brill, 1995; Ratnaparkhi, 1998), identificação automática de compostos (Oliveira, C. 2004) e análise sintática parcial (Ramshaw & Marcus, 1995; Koeling, 2000; Tjong, 2002; Megyesi, 2002). Dentre as técnicas de aprendizado de máquina mais utilizadas podemos citar Cadeias de Markov Escondidas (Seymore, 1999), Bayesian Model Merging, Entropia Máxima, Aprendizado Baseado em Casos (Memory Based Learning) e Aprendizado Baseado em Transformações (Nogueira, 2005). 2.6. Evolução do Aprendizado Para mostrar como essas tecnologias de aprendizado automático se comportam ao longo do tempo, a figura 3 é um gráfico da evolução da quantidade de novas palavras que são aprendidas. Essas palavras são objetos lingüísticos que contém algum significado. Estes objetos são responsáveis pela representação de todo o conhecimento passível de ser utilizado e analisado pelo usuário. Em cada transversal do eixo X temos uma foto da proporção de palavras aprendidas de cada tipo em cada instante. O eixo Y é a proporção em porcentagem da quantidade de palavras novas relativas a cada tipo. Cada tipo de palavra é representado por uma cor. Na legenda se encontra o nome de cada uma. Esses tipos de palavra são, na verdade, objetos linguísticos classificados segundo uma ontologia do conhecimento humano especializada para o ambiente de IC. Uma organização ontológica é estritamente necessária para a representação do conhecimento. Nirenburg e Raskin (2004) descrevem a teoria de ontologias apontando que a solução deve ser especializada para cada ambiente. As diferentes séries de diferentes cores representam grupos ou classes de objetos que têm funções categoricamente semelhantes, como verbos, operadores estruturais como preposições, nomes, substantivos e etc. 4 Legenda: - Agentes - Determinantes - Operadores Lógicos - Nomes - Polimórficos - Qualificadores - Substantivos - URLs - Verbos Tempo Figura 3. Representação do aprendizado automático do sistema ao logo do tempo. Todos os novos objetos são classificados pelo sistema de forma automática através de sistemas especialistas e apresentam hoje uma eficiência acima de 95%. Quando o léxico começa a ficar muito grande ele passa por um forte tratamento estatístico que visa selecionar apenas os itens lexicais mais aptos e com maior importância na língua, em detrimento de itens que podem ser corrompidos ou sem valor. De posse de uma base rica em objetos lingüísticos significantes, diversos agentes computacionais são acionados para atuar em cima dela. Cada agente é responsável por uma função específica. A seguir encontra-se a descrição de alguns agentes computacionais: Agente formador da rede lexical. Um dos principais agentes. Responsável pela formação da rede lexical. Ele percorre a base de conhecimento identificando e relacionando grupos de palavras que apresentam informações redundantes, incluindo flexões verbais (Stemming), nominalização (Mello e Margarida, 1981), sinonímia, acrônimos (Yeates, 1999), etc. Este agente resolve ainda casos particulares de anáforas – ligações lexicais temporárias que pertencem apenas ao contexto lido. Agentes de polissemia. Estes agentes se dedicam a resolver problemas de palavras que podem ter mais de um significado possível, e escolher qual o significado correto de acordo com o contexto do documento. Um agente é responsável pela detecção de compostos na língua, isto é, multi-itens lexicais de significado cristalizado. Entendendo o contexto como um conjunto de palavras vizinhas, a tarefa se resume em executar procedimentos estatísticos para verificar a dependência da palavra alvo às suas palavras vizinhas. Se a dependência for significante existe uma grande probabilidade de o composto assumir um significado que difere do significado das palavras envolvidas. O composto passa a constituir um novo item lexical com significado próprio resolvendo boa parte dos casos de polissemia, como por exemplo ‘lua de mel’, ‘banco de dados’, ‘lucro líquido’, entre outros. (Oliveira, C. et al 2004). Um outro agente é o desambigüizador. Ele é responsável por manter o sistema atualizado permanentemente através da execução de um processo de clusterização semântica. Esta análise permite ao sistema identificar os possíveis usos de uma palavra-alvo ao agrupar contextos encontrados e extrair seus possíveis perfis (Aranha, C. N. et al 2004). 5 A figura 4 a seguir é um grafo que ilustra o procedimento de clustering, no qual as cores indicam os possíveis contextos. Figura 4. Grafo ilustrativo do processo de clusterização semântica. Agentes de metalinguagem. Agentes dotados de procedimentos como Cadeia de Markov Escondidas (HMM na sigla em Inglês) são capazes de explorar os objetos lexicais do texto extraindo uma metalinguagem que permite a classificação ontológica dentro dos contextos relevantes. Classes como empresas, locais, pessoas são identificadas automaticamente no texto. Com isso o sistema é capaz de estabelecer relações através dos padrões sintáticos aprendidos, como por exemplo: ‘Mário Fleck é sócio-diretor da Accenture’, ‘Buenos Aires é a capital da Argentina’, etc. (Stolcke, 1994). Agente de classificação. Este agente é o responsável por desenvolver e aprimorar as regras de classificação contextual do sistema. É através dele que as notícias e documentos são classificados de acordo com os contextos competitivos pré-definidos (inspirado em Aggarwal, 2000). Os documentos são projetados em um ambiente multidimensional onde é, então, realizado uma técnica estatística supervisionada de análise de discriminantes. O resultado desta análise é um conjunto de regras que serão aplicadas na classificação das notícias. 2.7. Representação do Conhecimento Estes são alguns dos agentes responsáveis pela análise, contextualização e classificação da tecnologia presente na plataforma Cortex Intelligence. O objetivo de toda a tecnologia é transformar um texto de um formato natural para um formato ERC (Estrutura de 6 Representação Cortex), utilizando um modelo XML (Extended Markup Language), que permite a realização de diversas análises e correlações entre os textos e as entidades nele presentes, como em LingPipe. Na figura a seguir apresentamos um exemplo de uma notícia processada pela tecnologia. Figura 5. Notícia processada pelo Cortex. Destacada em cores a Estrutura de Representação Cortex (ERC). De uma forma geral a abordagem tecnológica utilizada pela plataforma reúne uma gama de técnicas estatísticas e de PLN (Processamento de Linguagem Natural) que proporcionam um misto de flexibilidade e alto grau de precisão do sistema. 3. Teste utilizando dados reais Para testar a aplicação do sistema na área de negócios, selecionamos uma indústria de teste. No caso, a indústria de artigos esportivos, que é composta pelos fabricantes de produtos para a prática das diversas modalidades esportivas. No mundo, ela é estimada em USD 600 bi em vendas no varejo, envolvendo uma rede de pequenos e grandes negócios focados principalmente no público com idade entre 16-25 anos. Os três maiores segmentos são o de acessórios esportivos, o de calçados esportivos e o de equipamentos esportivos. Os quatro maiores fabricantes são a Nike, Adidas, VF Corporation e Reebok. Com exceção da Adidas, todos os outros três fabricantes são norte-americanos (Carvalho, L. 2005). A amostra selecionada por conveniência foi de 24 firmas e para cada uma delas coletamos o relatório 10-k do ano fiscal de 2003. Este relatório fornece uma série de informações de mercado, mas selecionamos 7 variáveis de estudo, que seriam o resultado final da coleta. Foram elas o total de vendas no ano, o lucro líquido, capital de giro, gastos com propaganda, número de pontos de venda, número de funcionários e número de marcas comercializadas. Em um documento de informações estratégicas padrão, como no caso o 10-k, costuma-se encontrar dois tipos de dados: não-estruturados e semi-estruturados. Os dados não-estruturados são os textos livres, um parágrafo escrito em linguagem natural corrente. E dados semiestruturados são tabelas presentes dentro desses textos que fazem a associação sem o intermédio de uma gramática, e sim por uma estrutura de linhas e colunas. Para o primeiro caso apresentamos o exemplo da Figura 5, acima. Para o segundo caso, o dos dados tipo semi-estruturados. É necessário que o sistema saiba reconhecer o que é uma tabela, e, para isso utiliza-se de um tratamento imagético de textos para reconhecer que em determinado ponto existe uma estrutura mais rígida e estruturada. Depois de reconhecida as linhas e as colunas, o texto é processado igualmente ao caso não-estruturado. O sistema trabalha 7 ainda dois tipos de associação semântica de tabelas (Figura 6). No primeiro tipo temos a contextualização de uma variável, no segundo temos a descrição de uma propriedade. Tipo 1 | 2003 | 2002 | 2001 Net income | $ 58,516 | $ 37,591 | $ 28,021 Leitura: The Net income in 2003 is $ 58,516 Tipo 2 Brand Roxy | | Category Juniors | | MarketShare 20% | | Expenditures $ 25,457 Leitura: The Category of Roxy brand is Juniors Figura 6. Exemplo de dados semi-estruturados. Para dados não-estruturados o sistema funciona de seguinte maneira, primeiro detectamos a ocorrência de uma quantidade, depois os objetos que estão relacionados a ela, e finalmente o contexto. No exemplo abaixo da Figura 7 o contexto aparece no início da frase seguido por dois pontos. foreign countries: Quiksilver also have approximately 50 employees in Hong Kong Employees: Employees: Employees: Employees: Quiksilver had approximately 3,400 employees consisting of approximately 2,000 in the United States. approximately 950 in Europe approximately 450 in Asia/Pacific Figura 7. Exemplo de dados não estruturados. Outra tarefa quantitativa é a contagem. Nesse caso não temos números aparentes para procurar, atuando como indicadores de informação de variáveis estratégicas. Nessa tarefa, são detectados todos os nomes de marcas existentes em uma sessão contextualizada do documento. Os nomes das marcas são aprendidos através de uma metalinguagem que inclui as palavras brand, product e category. Após a extração dos nomes, o sistema conta a quantidade de marcas diferentes que a empresa possui gerando assim o valor quantitativo da variável. Um exemplo dessa abordagem é mostrado na figura 8. Products and Brands Our first product was the famous Quiksilver boardshort developed by two Australian surfers who founded Quiksilver Australia in the late 1960’s. The Quiksilver boardshort, identified by its distinctive mountain and wave logo, became known in the core surfing world as a technically innovative and stylish product. The reputation and popularity of the Quiksilver boardshort 8 grew, having been brought to the beaches of California and Southwest France in the 1970’s by the founders of our company and Quiksilver Europe. Since the first boardshort, our product lines have been greatly expanded, but our brands continue to represent innovation and quality. In the 1990’s we called on the Quiksilver heritage to reach out to the girls market by creating the Roxy brand for juniors, which has become our fastest growing brand. In addition to Quiksilver and Roxy, we have developed a stable of other brands to address a wide variety of consumers and markets. We believe this multibrand strategy will allow us to continue to grow across a diverse range of products and distribution with broad appeal across gender, age groups and geographies. Quiksilver Our Quiksilver product line now includes shirts, walkshorts, tshirts, fleece, pants, jackets, snowboardwear, footwear, hats, backpacks, wetsuits, watches, eyewear and other accessories. Quiksilver has also expanded demographically and currently includes young men, boys and toddlers. Quiksilveredition is our brand targeted at men. In fiscal 2003, the Quiksilver line of products represented approximately 58% of our revenues. Roxy Our Roxy brand for young women is a surf-inspired collection that we introduced in fiscal 1991. The Roxy line is branded with a heart logo composed of back-to-back images of the Quiksilver mountain and wave logo and includes a full range of sportswear, swimwear, footwear, backpacks, fragrance, beauty care, bedroom furnishings and other accessories for young women. Through fiscal 1997, Roxy included juniors sizes only, but was then expanded as Teenie Wahine and Roxy Girl into the girls categories. In fiscal 2003, the Roxy product line accounted for approximately 32% of our revenues. Other Brands In fiscal 2003, our other brands represented approximately 10% of our revenues. · Raisins, Radio Fiji, Leilani - Raisins and Radio Fiji are swimwear labels in the juniors category while Leilani is a contemporary swimwear label. We also produce private label swimwear. · Hawk - Tony Hawk, the world-famous skateboarder, is the inspiration for our Hawk Clothing brand which we added to our portfolio in fiscal 2000. Our target audience for the Hawk product line is boys who recognize Tony from his broad media and video game exposure. · Gotcha - We have added Gotcha to our European labels to give us product to address European street fashion for young men. · Fidra - We entered the golf apparel business in fiscal 2000 with a new brand, Fidra, conceived and developed by golf industry pioneer, John Ashworth, and endorsed by world famous golfer, Ernie Els. · Lib Tech, Gnu, Bent Metal - We address the core snowboard market through our Lib Technologies and Gnu brands of snowboards and accessories and Bent Metal snowboard bindings. Figura 8. Exemplo de contagem. Foram identificadas 13 marcas segundo associações com a metalinguagem que inclui brand, product, category e labels. 4. Resultado O primeiro relatório a ser tratado foi o da empresa Quiksilver Inc. e baseado nas variáveis selecionadas, pudemos extrair uma tabela de resultados apresentada pela figura 9. Firma Quiksilver Vendas 2003 USD 975.000.000 Lucro Liquido 2003 58.516.000 Capital de Giro 2003 286.600.000 Gastos Advertising 2003 40.300.000 PVs 16400 Número de Marcas 3.400 13,00 Funcionários em 2003 Figura 9. Dados sobre a Quiksilver (os mesmos mostrados nos exemplos anteriores, mas de forma compacta). Em seguida reproduzimos o mesmo trabalho para toda a amostra de 24 firmas, utilizando o mesmo processo e o mesmo relatório 10-k. Para algumas firmas que não negociavam ações nas bolsas americanas (no caso a Adidas-Salomon, Puma, Mizuno, Alpargatas e Calçados Azaléia), utilizamos relatórios anuais para investidores (equivalentes 9 ao 10-k) disponíveis nas páginas de Internet das empresas. Apresentando os dados compilados, montamos a tabela da figura 10. Firma Vendas 2003 USD Nike 12.253.000.000 Adidas-Salomon 7.081.710.000 VF Corporation 5.207.000.000 Reebok 3.490.000.000 Luxottica 3.191.838.680 Polo Ralph Lauren 2.650.000.000 Puma 1.911.395.000 Tommy Hilfiger 1.875.800.000 Abercrombie & Fitch 1.708.000.000 Timberland 1.340.000.000 Mizuno 1.326.026.490 Amer Sports 1.247.520.000 Russel Corporation 1.186.000.000 Quiksilver 975.000.000 Columbia Sportswea 951.700.000 Wolverine 889.000.000 K2 718.539.000 Oakley 521.500.000 Head 431.000.000 Kswiss 429.162.000 Johnson Outdoors 315.892.000 Alpargatas 294.921.000 Calçados Azaléia 187.081.200 Rocky Shoes & Boot 106.200.000 Lucro Liquido 2003 945.600.000 293.800.000 398.000.000 157.200.000 302.097.590 171.000.000 202.647.420 132.100.000 205.100.000 118.000.000 -47.729.423 73.111.000 43.000.000 58.516.000 120.100.000 51.700.000 11.424.000 38.196.000 -14.600.000 50.056.000 5.421.000 27.142.000 3.310.000 6.000.000 Capital de Giro 2003 3.503.000.000 1.619.290.000 1.337.000.000 1.161.000.000 623.421.000 770.200.000 175.828.000 689.000.000 472.600.000 342.600.000 322.961.211 132.775.000 404.000.000 286.600.000 79.000.000 300.870.000 281.571.000 154.300.000 206.875.000 177.400.000 145.100.000 86.996.399 29.293.500 54.200.000 Gastos Advertising 2003 1.378.000.000 911.910.000 258.600.000 150.200.000 252.474.440 112.300.000 55.257.000 49.100.000 33.600.000 33.900.000 89.631.031 46.240.000 45.700.000 40.300.000 52.500.000 35.200.000 18.124.000 17.600.000 36.900.000 27.857.000 18.282.000 16.550.000 7.579.900 1.777.000 PVs 48000 45000 45000 45000 5500 8900 10000 8000 700 10000 27500 10000 15000 16400 12000 10000 6000 15000 32000 4000 3000 16700 16700 3000 Funcioná Número rios em de 2003 Marcas 24.667 11,00 15.686 10,00 52.300 43,00 7.760 5,00 36.900 23,00 13.000 10,00 2.826 5,00 5.400 3,00 30.200 3,00 5.500 2,00 4.034 1,00 4.013 4,00 13.644 12,00 3.400 13,00 2.092 4,00 4.784 13,00 3.500 16,00 2.456 1,00 2.301 5,00 442 2,00 1.300 15,00 9.966 17,00 15.400 4,00 1.010 2,00 Figura 10. Resultados compilados da amostra de 24 firmas (nota: dados financeiros convertidos para US Dolar). Paralelo ao processo computadorizado dos dados, realizamos o mesmo processo pelo método tradicional. Ou seja, coleta dos textos e leitura com extração das informações relevantes. Neste processo foram necessários 2 dias para a coleta e 8 dias para chegar às informações (Carvalho, L. 2005). Já com o sistema computadorizado de mineração de texto, foram gastos 2 dias de coleta e apenas 4 dias para extrair as informações. 5. Discussão e Sugestão de Pesquisa O resultado apresentado neste trabalho é uma pequena amostra da possibilidade de utilização de inteligência computacional para buscar e tratar dados da competição em meios digitais. Mas as possibilidades são muito maiores do que isto. Tomemos o exemplo desse único relatório 10-K, disponibilizado anualmente pelas empresas. Ele contém informações sobre o negócio, sobre produção, fornecedores, clientes, custo de mercadorias, investimentos em propaganda, em pesquisa e desenvolvimento, dentre muitas outras informações estratégicas. No caso da amostra utilizada da Indústria de Artigos Esportivos, que fornecem anualmente o relatório 10-K (dentre elas Nike, Reebok, Oakley, VF Corporation, etc) chegamos a um total de 24 firmas concorrentes. Os relatórios são individuais e cada um deles tem em média 100 páginas. Se o analista quiser fazer uma análise da indústria em um espaço temporal de 5 anos, estaremos falando de aproximadamente 9.500 páginas a serem consultadas. Isso sem contar as páginas de internet das empresas, que também fornecem valiosas informações sobre linhas de produtos e amplitude de oferta. 10 No teste realizado neste trabalho utilizamos somente 1 relatório por firma. Testar mais a fundo a economia de tempo entre os dois métodos de análise (leitura manual vs. Inteligência computacional) e a diferença de eficácia entre os dois métodos é uma boa sugestão de pesquisa futura. Também cabe ressaltar a questão temporal. Utilizando métodos de inteligência computacional, abre-se uma porta para a continuidade na busca de informações. Apesar da ferramenta utilizada nesta pesquisa não realizar busca automática de fontes de dados na Internet, é perfeitamente viável a construção de mecanismos de busca automática. Com isso o analista teria uma espécie de robô virtual que fica buscando constantemente novas informações na rede e trazendo para sua base de dados de pesquisa. Se no método manual depende-se do tempo e disponibilidade de uma pessoa para buscar as informações, no método computacional isso passa a ser automático. O tempo gasto na coleta passa a ser aplicado na análise e ação em cima das informações levantadas. 6. Conclusão Este artigo apresentou uma revisão bibliográfica sobre métodos de mineração de dados e discutiu a aplicação destes métodos de inteligência computacional no gerenciamento estratégico da empresa. Para testar esta aplicação, selecionamos uma amostra de 24 firmas da indústria de artigos esportivos e coletamos os respectivos relatórios 10-k (relatório anual padrão da SEC) ou relatório anual disponível na página de Internet da empresa para o ano de 2003. Juntos, estes relatórios totalizaram mais de 1.500 páginas de texto. Constituída a base de documentos em formato digital, selecionamos 7 variáveis (total de vendas no ano, o lucro líquido, capital de giro, gastos com propaganda, número de pontos de venda, número de funcionários e número de marcas comercializadas) que seriam o alvo de busca nestes relatórios. Inicialmente foi feita a busca pela método tradicional de leitura e extração das informações relevantes. Paralelamente foi feita a mesma busca, mas utilizando método computacional através de uma plataforma de mineração de textos (Rangel et al 2004). O objetivo de ambas era o de gerar uma tabela compilada com estes dados para cada uma das 24 firmas da amostra. O processo utilizando o auxílio de inteligência computacional demonstrou um ganho significativo de tempo nesta busca. Também demonstrou potencial para melhor lidar com um fluxo contínuo de informação em relação ao método tradicional de leitura. 7. Bibliografia Aggarwal, C.C., Gates, S.C. e Yu, P.S. (1999). On the merits of building categorization systems by supervised clustering, in: Proceedings of the Fifth ACM Conference on Knowledge Discovery and Data Mining (KDD’99), San Diego, USA, August, pp. 352–356. Aranha, C. N., Freitas, M.C, Dias, M. C. e Passos, E. (2004) “Um modelo de desambigüização de palavras e contextos” . TIL 2004: Workshop de Tecnologia da Informação e da Linguagem Humana. Boguraev, B e Pustejovsky, J. (1996). Corpus Processing for Lexical Acquisition. The MIT Press. Brill, E. (1995). “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging”. Computational Linguistics, December. 11 Carvalho, L. F. (2005). Análise da Indústria de Artigos Esportivos com Base na Teoria de Michael Porter. Rio de Janeiro, 2005. 110 p. Dissertação de Mestrado – Departamento de Administração de Empresas, PUC-Rio. Cook, M., Cook, C. (2000). “Competitive intelligence: create an intelligent organization and compete to win”. London, Dover, NH: Kogan Page. Fuld, L. M. (1995) “The new competitor intelligence: the complete resource for finding, analyzing and using information about competitors”. New York: Wiley. Koeling, R. “Chunking with maximum entropy models”. CoNLL-2000. Lisbon, Portugal. Manning, C & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: The MIT Press. Megyesi, B. (2002) “Shallow Parsing with PoS Taggers and Linguistic Features”. Journal of Machine Learning Research: Special Issue on Shallow Parsing, JMLR (2): 639-668. MIT Press Mello, M. e Margarida, B. (1981). “Sufixos formadores de substantivos: graus de produtividade”. Dissertação de mestrado – PUC-Rio. Nirenburg, S. e Raskin, V.(2004). Ontological Semantics. The MIT Press. Oliveira C., Freitas M. C., Garrão M.O., Santos C.N. e Aranha C. (2004). A extração de expressões multivocabulares: uma abordagem estatística. Revista PaLavra, no. 12, 2004. páginas 172-192 Pinker, S. (2002). O Instinto da Linguagem: Como a Mente Cria a Linguagem. Editora Martins Fontes Ramshaw, L. A. e Marcus, M. P. (1995). “Text Chunking using Transformation-Based Learning.” In Proceedings of the ACL Third Workshop on Very Large Corpora, June 1995, pp. 82-94. Rangel, L., Pires, D., Aranha, C. e Massari G. (2004). Cortex Competitiva: O Primeiro Sistema Integrado de Inteligência Competitiva Nacional. Prêmio Inovação ABRAICFINEP. Ratnaparkhi, A. (1998). “Unsupervised Statistical Models for Prepositional Phrase Attachment”. In Proceedings of the Seventeenth International Conference on Computational Linguistics, Aug. 10-14. Montreal, Canada. Santos, C. N. (2005). Aprendizado de Máquina na Identificação de Sintagmas Nominais: O Caso do Português Brasileiro. Dissertação de Mestrado – IME. Rio de Janeiro. Seymore, K., Mccallum, A., Rosenfeld, R. (1999) “Learning Hidden Markov Model Structure for Information Extraction”. In Proceedings if the AAAI-99 Workshop on ML for IE. 12 Shapiro, Carl, Varian, Hal R. (1999). “Information rules: a strategic guide to the network economy”. Boston: Harvard Business School Press. Stolcke, A. & Omohundro, S. (1994) “Inducing Probabilistic Grammars by Bayesian Model Merging”. In Grammatical Inference and Applications, R. C. Carrasco & J. Oncina (eds.), Springer, pp. 106–118 Tjong Kim Sang Erik F. (2002) “Memory-based shallow parsing”. In: Journal of machine learning research, 2, p. 559-594. Yeates, S. (1999). “Automatic Extraction of Acronyms from Text”. New Zealand Computer Science Research Students' Conference. 13