Avaliação do Perfil de Compras dos Clientes de uma Empresa do Agronegócio usando Agrupamento de Dados Noeli Aparecida Viesseli Gregorio, Marcio Seiji Oyamada, Clodis Boscarioli Colegiado de Ciência da Computação – Centro de Ciências Exatas e Tecnológicas – Universidade Estadual do Oeste do Paraná (UNIOESTE) Caixa Postal 711 – 85.819-110 – Cascavel – PR – Brasil [email protected], {marcio.oyamada,clodis.boscarioli}@unioeste.br Abstract. This work describes a case study to evaluate the customers profile using data mining techniques in an agribusiness enterprise. The data mining is a suitable tool for non-intuitive information discovery in big databases. It can be used to understand and predict customer´s patterns and profiles. The case study was developed using a sales database in the period comprising 2009 to 2012. The data mining technique was applied and provided useful patterns to support the sales department strategy. Resumo. Este trabalho descreve um estudo de caso para avaliar perfil de clientes a partir de técnicas de mineração de dados em uma empresa de agronegócios. A aplicação de mineração de dados é interessante para descobrir informações sem uma prévia formulação de hipóteses e buscar por algo não intuitivo, como informações estratégicas ocultas, entender e prever as necessidades e perfis de comportamento de clientes, bem como padrões de compras, entre outros. O estudo de caso utilizou dados de vendas de insumos no período de 2009 a 2012, extraindo padrões de compra que podem auxiliar a estratégia de vendas em determinados conjuntos de clientes da empresa. 1. Introdução O agronegócio envolve toda a cadeia produtiva, desde a aquisição de insumos para o plantio, a produção propriamente dita e o beneficiamento, transporte, armazenamento, processamento ou industrialização, e comercialização da produção. É o grande motor da economia do Brasil e responsável pelo superávit de sua balança comercial. Segundo Ribeiro Filho (2012), o agronegócio representa cerca de 22,3% do PIB brasileiro. A agricultura responde por 70,4% do PIB do setor, e a pecuária por 29,6%. A globalização econômica e rápido desenvolvimento do comércio eletrônico estão mudando as regras de concorrência entre as empresas. Muitas organizações começam a se concentrar em CRM (Customer Relationship Management) ou Gestão do Relacionamento com o Cliente, buscando cada vez mais conhecer o cliente e as suas necessidades. Nas empresas do agronegócio o cenário não é diferente. Devido à importância dos seus clientes, tanto para a venda de insumos como para recepção de grãos, é imprescindível manter e aumentar a satisfação dos clientes com a empresa. Um processo de descoberta de conhecimento em banco de dados envolve a descoberta de conhecimento útil a partir de dados a partir das etapas de pré- processamento, mineração de dados e pós-processamento (análise e interpretação) para a tomada de decisão. Mineração de dados é parte central do processo de KDD (Knowledge Discovery in Database ou Descoberta de Conhecimento em Banco de Dados), etapa na qual se escolhe a(s) técnica(s) a ser(em) utilizada(s) para a busca de padrões ocultos. Dentre as áreas de aplicação de mineração de dados destaca-se o CRM. Segundo Ngai et al. (2009), pelo uso de mineração de dados em CRM as empresas podem: (i) Classificar clientes em diferentes grupos conforme suas características para fornecer produtos e serviços específicos; (ii) Analisar características de clientes perdidos, estabelecendo um modelo de correspondência, descobrindo potenciais clientes que podem ser perdidos, e adotando medidas para manter os clientes e aumentar sua satisfação; e (iii) Analisar a satisfação do cliente a partir de informações esparsas e comentários dos clientes para melhorar estratégias de marketing. Dentre as tarefas de mineração de dados tem-se Regras de Associação, Classificação, Predição e Agrupamento de Dados, sendo esta última, foco do trabalho, uma vez que a compreensão do perfil de compras dos clientes era o objetivo almejado. Conforme Tan et al. (2009), o agrupamento de dados encontra grupos (clusters) conceitualmente significativos de objetos que compartilham características comuns. O objetivo é que os objetos dentro de um grupo tenham alta similaridade, quando comparados a outros objetos deste, e alta dissimilaridade a objetos de outros grupos. Segundo Everitt et al. (2001), agrupamento de dados é uma denominação genérica para uma ampla escala de métodos numéricos utilizados para examinar dados multivariados, visando encontrar conjuntos de observações homogêneas. Dada uma amostra de n dados, cada um deles medido segundo p variáveis, o objetivo é procurar um esquema que os agrupe em g grupos. Com este agrupamento, pode-se identificar relacionamentos úteis entre os dados, antes não revelados. 2. Caracterização do Estudo de Caso Este estudo de caso foi realizado em uma empresa do agronegócio do Paraná, na qual as campanhas de marketing são lançadas a todos os clientes, independente do seu perfil, o que gera um custo alto e desperdício de recursos. Foram analisados os dados no período de 2009 a 2012 dos clientes e das vendas na área de comercialização de insumos. Desde 2009 a empresa trabalha com um sistema de gestão de clientes, onde são armazenadas no SGBD (Sistema Gerenciador de Bancos de Dados) IBM DB2© informações detalhadas dos clientes com maior movimento. Foi construída então uma modelagem de Data Mart1 do processo em estudo (Figura 1) no SGBD Microsoft SQL Server 2008, escolhido pela utilização das ferramentas necessárias para o processo de KDD, já adquiridas pela empresa. A carga dos dados no Data Mart foi feita por um processo de ETL (Extract, Transform and Load – Extração, Transformação e Carga) utilizando a ferramenta Microsoft SQL Server 2008 Integration Services (Microsoft, 2013). 1 Um Data Mart é um Data Warehouse (DW) menor, que se concentra em um assunto ou departamento específico. Para Kimball (1998), DW é um banco de dados orientado por assunto, integrado, não volátil e histórico, criado para suportar o processo de tomada de decisão, e une bancos de dados de toda a empresa. Figura 1 – Modelagem do Data Mart gerado Para cada tabela do Data Mart foi desenvolvido um processo de transformação. Os dados foram extraídos do SGBD DB2 via comandos SQL, limitados aos clientes do sistema de gestão de clientes, devido ao grande volume de clientes que a empresa possui. Para a carga, foi necessário converter os dados do tipo String e Date extraídos do DB2 para Unicode utilizando o componente Data Conversion do Microsoft SQL Server Integration Services. Na ferramenta Microsoft SQL Server 2008 Analysis Services (Microsoft, 2013) foi criado um cubo das informações e realizada a mineração dos dados a partir do Microsoft Clustering, que de acordo com Microsoft (2012), usa técnicas iterativas para agrupar casos em um conjunto de dados que contenham características semelhantes. O processo de mineração de dados foi executado várias vezes com diversas variáveis. Optou-se como melhor resultado o processo cujo campo Num_Cadastro foi selecionado para a coluna chave, e os campos Idn_Porte, Idn_Participacao, Dsc_Linha_Produto e valor de compra foram selecionados para as colunas de entrada. A linha de produtos utilizada no Data Mart, refere-se a tipos de produtos que a empresa comercializa. Inicialmente, foram gerados processos de agrupamento utilizando 10 grupos, o padrão da ferramenta, o qual dispersou o resultado dificultando a interpretação. Foram gerados novos processos com 8 e 5 grupos, sendo escolhido como mais adequado (com base no conhecimento do domínio), o resultado com 8 grupos, que será discutido na próxima seção. 3. Resultados e Discussão Para a análise dos resultados foi utilizado um visualizador da ferramenta Microsoft SQL Server 2008 Analysis Services que fornece a visão dos grupos gerados pela mineração dos dados. Para a descoberta de conhecimento foram fundamentais as visões de perfis de grupos ilustrado na Figura 2 e as características dos grupos (Figura 3). Legenda: Linha: Existente pertence ao grupo; Missing não pertence ao grupo. Porte: P (Pequeno) I (Mini) M (Médio) S (Sem porte definido) Other (Outros portes) Participação: N (Não participam) S (Sim, participam) Missing (Não definido) Figura 2 – Perfis de grupos identificados Por solicitação da empresa o sigilo das informações foi mantido, sendo que as linhas de produtos foram numeradas de 1 a 15 e as áreas de comercialização nomeadas de Área A e Área B. As Linhas 2, 3, 5, 6, 7, 8, 9, 11, 12 e 14 fazem parte da comercialização da Área A e as Linhas 1, 4, 10, 13 e 15 da Área B. A visualização do diagrama de perfil de grupos exibe uma coluna para cada grupo e uma linha para cada atributo. Os grupos ficam, portanto, dispostos em ordem de tamanho da população do grupo. Essa configuração facilita a visualização das diferenças no agrupamento. Na visualização definiu-se como melhor resultado o modelo com 8 grupos, pela evidenciação das diferenças e semelhanças entre as linhas de produtos adquiridas pelos clientes. O diagrama de perfil de grupos fornece muita informação. Analisando os atributos de suas linhas, chama atenção a Linha 8 que possui baixo valor de venda na maioria dos grupos. Este fato pode ser justificado por ser uma linha de produtos com baixo valor de comercialização, se comparada às demais linhas. Ao analisar as colunas, fica claro que nos Grupos 1 e 6 os clientes são de porte pequeno e mini mas que compram bem todas as linhas de produtos. A diferença entre esses grupos está na participação, onde no Grupo 1 os clientes possuem participação significativa e no Grupo 6, pouca participação. No Grupo 2 os clientes não compram da linha 8 e compram pouco da Linha 11, mas compram bem em todas as demais linhas de produtos. São clientes de pequeno porte e de pouca participação que se configuram nesse grupo. No Grupo 3, os clientes são de porte pequeno, pouca participação e compram bem de todas as linhas de produtos da Área A com exceção das linhas 8 e 12. Esses clientes não fazem parte da Área B. O Grupo 4 apresenta características semelhantes ao Grupo 3, porém, são clientes com participação significativa. O Grupo 5 contém clientes de porte médio, com forma de participação significativa na empresa, e compras com valor expressivo em todas as linhas de produtos, com exceção da Linha 13. Em contraste, no Grupo 7, os clientes compram pouco ou valor muito baixo de algumas linhas, possuem porte pequeno e pouca participação. Finalizando a análise do diagrama de perfil de grupos, o Grupo 8, possui características dispersas entre as linhas de produtos, o que indica que sejam clientes esporádicos, que compram em algumas campanhas ou promoções, por exemplo. O Grupo 5, de grande representatividade na empresa pelo porte dos clientes, participação e, principalmente, pela compra nas linhas de produtos, foi selecionado para examinar as características particulares, conforme diagrama da Figura 3. Figura 3 – Características do Grupo 5 Este diagrama apresenta os atributos contidos no grupo nas colunas Variáveis, e o estado do atributo na coluna Valores. Os estados de atributo são listados em ordem de importância, descritos segundo a probabilidade com que apareceram no grupo. A Linha 13, que este grupo compra pouco, é uma linha expressiva para a Área B da organização. A visualização do diagrama de características do Grupo 5 exibe a probabilidade de cada atributo existir no grupo. Analisando os atributos, vê-se que os clientes deste grupo compraram pouco da Linha 13, o que pode ser identificado como uma necessidade de novos produtos da linha. 4. Considerações Finais Cresce cada vez mais a quantidade de dados e consequentemente a dificuldade em extrair informação útil à tomada de decisão pelo ser humano sem auxílio de recursos computacionais apropriados. A mineração de dados, uma das etapas do KDD, analisa grandes conjuntos de dados e atua fortemente em CRM, gerando vantagens à empresa como maior lucratividade por cliente e retenção e fidelidade dos clientes. Este estudo apresentou uma descoberta de conhecimento analisando os dados de compras dos clientes de uma empresa do ramo de agronegócios. O conhecimento obtido mostrou que a utilização de mineração de dados pode apoiar a tomada de decisão, de forma a manter a empresa competitiva num mercado cada vez mais exigente e fortalecer o relacionamento com seus clientes, maximizando a receita da empresa. Como sugestão de trabalhos futuros pode-se citar a realização de previsões de compras dos clientes bem como a ampliação das variáveis utilizadas dos clientes a fim de aprofundar as informações e descobrir novos conhecimentos. Referências EVERITT, B. S., LANDAU, S. e MORVEN, L. (2001). Cluster Analysis. 4ª Ed. Londres: Hodder Arnold Publishers. KIMBALL, R. (1998). Data warehouse toolkit. Editora Makron Books. MICROSOFT Clustering: Manual de orientação online. Disponível em <http://technet.microsoft.com/pt-br/library/ms174879(v=sql.100).aspx>. Acesso em 20/out/2012. MICROSOFT SQL SERVER. “Soluções e tecnologias Microsoft SQL Server, versão 2008 R2”. Disponível em<http://www.microsoft.com/sqlserver/pt/br/solutionstechnologies.aspx>. Acesso em 18 mar. 2013. NGAI, E., XIU, L. e CHAU, D. (2009). “Application of data mining techniques in customer relationship management: A literature review and classification”. Expert Systems with Applications, Vol. 36, No. 2, p. 2592-2602. RIBEIRO FILHO, M. Entrevista concedida a TV NBR em 19 de abril de 2012. <http://www.agricultura.gov.br/politica-agricola/noticias/2012/04/confiraparticipacao-de-mendes-ribeiro-filho-no-programa>. Acesso em 26/mai/2013. TAN, P. N., STEINBACH, M. e KUMAR, V. (2009). “Introdução ao Data Mining Mineração de Dados”. Rio de Janeiro: Editora Ciência Moderna Ltda.