Avaliação do Perfil de Compras dos Clientes de uma
Empresa do Agronegócio usando Agrupamento de Dados
Noeli Aparecida Viesseli Gregorio, Marcio Seiji Oyamada, Clodis Boscarioli
Colegiado de Ciência da Computação – Centro de Ciências Exatas e Tecnológicas –
Universidade Estadual do Oeste do Paraná (UNIOESTE)
Caixa Postal 711 – 85.819-110 – Cascavel – PR – Brasil
[email protected],
{marcio.oyamada,clodis.boscarioli}@unioeste.br
Abstract. This work describes a case study to evaluate the customers profile
using data mining techniques in an agribusiness enterprise. The data mining is
a suitable tool for non-intuitive information discovery in big databases. It can
be used to understand and predict customer´s patterns and profiles. The case
study was developed using a sales database in the period comprising 2009 to
2012. The data mining technique was applied and provided useful patterns to
support the sales department strategy.
Resumo. Este trabalho descreve um estudo de caso para avaliar perfil de
clientes a partir de técnicas de mineração de dados em uma empresa de
agronegócios. A aplicação de mineração de dados é interessante para
descobrir informações sem uma prévia formulação de hipóteses e buscar por
algo não intuitivo, como informações estratégicas ocultas, entender e prever
as necessidades e perfis de comportamento de clientes, bem como padrões de
compras, entre outros. O estudo de caso utilizou dados de vendas de insumos
no período de 2009 a 2012, extraindo padrões de compra que podem auxiliar
a estratégia de vendas em determinados conjuntos de clientes da empresa.
1. Introdução
O agronegócio envolve toda a cadeia produtiva, desde a aquisição de insumos para o
plantio, a produção propriamente dita e o beneficiamento, transporte, armazenamento,
processamento ou industrialização, e comercialização da produção. É o grande motor da
economia do Brasil e responsável pelo superávit de sua balança comercial. Segundo
Ribeiro Filho (2012), o agronegócio representa cerca de 22,3% do PIB brasileiro. A
agricultura responde por 70,4% do PIB do setor, e a pecuária por 29,6%.
A globalização econômica e rápido desenvolvimento do comércio eletrônico
estão mudando as regras de concorrência entre as empresas. Muitas organizações
começam a se concentrar em CRM (Customer Relationship Management) ou Gestão do
Relacionamento com o Cliente, buscando cada vez mais conhecer o cliente e as suas
necessidades. Nas empresas do agronegócio o cenário não é diferente. Devido à
importância dos seus clientes, tanto para a venda de insumos como para recepção de
grãos, é imprescindível manter e aumentar a satisfação dos clientes com a empresa.
Um processo de descoberta de conhecimento em banco de dados envolve a
descoberta de conhecimento útil a partir de dados a partir das etapas de pré-
processamento, mineração de dados e pós-processamento (análise e interpretação) para a
tomada de decisão. Mineração de dados é parte central do processo de KDD
(Knowledge Discovery in Database ou Descoberta de Conhecimento em Banco de
Dados), etapa na qual se escolhe a(s) técnica(s) a ser(em) utilizada(s) para a busca de
padrões ocultos. Dentre as áreas de aplicação de mineração de dados destaca-se o CRM.
Segundo Ngai et al. (2009), pelo uso de mineração de dados em CRM as
empresas podem: (i) Classificar clientes em diferentes grupos conforme suas
características para fornecer produtos e serviços específicos; (ii) Analisar características
de clientes perdidos, estabelecendo um modelo de correspondência, descobrindo
potenciais clientes que podem ser perdidos, e adotando medidas para manter os clientes
e aumentar sua satisfação; e (iii) Analisar a satisfação do cliente a partir de informações
esparsas e comentários dos clientes para melhorar estratégias de marketing.
Dentre as tarefas de mineração de dados tem-se Regras de Associação,
Classificação, Predição e Agrupamento de Dados, sendo esta última, foco do trabalho,
uma vez que a compreensão do perfil de compras dos clientes era o objetivo almejado.
Conforme Tan et al. (2009), o agrupamento de dados encontra grupos (clusters)
conceitualmente significativos de objetos que compartilham características comuns. O
objetivo é que os objetos dentro de um grupo tenham alta similaridade, quando
comparados a outros objetos deste, e alta dissimilaridade a objetos de outros grupos.
Segundo Everitt et al. (2001), agrupamento de dados é uma denominação
genérica para uma ampla escala de métodos numéricos utilizados para examinar dados
multivariados, visando encontrar conjuntos de observações homogêneas. Dada uma
amostra de n dados, cada um deles medido segundo p variáveis, o objetivo é procurar
um esquema que os agrupe em g grupos. Com este agrupamento, pode-se identificar
relacionamentos úteis entre os dados, antes não revelados.
2. Caracterização do Estudo de Caso
Este estudo de caso foi realizado em uma empresa do agronegócio do Paraná, na qual as
campanhas de marketing são lançadas a todos os clientes, independente do seu perfil, o
que gera um custo alto e desperdício de recursos.
Foram analisados os dados no período de 2009 a 2012 dos clientes e das vendas
na área de comercialização de insumos. Desde 2009 a empresa trabalha com um sistema
de gestão de clientes, onde são armazenadas no SGBD (Sistema Gerenciador de Bancos
de Dados) IBM DB2© informações detalhadas dos clientes com maior movimento. Foi
construída então uma modelagem de Data Mart1 do processo em estudo (Figura 1) no
SGBD Microsoft SQL Server 2008, escolhido pela utilização das ferramentas
necessárias para o processo de KDD, já adquiridas pela empresa.
A carga dos dados no Data Mart foi feita por um processo de ETL (Extract,
Transform and Load – Extração, Transformação e Carga) utilizando a ferramenta
Microsoft SQL Server 2008 Integration Services (Microsoft, 2013).
1
Um Data Mart é um Data Warehouse (DW) menor, que se concentra em um assunto ou departamento
específico. Para Kimball (1998), DW é um banco de dados orientado por assunto, integrado, não volátil e
histórico, criado para suportar o processo de tomada de decisão, e une bancos de dados de toda a empresa.
Figura 1 – Modelagem do Data Mart gerado
Para cada tabela do Data Mart foi desenvolvido um processo de transformação.
Os dados foram extraídos do SGBD DB2 via comandos SQL, limitados aos clientes do
sistema de gestão de clientes, devido ao grande volume de clientes que a empresa
possui. Para a carga, foi necessário converter os dados do tipo String e Date extraídos
do DB2 para Unicode utilizando o componente Data Conversion do Microsoft SQL
Server Integration Services.
Na ferramenta Microsoft SQL Server 2008 Analysis Services (Microsoft, 2013)
foi criado um cubo das informações e realizada a mineração dos dados a partir do
Microsoft Clustering, que de acordo com Microsoft (2012), usa técnicas iterativas para
agrupar casos em um conjunto de dados que contenham características semelhantes.
O processo de mineração de dados foi executado várias vezes com diversas
variáveis. Optou-se como melhor resultado o processo cujo campo Num_Cadastro foi
selecionado para a coluna chave, e os campos Idn_Porte, Idn_Participacao,
Dsc_Linha_Produto e valor de compra foram selecionados para as colunas de entrada. A
linha de produtos utilizada no Data Mart, refere-se a tipos de produtos que a empresa
comercializa. Inicialmente, foram gerados processos de agrupamento utilizando 10
grupos, o padrão da ferramenta, o qual dispersou o resultado dificultando a
interpretação. Foram gerados novos processos com 8 e 5 grupos, sendo escolhido como
mais adequado (com base no conhecimento do domínio), o resultado com 8 grupos, que
será discutido na próxima seção.
3. Resultados e Discussão
Para a análise dos resultados foi utilizado um visualizador da ferramenta Microsoft SQL
Server 2008 Analysis Services que fornece a visão dos grupos gerados pela mineração
dos dados. Para a descoberta de conhecimento foram fundamentais as visões de perfis
de grupos ilustrado na Figura 2 e as características dos grupos (Figura 3).
Legenda:
Linha: Existente  pertence ao grupo; Missing  não pertence ao grupo.
Porte: P (Pequeno) I (Mini) M (Médio) S (Sem porte definido) Other (Outros portes)
Participação: N (Não participam) S (Sim, participam) Missing (Não definido)
Figura 2 – Perfis de grupos identificados
Por solicitação da empresa o sigilo das informações foi mantido, sendo que as linhas de
produtos foram numeradas de 1 a 15 e as áreas de comercialização nomeadas de Área A
e Área B. As Linhas 2, 3, 5, 6, 7, 8, 9, 11, 12 e 14 fazem parte da comercialização da
Área A e as Linhas 1, 4, 10, 13 e 15 da Área B. A visualização do diagrama de perfil de
grupos exibe uma coluna para cada grupo e uma linha para cada atributo. Os grupos
ficam, portanto, dispostos em ordem de tamanho da população do grupo. Essa
configuração facilita a visualização das diferenças no agrupamento. Na visualização
definiu-se como melhor resultado o modelo com 8 grupos, pela evidenciação das
diferenças e semelhanças entre as linhas de produtos adquiridas pelos clientes.
O diagrama de perfil de grupos fornece muita informação. Analisando os
atributos de suas linhas, chama atenção a Linha 8 que possui baixo valor de venda na
maioria dos grupos. Este fato pode ser justificado por ser uma linha de produtos com
baixo valor de comercialização, se comparada às demais linhas. Ao analisar as colunas,
fica claro que nos Grupos 1 e 6 os clientes são de porte pequeno e mini mas que
compram bem todas as linhas de produtos. A diferença entre esses grupos está na
participação, onde no Grupo 1 os clientes possuem participação significativa e no Grupo
6, pouca participação.
No Grupo 2 os clientes não compram da linha 8 e compram pouco da Linha 11,
mas compram bem em todas as demais linhas de produtos. São clientes de pequeno
porte e de pouca participação que se configuram nesse grupo. No Grupo 3, os clientes
são de porte pequeno, pouca participação e compram bem de todas as linhas de produtos
da Área A com exceção das linhas 8 e 12. Esses clientes não fazem parte da Área B. O
Grupo 4 apresenta características semelhantes ao Grupo 3, porém, são clientes com
participação significativa. O Grupo 5 contém clientes de porte médio, com forma de
participação significativa na empresa, e compras com valor expressivo em todas as
linhas de produtos, com exceção da Linha 13. Em contraste, no Grupo 7, os clientes
compram pouco ou valor muito baixo de algumas linhas, possuem porte pequeno e
pouca participação. Finalizando a análise do diagrama de perfil de grupos, o Grupo 8,
possui características dispersas entre as linhas de produtos, o que indica que sejam
clientes esporádicos, que compram em algumas campanhas ou promoções, por exemplo.
O Grupo 5, de grande representatividade na empresa pelo porte dos clientes,
participação e, principalmente, pela compra nas linhas de produtos, foi selecionado para
examinar as características particulares, conforme diagrama da Figura 3.
Figura 3 – Características do Grupo 5
Este diagrama apresenta os atributos contidos no grupo nas colunas Variáveis, e
o estado do atributo na coluna Valores. Os estados de atributo são listados em ordem de
importância, descritos segundo a probabilidade com que apareceram no grupo. A Linha
13, que este grupo compra pouco, é uma linha expressiva para a Área B da organização.
A visualização do diagrama de características do Grupo 5 exibe a probabilidade de cada
atributo existir no grupo. Analisando os atributos, vê-se que os clientes deste grupo
compraram pouco da Linha 13, o que pode ser identificado como uma necessidade de
novos produtos da linha.
4. Considerações Finais
Cresce cada vez mais a quantidade de dados e consequentemente a dificuldade em
extrair informação útil à tomada de decisão pelo ser humano sem auxílio de recursos
computacionais apropriados. A mineração de dados, uma das etapas do KDD, analisa
grandes conjuntos de dados e atua fortemente em CRM, gerando vantagens à empresa
como maior lucratividade por cliente e retenção e fidelidade dos clientes.
Este estudo apresentou uma descoberta de conhecimento analisando os dados de
compras dos clientes de uma empresa do ramo de agronegócios. O conhecimento obtido
mostrou que a utilização de mineração de dados pode apoiar a tomada de decisão, de
forma a manter a empresa competitiva num mercado cada vez mais exigente e fortalecer
o relacionamento com seus clientes, maximizando a receita da empresa. Como sugestão
de trabalhos futuros pode-se citar a realização de previsões de compras dos clientes bem
como a ampliação das variáveis utilizadas dos clientes a fim de aprofundar as
informações e descobrir novos conhecimentos.
Referências
EVERITT, B. S., LANDAU, S. e MORVEN, L. (2001). Cluster Analysis. 4ª Ed.
Londres: Hodder Arnold Publishers.
KIMBALL, R. (1998). Data warehouse toolkit. Editora Makron Books.
MICROSOFT Clustering: Manual de orientação online. Disponível em
<http://technet.microsoft.com/pt-br/library/ms174879(v=sql.100).aspx>. Acesso em
20/out/2012.
MICROSOFT SQL SERVER. “Soluções e tecnologias Microsoft SQL Server, versão
2008 R2”. Disponível em<http://www.microsoft.com/sqlserver/pt/br/solutionstechnologies.aspx>. Acesso em 18 mar. 2013.
NGAI, E., XIU, L. e CHAU, D. (2009). “Application of data mining techniques in
customer relationship management: A literature review and classification”. Expert
Systems with Applications, Vol. 36, No. 2, p. 2592-2602.
RIBEIRO FILHO, M. Entrevista concedida a TV NBR em 19 de abril de 2012.
<http://www.agricultura.gov.br/politica-agricola/noticias/2012/04/confiraparticipacao-de-mendes-ribeiro-filho-no-programa>. Acesso em 26/mai/2013.
TAN, P. N., STEINBACH, M. e KUMAR, V. (2009). “Introdução ao Data Mining Mineração de Dados”. Rio de Janeiro: Editora Ciência Moderna Ltda.
Download

Baixar o Trabalho