Predição da quantidade de matéria orgânica e teor de argila
por meio de algoritmos de classificação em um conjunto de
dados obtidos pelo método vis-NIRS
Sandro Teixeira1, Alaine Margarete Guimarães2
1
Centro de Processamento de Dados - Universidade Estadual de Ponta Grossa. Av. Gen.
Carlos Cavalcanti, 4748 Uvaranas, Ponta Grossa - PR, 84030-900, Brasil
2
Departamento de Informática - Universidade Estadual de Ponta Grossa. Av. Gen.
Carlos Cavalcanti, 4748 Uvaranas, Ponta Grossa - PR, 84030-900, Brasil
[email protected], [email protected]
Abstract: The amount of organic matter (OM) as well as the content of clay
are important constituents in the sustainability of agricultural systems. The
use of reflectance spectroscopy in the visible and near infrared (VIS-NIRS)
can be highly viable in soil analysis, and as such can help identify contents of
soil attributes in a cleaner and quicker way. The aim of this study was to
compare classification algorithms using WEKA software to estimate the
components mentioned using a database with information obtained by the
conventional method of analysis and the vis-NIRS method. The results showed
a better response to the clay content classification than to the amount of OM.
Resumo: A quantidade de Matéria Orgânica (MO), bem como o teor de argila
são constituintes importantes na sustentabilidade dos sistemas agrícolas. A
utilização da espectroscopia de reflectância na região do visível e no
infravermelho próximo (vis-NIRS) pode ser altamente viável na análise de
solos, podendo ajudar a identificar teores de atributos de maneira mais limpa
e rápida. O objetivo deste trabalho foi comparar algoritmos de classificação
utilizando o software WEKA para estimar os componentes citados utilizando
uma base de dados com informações obtidas pelo método convencional de
análise e pelo método vis-NIRS. Os resultados demonstraram uma melhor
resposta de classificação para o teor de argila em comparação com a
quantidade de MO.
1. Introdução
Um dos objetivos da Agricultura de Precisão (AP) é buscar a produção de alimentos da
forma mais racional possível maximizando o retorno econômico e minimizando os
danos ao meio ambiente. Neste contexto, é imprescindível que a área de pesquisa
brasileira relacionada à AP continue avançando.
Um dos objetivos básicos da AP é o manejo localizado do solo. A produtividade
das culturas é influenciada quando os atributos físicos, químicos e biológicos do solo
estão equilibrados e suficientemente disponíveis, de forma a fornecer condições para as
plantas expressarem todo seu potencial produtivo. Por meio da análise de solo é
possível conhecer sua fertilidade, avaliar o grau de deficiência de nutrientes e
determinar as quantidades de corretivos e fertilizantes a serem recomendados com vista
à produção.
Para a avaliação das características do solo relacionadas com o seu potencial,
assim como a avaliação da fertilidade, as análises químicas e físicas de rotina são
métodos convencionalmente usados. Porém, estas análises agridem a natureza pela
utilização dos reagentes químicos. Nesse contexto, o sensoriamento próximo tem
despertado o interesse dos pesquisadores da área de solos, já que possui algumas
vantagens sobre as análises convencionais. Segundo Shepherd e Walsh (2007), esta é
uma das técnicas analíticas mais eficientes e disponíveis do século XXI. A utilização da
espectroscopia de reflectância na região do visível e no infravermelho próximo (visNIRS) pode ser altamente viável na análise de solos, e como tal pode ajudar a identificar
teores dos atributos do solo de maneira mais limpa e rápida.
É possível correlacionar os comprimentos de onda adquiridos da reflectância de
componentes do solo por meio de análises estatísticas, bem como por meio de técnicas
de Mineração de Dados como no trabalho de Proença (2012).
O objetivo deste trabalho foi comparar algoritmos de classificação de dados
implementados no software WEKA [Hall 2009] para estimar matéria orgânica (MO) e
teor de argila do solo utilizando uma base de dados obtidos pelo método convencional
de análise do solo e pelo método vis-NIRS.
2. Solos
Os solos, de uma maneira geral são formados por 45% de substâncias minerais, 25% de
água, 25% de ar e 5% de matéria orgânica (MO). Em situações naturais, a proporção de
ar e água é sujeita a alterações, dependendo do tipo de solo, região e seus períodos de
chuvas. A textura, ou granulometria do solo também varia dependendo diretamente do
tipo e da degradação da rocha matriz, desde grandes partes de rochas até o pó fino. No
caso dos solos muito arenosos ou várzeas, a granulometria pode influir diretamente na
produtividade, considerando que estes solos possuem baixos teores de MO e,
conseqüentemente, baixa capacidade de retenção de nutrientes e água [Moreira e
Siqueira 2006].
Dentre os constituintes do solo, um dos mais estudados é a MO, sendo um fator
central na sustentabilidade dos sistemas agrícolas. Práticas que favoreçam a
conservação da MO melhoram as propriedades do solo e ajudam a reduzir o risco de
erosão. Nos chamados sistemas de manejo sustentável, microrganismos benéficos são
incorporados à camada superficial do solo juntamente com restos de colheita e outros
resíduos orgânicos, reduzindo a aplicação de pesticidas e fertilizantes, levando a um
aumento na estabilidade e na conservação do solo [Poppi e Sena 1999].
Assim como a MO, outro importante constituinte do solo é o teor de argila. A
argila possui cargas elétricas negativas responsáveis pela Capacidade de Troca
Catiônica (CTC), que é um dos requerimentos para recomendação de doses de
fertilizantes e corretivos e também possui uma estreita relação com a retenção de água
do solo.
3. Utilização de sensoriamento remoto em análise de solos
O desenvolvimento tecnológico tem contribuído de forma significativa para o
aprimoramento de ferramentas que otimizam os tradicionais métodos de caracterização
dos solos. Dentre essas ferramentas, o sensoriamento remoto destaca-se, visto que
fornece caminhos alternativos para o levantamento de solos, principalmente, por
apresentar vantagens quando comparado aos métodos convencionais de análises
[McBratney 2003]. A fundamentação dos estudos nessa área se baseia na
individualização espectral de cada solo, ou seja, cada solo representa uma assinatura
espectral, decorrente de seus atributos, com informações em determinado comprimento
de onda ou em todo espectro eletromagnético.
Uma das técnicas que pode auxiliar o setor agrícola é a utilização da
espectroscopia no infravermelho com o uso do equipamento Near-Infrared
Spectroscopy (NIRS) que é uma integração da espectroscopia, estatística e computação.
Seu princípio mecânico é o de iluminar uma amostra com luz de comprimento de onda
específico e conhecido da região do espectro eletromagnético. A absorção de luz então é
medida por diferenças entre a quantidade de luz emitida pelo NIRS e a quantidade de
luz refletida pela amostra, relação pela qual pode-se predizer a sua composição química,
desde que as leituras obtidas possam ser instantâneas, efetivamente comparadas e
ajustadas na matriz de um banco de dados armazenado que calibra o software do
equipamento [Proença 2012].
O equipamento utiliza energia luminosa de luz branca composta de todas as
cores do espectro do arco-íris. Quando essa luz incide sobre um objeto, certas cores são
absorvidas e outras refletidas ou transmitidas. A luz refletida pode ser captada pelos
olhos. Por exemplo, quando a luz incide sobre uma folha verde são absorvidos o
vermelho e o azul. As cores refletidas são interpretadas pelos nossos sentidos visuais
como verde [Proença 2012].
4. Mineração de Dados
A Mineração de Dados (MD) é uma tecnologia que combina métodos tradicionais de
análise de dados com algoritmos sofisticados para processar grandes volumes de dados
e consiste em uma das etapas do KDD (Descoberta de Conhecimento em Base de
Dados, do inglês Knowledge Discovery in Databases). Essas etapas podem ser
agrupadas em três grandes grupos: pré-processamento, mineração de dados e pósprocessamento. O pré-processamento inclui todas as etapas que consideram a
preparação da base, cujos dados serão fornecidos como entrada para o(s) algoritmo(s)
de Mineração.
Existem diversas tarefas de Mineração de Dados incluindo classificação,
agrupamento, associação e regressão [Fayyad 1996]. A tarefa chamada de classificação
consiste na predição de uma variável categórica, ou seja, descobrir uma função que
mapeie um conjunto de registros em um conjunto de variáveis predefinidas,
denominadas classes. Esta função pode ser aplicada em novos registros, de forma a
prever a classe em que tais registros se enquadram.
5. Material
Para a realização do trabalho foi utilizada uma base de dados fornecida pela Fundação
ABC, empresa que atua no desenvolvimento de pesquisa aplicada à agricultura,
localizada na cidade de Castro no estado do Paraná. Os dados constituintes dessa base
foram resultados da coleta de amostras de solo na região dos Campos Gerais em 2011,
utilizando uma área que está localizada no município de Piraí do Sul, no Centro-Sul do
estado do Paraná. Sua posição geográfica tem como coordenadas 24º 22' 30’' S, 50º 04'
00'’ O. A gleba, com uma extensão de 110 hectares, é composta predominantemente por
Latossolos de textura média a argilosa. Foram 111 amostras coletadas, sendo uma por
hectare [Proença 2012].
A base de dados original consistiu de 1064 atributos, correspondendo aos
diferentes comprimentos de onda lidos pelo equipamento. Essa base foi dividida em
quatro conjuntos de dados, conforme Quadro 1. Para que o objetivo do trabalho fosse
alcançado em cada conjunto foi estabelecido um atributo meta, o qual teria sua classe ou
valor previsto nas regras geradas pelo algoritmo, além dos atributos previsores cuja
função é definir as características da classe do atributo meta. Cada comprimento de
onda contido na base foi tratado como um atributo previsor.
Quadro 01 – Divisão da base de dados utilizada
Conjunto
Nome do Conjunto
Atributo Meta
Comprimentos de Onda
1
Matéria Orgânica VIS
Matéria Orgânica
400 a 700 nm
2
Matéria Orgânica NIRS
Matéria Orgânica
702 a 2498 nm
3
ArgilaVIS
Teor de Argila
400 a 700 nm
4
Argila NIRS
Teor de Argila
702 a 2498 nm
O conjunto 1 consistiu além do atributo meta MO de mais 150 atributos relativos aos
comprimentos de onda da região do espectro visível (VIS). Já o conjunto 2 foi composto
pelo atributo meta MO e 898 atributos correspondentes aos comprimentos de onda do
espectro referente ao infravermelho próximo (NIRS). Da mesma forma, os conjuntos 3 e
4 apresentaram além do atributo teor de argila os comprimento de onda VIS e NIRS,
respectivamente.
Como auxílio na tarefa de mineração dos dados foi utilizado o WEKA o qual
contempla uma série de algoritmos de preparação de dados, de aprendizagem de
máquina e de validação de resultados.
6. Método
Procurando reduzir a dimensionalidade dos dados foi aplicado nas quatro bases o
algoritmo de filtro de seleção AttributeSelection, composto pelo avaliador de atributos
CfsSubsetEval (Correlation-based Feature Subset Selecion), por meio do método de
busca Best First disponível na sessão de pré-processamento do WEKA. Como resultado
foram selecionados determinados atributos de comprimentos de onda que tiveram uma
maior correlação com as classes MO e teor de argila respectivamente.
De posse dos cojuntos de dados resultantes do filtro de seleção, foram aplicados
todos os algoritmos de classificação disponibilizados pela ferramenta WEKA. Todos os
classificadores utilizados foram processados com seus valores default.
7. Resultados
Depois de aplicado o filtro de seleção de atributos para cada um dos conjuntos
utilizados no estudo, o número de atributos de predição foi reduzido para no máximo
sete, como pode ser visto no Quadro 2.
Quadro 02 – Resultado da aplicação do filtro nas bases utilizadas
Conjunto
Nome do conjunto
Atributo Meta
Comprimento de Onda
01
Matéria Orgânica VIS
Matéria Orgânica
480
02
Matéria Orgânica NIRS
Matéria Orgânica
702,704,860,2270,2498
03
ArgilaVIS
Teor de Argila
480
04
Argila NIRS
Teor de Argila
702,862,2268,2270,2272,2496,2498
Levando-se em conta os três melhores resultados para o índice de correlação e o erro
absoluto relativo para cada um dos conjuntos de dados, foram determinados os
algoritmos de classificação que mais se destacaram, conforme apresentado nos quadros
03, 04, 05 e 06.
Quadro 03 – Melhores resultados para o conjunto de dados Matéria Orgânica VIS
Meta Bagging
Rules Decision Table
Lazy KStar
Coeficiente de correlação
0.859
0.857
0.877
Erro médio absolute
2.58
2.50
2.36
Erro quadratic
3.53
3.50
3.25
Erro absoluto relative
47.32%
45.78%
43.16%
Erro relativo de raiz quadrada
51.92%
51.49%
47.73%
Quadro 04 – Melhores resultados para o conjunto de dados Matéria Orgânica
NIRS
Meta Randon Subspace
Meta Bagging
Rules Decision
Coeficiente de correlação
0.792
0.797
0.806
Erro médio absoluto
2.97
2.94
2.93
Erro quadrático
4.17
4.09
4.01
Erro absoluto relativo
54.49%
53.93%
53.64%
Erro relativo de raiz quadrada
61.34%
60.07%
58.95%
Quadro 05 – Melhores resultados para o conjunto de dados Argila VIS
Meta Bagging
Rules M5 rules
Lazy KStar
Coeficiente de correlação
0.945
0.946
0.982
Erro médio absoluto
24.07
24.98
24.92
Erro quadrático
36.37
36.06
36.48
Erro absoluto relativo
26.79%
27.80%
27.74%
Erro relativo de raiz quadrada
32.43%
32.16%
32.54%
Quadro 06 – Melhores resultados para o conjunto de dados Argila NIRS
Rules M5 rules
MLP
Lazy KStar
Coeficiente de correlação
0,879
0,885
0,914
Erro médio absoluto
34,61
35,66
32,31
Erro quadrático
53,24
53,69
45,51
Erro absoluto relativo
38,52%
39,70%
35,96%
Erro relativo de raiz quadrada
47,48 %
47,89%
40,59%
Os resultados demonstraram uma melhor resposta de classificação para o teor de
argila em comparação com a quantidade de MO. O algoritmo de classificação Lazy
KStar teve um coeficiente de correlação de 0.982 no Conjunto de dados Argila VIS com
o comprimento de onda 480, assim como foi o melhor classificador para o Conjunto de
dados Argila NIRS. Já os resultados adquiridos dos classificadores nas bases para MO
foram satisfatórios tendo novamente o algoritmo Lazy KStar apresentado melhor
desempenho com um coeficiente de correlação de 0,877. A classificação do Conjunto de
dados que obteve o pior desempenho foi o MO NIRS, sendo que para esse conjunto o
algoritmo Decision Table foi o que apresentou o mais elevado coeficiente de correlação
(0,806),
8. Conclusão
Com relação aos resultados obtidos pode-se observar que a predição do teor de argila
tem uma forte correlação com os comprimentos de onda selecionados. A estimativa da
MO, embora apresente uma correlação superior a 0,8, traz um erro que não pode ser
desprezado, indicando que a técnica de reflectância, para essa base de dados, foi
altamente viável para a predição de argila e requer mais estudos para aperfeiçoar a
estimativa de MO. O trabalho demonstrou que o uso da espectroscopia é viável,
trazendo vantagens por ser uma técnica rápida e não poluente. Para confirmar eficiência
da técnica aplicada neste trabalho, seria interessante obter outras bases de diferentes
regiões e realizar os mesmos testes.
Referência Bibliográfica
Fayyad, U.M.; Piatetski-Shapiro, G.; Smyth, P; Uthurusamy, R. (1996) “Advances in
Knowledge Discovery and Data Mining”. Menlo Park: AAAI Press, p. 11-34.
Hall M, Frank E, Holmes G, Pfahringer B, Reutemann P, Ian H. Witten. (2009) “The
WEKA Data Mining Software: An Update; SIGKDD Explorations”, Volume 11,
Issue 1.
McBratney, A.B.;Minasny, B.;Viscarra Rossel, R. (2006) “Spectral soil analysis and
inference systems: a powerful combination for solving the soil data crisis”,
Geoderma, Amstrerdam, v.136. p.272-278.
Moreira, F. M. S.; Siqueira, J. O. (2006) “Microbiologia e bioquímica do solo”. 2. ed.
Lavras: Editora UFLA. p.729.
Poppi R. J; Sena M. (1999) “Avaliação do uso de métodos quimiométricos em análise
de solos”. Departamento de Química Analítica - Instituto de Química - UNICAMP CP 6154 - 13083-970 - Campinas – SP.
Proença, C. A. (2012) “Redes Neurais Artificiais para predição dos teores de matéria
orgânica e argila do solo na região dos Campos Gerais utilizando Espectroscopia de
Reflectância Difusa”. Dissertação de Mestrado, Ponta Grossa-PR, UEPG.
Shepherd, K.D.;Walsh, M.G. (2007) “Infrared spectroscopy - enabling an evidence
based diagnostic survellance approach to agricultural and environmental
management in developing countries: Journal of Near Infrared Spectroscopy”,
Charlton, v.15,p.1-19.
Download

Baixar o Trabalho