Predição da quantidade de matéria orgânica e teor de argila por meio de algoritmos de classificação em um conjunto de dados obtidos pelo método vis-NIRS Sandro Teixeira1, Alaine Margarete Guimarães2 1 Centro de Processamento de Dados - Universidade Estadual de Ponta Grossa. Av. Gen. Carlos Cavalcanti, 4748 Uvaranas, Ponta Grossa - PR, 84030-900, Brasil 2 Departamento de Informática - Universidade Estadual de Ponta Grossa. Av. Gen. Carlos Cavalcanti, 4748 Uvaranas, Ponta Grossa - PR, 84030-900, Brasil [email protected], [email protected] Abstract: The amount of organic matter (OM) as well as the content of clay are important constituents in the sustainability of agricultural systems. The use of reflectance spectroscopy in the visible and near infrared (VIS-NIRS) can be highly viable in soil analysis, and as such can help identify contents of soil attributes in a cleaner and quicker way. The aim of this study was to compare classification algorithms using WEKA software to estimate the components mentioned using a database with information obtained by the conventional method of analysis and the vis-NIRS method. The results showed a better response to the clay content classification than to the amount of OM. Resumo: A quantidade de Matéria Orgânica (MO), bem como o teor de argila são constituintes importantes na sustentabilidade dos sistemas agrícolas. A utilização da espectroscopia de reflectância na região do visível e no infravermelho próximo (vis-NIRS) pode ser altamente viável na análise de solos, podendo ajudar a identificar teores de atributos de maneira mais limpa e rápida. O objetivo deste trabalho foi comparar algoritmos de classificação utilizando o software WEKA para estimar os componentes citados utilizando uma base de dados com informações obtidas pelo método convencional de análise e pelo método vis-NIRS. Os resultados demonstraram uma melhor resposta de classificação para o teor de argila em comparação com a quantidade de MO. 1. Introdução Um dos objetivos da Agricultura de Precisão (AP) é buscar a produção de alimentos da forma mais racional possível maximizando o retorno econômico e minimizando os danos ao meio ambiente. Neste contexto, é imprescindível que a área de pesquisa brasileira relacionada à AP continue avançando. Um dos objetivos básicos da AP é o manejo localizado do solo. A produtividade das culturas é influenciada quando os atributos físicos, químicos e biológicos do solo estão equilibrados e suficientemente disponíveis, de forma a fornecer condições para as plantas expressarem todo seu potencial produtivo. Por meio da análise de solo é possível conhecer sua fertilidade, avaliar o grau de deficiência de nutrientes e determinar as quantidades de corretivos e fertilizantes a serem recomendados com vista à produção. Para a avaliação das características do solo relacionadas com o seu potencial, assim como a avaliação da fertilidade, as análises químicas e físicas de rotina são métodos convencionalmente usados. Porém, estas análises agridem a natureza pela utilização dos reagentes químicos. Nesse contexto, o sensoriamento próximo tem despertado o interesse dos pesquisadores da área de solos, já que possui algumas vantagens sobre as análises convencionais. Segundo Shepherd e Walsh (2007), esta é uma das técnicas analíticas mais eficientes e disponíveis do século XXI. A utilização da espectroscopia de reflectância na região do visível e no infravermelho próximo (visNIRS) pode ser altamente viável na análise de solos, e como tal pode ajudar a identificar teores dos atributos do solo de maneira mais limpa e rápida. É possível correlacionar os comprimentos de onda adquiridos da reflectância de componentes do solo por meio de análises estatísticas, bem como por meio de técnicas de Mineração de Dados como no trabalho de Proença (2012). O objetivo deste trabalho foi comparar algoritmos de classificação de dados implementados no software WEKA [Hall 2009] para estimar matéria orgânica (MO) e teor de argila do solo utilizando uma base de dados obtidos pelo método convencional de análise do solo e pelo método vis-NIRS. 2. Solos Os solos, de uma maneira geral são formados por 45% de substâncias minerais, 25% de água, 25% de ar e 5% de matéria orgânica (MO). Em situações naturais, a proporção de ar e água é sujeita a alterações, dependendo do tipo de solo, região e seus períodos de chuvas. A textura, ou granulometria do solo também varia dependendo diretamente do tipo e da degradação da rocha matriz, desde grandes partes de rochas até o pó fino. No caso dos solos muito arenosos ou várzeas, a granulometria pode influir diretamente na produtividade, considerando que estes solos possuem baixos teores de MO e, conseqüentemente, baixa capacidade de retenção de nutrientes e água [Moreira e Siqueira 2006]. Dentre os constituintes do solo, um dos mais estudados é a MO, sendo um fator central na sustentabilidade dos sistemas agrícolas. Práticas que favoreçam a conservação da MO melhoram as propriedades do solo e ajudam a reduzir o risco de erosão. Nos chamados sistemas de manejo sustentável, microrganismos benéficos são incorporados à camada superficial do solo juntamente com restos de colheita e outros resíduos orgânicos, reduzindo a aplicação de pesticidas e fertilizantes, levando a um aumento na estabilidade e na conservação do solo [Poppi e Sena 1999]. Assim como a MO, outro importante constituinte do solo é o teor de argila. A argila possui cargas elétricas negativas responsáveis pela Capacidade de Troca Catiônica (CTC), que é um dos requerimentos para recomendação de doses de fertilizantes e corretivos e também possui uma estreita relação com a retenção de água do solo. 3. Utilização de sensoriamento remoto em análise de solos O desenvolvimento tecnológico tem contribuído de forma significativa para o aprimoramento de ferramentas que otimizam os tradicionais métodos de caracterização dos solos. Dentre essas ferramentas, o sensoriamento remoto destaca-se, visto que fornece caminhos alternativos para o levantamento de solos, principalmente, por apresentar vantagens quando comparado aos métodos convencionais de análises [McBratney 2003]. A fundamentação dos estudos nessa área se baseia na individualização espectral de cada solo, ou seja, cada solo representa uma assinatura espectral, decorrente de seus atributos, com informações em determinado comprimento de onda ou em todo espectro eletromagnético. Uma das técnicas que pode auxiliar o setor agrícola é a utilização da espectroscopia no infravermelho com o uso do equipamento Near-Infrared Spectroscopy (NIRS) que é uma integração da espectroscopia, estatística e computação. Seu princípio mecânico é o de iluminar uma amostra com luz de comprimento de onda específico e conhecido da região do espectro eletromagnético. A absorção de luz então é medida por diferenças entre a quantidade de luz emitida pelo NIRS e a quantidade de luz refletida pela amostra, relação pela qual pode-se predizer a sua composição química, desde que as leituras obtidas possam ser instantâneas, efetivamente comparadas e ajustadas na matriz de um banco de dados armazenado que calibra o software do equipamento [Proença 2012]. O equipamento utiliza energia luminosa de luz branca composta de todas as cores do espectro do arco-íris. Quando essa luz incide sobre um objeto, certas cores são absorvidas e outras refletidas ou transmitidas. A luz refletida pode ser captada pelos olhos. Por exemplo, quando a luz incide sobre uma folha verde são absorvidos o vermelho e o azul. As cores refletidas são interpretadas pelos nossos sentidos visuais como verde [Proença 2012]. 4. Mineração de Dados A Mineração de Dados (MD) é uma tecnologia que combina métodos tradicionais de análise de dados com algoritmos sofisticados para processar grandes volumes de dados e consiste em uma das etapas do KDD (Descoberta de Conhecimento em Base de Dados, do inglês Knowledge Discovery in Databases). Essas etapas podem ser agrupadas em três grandes grupos: pré-processamento, mineração de dados e pósprocessamento. O pré-processamento inclui todas as etapas que consideram a preparação da base, cujos dados serão fornecidos como entrada para o(s) algoritmo(s) de Mineração. Existem diversas tarefas de Mineração de Dados incluindo classificação, agrupamento, associação e regressão [Fayyad 1996]. A tarefa chamada de classificação consiste na predição de uma variável categórica, ou seja, descobrir uma função que mapeie um conjunto de registros em um conjunto de variáveis predefinidas, denominadas classes. Esta função pode ser aplicada em novos registros, de forma a prever a classe em que tais registros se enquadram. 5. Material Para a realização do trabalho foi utilizada uma base de dados fornecida pela Fundação ABC, empresa que atua no desenvolvimento de pesquisa aplicada à agricultura, localizada na cidade de Castro no estado do Paraná. Os dados constituintes dessa base foram resultados da coleta de amostras de solo na região dos Campos Gerais em 2011, utilizando uma área que está localizada no município de Piraí do Sul, no Centro-Sul do estado do Paraná. Sua posição geográfica tem como coordenadas 24º 22' 30’' S, 50º 04' 00'’ O. A gleba, com uma extensão de 110 hectares, é composta predominantemente por Latossolos de textura média a argilosa. Foram 111 amostras coletadas, sendo uma por hectare [Proença 2012]. A base de dados original consistiu de 1064 atributos, correspondendo aos diferentes comprimentos de onda lidos pelo equipamento. Essa base foi dividida em quatro conjuntos de dados, conforme Quadro 1. Para que o objetivo do trabalho fosse alcançado em cada conjunto foi estabelecido um atributo meta, o qual teria sua classe ou valor previsto nas regras geradas pelo algoritmo, além dos atributos previsores cuja função é definir as características da classe do atributo meta. Cada comprimento de onda contido na base foi tratado como um atributo previsor. Quadro 01 – Divisão da base de dados utilizada Conjunto Nome do Conjunto Atributo Meta Comprimentos de Onda 1 Matéria Orgânica VIS Matéria Orgânica 400 a 700 nm 2 Matéria Orgânica NIRS Matéria Orgânica 702 a 2498 nm 3 ArgilaVIS Teor de Argila 400 a 700 nm 4 Argila NIRS Teor de Argila 702 a 2498 nm O conjunto 1 consistiu além do atributo meta MO de mais 150 atributos relativos aos comprimentos de onda da região do espectro visível (VIS). Já o conjunto 2 foi composto pelo atributo meta MO e 898 atributos correspondentes aos comprimentos de onda do espectro referente ao infravermelho próximo (NIRS). Da mesma forma, os conjuntos 3 e 4 apresentaram além do atributo teor de argila os comprimento de onda VIS e NIRS, respectivamente. Como auxílio na tarefa de mineração dos dados foi utilizado o WEKA o qual contempla uma série de algoritmos de preparação de dados, de aprendizagem de máquina e de validação de resultados. 6. Método Procurando reduzir a dimensionalidade dos dados foi aplicado nas quatro bases o algoritmo de filtro de seleção AttributeSelection, composto pelo avaliador de atributos CfsSubsetEval (Correlation-based Feature Subset Selecion), por meio do método de busca Best First disponível na sessão de pré-processamento do WEKA. Como resultado foram selecionados determinados atributos de comprimentos de onda que tiveram uma maior correlação com as classes MO e teor de argila respectivamente. De posse dos cojuntos de dados resultantes do filtro de seleção, foram aplicados todos os algoritmos de classificação disponibilizados pela ferramenta WEKA. Todos os classificadores utilizados foram processados com seus valores default. 7. Resultados Depois de aplicado o filtro de seleção de atributos para cada um dos conjuntos utilizados no estudo, o número de atributos de predição foi reduzido para no máximo sete, como pode ser visto no Quadro 2. Quadro 02 – Resultado da aplicação do filtro nas bases utilizadas Conjunto Nome do conjunto Atributo Meta Comprimento de Onda 01 Matéria Orgânica VIS Matéria Orgânica 480 02 Matéria Orgânica NIRS Matéria Orgânica 702,704,860,2270,2498 03 ArgilaVIS Teor de Argila 480 04 Argila NIRS Teor de Argila 702,862,2268,2270,2272,2496,2498 Levando-se em conta os três melhores resultados para o índice de correlação e o erro absoluto relativo para cada um dos conjuntos de dados, foram determinados os algoritmos de classificação que mais se destacaram, conforme apresentado nos quadros 03, 04, 05 e 06. Quadro 03 – Melhores resultados para o conjunto de dados Matéria Orgânica VIS Meta Bagging Rules Decision Table Lazy KStar Coeficiente de correlação 0.859 0.857 0.877 Erro médio absolute 2.58 2.50 2.36 Erro quadratic 3.53 3.50 3.25 Erro absoluto relative 47.32% 45.78% 43.16% Erro relativo de raiz quadrada 51.92% 51.49% 47.73% Quadro 04 – Melhores resultados para o conjunto de dados Matéria Orgânica NIRS Meta Randon Subspace Meta Bagging Rules Decision Coeficiente de correlação 0.792 0.797 0.806 Erro médio absoluto 2.97 2.94 2.93 Erro quadrático 4.17 4.09 4.01 Erro absoluto relativo 54.49% 53.93% 53.64% Erro relativo de raiz quadrada 61.34% 60.07% 58.95% Quadro 05 – Melhores resultados para o conjunto de dados Argila VIS Meta Bagging Rules M5 rules Lazy KStar Coeficiente de correlação 0.945 0.946 0.982 Erro médio absoluto 24.07 24.98 24.92 Erro quadrático 36.37 36.06 36.48 Erro absoluto relativo 26.79% 27.80% 27.74% Erro relativo de raiz quadrada 32.43% 32.16% 32.54% Quadro 06 – Melhores resultados para o conjunto de dados Argila NIRS Rules M5 rules MLP Lazy KStar Coeficiente de correlação 0,879 0,885 0,914 Erro médio absoluto 34,61 35,66 32,31 Erro quadrático 53,24 53,69 45,51 Erro absoluto relativo 38,52% 39,70% 35,96% Erro relativo de raiz quadrada 47,48 % 47,89% 40,59% Os resultados demonstraram uma melhor resposta de classificação para o teor de argila em comparação com a quantidade de MO. O algoritmo de classificação Lazy KStar teve um coeficiente de correlação de 0.982 no Conjunto de dados Argila VIS com o comprimento de onda 480, assim como foi o melhor classificador para o Conjunto de dados Argila NIRS. Já os resultados adquiridos dos classificadores nas bases para MO foram satisfatórios tendo novamente o algoritmo Lazy KStar apresentado melhor desempenho com um coeficiente de correlação de 0,877. A classificação do Conjunto de dados que obteve o pior desempenho foi o MO NIRS, sendo que para esse conjunto o algoritmo Decision Table foi o que apresentou o mais elevado coeficiente de correlação (0,806), 8. Conclusão Com relação aos resultados obtidos pode-se observar que a predição do teor de argila tem uma forte correlação com os comprimentos de onda selecionados. A estimativa da MO, embora apresente uma correlação superior a 0,8, traz um erro que não pode ser desprezado, indicando que a técnica de reflectância, para essa base de dados, foi altamente viável para a predição de argila e requer mais estudos para aperfeiçoar a estimativa de MO. O trabalho demonstrou que o uso da espectroscopia é viável, trazendo vantagens por ser uma técnica rápida e não poluente. Para confirmar eficiência da técnica aplicada neste trabalho, seria interessante obter outras bases de diferentes regiões e realizar os mesmos testes. Referência Bibliográfica Fayyad, U.M.; Piatetski-Shapiro, G.; Smyth, P; Uthurusamy, R. (1996) “Advances in Knowledge Discovery and Data Mining”. Menlo Park: AAAI Press, p. 11-34. Hall M, Frank E, Holmes G, Pfahringer B, Reutemann P, Ian H. Witten. (2009) “The WEKA Data Mining Software: An Update; SIGKDD Explorations”, Volume 11, Issue 1. McBratney, A.B.;Minasny, B.;Viscarra Rossel, R. (2006) “Spectral soil analysis and inference systems: a powerful combination for solving the soil data crisis”, Geoderma, Amstrerdam, v.136. p.272-278. Moreira, F. M. S.; Siqueira, J. O. (2006) “Microbiologia e bioquímica do solo”. 2. ed. Lavras: Editora UFLA. p.729. Poppi R. J; Sena M. (1999) “Avaliação do uso de métodos quimiométricos em análise de solos”. Departamento de Química Analítica - Instituto de Química - UNICAMP CP 6154 - 13083-970 - Campinas – SP. Proença, C. A. (2012) “Redes Neurais Artificiais para predição dos teores de matéria orgânica e argila do solo na região dos Campos Gerais utilizando Espectroscopia de Reflectância Difusa”. Dissertação de Mestrado, Ponta Grossa-PR, UEPG. Shepherd, K.D.;Walsh, M.G. (2007) “Infrared spectroscopy - enabling an evidence based diagnostic survellance approach to agricultural and environmental management in developing countries: Journal of Near Infrared Spectroscopy”, Charlton, v.15,p.1-19.