
05 de março de 2026
Modelagem da produtividade agrícola de milho e cana-de-açúcar em Piracicaba (SP)
Enzo Gonçalves Costa Claro; Nuno Manoel Martins Dias Fouto
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A modelagem da produtividade agrícola constitui uma ferramenta fundamental para fundamentar as decisões de produtores rurais e gestores públicos, permitindo a análise detalhada de parâmetros inter-relacionados que influenciam o rendimento das culturas (Carvalho et al., 2012). Embora modelos baseados puramente em dados não permitam a inferência de causalidade direta, a aplicação de técnicas avançadas de ciência de dados e aprendizado de máquina tem demonstrado uma capacidade superior na captura de padrões complexos, sejam eles lineares ou não lineares, entre variáveis ambientais e a produtividade no campo (Shahhosseini et al., 2021). A relevância desse tipo de análise cresce diante de evidências globais que indicam que poluentes atmosféricos, como o ozônio troposférico, podem reduzir a produtividade agrícola em até 15% (Avnery et al., 2011). Especificamente, níveis de ozônio superiores a 44 ppb são reportados como ameaças severas à saúde das plantas e ao rendimento final das colheitas (Emberson et al., 2018). Além da poluição química, fenômenos como as queimadas afetam os cultivos por meio da deposição de material particulado e da alteração do balanço radiativo local (Jin et al., 2020). No cenário brasileiro, observou-se que o material particulado interfere diretamente na fotossíntese da cana-de-açúcar, um problema que se agrava com o aumento expressivo de focos de incêndio, como o crescimento de 888,64% nas queimadas registrado no estado de São Paulo (INPE, 2024).
A compreensão desses impactos em contextos regionais específicos, como o município de Piracicaba, exige a superação de desafios relacionados à granularidade e à tipologia dos dados públicos disponíveis. A obtenção de séries temporais de produtividade agrícola com a resolução necessária para capturar efeitos climáticos de curto e médio prazo é frequentemente limitada pela forma de coleta e disponibilização dos dados por órgãos oficiais, como a Companhia Nacional de Abastecimento e o Instituto Brasileiro de Geografia e Estatística (Lobell et al., 2011). Piracicaba destaca-se economicamente como o 15º maior produtor paulista de milho e possui a cana-de-açúcar como responsável por aproximadamente metade do valor da produção agropecuária local (IBGE, 2017). Portanto, a integração de dados atmosféricos e climáticos com técnicas de inteligência artificial busca não apenas oferecer modelos preditivos, mas também contribuir para a compreensão dos desafios inerentes à aplicação da ciência de dados em cenários de dados públicos com variabilidade limitada, fornecendo subsídios para políticas de agricultura sustentável frente às mudanças climáticas (Ray et al., 2015).
A fundamentação teórica deste estudo baseia-se na premissa de que variáveis como temperatura, precipitação, umidade e radiação solar, somadas a poluentes como o material particulado (MP10 e MP2.5) e o ozônio (O₃), exercem pressões mensuráveis sobre o desenvolvimento fisiológico das plantas. O ozônio troposférico, em particular, penetra nos estômatos das folhas, causando estresse oxidativo e reduzindo a capacidade fotossintética, o que se traduz em menor acúmulo de biomassa. A análise da variabilidade nos teores de rendimento e na quantidade produzida das culturas de milho e cana-de-açúcar em Piracicaba, ao longo de uma década, permite investigar como esses fatores se correlacionam. Espera-se que a análise de bancos de dados robustos possa elucidar relações pertinentes, mesmo quando os valores atmosféricos não excedem consistentemente os limites críticos reportados na literatura internacional. O estabelecimento de modelos paramétricos serve como um suporte essencial para a formulação de estratégias de mitigação de danos no setor agrícola (Souza et al., 2014).
A metodologia adotada caracteriza-se como uma pesquisa aplicada, com abordagem quantitativa e delineamento de estudo de caso focado no município de Piracicaba, São Paulo, abrangendo o período de 2013 a 2023. A construção da base de dados envolveu a integração de informações de diversas fontes públicas, coletadas inicialmente com diferentes níveis de detalhamento. Os dados climáticos e atmosféricos foram obtidos dos relatórios da Companhia Ambiental do Estado de São Paulo, referentes à estação de monitoramento local. As variáveis incluíram temperatura média do ar em graus Celsius, umidade relativa do ar em porcentagem, precipitação em milímetros, velocidade e direção do vento, número de dias com chuva, número de queimadas e concentrações de poluentes como MP10, MP2.5, ozônio e óxidos de nitrogênio. Os dados de produtividade agrícola para milho e cana-de-açúcar foram extraídos do Sistema IBGE de Recuperação Automática. Inicialmente, buscou-se uma granularidade mensal para o rendimento em kg/ha, mas devido à natureza da fonte, também foi explorada a quantidade produzida em toneladas no detalhamento anual.
O pré-processamento dos dados foi uma etapa crítica para assegurar a qualidade do dataset. Para a variável de queimadas, os valores ausentes foram preenchidos com zero, assumindo-se que a falta de registro indicava a não ocorrência do evento. Para as variáveis atmosféricas, utilizou-se a imputação por meio de interpolação linear, respeitando a sazonalidade dos dados. No caso das variáveis climáticas, a imputação foi realizada com o método IterativeImputer, que estima valores faltantes com base nas relações estatísticas com outras variáveis presentes no conjunto de dados. Linhas que apresentavam ausência na variável alvo de produtividade foram removidas para garantir que apenas observações completas fossem consideradas na modelagem. Para mitigar a multicolinearidade, realizou-se uma seleção rigorosa de atributos, priorizando a interpretabilidade dos coeficientes. Variáveis com alta correlação, como os diferentes tipos de material particulado e óxidos de nitrogênio, foram simplificadas, mantendo-se apenas o MP2.5 e o NOx como representantes para evitar redundâncias que pudessem instabilizar os modelos.
Uma análise exploratória aprofundada revelou que os dados de rendimento médio do milho em Piracicaba apresentavam um padrão de platôs e degraus, indicando que os valores se repetiam por múltiplos meses. Essa característica sugeriu que a granularidade efetiva da fonte era anual ou semestral, e não mensal, o que resultava em uma resposta fraca às flutuações mensais dos fatores ambientais. Diante dessa limitação, a estratégia metodológica foi readequada para o nível anual, agregando as variáveis climáticas e atmosféricas por meio da soma para variáveis de acúmulo, como precipitação e queimadas, e da média para variáveis de condição, como temperatura e umidade. Para estabelecer as relações preditivas, foram explorados algoritmos de aprendizado de máquina adequados para regressão, incluindo Random Forest Regressor, Regressão Linear Múltipla, Lasso e Regressão Polinomial de grau 2. A avaliação do desempenho foi baseada na técnica de validação cruzada K-Fold, com cinco subconjuntos, garantindo que o modelo fosse testado em diferentes partições do limitado dataset de 11 anos.
As métricas utilizadas para avaliar a performance dos modelos foram a Raiz do Erro Quadrático Médio e o Coeficiente de Determinação. O uso do R² foi essencial para indicar a proporção da variância da produtividade explicada pelas variáveis independentes, sendo que valores negativos indicariam um desempenho inferior à média simples dos dados. Além da predição, conduziu-se uma análise de importância de atributos para o modelo Random Forest, visando identificar quais fatores ambientais exerciam maior influência relativa nas estimativas. Todo o processamento foi executado em linguagem Python, utilizando bibliotecas especializadas como Pandas, NumPy e Scikit-learn em ambiente de computação em nuvem, o que facilitou a reprodutibilidade dos experimentos e a manipulação eficiente das séries temporais integradas.
Os resultados da análise exploratória inicial confirmaram a alta multicolinearidade entre os poluentes atmosféricos. A matriz de correlação indicou coeficientes superiores a 0.9 entre PM10 e PM2.5, bem como entre as diferentes formas de óxidos de nitrogênio. Essa redundância justificou a exclusão de variáveis para preservar a estabilidade dos modelos de regressão. No que tange à produtividade do milho, a série temporal do rendimento médio em kg/ha evidenciou a desconexão entre a variabilidade mensal esperada e os dados registrados, que permaneciam constantes por longos períodos. Ao calcular o fator de conversão para ajustar os rendimentos municipais com base nos dados estaduais, observou-se que a produtividade em Piracicaba variou significativamente ao longo da década, com o menor valor registrado em 2014, totalizando 5665 toneladas, e o maior em 2013, com 14130 toneladas.
Na avaliação dos modelos preditivos para o rendimento do milho, todos os algoritmos testados apresentaram desempenho insatisfatório. O modelo Random Forest obteve um R² médio de -6.93, enquanto a Regressão Linear Múltipla apresentou um R² de -67.12. Esses valores negativos e extremamente baixos demonstram que os modelos não foram capazes de aprender padrões consistentes a partir do reduzido volume de amostras anuais. A análise do p-valor para a regressão linear múltipla resultou em 0.210, o que supera o nível de significância de 0.05, indicando que o modelo não é estatisticamente significativo. Isso significa que a hipótese nula, de que todos os coeficientes são zero, não pôde ser rejeitada. A variabilidade observada no rendimento do milho não pôde ser explicada pelas flutuações anuais de temperatura, precipitação ou poluentes atmosféricos dentro do horizonte temporal analisado.
Ao explorar a quantidade produzida de milho em toneladas como variável dependente, o cenário permaneceu inconclusivo. O modelo Random Forest resultou em um R² médio de -11.10. A análise de importância dos atributos para essa variável revelou que a área plantada era o fator dominante, ofuscando completamente o impacto das variáveis climáticas e atmosféricas. Logicamente, a extensão da área de cultivo é o principal determinante do volume total produzido, mas a proeminência dessa variável sugere que o modelo se apoiou nela para tentar compensar a falta de sinal nas variáveis ambientais. Para a cultura da cana-de-açúcar, os resultados foram ainda mais críticos, com o Random Forest atingindo um R² médio de -27.63 e um erro absoluto extremamente elevado. A complexidade da cultura e a escala de produção em Piracicaba demandariam um volume de dados muito superior aos 11 pontos anuais disponíveis para que um modelo de aprendizado supervisionado pudesse discernir padrões de produtividade.
A discussão sobre a importância dos atributos revelou que, para o rendimento do milho, o ozônio e a precipitação foram as variáveis com maior peso relativo no modelo Random Forest. Isso é coerente com o conhecimento agronômico, que reconhece o papel vital da disponibilidade hídrica e o potencial fitotóxico do ozônio (Avnery et al., 2011). No entanto, para a cana-de-açúcar, os óxidos de nitrogênio e a umidade relativa do ar apareceram como mais influentes. Apesar dessas indicações de relevância, o desempenho global pífio dos modelos impede que essas importâncias sejam traduzidas em regras de predição confiáveis. A convergência de baixa importância para a maioria das variáveis atmosféricas em todos os modelos testados sugere que, no período analisado em Piracicaba, as concentrações de poluentes podem não ter atingido níveis críticos de forma persistente o suficiente para causar danos mensuráveis em escala anual, ou que tais danos foram mascarados por outros fatores de manejo não incluídos no estudo.
A ausência de um impacto preditivo discernível pode ser atribuída a múltiplos fatores limitantes. Primeiramente, a restrição do dataset a apenas 11 amostras anuais impede a convergência de algoritmos de aprendizado de máquina, que tipicamente exigem grandes volumes de dados para generalização. Em segundo lugar, a natureza multifatorial da agricultura implica que o rendimento é mediado por variáveis de solo, genética, manejo e interações térmicas que não estavam totalmente representadas no conjunto de dados públicos. Além disso, a baixa variabilidade observada em poluentes como o ozônio, que se manteve frequentemente abaixo do limite crítico de 44 ppb, dificulta a captura de sinais de estresse oxidativo nos modelos estatísticos (Emberson et al., 2018). A discrepância entre a granularidade dos dados de entrada e a variável de saída também constitui uma barreira técnica significativa, evidenciando que a qualidade e a resolução dos dados são fatores tão cruciais quanto a escolha do algoritmo.
Pesquisas futuras devem buscar o acesso a dados de produtividade com maior frequência temporal ou expandir a análise para uma escala regional que englobe múltiplos municípios, aumentando assim o número de observações. A inclusão de variáveis de manejo agrícola, como o uso de fertilizantes e datas de plantio, poderia enriquecer os modelos e permitir uma melhor distinção entre variações climáticas e operacionais. A experiência deste estudo reforça que, embora as ferramentas de ciência de dados sejam poderosas, sua eficácia no setor agrícola depende intrinsecamente da robustez e da continuidade das séries históricas de dados públicos. A instabilidade preditiva encontrada reflete os desafios reais de aplicar inteligência artificial em cenários de dados escassos e com ruído informacional.
Conclui-se que o objetivo foi atingido ao estabelecer e avaliar as relações entre variáveis ambientais e a produtividade agrícola em Piracicaba, embora os modelos preditivos tenham demonstrado inviabilidade técnica sob as condições de dados disponíveis. A análise evidenciou que o limitado volume de amostras anuais e a baixa variabilidade nas concentrações de poluentes atmosféricos impediram a construção de um modelo de aprendizado de máquina com capacidade de generalização satisfatória, resultando em coeficientes de determinação consistentemente negativos. O estudo demonstra que a área plantada permanece como o principal preditor da produção total, enquanto os impactos de curto prazo do ozônio e de outros poluentes não puderam ser isolados estatisticamente na escala anual. Este trabalho contribui para o campo ao identificar os desafios intrínsecos à utilização de dados públicos de baixa granularidade e destaca a necessidade crítica de melhoria na coleta e disponibilização de dados agrícolas para viabilizar o sucesso de iniciativas de modelagem preditiva e suporte à decisão no agronegócio.
Referências Bibliográficas:
Avnery, S.; Mauzerall, D.; Liu, J. (2011). Global crop yield reductions due to surface ozone exposure: 1. Year 2000 crop production losses and economic damage. Atmospheric Environment 45(13): 2284-2296.
Emberson, L. D. et al. (2018). Ozone effects on crops and consideration in crop models. Environmental Pollution 243: 1118-1129.
Instituto Nacional de Pesquisas Espaciais [INPE]. (2025). Dados climáticos para agricultura. Disponível em: https://www.gov.br/inpe/pt-br.
Lobell, D. B.; Schlenker, W.; Costa-Roberts, J. (2011). Climate trends and global crop production since 1980. Science 333(6042): 616-620.
Oliveira, J. G. I. (2018). A poluição atmosférica e os seus efeitos na saúde da população do município de Volta Redonda. Dissertação (Mestrado em Engenharia Ambiental). Universidade Federal Fluminense, Niterói, RJ, Brasil.
Shahhosseini, M.; Martinez, R.; Hu, G. (2019). Maize yield and nitrate loss prediction with machine learning algorithms. Environmental Research Letters 14: 123-130.
Souza, G. S.; Alves, E.; Gomes, E. G. (2014). Pesquisa, Extensão e Políticas Públicas na Agricultura Brasileira. Embrapa, Brasília, DF, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em MBA em Data Science, Inteligência Artificial e Analytics
Saiba mais sobre o curso, clique aqui





































