
30 de janeiro de 2026
Previsão de vendas com gradient boosting e variáveis socioespaciais para expansão de lojas
Bruno Fructuoso Coelho de Souza; Gabriel Gomes de Oliveira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa desenvolve um modelo de regressão supervisionado para previsão de vendas na expansão de novas lojas de supermercados das bandeiras Pão de Açúcar e Mercado Extra. Utilizou-se o algoritmo CatBoost Regressor, uma implementação de Gradient Boosting, para integrar um conjunto de variáveis financeiras, sociodemográficas, espaciais e físicas dos anos de 2022 e 2024. O desempenho preditivo do modelo foi avaliado por meio do Coeficiente de Determinação (R²), da Raiz do Erro Quadrático Médio (RMSE) e do Erro Percentual Absoluto Médio (MAPE), para analisar sua acurácia e capacidade de generalização.
O setor supermercadista brasileiro é um pilar da economia nacional. De acordo com a Associação Brasileira de Supermercados (ABRAS, 2025), o setor alcançou um faturamento de R$ 1,067 trilhão em 2024, o que corresponde a 9,21% do PIB brasileiro. Este ecossistema é composto por aproximadamente 424 mil lojas de autosserviço, que englobam formatos como hipermercados, atacarejos e lojas de vizinhança (NielsenIQ, 2024; SEBRAE, 2024). O segmento Ranking ABRAS, que consolida dados de empresas participantes, oferece um panorama detalhado das tendências do setor.
Em 2024, com o consumo das famílias registrando um crescimento acumulado de 4,8% segundo o IBGE (2025), as estratégias de expansão tornaram-se cruciais. O Grupo Pão de Açúcar (GPA), por exemplo, inaugurou 60 novas unidades em 2024, ampliando sua rede para 726 lojas (ABRAS, 2025). A decisão de inaugurar uma nova filial é uma iniciativa de alto risco, cujo sucesso depende da interação de fatores como localização geográfica, perfil socioeconômico do consumidor, intensidade da concorrência e características físicas do ponto de venda. A compreensão desses elementos é vital para a formulação de estratégias competitivas eficazes (Kotler e Keller, 2016).
Nesse contexto competitivo, a utilização de modelos preditivos para a previsão de vendas emerge como um diferencial estratégico. A capacidade de estimar o faturamento potencial de uma nova loja permite mitigar os riscos financeiros associados ao investimento e otimizar a alocação de capital, direcionando os esforços de expansão para localidades com maior probabilidade de sucesso (Hyndman e Athanasopoulos, 2018). A análise estratégica, fundamentada em modelos robustos, é um caminho para a criação de vantagens competitivas sustentáveis (Porter, 1980). A integração de variáveis como dados geoespaciais e sociodemográficos detalhados enriquece a análise e eleva o potencial preditivo dos modelos.
A necessidade de superar abordagens tradicionais e incorporar a complexidade do ambiente urbano motivou a adoção de uma metodologia que combina geoprocessamento, análise espacial e aprendizado de máquina. A escolha do algoritmo CatBoost, baseado em Gradient Boosting Machines (Friedman, 2001), justifica-se por sua capacidade de lidar com dados de alta dimensionalidade, reduzir iterativamente os erros de previsão e gerenciar nativamente variáveis categóricas, o que simplifica o pré-processamento (Dorogush et al., 2018). Ao incorporar variáveis extraídas por meio de geoprocessamento, como a delimitação de áreas de influência por isócronas, o estudo amplia a compreensão do fenômeno de vendas e fornece um suporte analítico para a tomada de decisão no varejo.
A área de estudo foi delimitada às lojas da categoria supermercados do Grupo Pão de Açúcar (GPA), abrangendo as bandeiras Pão de Açúcar (PDA) e Mercado Extra (MEX). Geograficamente, a análise restringiu-se às unidades na Região Metropolitana de São Paulo (RMSP). A amostra totalizou 155 lojas, sendo 74 da bandeira PDA e 81 da bandeira MEX, com dados coletados para 2022 e 2024, resultando em 310 observações. A RMSP, composta por 39 municípios, concentra uma população de aproximadamente 21 milhões de habitantes e responde por cerca de 17% do PIB nacional (IBGE, 2022), caracterizando-se por dinamismo econômico, alta densidade demográfica e heterogeneidade socioespacial.
A metodologia iniciou-se com a análise espacial para delimitar as áreas de influência primária de cada loja. Utilizando o software ArcGIS Pro e a ferramenta Service Areas, foram geradas isócronas de 5 minutos de deslocamento de carro a partir de cada ponto de venda. Este limiar baseia-se em estudos internos que indicam que entre 60% e 70% do faturamento das lojas de formato supermercado origina-se de clientes dentro deste raio. Este procedimento utiliza uma malha viária detalhada, permitindo uma representação mais realista da acessibilidade do que raios de distância euclidiana (Longley et al., 2005). Subsequentemente, os polígonos de isócrona foram cruzados com os setores censitários do IBGE por meio da ferramenta Pairwise Intersect. Esta operação permitiu a extração de atributos demográficos e socioeconômicos, como densidade populacional e renda média, considerando apenas a porção do setor censitário contida na área de influência.
A construção da base de dados foi realizada em Python, envolvendo manipulação de dados e engenharia de atributos. A base final integrou indicadores sociodemográficos de 2022 (Censo IBGE) e projeções para 2024, com uma variável categórica “Ano” para diferenciar os períodos. Foram incluídas variáveis categóricas como “Bandeira” (PDA ou MEX) e “Posicionamento Horizontal Unidade” (Esquina ou Meio de Quadra). A engenharia de atributos gerou variáveis como “Domicílios AB”, “Renda Nominal CDE” e “Potencial de Consumo Total”. Duas variáveis estratégicas foram a “Densidade Demográfica”, calculada como a população residente dividida pela área da isócrona, e o “Potencial Remanescente”, uma métrica que estima o mercado disponível ao subtrair do potencial de consumo total o faturamento das lojas GPA e dos concorrentes no mesmo perímetro.
O processo de modelagem foi centrado no algoritmo CatBoost Regressor, escolhido por sua performance com dados tabulares e variáveis categóricas, que são tratadas internamente sem necessidade de codificação manual (Kuhn & Johnson, 2013). A variável dependente (y) foi o faturamento mensal médio da loja, e as variáveis independentes (X) compreenderam o conjunto de indicadores sociodemográficos, espaciais, comerciais e físicos. A amostra de 310 observações foi dividida em 85% para treinamento e 15% para teste, com um random_seed fixo para reprodutibilidade. O ajuste de hiperparâmetros foi realizado por validação cruzada com 7 k-folds para minimizar o Erro Quadrático Médio (MSE). Após o treinamento, o modelo gerou previsões no conjunto de teste, e seu desempenho foi avaliado com MSE, RMSE e R², comparando os resultados entre os conjuntos para verificar a generalização e identificar sobreajuste.
A implementação do modelo CatBoost Regressor produziu resultados robustos. O treinamento do algoritmo demonstrou convergência eficiente, atingindo o erro mínimo na base de teste em aproximadamente 100 iterações. A análise das métricas de avaliação confirmou a qualidade do ajuste. O modelo alcançou um Coeficiente de Determinação (R²) de 0,858 na base de treino e 0,840 na base de teste. A pequena diferença entre os valores de R² sugere que o modelo possui excelente capacidade de generalização, evitando sobreajuste.
Valores de R² superiores a 0,80 são considerados indicativos de um forte poder explicativo em modelos de regressão para ciências sociais e negócios (Hair et al., 2010). O resultado significa que aproximadamente 84% da variação no faturamento das lojas na amostra de teste pode ser explicada pelas variáveis independentes. As métricas de erro devem ser interpretadas no contexto da escala de faturamento. O modelo registrou um Erro Absoluto Médio (MAE) de 809.796,23 e uma Raiz do Erro Quadrático Médio (RMSE) de 1.264.975,06 na base de teste. A proximidade relativa entre os erros de treino (MAE = 607.922,20; RMSE = 1.066.980,35) e teste reforça a estabilidade do modelo.
A análise de importância das variáveis revelou que as características físicas das lojas são os principais determinantes do desempenho financeiro. A variável “Área de Venda” foi a mais influente, respondendo por 30,93% da importância total na previsão do faturamento. Este achado corrobora a prática do setor; o dimensionamento da loja se relaciona à capacidade de estocagem e variedade de sortimento. Em segundo lugar, a variável “Vagas Estacionamento” apareceu com 17,09% de importância, ressaltando o papel da acessibilidade e conveniência em uma metrópole como São Paulo.
O perfil socioeconômico da área de influência e o ambiente competitivo também se mostraram relevantes. A “Renda Nominal AB” (7,68%) e os “Domicílios CDE” (6,83%) emergiram como fatores importantes, indicando que tanto o poder de compra das classes altas quanto a densidade populacional de classes de menor renda influenciam o desempenho. A variável “Venda Total Concorrente” (5,59%) confirmou a importância da pressão competitiva. A “Bandeira” da loja (4,27%) também contribuiu, sugerindo que o posicionamento de marca associado a Pão de Açúcar ou Mercado Extra gera desempenhos diferenciados.
Variáveis teoricamente relevantes apresentaram baixo impacto preditivo. O “Posicionamento Horizontal Unidade” (esquina ou meio de quadra) teve uma contribuição de apenas 0,32%, sugerindo que este fator pode ser ofuscado por variáveis mais dominantes. Da mesma forma, o “Potencial de Consumo AB” (0,67%) teve uma importância menor que o esperado, possivelmente devido à multicolinearidade com a “Renda Nominal AB” ou a especificidades da distribuição de renda na RMSP.
A escolha da plataforma tecnológica e do algoritmo se provou vantajosa. O uso do CatBoost Regressor simplificou o pré-processamento de dados. Sua capacidade de lidar nativamente com variáveis categóricas eliminou a necessidade de técnicas como one-hot encoding, que podem aumentar a complexidade computacional. Essa característica tornou o fluxo de modelagem mais eficiente (Davenport, 2013). Os resultados validam a eficácia da abordagem e apontam para futuras oportunidades de aprimoramento, como a expansão da base de dados e o refinamento da engenharia de atributos para capturar dinâmicas de consumo com mais precisão.
O modelo de regressão desenvolvido demonstrou elevada capacidade preditiva para o faturamento de novas lojas, consolidando-se como uma ferramenta estratégica para apoiar a decisão de expansão comercial. A análise dos resultados confirmou que as variáveis físicas, como área de venda e número de vagas de estacionamento, exercem a influência mais forte sobre o desempenho, enquanto variáveis sociodemográficas e de concorrência atuam como fatores complementares. O algoritmo CatBoost Regressor provou ser eficiente ao lidar com a complexidade e diversidade dos dados e ao simplificar a preparação da base.
As conclusões reforçam a utilidade prática do modelo como instrumento analítico para a área de expansão. Sua aplicação permite uma avaliação objetiva e quantitativa do potencial de novos pontos comerciais, contribuindo para a redução de riscos de investimento e a otimização da alocação de capital. A integração de geoprocessamento e análise espacial com modelos de machine learning evidencia o potencial da ciência de dados no varejo. Conclui-se que o objetivo foi atingido: demonstrou-se que a integração de variáveis socioespaciais e físicas em um modelo de Gradient Boosting, especificamente o CatBoost Regressor, permite prever com alta acurácia o faturamento de novas lojas de supermercado, fornecendo um suporte robusto para decisões estratégicas de expansão.
Referências:
ASSOCIAÇÃO BRASILEIRA DE SUPERMERCADOS. Ranking ABRAS: levantamento de dados de empresas supermercadistas. São Paulo: ABRAS, 2025.
DAVENPORT, Thomas H. Analytics at Work: Smarter Decisions, Better Results. Boston: Harvard Business Review Press, 2013.
DOROGUSH, A. V.; ERSHOV, V.; GULTYAEV, A. CatBoost: gradient boosting with categorical features support. In: Advances in Neural Information Processing Systems (NeurIPS) 2018.
FRIEDMAN, Jerome H. Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics, v. 29, n. 5, p. 1189–1232, 2001.
HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E. Multivariate Data Analysis. 7. ed. Upper Saddle River: Prentice Hall, 2010.
HYNDMAN, Rob J.; ATHANASOPOULOS, George. Forecasting: Principles and Practice. 2. ed. OTexts, 2018.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Produto Interno Bruto – PIB: resultados de 2024. Rio de Janeiro: IBGE, 2025.
KOTLER, Philip; KELLER, Kevin Lane. Administração de Marketing. 15. ed. São Paulo: Pearson, 2016.
KUHN, Max; JOHNSON, Kjell. Applied Predictive Modeling. New York: Springer, 2013.
LONGLEY, Paul A.; GOODCHILD, Michael F.; MAGUIRE, David J.; RHIND, David W. Geographical Information Systems and Science. 2. ed. Chichester: Wiley, 2005.
NIELSENIQ. Estrutura do Varejo Brasileiro: estudo NielsenIQ. São Paulo: NielsenIQ, 2024.
PORTER, Michael E. Competitive Strategy: Techniques for Analyzing Industries and Competitors. New York: Free Press, 1980.
SERVIÇO BRASILEIRO DE APOIO ÀS MICRO E PEQUENAS EMPRESAS. Estrutura do Varejo Brasileiro: estudo SEBRAE nacional. Brasília: SEBRAE, 2024.
WITTEN, Ian H.; FRANK, Eibe; HALL, Mark A.; PAL, Christopher J. Data Mining: Practical Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann, 2011.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































