
30 de janeiro de 2026
Padrões de associação entre produtos, regiões e fretes em marketplaces digitais
Bruno Henrique Payao dos Santos; Douglas Augusto de Paula
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo teve como objetivo identificar e analisar os padrões de associação entre subgrupos de produtos, regiões de comercialização e modalidades logísticas em marketplaces digitais, por meio da Análise de Correspondência Múltipla (MCA). A investigação buscou fornecer evidências empíricas para a compreensão da lógica de distribuição em um mercado de vasta diversidade de produtos, complexidade logística e desigualdade regional, preenchendo uma lacuna na literatura nacional sobre a aplicação de técnicas multivariadas a dados de comércio eletrônico. A pesquisa mapeou como categorias de produtos (eletrônicos, artigos domésticos) se relacionam com as cinco macrorregiões brasileiras e com um portfólio de serviços de frete (fulfillment, self service, cross_docking) para revelar estratégias operacionais e suas implicações gerenciais.
A complexidade das cadeias de suprimentos, impulsionada pelo crescimento do comércio eletrônico, impôs desafios à gestão logística. O aumento no volume de transações e a pressão por eficiência e redução de custos evidenciam a necessidade de análises sofisticadas sobre a inter-relação entre perfis de produtos, distribuição geográfica e estratégias logísticas (Ballou, 2006). Nesse contexto, a investigação de associações entre múltiplas variáveis categóricas é fundamental para compreender como diferentes fatores influenciam a seleção de modalidades de frete e a configuração territorial da distribuição em um país como o Brasil (Bowersox, Closs, & Cooper, 2014).
Do ponto de vista gerencial, a compreensão dessas associações oferece subsídios para decisões estratégicas em planejamento de estoques, otimização de canais de distribuição e parcerias logísticas. A identificação de padrões em grandes volumes de dados auxilia na otimização de custos e na melhoria do nível de serviço ao consumidor, que possui expectativas elevadas quanto à rapidez e confiabilidade das entregas (Christopher, 2016). Diante disso, a aplicação de técnicas de análise estatística multivariada, como a Análise de Correspondência Múltipla (MCA), apresenta-se como uma ferramenta metodológica robusta para desvendar tais padrões em bases de dados de marketplaces.
A literatura científica tem explorado o uso de métodos multivariados para analisar dados logísticos. Hair et al. (2019) destacam que técnicas exploratórias como a análise de correspondência são eficazes para interpretar relações complexas entre variáveis categóricas em contextos de mercado. Greenacre (2017) demonstra como a MCA pode ser aplicada para visualizar associações entre produtos, preferências de clientes e modalidades de serviços. Estudos aplicados reforçam essa relevância, com Fávero e Belfiore (2024) apontando que a MCA é útil em cenários com elevado número de categorias e assimetrias de distribuição, características comuns em dados logísticos. A robustez do método, como apontado por Lebart, Morineau e Piron (1995), reside na sua capacidade de capturar dependências significativas entre variáveis.
Apesar dos avanços, persistem lacunas na pesquisa no contexto brasileiro. A maioria dos estudos foca em análises de consumo ou preferências de clientes (Greenacre & Blasius, 2006), com escassez de pesquisas que apliquem a MCA para compreender a interação entre subgrupos de produtos, regiões e modalidades logísticas em marketplaces nacionais. Essa lacuna é relevante no Brasil; a desigualdade na infraestrutura logística regional impacta as cadeias de suprimentos. O problema de pesquisa foi: como se configuram as associações entre diferentes subgrupos de produtos, regiões geográficas e modalidades de frete em marketplaces digitais, e quais padrões logísticos podem ser identificados? A resposta é crucial para desvendar a lógica das escolhas logísticas, revelando quais produtos estão associados a fretes premium e quais combinações apresentam maior dependência estatística.
A pesquisa foi classificada como aplicada, pois buscou gerar conhecimento para a solução de problemas práticos em logística e e-commerce (Gil, 2019). Quanto aos objetivos, o estudo foi descritivo e exploratório. Descritivo ao identificar e analisar as associações entre as variáveis categóricas sem interferir nos fenômenos, e exploratório ao buscar familiaridade com o problema e levantar hipóteses sobre padrões pouco investigados no contexto nacional (Vergara, 2016). A abordagem foi quantitativa, com dados tratados estatisticamente por meio de testes de hipóteses (qui-quadrado) e técnicas multivariadas (MCA) para mensurar a intensidade das associações.
Em relação aos procedimentos técnicos, a pesquisa foi um estudo documental, utilizando uma base de dados secundária com 397.549 registros e 41 variáveis originais de uma empresa de marketplaces. Foram selecionadas as variáveis categóricas nominais “Sub-Grupo” (categoria de produtos), “Região” (macrorregiões do Brasil) e “Tipo de Frete” (modalidades como fulfillment, self service, Shopee Xpress, Magalu Entregas e cross_docking). A amostra foi definida intencionalmente, com um filtro Top-5 para as variáveis “Sub-Grupo” e “Tipo de Frete”, mantendo todas as categorias de “Região”. Esta decisão metodológica visou equilibrar representatividade e clareza interpretativa, evitando a sobreposição de categorias nos mapas perceptuais.
O tratamento dos dados foi conduzido em Python 3. x, com as bibliotecas pandas e NumPy. O processo incluiu análise exploratória, limpeza de dados e conversão de variáveis para o tipo “string”. Foram calculadas as frequências absolutas de cada categoria para fundamentar a aplicação do critério Top-5, preservando as cinco categorias mais recorrentes de subgrupo de produto e tipo de frete. Esta abordagem, alinhada às práticas recomendadas por Fávero e Belfiore (2024), melhorou a robustez estatística e permitiu uma interpretação mais clara. O processo foi documentado em scripts para garantir a reprodutibilidade.
A análise estatística foi estruturada em três fases. Primeiro, foram construídas tabelas de contingência para os cruzamentos “Sub-Grupo × Região”, “Sub-Grupo × Tipo de Frete” e “Região × Tipo de Frete”, permitindo uma visualização inicial das distribuições. Conforme Hair et al. (2019), este passo subsidia a aplicação de testes inferenciais. Na segunda fase, aplicou-se o teste de independência do qui-quadrado (χ²) a cada combinação para avaliar se as distribuições observadas diferiam do esperado sob a hipótese de independência (Marôco, 2018). A terceira fase consistiu na aplicação da Análise de Correspondência Múltipla (MCA), técnica escolhida por sua capacidade de reduzir a dimensionalidade e representar graficamente as associações entre categorias, facilitando a interpretação dos padrões (Greenacre, 2017; Fávero & Belfiore, 2024).
A análise das tabelas de contingência revelou padrões de distribuição claros. A relação entre subgrupos de produtos e regiões demonstrou uma concentração de vendas na Região Sudeste para todas as categorias. O subgrupo “Sem subgrupo” registrou mais de 57 mil ocorrências no Sudeste. Produtos como “Espelho” e “Prato” seguiram essa tendência, com mais de 20 mil e 16 mil registros no Sudeste, respectivamente, e participações secundárias relevantes no Sul e Nordeste. A Região Norte apresentou os menores volumes em todas as categorias, evidenciando disparidade regional.
A associação entre subgrupos de produtos e modalidades de frete indicou preferências logísticas distintas. O subgrupo “Espelho” mostrou forte afinidade com a modalidade Shopee Xpress (mais de 20 mil envios). Em contraste, “Luz LED” teve como principal modalidade o fulfillment (mais de 5,6 mil registros), seguido pelo crossdocking. O produto “Prato” utilizou majoritariamente o Shopee Xpress, com participação relevante do crossdocking. O grupo “Sem subgrupo” distribuiu-se por todas as modalidades, com destaque para Shopee Xpress, cross_docking e self service. Os resultados sugerem que características do produto influenciam a escolha da estratégia logística.
A análise da relação entre regiões e tipos de frete reforçou a centralidade do Sudeste como hub logístico. Esta região concentrou o maior volume em todas as modalidades, com destaque para Shopee Xpress (quase 41 mil registros), crossdocking (cerca de 29 mil) e self service (aproximadamente 24 mil). O Sudeste também liderou o uso de serviços como o fulfillment (quase 14 mil ocorrências), indicando uma infraestrutura logística mais diversificada. A Região Sul apareceu como o segundo polo mais relevante, com forte presença em Shopee Xpress e crossdocking. O Nordeste teve participação significativa, especialmente na modalidade Shopee Xpress. Em contraste, a Região Norte registrou os menores volumes, com participação quase nula em self service, apontando para uma oferta de serviços logísticos limitada.
Para validar estatisticamente as associações, o teste de independência do qui-quadrado foi aplicado. Os resultados confirmaram que todas as associações foram altamente significativas (p < 0,001), rejeitando a hipótese nula de independência. A associação entre “Sub-Grupo” e “Região” apresentou uma estatística χ² de 1.749,81. A relação entre “Sub-Grupo” e “Tipo de Frete” revelou a dependência mais forte, com χ² de 29.051,42, evidenciando que a escolha da modalidade logística está atrelada ao tipo de produto. A associação entre “Região” e “Tipo de Frete” também foi robusta, com χ² de 17.255,56, comprovando que a disponibilidade e utilização dos serviços de frete são heterogêneas no território nacional.
A aplicação da MCA no cenário Top-5 gerou um modelo com inércia total de aproximadamente 4,0. As duas primeiras dimensões explicaram 22,78% da variância total (12,04% pela Dimensão 1 e 10,73% pela Dimensão 2). Embora o percentual não seja elevado, é considerado adequado para estudos de MCA com muitas categorias, permitindo uma representação bidimensional interpretável (Fávero & Belfiore, 2024). O mapa perceptual resultante ofereceu uma visualização clara das relações. A Região Sudeste posicionou-se no centro do gráfico, confirmando sua condição de hub logístico dominante, conectada a múltiplas modalidades de frete e subgrupos de produtos.
O mapa perceptual revelou associações específicas. O subgrupo “Luz LED” apareceu em grande proximidade com a modalidade “fulfillment”, indicando que esta categoria é distribuída por uma logística mais estruturada. O subgrupo “Espelho” posicionou-se muito próximo ao “Shopee Xpress”, confirmando a concentração de seus envios nesta modalidade. O subgrupo “Prato” apresentou maior afinidade com o “cross_docking”. As regiões Nordeste e Sul posicionaram-se de forma intermediária, enquanto Centro-Oeste e Norte ficaram em áreas periféricas do mapa, indicando menor diversidade e intensidade nas associações logísticas.
Em contrapartida, a MCA realizada com o cenário completo, incluindo todas as categorias, mostrou-se inadequada para interpretação. O modelo resultante explicou apenas 1,31% da variância total nas duas primeiras dimensões (0,68% na Dimensão 1 e 0,63% na Dimensão 2). O mapa perceptual gerado apresentou grande concentração de pontos no centro e dispersão excessiva, com sobreposição de categorias que impossibilitou a identificação de padrões. Este resultado reforçou a pertinência da decisão metodológica de utilizar o recorte Top-5, que produziu um mapa mais limpo e informativo, alinhado aos objetivos da pesquisa.
A discussão dos resultados confirma a robustez dos achados. A centralidade do Sudeste como hub logístico é consistente com estudos que apontam o eixo Sudeste-Sul como o mais estruturado (Fávero & Belfiore, 2024). As associações específicas entre produtos e fretes, como “Luz LED” com “fulfillment”, reforçam a aplicabilidade da MCA em logística, como demonstrado por Greenacre (2017) e Greenacre e Blasius (2006). Este estudo avança ao aplicar a técnica a dados de marketplaces brasileiros. A associação de produtos a modalidades premium converge com a visão de Christopher (2016) sobre a demanda por rapidez e confiabilidade. A baixa variância explicada no cenário completo sugere que as particularidades do mercado brasileiro exigem abordagens analíticas focadas, como o recorte Top-5.
Em conclusão, a pesquisa atingiu seus objetivos ao identificar e interpretar as associações entre subgrupos de produtos, regiões e modalidades de frete. A análise confirmou a existência de padrões estruturados, e a MCA no cenário Top-5 permitiu visualizar a centralidade logística da Região Sudeste e as afinidades entre produtos e serviços de entrega. As contribuições do trabalho são acadêmicas, ao demonstrar a aplicabilidade da MCA em dados de marketplaces, e práticas, ao oferecer subsídios para gestores otimizarem suas estratégias. As limitações incluem o foco em um único marketplace e o uso exclusivo de variáveis categóricas. O modelo completo da MCA, com sua baixa variância explicada, também representa uma limitação metodológica contornada pelo recorte analítico.
Para trabalhos futuros, sugere-se a inclusão de dados de múltiplos marketplaces e a análise de séries temporais. A incorporação de variáveis quantitativas, como custos de frete e prazos de entrega, permitiria análises mais robustas. A aplicação de técnicas complementares, como análise de clusters, poderia aprofundar a compreensão dos perfis logísticos. Conclui-se que o objetivo foi atingido: demonstrou-se empiricamente os padrões de associação entre subgrupos de produtos, regiões geográficas e modalidades de frete em marketplaces digitais, revelando a centralidade logística do Sudeste e as afinidades específicas entre produtos e serviços de entrega.
Referências:
Ballou, R. H. Logística empresarial: transportes, administração de materiais e distribuição física. 5. ed. Porto Alegre: Bookman, 2006.
Christopher, M. Logística e gerenciamento da cadeia de suprimentos: estratégias para a redução de custos e melhoria dos serviços. 2. ed. São Paulo: Cengage Learning, 2016.
Evangelista, P.; SANTORO, L.; THOMAS, A. Environmental sustainability in third-party logistics service providers: A systematic literature review from 2000–2016. Sustainability, v. 12, n. 23, p. 1-27, 2020. DOI: https://doi. org/10.3390/su122310572
Fávero, L. P., & Belfiore, P. (2024). Análise de dados: técnicas multivariadas exploratórias e confirmatórias com aplicações usando R. Elsevier.
Gil, A. C. (2019). Métodos e técnicas de pesquisa social (7ª ed.). Atlas.
Greenacre, M. J. (2017). Correspondence analysis in practice (3rd ed.). Chapman & Hall/CRC.
Greenacre, M. J., & Blasius, J. (Eds.). (2006). Multiple correspondence analysis and related methods. Chapman & Hall/CRC.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2019). Multivariate data analysis (8th ed.). Cengage Learning.
Lebart, L., Morineau, A., & Piron, M. (1995). Statistique exploratoire multidimensionnelle. Dunod.
Marôco, J. (2018). Análise estatística com o SPSS Statistics (7ª ed.). ReportNumber.
Vergara, S. C. (2016). Projetos e relatórios de pesquisa em administração (16ª ed.). Atlas.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































