
30 de janeiro de 2026
Avaliação da eficácia de arremessos no beisebol com modelos de árvores de decisão
Bruno Hideki Nakata; Wilson Tarantin Junior
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa foi construir e validar um método que, a partir de dados físicos e contextuais de arremessos no beisebol, emprega uma cadeia de modelos de árvores de decisão para estimar probabilidades de desfecho e gerar um indicador de desempenho de arremessadores, o “Expected Run Value” (𝑥𝑅𝑉). A proposta supera as limitações de métricas tradicionais, influenciadas por fatores externos como a qualidade da defesa e a sorte, para oferecer uma avaliação mais justa da habilidade intrínseca do arremessador. O estudo utiliza aprendizado de máquina para isolar a contribuição do atleta dos resultados observados em campo.
O beisebol é estruturado em torno do confronto entre arremessador e rebatedor. A defesa, liderada pelo arremessador, busca registrar três eliminações (outs) para encerrar o ataque adversário, que por sua vez tenta marcar corridas (runs). O arremessador utiliza um arsenal de arremessos com diferentes velocidades, movimentos e localizações para induzir o rebatedor ao erro, seja por um swing malsucedido (strikeout) ou por um contato fraco que resulte em uma eliminação. A complexidade estratégica desse duelo define o resultado de uma partida.
Historicamente, a avaliação de desempenho no beisebol dependia de estatísticas como o ERA (Earned Run Average), que mede a média de corridas cedidas por um arremessador, e o AVG (Batting Average). Contudo, essas métricas são falhas por não isolarem a performance do arremessador de variáveis de confusão. Por exemplo, um arremesso de alta qualidade pode resultar em uma rebatida devido a um posicionamento defensivo inadequado ou sorte, penalizando injustamente o arremessador. Da mesma forma, um arremesso ruim pode ser salvo por uma jogada defensiva espetacular. Essa dependência do resultado final obscurece a avaliação da qualidade intrínseca do arremesso.
A análise esportiva foi revolucionada por tecnologias de rastreamento de alta precisão. Sistemas como o Hawk-Eye (Owens et al., 2003), o TrackMan (Ristagno, 2010) e a plataforma Statcast (Major League Baseball, 2025), implementada em todos os estádios da Major League Baseball (MLB), capturam dezenas de variáveis para cada arremesso. Dados como velocidade, taxa de rotação (spin rate), ponto de soltura e vetores de movimento tornaram-se disponíveis. Essa riqueza de dados permite a aplicação de aprendizado de máquina para modelar a eficácia dos arremessos com base nas características que o arremessador controla diretamente.
Nesse contexto, surgiram métricas avançadas que quantificam o valor de cada evento em termos de seu impacto na expectativa de corridas. Abordagens como Linear Weights (Tango et al., 2007), implementadas em plataformas como FanGraphs (2025a), atribuem um valor fixo a cada desfecho. Modelos mais recentes como Pitching+ e PitchingBot (FanGraphs, 2025b,c) e trabalhos acadêmicos (Yee e Deshpande, 2023) avançaram ao modelar a probabilidade de cada desfecho condicionalmente. Este trabalho segue essa linha, propondo uma cadeia de modelos que espelha a hierarquia de um arremesso: decisão de swing, ocorrência de contato, distinção entre bola em jogo e foul, e o resultado final. A agregação dessas probabilidades condicionais permite o cálculo de um 𝑥𝑅𝑉 robusto e interpretável.
Os dados foram extraídos da plataforma Statcast via biblioteca PyBaseball (2025) em Python, abrangendo as temporadas regulares de 2022, 2023 e 2024. O conjunto de dados inicial continha 2.134.734 registros e 118 variáveis. Após um processo de limpeza, o conjunto final para modelagem foi consolidado em 2.124.417 arremessos. Foram selecionadas 16 variáveis explicativas, incluindo a velocidade de liberação (releasespeed), a taxa de rotação (releasespinrate), a mão do arremessador (pthrows), o lado do rebatedor (stand), a contagem de bolas e strikes, os movimentos horizontal e vertical da bola (pfxx, pfxz), a localização final do arremesso (platex, platez), o tipo de arremesso (pitchtype), as coordenadas do ponto de soltura (releaseposx, y, z) e os limites da zona de strike (sztop, sz_bot).
A metodologia adotada foi o encadeamento de modelos de árvores de decisão XGBoost para refletir a sequência hierárquica de eventos de um arremesso. Essa abordagem foi preferida a um classificador multiclasse por melhorar a interpretabilidade, permitir um diagnóstico preciso de falhas e alinhar-se ao cálculo do valor esperado. A sequência de modelos foi estruturada da seguinte forma: 1) Modelo Swing, que prevê a probabilidade de o rebatedor tentar a rebatida; 2) Modelo Não-Swing, que classifica o arremesso como bola ou strike por zona; 3) Modelo de Contato, que prevê a probabilidade de contato versus um swing sem contato; 4) Modelo Foul Ball, que distingue entre uma bola em jogo e uma foul ball; 5) Modelo Bola em Jogo, que classifica o resultado entre os diversos tipos de rebatidas e eliminações.
Cada modelo foi treinado com divisão dos dados em conjuntos de treino, validação e teste, usando técnicas como “early stopping” para evitar sobreajuste e ponderação de classes para lidar com desbalanceamentos. No Modelo de Contato, foi aplicada a regressão isotônica para calibrar as probabilidades de saída, garantindo que refletissem as frequências observadas e evitando a propagação de vieses. O Modelo Bola em Jogo foi subdividido em uma estrutura de três estágios: um classificador binário para prever rebatida versus eliminação, seguido por dois modelos multiclasse distintos, um para detalhar os tipos de rebatidas (simples, dupla, tripla, home run) e outro para os tipos de eliminações (field out, force out, etc.).
Para o cálculo do 𝑥𝑅𝑉, a cadeia de modelos gerou um vetor de probabilidades incondicionais para todos os desfechos de cada arremesso. Em paralelo, foi utilizada uma matriz de Run Value (RV), calculada a partir de dados históricos da MLB (2010-2015), que atribui um valor de corridas esperadas para cada combinação de estado de jogo (eliminações e corredores em base). A variação no valor de corridas (ΔRV) para cada desfecho foi calculada como a diferença entre o RV do estado do jogo após o evento e o RV do estado antes do evento. O 𝑥𝑅𝑉 de um arremesso foi definido como a soma ponderada dos ΔRVs de todos os desfechos possíveis, com os pesos sendo as probabilidades previstas pelos modelos. Valores negativos de 𝑥𝑅𝑉 indicam um arremesso favorável à defesa.
A análise exploratória dos dados validou a seleção das variáveis. A velocidade do arremesso (releasespeed) demonstrou forte correlação inversa com o aproveitamento de rebatidas (Avg); um aumento de velocidade de 90 para 102 mph em bolas rápidas resultou em uma queda drástica no Avg. A taxa de rotação (releasespinrate) também se mostrou crucial, com rotações mais altas dificultando o contato de qualidade. O movimento da bola, horizontal (pfxx) e vertical (pfx_z), apresentou relações complexas e dependentes do tipo de arremesso. Para sliders, um maior movimento horizontal foi associado a um menor Avg. A localização do arremesso foi determinante, com arremessos no centro da zona resultando nos maiores índices de Avg (0,329), enquanto os cantos foram mais favoráveis aos arremessadores. Fatores contextuais, como a contagem de bolas e strikes, exibiram grande influência, com o Avg caindo drasticamente em contagens com dois strikes.
A avaliação dos modelos multivariados revelou um desempenho robusto nas etapas iniciais da cadeia. O Modelo Swing alcançou um ROC-AUC de 0,893, demonstrando alta capacidade de discriminar arremessos que induzem um swing. O Modelo Não-Swing foi ainda mais preciso, com um ROC-AUC de 0,987, separando “called strikes” de “balls”. O Modelo de Contato apresentou um desempenho moderado (ROC-AUC de 0,771), indicando que, embora as características do arremesso contenham sinal preditivo, outros fatores não modelados (como a habilidade do rebatedor) também desempenham um papel importante.
As principais limitações do método foram identificadas nos modelos finais da cadeia. O Modelo Foul Ball, encarregado de distinguir entre uma bola em jogo e uma foul ball, apresentou um desempenho apenas ligeiramente superior ao aleatório (ROC-AUC de 0,635). Isso sugere que a diferença entre esses dois resultados é sutil e difícil de prever apenas com dados do arremesso. De forma mais acentuada, o Modelo Bola em Jogo (BIP) exibiu um sinal preditivo muito fraco (ROC-AUC de 0,548) para diferenciar rebatidas de eliminações. Esse resultado indica que, uma vez que a bola é colocada em jogo, o resultado é predominantemente determinado pela qualidade do contato e pela defesa, e não tanto pelas características iniciais do arremesso.
Apesar dessas limitações, a métrica final 𝑥𝑅𝑉 demonstrou ser consistente e válida. A distribuição do 𝑥𝑅𝑉 por arremesso foi centrada em um valor médio de -0,0459, o que é esperado, pois a maioria dos arremessos resulta em uma pequena redução na expectativa de corridas para o ataque. A validação qualitativa, realizada ao agregar o 𝑥𝑅𝑉 por jogador, mostrou que os líderes do ranking de 𝑥𝑅𝑉 total coincidiam com os principais candidatos e vencedores do prêmio Cy Young. Nomes como Sandy Alcantara, Gerrit Cole e Zack Wheeler figuraram consistentemente no topo da lista, fornecendo forte evidência de validade de construto.
A validação quantitativa foi realizada pela análise de correlação entre o 𝑥𝑅𝑉 médio por arremesso (𝑥𝑅𝑉perpitch) e as métricas tradicionais RA9 (corridas totais cedidas por 9 entradas) e ERA. A correlação de Pearson ponderada foi moderada e positiva (0,381 com RA9 e 0,380 com ERA), indicando que arremessadores com um 𝑥𝑅𝑉 menos negativo (pior desempenho) tendem a ceder mais corridas. A força moderada da correlação é, em parte, explicada pelas incertezas dos modelos Foul e BIP, mas também reflete a própria natureza do 𝑥𝑅𝑉: ele foi projetado para medir o processo, não o resultado, e, portanto, não se espera que se correlacione perfeitamente com métricas de resultado influenciadas por defesa e sorte.
A análise estratificada por tipo de arremessador (iniciantes vs. relevistas) e por temporada revelou que as correlações foram ligeiramente mais fortes para os arremessadores iniciantes (starters), que acumulam um volume maior de arremessos. A estabilidade da correlação ao longo das temporadas de 2022 a 2024 sugere que o modelo captura relações fundamentais e duradouras. A métrica 𝑥𝑅𝑉 proposta se posiciona como uma ferramenta de avaliação que substitui a atribuição binária do desfecho observado por uma distribuição de probabilidades, oferecendo um ranqueamento mais estável da qualidade do arremessador.
Em conclusão, este trabalho desenvolveu e validou uma metodologia baseada em uma cadeia de modelos de árvores de decisão para avaliar a eficácia dos arremessos no beisebol. A métrica resultante, Expected Run Value (𝑥𝑅𝑉), oferece uma medida do impacto esperado em corridas para cada arremesso, avaliando a qualidade intrínseca do processo em vez de se basear apenas no resultado observado. A abordagem demonstrou separar com maior clareza a contribuição do arremessador
Referências:
FanGraphs. 2025a. Linear weights. Disponível em: https://library. fangraphs. com/principles/linear-weights/. Acesso em: 13 dez. 2025.
FanGraphs. 2025b. PitchingBot pitch modeling primer. Disponível em: https://library. fangraphs. com/pitching/pitchingbot-pitch-modeling-primer/. Acesso em: 13 dez. 2025.
FanGraphs. 2025c. Stuff+, Location+, and Pitching+ primer. Disponível em: https://library. fangraphs. com/pitching/stuff-location-and-pitching-primer/. Acesso em: 13 dez. 2025.
Major League Baseball. 2025. Baseball Savant. Disponível em: https://baseballsavant. mlb. com/. Acesso em: 17 mar. 2025.
Owens, N.; Harris, C.; Stennett, C. 2003. Hawk-eye tennis system. Proceedings of the International Conference on Visual Information Engineering – VIE 2003: 182-185.
PyBaseball. 2025. PyBaseball: A Python package for baseball data analysis. Disponível em: https://github. com/jldbc/pybaseball. Acesso em: 17 mar. 2025.
Ristagno, R. 2010. An Introduction to TrackMan Baseball. SABR40. Apresentação (slides). August 2010.
Tango, T.; Lichtman, M.; Dolphin, A. 2007. The Book: Playing the Percentages in Baseball. Potomac Books, Washington, DC, EUA.
Yee, R.; Deshpande, S. K. 2023. Evaluating plate discipline in Major League Baseball with Bayesian Additive Regression Trees. arXiv:2305.05752.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































