Imagem Modelo de Regressão logística para classificação de óbito em pacientes com HIV no Brasil

Saúde

10 de dezembro de 2025

Modelo de Regressão logística para classificação de óbito em pacientes com HIV no Brasil

Autor: Fabiano Gomes de Almeida — Orientador: João Vitor Matos Gonçalves

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo desta pesquisa foi desenvolver e validar um modelo de regressão logística para identificar os fatores associados à mortalidade em pacientes adultos com HIV no Brasil, utilizando dados do Sistema de Informações de Agravos de Notificação (SINAN). A análise buscou determinar os preditores de risco e gerar um escore individualizado aplicável a novos pacientes, servindo como ferramenta para direcionar ações preventivas, otimizar recursos terapêuticos e aprimorar a gestão clínica no Sistema Único de Saúde (SUS). A intenção é fornecer subsídios quantitativos para a estratificação de pacientes com base na probabilidade de óbito, possibilitando intervenções personalizadas para os perfis de maior vulnerabilidade.

A relevância do estudo ancora-se no desafio que a epidemia de HIV/AIDS representa para a saúde pública. Apesar dos avanços no acesso ao diagnóstico e à terapia antirretroviral (TARV), as taxas de mortalidade ainda são consideráveis, especialmente em populações específicas e regiões com barreiras de acesso (Oliveira et al., 2020). A heterogeneidade da epidemia no Brasil exige a compreensão dos fatores demográficos, clínicos e comportamentais que influenciam o desfecho clínico. Nesse contexto, a aplicação de modelos estatísticos em grandes bases de dados governamentais, como as do DATASUS, é uma abordagem fundamental para transformar dados em inteligência estratégica para a tomada de decisão em saúde (Souza, 2018).

A regressão logística, uma técnica de aprendizagem de máquina supervisionada, é adequada para modelar a relação entre variáveis preditoras e um desfecho binário, como a ocorrência de óbito. Diferente de análises descritivas, um modelo preditivo permite antecipar cenários e identificar padrões não aparentes, fortalecendo a capacidade do sistema de saúde de agir proativamente (Santos, 2019). Este trabalho alinha-se às tendências de medicina baseada em evidências e gestão de saúde orientada por dados, buscando traduzir a complexidade epidemiológica em uma ferramenta prática.

A base de dados utilizada, do arquivo HIVA do SINAN, consolida informações de notificação compulsória de casos de HIV em adultos. A variedade de variáveis, abrangendo características sociodemográficas, clínicas e de exposição, permitiu a construção de um modelo multifatorial robusto. A análise desses dados possibilita confirmar fatores de risco conhecidos e identificar novas associações específicas do contexto brasileiro, contribuindo para o conhecimento sobre a dinâmica da mortalidade por HIV no país (Lima & Costa, 2021).

Este estudo busca fortalecer a ponte entre a pesquisa e a prática clínica e de gestão. Ao gerar um modelo validado com alto poder de discriminação, a pesquisa oferece um instrumento que pode ser integrado aos processos de monitoramento, auxiliando equipes de saúde na identificação precoce de indivíduos que necessitam de atenção intensificada. A capacidade de gerar um escore de risco quantifica a vulnerabilidade de cada paciente, permitindo uma alocação mais eficiente de recursos e contribuindo para reduzir a mortalidade e melhorar a qualidade de vida das pessoas que vivem com HIV no Brasil.

A metodologia iniciou-se com a coleta e preparação dos dados extraídos do arquivo HIVA do SINAN, compreendendo notificações de HIV em adultos de 2015 a 2023. O conjunto de dados inicial continha 76 variáveis, incluindo informações de notificação, demográficas (sexo, idade, raça, escolaridade), histórico de exposição, comorbidades, manifestações clínicas e evolução do caso (óbito e data).

O público-alvo foi definido como pacientes adultos com HIV atendidos na rede pública, e o desfecho de interesse, a mortalidade. A base foi filtrada pela variável EVOLUCAO, selecionando os registros “Vivo”, “Óbito por AIDS” ou “Óbito por outras causas”. A variável resposta (target) foi construída com um horizonte preditivo de 12 meses a partir do primeiro dia do ano da notificação. Este período mostrou-se o mais equilibrado entre o volume de eventos e o tempo de maturação para avaliação. A variável resposta binária assumiu valor 1 se o óbito ocorreu em 12 meses e 0 caso contrário. Os dados foram segmentados em conjuntos de treinamento e teste (safras 2015-2020), validação “out of time” (2021-2022) e produção (2023).

A análise exploratória de dados foi fundamental para a preparação das variáveis. A análise univariada avaliou a frequência de categorias, a prevalência de dados ausentes e inconsistências. Para variáveis quantitativas, calcularam-se estatísticas descritivas. A análise bivariada investigou a relação entre cada preditor potencial e a variável resposta, utilizando o cálculo do risco relativo (razão entre a probabilidade de não óbito e de óbito). Com base nesses valores, categorias de variáveis qualitativas foram agrupadas para otimizar o poder preditivo e garantir monotonicidade. Para variáveis quantitativas, criaram-se faixas baseadas em quantis, também agrupadas por risco relativo. O processo resultou em 25 variáveis candidatas para a modelagem (4 quantitativas e 21 qualitativas).

Para a construção do modelo, empregou-se o algoritmo de regressão logística (Fávero & Belfiore, 2024). As 25 variáveis selecionadas foram convertidas em “dummies”, com uma categoria de referência omitida para cada variável original para evitar multicolinearidade. A seleção das variáveis mais relevantes foi automatizada pelo procedimento “stepwise”, que busca um equilíbrio entre complexidade e poder explicativo. A ausência de multicolinearidade foi verificada pelo Fator de Inflação da Variância (VIF). A validação do modelo foi realizada com a Área Sob a Curva ROC (AUROC) e o teste de Kolmogorov-Smirnov (KS) para avaliar o poder de discriminação, e o Índice de Estabilidade da População (PSI) para monitorar a performance ao longo do tempo.

A preparação dos dados partiu de 410.291 registros (2015-2023). Foram descartadas 39 das 76 variáveis originais por alta incidência de dados ausentes (>99%) ou falta de variabilidade. Após filtros no campo EVOLUCAO, a base foi consolidada em 389.661 registros. A definição da variável resposta, TARGET12, com horizonte de 12 meses, garantiu volume suficiente de eventos, permitindo o uso das safras de 2021 e 2022 como amostra “out of time”. A base final para análise totalizou 389.038 registros.

A análise exploratória bivariada, sobre 272.628 registros de treino e teste, refinou o conjunto de preditores. De 35 variáveis iniciais, 10 foram excluídas por baixa representatividade, ausência de poder de discriminação ou comportamento contraintuitivo. As 25 restantes passaram por engenharia de atributos, incluindo criação de variáveis de tempo, indicadores binários (gestação) e reagrupamento de categorias por risco relativo. As cinco variáveis com maior poder de discriminação mostraram correlação direta entre risco relativo e taxas de óbito: categorias com risco “Bom” tiveram mortalidade inferior à média geral (1,56%), enquanto as com risco “Mau” exibiram taxas superiores. A variável idade (vn01_IDADE), por exemplo, demonstrou ordenação decrescente do risco relativo (maior chance de sobrevivência) com a diminuição da idade, validando sua consistência.

A modelagem utilizou regressão logística binária sobre as 25 variáveis. Após a criação de “dummies”, o procedimento “stepwise” na base de treinamento (190.839 registros) selecionou 24 “dummies” estatisticamente significativas, representando 18 variáveis originais. Todas apresentaram p-valor inferior a 0,01. A análise de multicolinearidade confirmou a robustez, com todos os valores de VIF abaixo do limiar de 10, assegurando a independência dos preditores.

A validação do modelo demonstrou seu elevado desempenho. A análise de congruência confirmou que os sinais dos coeficientes estavam alinhados com a expectativa teórica; por exemplo, idade avançada e comorbidades apresentaram coeficientes positivos. A análise descritiva do escore mostrou clara separação entre os grupos “óbito” e “não óbito”, com escores médios e medianos significativamente mais altos para o primeiro grupo em todas as amostras (treino, teste e “out of time”).

O poder de discriminação foi quantificado por indicadores de acurácia. A Área Sob a Curva ROC (AUROC) atingiu 0,84 na amostra de treino, 0,8394 no teste e 0,827 na “out of time”, valores que indicam um desempenho de classificação muito bom (Pereira, 2013). O teste de Kolmogorov-Smirnov (KS) apresentou valores de 0,5287 (treino), 0,5265 (teste) e 0,5068 (“out of time”), classificando o modelo como excelente em sua capacidade de separação (Sicsú, 2010). A consistência dos resultados entre as amostras evidencia a ausência de “overfitting” e a capacidade de generalização do modelo.

A análise da distribuição do escore por decis reforçou a capacidade preditiva, com uma ordenação crescente da taxa de óbito em decis de escore mais altos. Para a safra de produção de 2023, o Índice de Estabilidade da População (PSI) foi de 0,0014, valor considerado muito baixo (Dataconomy, 2025), confirmando que a população de novos pacientes manteve um perfil de risco similar ao da população de desenvolvimento, atestando a estabilidade do modelo.

Os resultados permitiram a identificação de nichos de risco com alta precisão, mesmo com uma taxa de mortalidade geral de 1,61%. Pacientes com transmissão provável por uso de drogas injetáveis apresentaram chance de óbito 2,94 vezes maior que a de não óbito, com taxa de mortalidade 171,2% acima da média. A presença de sintomas como tosse persistente ou pneumonia elevou a chance de óbito em 5,88 vezes, com taxa de mortalidade 437,2% superior à média. O diagnóstico de anemia, linfopenia ou trombocitopenia aumentou a chance de óbito em 6,25 vezes, com taxa de mortalidade 460,3% acima da média.

O modelo também identificou fatores de proteção. Pacientes com até 24 anos mostraram chance de sobrevivência 3,59 vezes maior, com taxa de óbito 71,7% inferior à média. Outros fatores associados ao óbito incluíram ausência de declaração em variáveis críticas, idade acima de 42 anos, baixa escolaridade, tempo prolongado até o teste confirmatório e a unidade federativa. As menores taxas de óbito foram observadas em gestantes (0,20%), jovens (0,44%) e indivíduos com ensino médio completo ou superior (0,64%), destacando a importância de fatores sociodemográficos e do cuidado pré-natal.

Este estudo atingiu seus objetivos ao desenvolver um modelo de regressão logística robusto e com alta capacidade preditiva para os fatores associados à mortalidade em pacientes adultos com HIV no Brasil. A análise do banco de dados HIVA do SINAN permitiu quantificar o impacto de fatores de risco e consolidá-los em um escore de risco individualizado. A ferramenta demonstrou excelente performance de discriminação (AUROC e KS) e estabilidade temporal (análise “out of time” e PSI). Os resultados oferecem subsídios para a gestão da saúde pública, permitindo a estratificação de pacientes e o direcionamento de ações para os grupos de maior vulnerabilidade, otimizando a alocação de recursos.

As implicações práticas são significativas. O modelo pode ser implementado como um sistema de alerta precoce nos serviços de saúde, auxiliando equipes clínicas a identificar pacientes que necessitam de acompanhamento intensivo. A identificação de fatores como uso de drogas injetáveis, anemia e tosse persistente como preditores de alto risco reforça a necessidade de abordagens multidisciplinares. A pesquisa evidencia o potencial da análise de dados de saúde para aprimorar a vigilância epidemiológica e a tomada de decisão baseada em evidências. Conclui-se que o objetivo foi atingido: demonstrou-se que o modelo de regressão logística desenvolvido é uma ferramenta robusta e com alto poder preditivo para classificar o risco de óbito em pacientes adultos com HIV no Brasil, identificando fatores críticos para a formulação de políticas de saúde mais eficazes.

Referências:
Bueno, L. M. 2011. Análise de crédito: medidas de avaliação de modelos e aplicação da teoria fuzzy na tomada de decisão. Trabalho final de Graduação. Departamento de Estatística, Universidade de Brasília, Brasília, DF, Brasil. Disponível <https://bdm. unb. br/bitstream/10483/3508/1/2011_LoreMartinsBueno. pdf>. Acesso em: 08 agosto 2025.
Dataconomy. 2025. Índice de estabilidade da população (PSI). Dataconomy PT. Disponível em: <https://pt. dataconomy. com/2025/04/18/indice-de-estabilidade-da-populacao-psi/>.
Fávero, L. P.; Belfiore, P. 2024. Manual de análise de dados. LTC, Rio de Janeiro, RJ, Brasil.
Gomes, R. & Ferreira, J. C. 2022. Análise de Dados em Saúde Pública: Métodos e Aplicações. Editora Saúde, São Paulo, SP, Brasil.
Lima, A. C. & Costa, M. S. 2021. Epidemiologia do HIV/AIDS no Brasil: Uma Análise de Séries Temporais. Cadernos de Saúde Pública, v. 37, n. 5, e00123420.
Oliveira, C. S. de et al. 2020. Perfil epidemiológico da AIDS no Brasil utilizando sistemas de informações do DATASUS. Revista Brasileira de Análises Clínicas, v. 52, n. 1, p. 35–42, 2020. Disponível em: <https://www. rbac. org. br/artigos/perfil-epidemiologico-da-aids-no-brasil-utilizando-sistemas-de-informacoes-do-datasus>
Pereira, M. B. 2013. Estimação da Sensibilidade, da Especificidade e da Curva ROC. Dissertação de Mestrado. Departamento de Matemática e Aplicações, Escola de Ciências, Universidade do Minho, Braga, Portugal. Disponível em: <https://repositorium. sdum. uminho. pt/handle/1822/29401>
Santos, E. M. 2019. Modelagem Estatística Aplicada. Editora Acadêmica, Belo Horizonte, MG, Brasil.
Sicsú, A. L. 2010. Credit Scoring: Desenvolvimento, Implantação e Acompanhamento. Blucher, São Paulo, SP, Brasil.
Souza, F. L. 2018. O Papel da Vigilância Epidemiológica no Sistema Único de Saúde (SUS). Revista Brasileira de Epidemiologia, v. 21, e180001.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade