Modelli clinici nel mondo reale: perché la riproducibilità è la vera sfida dell’AI in Sanità

HealthTech360 - Febbraio 2026

feb 22, 2026

Negli ultimi anni, la sanità digitale ha assistito a un’esplosione di modelli predittivi basati su dati real-world.

Algoritmi che promettono di anticipare l’insorgenza di malattie croniche, prevedere riacutizzazioni, supportare decisioni cliniche complesse. Tuttavia, tra la pubblicazione di un modello e la sua reale applicabilità nella pratica clinica esiste un divario spesso sottovalutato. Quel divario ha un nome preciso: riproducibilità.

Un modello che funziona una volta, in un contesto specifico, non è sufficiente. Per diventare affidabile, utilizzabile e regolatoriamente accettabile, un modello deve poter essere replicato fedelmente su dati diversi, mantenendo prestazioni, interpretabilità e coerenza metodologica.

È proprio su questo punto che si concentra lo studio recentemente pubblicato sull’International Journal of Medical Informatics – di cui chi scrive è coautore, ndr – che valuta la piattaforma DIVE (Data Insight Validation Engine) come strumento per la riproduzione di modelli predittivi clinici nel mondo reale.

Lo studio rappresenta un passo importante perché sposta l’attenzione dall’ennesimo nuovo algoritmo alla qualità dell’infrastruttura analitica che consente di generare evidenza clinica affidabile

Dal modello alla piattaforma: un cambio di prospettiva necessario

Tradizionalmente, lo sviluppo di modelli predittivi in Sanità avviene all’interno di workflow frammentati. Un po’ di SQL per estrarre i dati, un software statistico per il modello, fogli di calcolo per le validazioni, script separati per le figure. Ogni passaggio introduce potenziali incoerenze, versioni non tracciate, difficoltà di replica.

DIVE nasce per affrontare questo problema strutturale. Non è un singolo algoritmo, ma una piattaforma analitica modulare, interamente basata su Python, che integra in un unico ambiente tutte le fasi dell’analisi. Dall’ingestione dei dati clinici alla definizione delle coorti, dall’esecuzione dei modelli alla validazione interna e temporale, fino alla generazione standardizzata degli output.

Il principio è semplice ma potente. Se l’intero ciclo analitico è riproducibile, allora anche i risultati lo sono.

Tre malattie croniche come banco di prova

Per testare concretamente questa ipotesi, gli autori (tra i quali chi scrive, ndr) hanno utilizzato DIVE per replicare tre studi predittivi già pubblicati, ciascuno riferito a una patologia cronica ad alto impatto assistenziale. Malattia renale cronica, riacutizzazioni di BPCO e asma grave.^1–3

La scelta non è casuale. Si tratta di condizioni gestite prevalentemente in medicina generale, con grandi volumi di dati longitudinali e outcome clinicamente rilevanti.

Inoltre, i modelli originali utilizzavano approcci diversi. Un modello di machine learning interpretabile per la nefropatia cronica e modelli di regressione di Cox per BPCO e asma.

Replicare non significa copiare

Un punto chiave dello studio è che la replica non è stata una semplice riscrittura dei modelli. Tutte le definizioni di variabili, criteri di inclusione, finestre temporali e strategie di validazione sono state ricostruite all’interno di DIVE seguendo rigorosamente le linee guida TRIPOD (per ciascuna tipologia di modello tradizionale o machine learning)⁴ e la checklist ChAMAI (per i soli modelli machine learning).⁵

Inoltre, l’analisi è stata estesa temporalmente, includendo dati più recenti rispetto agli studi originali. Questo ha permesso non solo una validazione interna, ma anche una vera validazione temporale esterna.⁶ Un passaggio spesso assente negli studi osservazionali.

I risultati: coerenza, stabilità, affidabilità

I risultati sono chiari. DIVE è riuscita a riprodurre con elevata fedeltà le prestazioni dei modelli originali.

Nel caso della malattia renale cronica, il modello basato su Generalized Additive Models ha mantenuto un’area sotto la curva intorno all’89%, con valori di precisione e calibrazione sovrapponibili allo studio originale.

Anche per la BPCO e l’asma grave, i modelli replicati hanno mostrato AUC, pseudo-R² e slope di calibrazione pienamente coerenti con i risultati precedenti.

Questo è un punto cruciale. Non parliamo solo di discriminazione, ma anche di calibrazione e stratificazione del rischio. Elementi fondamentali per l’uso clinico e regolatorio dei modelli predittivi.

In altre parole, il modello non solo “fornisce una stima affidabile del rischio di ammalarsi”, ma assegna probabilità numericamente stabili nel tempo.

Perché conta davvero per la sanità digitale

Questo studio aggiunge un tassello importante al dibattito sull’uso dell’intelligenza artificiale in sanità. Spesso si discute di nuovi algoritmi, di deep learning, di modelli sempre più complessi. Molto meno si parla della capacità di rendere questi modelli verificabili, trasparenti e riproducibili.

Dal punto di vista clinico, la riproducibilità è una condizione necessaria per la fiducia. Dal punto di vista regolatorio, è un prerequisito per qualsiasi utilizzo a supporto delle decisioni. Dal punto di vista industriale, è ciò che permette di scalare una soluzione oltre il progetto pilota.

DIVE dimostra che è possibile costruire piattaforme analitiche che rispettano questi requisiti senza rinunciare alla flessibilità del machine learning.

Un confronto con altri strumenti di RWE

Lo studio propone anche un confronto esplicito con altre piattaforme utilizzate nell’ambito della real-world evidence. Strumenti come DExTER⁷, SURF⁸ o Curator⁹ svolgono ruoli importanti, ma con obiettivi diversi. DExTER è focalizzato sull’ETL e la costruzione delle coorti. SURF supporta la valutazione di fattibilità degli studi. Curator eccelle nella qualità e standardizzazione dei dati.

DIVE si distingue perché copre l’intero ciclo analitico, dalla definizione dello studio alla validazione dei modelli, integrando statistiche tradizionali e machine learning nello stesso ambiente riproducibile.
Non è una piattaforma “contro” le altre. È complementare. Ma colma un vuoto che finora era evidente.

Limiti dichiarati

Un aspetto da sottolineare del lavoro è la chiarezza sui limiti. DIVE richiede dati clinici strutturati e armonizzati. Non gestisce ancora imaging, genomica o testo libero. Non è open source. Le analisi di federated learning sono ancora in fase di sviluppo.
Ma questi limiti sono dichiarati apertamente e inseriti in una roadmap evolutiva. Non sono debolezze nascoste, ma scelte progettuali consapevoli.

Verso un’AI clinica più adulta

Il messaggio di fondo dello studio è semplice ma potente. L’innovazione in sanità digitale non passa solo da modelli più sofisticati, ma da infrastrutture più affidabili.

Se vogliamo che l’intelligenza artificiale entri davvero nella pratica clinica quotidiana, dobbiamo smettere di trattare i modelli come prototipi isolati e iniziare a considerarli come componenti di sistemi verificabili, auditabili e riproducibili.

DIVE va esattamente in questa direzione. E lo fa partendo dai dati del mondo reale, quelli che contano davvero.

Riferimenti bibliografici

Lapi F, Cricelli I, Gorini M, Pellegrino A, Uberti M, Cricelli C. Development and validation of a score assessing the risk of severe asthma in primary care. Curr Med Res Opin [Internet]. 2024 [cited 2025 May 26];40(6):1067–70. Available from: https://pubmed.ncbi.nlm.nih.gov/38602488/
Lapi F, Nuti L, Marconi E, Medea G, Cricelli I, Papi M, et al. To predict the risk of chronic kidney disease (CKD) using Generalized Additive2 Models (GA2M). J Am Med Inform Assoc [Internet]. 2023 Sep 1 [cited 2023 Oct 26];30(9):1494–502. Available from: https://pubmed.ncbi.nlm.nih.gov/37330672/
Lapi F, Marconi E, Lombardo FP, Cricelli I, Ansaldo E, Gorini M, et al. Development and validation of a prediction score to assess the risk of incurring in COPD-related exacerbations: a population-based study in primary care. Respir Med [Internet]. 2024 Jun 1 [cited 2024 May 31];227. Available from: https://pubmed.ncbi.nlm.nih.gov/38621547/
Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): the TRIPOD statement. J Clin Epidemiol [Internet]. 2015 Feb [cited 2016 Apr 27];68(2):134–43. Available from: http://www.ncbi.nlm.nih.gov/pubmed/25579640
Cabitza F, Campagner A. The need to separate the wheat from the chaff in medical informatics: Introducing a comprehensive checklist for the (self)-assessment of medical AI studies. Int J Med Inform [Internet]. 2021 Sep 1 [cited 2025 Oct 23];153:104510. Available from: https://www.sciencedirect.com/science/article/pii/S1386505621001362?via%3Dihub
Steyerberg EW, Harrell FE. Prediction models need appropriate internal, internal-external, and external validation. J Clin Epidemiol [Internet]. 2016 Jan [cited 2016 Oct 28];69:245–7. Available from: http://www.ncbi.nlm.nih.gov/pubmed/25981519
Gokhale KM, Chandan JS, Toulis K, Gkoutos G, Tino P, Nirantharakumar K. Data extraction for epidemiological research (DExtER): a novel tool for automated clinical epidemiology studies. Eur J Epidemiol [Internet]. 2021 Feb 1 [cited 2025 May 26];36(2):165–78. Available from: https://pubmed.ncbi.nlm.nih.gov/32856160/
Campbell UB, Honig N, Gatto NM. SURF: A Screening Tool (for Sponsors) to Evaluate Whether Using Real-World Data to Support an Effectiveness Claim in an FDA Application Has Regulatory Feasibility. Clin Pharmacol Ther. 2023 Nov 1;114(5):981–93.
Delmestri A, Prieto-Alhambra D. Curator – A data curation tool for clinical real-world evidence. Inform Med Unlocked [Internet]. 2023 Jan 1 [cited 2025 May 26];40:101291. Available from: https://www.sciencedirect.com/science/article/pii/S2352914823001375

Iacopo Cricelli

Discussione su questo Post

Assolutamente, procediamo.