๐โ๐๐ ๐ฒ ๐ฝ๐ถ๐ ๐๐ถ๐ฐ๐๐ฟ๐ฎ ๐ฑ๐ฒ๐ถ ๐บ๐ฒ๐ฑ๐ถ๐ฐ๐ถ. โ๐ฆ๐ฎ๐ฟ๐ฎโ ๐พ๐๐ฒ๐๐๐ผ ๐ถ๐น ๐๐ถ๐๐ผ๐น๐ผ. ๐๐ฑ ๐ฒโ ๐ณ๐๐ผ๐ฟ๐๐ถ๐ฎ๐ป๐๐ฒ.
Il preprint NOHARM (โtowards clinically safe large language modelsโ) รจ uno studio serio, fatto da clinici che conoscono bene sia la medicina sia i limiti dellโAI. Lโobiettivo non era dimostrare che lโAI โbatteโ i medici, ma capire quali LLM possano aiutare senza fare danni.
Sono stati testati 31 modelli su casi clinici reali provenienti dal servizio di eConsult di Stanford. Non domande teoriche: i modelli dovevano scegliere tra molte opzioni di gestione, selezionando quelle corrette ed evitando quelle inappropriate. Lo stesso test รจ stato sostenuto anche da medici.
๐ฃ๐๐ป๐๐ผ ๐ฐ๐ต๐ถ๐ฎ๐๐ฒ ๐ฐ๐ต๐ฒ ๐บ๐ผ๐น๐๐ถ ๐ถ๐ด๐ป๐ผ๐ฟ๐ฒ๐ฟ๐ฎ๐ป๐ป๐ผ:
questi non sono casi di pratica clinica ordinaria.
Le eConsult riguardano situazioni al limite della conoscenza del singolo clinico, i casi โgrigiโ, quelli per cui si chiede supporto specialistico.
๐ ๐ฟ๐ถ๐๐๐น๐๐ฎ๐๐ถ?
Gli LLM commettono errori con potenziale danno, soprattutto per omissione, talvolta severi. I migliori modelli superano i medici, ma in media le performance sono comparabili.
๐๐ฎ ๐น๐ฒ๐๐๐๐ฟ๐ฎ ๐ฐ๐ผ๐ฟ๐ฟ๐ฒ๐๐๐ฎ ๐ฒโ ๐พ๐๐ฒ๐๐๐ฎ:
Non โAI vs mediciโ, ma AI come supporto nei casi complessi, proprio dove anche il medico esperto sa di aver bisogno di aiuto.
Nella pratica reale, i medici gestiscono correttamente la grande maggioranza dei casi. Qui stiamo osservando quella piccola ma critica frazione in cui il supporto decisionale ha davvero senso.
Il paper รจ ricco (interessante anche la parte sui modelli collaborativi) e merita una lettura attenta.
๐Leaderboard: https://bench.arise-ai.org/
๐Preprint: https://arxiv.org/pdf/2512.01241


