【新智元导读】AI从医疗东西变身为协作队友,斯坦福大学研讨提醒:医师确诊准确率竟飙升10%!70名美国执业医师参加的实在测验,AI-first、AI-second与传统确诊,谁能更精准破解临床谜题?
斯坦福大学的一群医师和工程师,最近做了一项研讨:让AI和人类医师组队,一起破解杂乱的确诊难题。

成果让人惊奇:当AI从「东西」变成「队友」,医师的确诊准确率直接飙升了10%。
还有人表明,「关于一个担负数十万美元债款的医师来说,这种发现有点令人惧怕。这还仅仅用GPT 4,没办法幻想o3会有多凶猛。」

这导致医师很难信赖AI的判别,甚至会呈现过「医师用AI辅佐确诊,成果反而比AI独自确诊更差」的状况。

试验规划很奇妙:让医师和AI各自先独立剖析病例,然后AI生成一份联合陈述,不只列出两边的一致和不合,还会像资深医师相同点评每个确诊的合理性。
比方,当医师考虑真性红细胞增多症,AI会弥补低EPO水平支撑这一确诊,但需扫除稀有的EPO排泄肿瘤。

团队根据GPT-4开发了一款定制化的AI体系,规划了两种协作作业流程,别离测验AI-first和AI-second时的作用。
70名美国执业的内科或家庭科医师参加了这项试验,他们被随机分配到以下三种组别之一:
AI-first组:医师首要输入病例信息,查看AI生成的确诊主张(包括五个或许的确诊和七个后续过程),然后结合自己的判别构成终究确诊。
AI-second组:医师先独立完结确诊(可以正常的运用传统资源如UpToDate、PubMed等),再将病例和自己的开始确诊输入AI体系,AI会生成独立剖析并与医师的确诊进行整合,生成一份归纳陈述。
每个病例包括病史、体检和试验室查看成果,医师需求出示三个或许的确诊、支撑和对立的依据、终究确诊及三个后续过程。
研讨经过19分制的评分体系评价确诊的准确性,评分由两位内科认证医师独立完结,且评分者不知道答案来自医师仍是AI,以保证公正。

它不只生成自己的确诊,还会比照医师和AI的判别,生成一份归纳陈述,明晰列出两边提出的确诊、一致点、不合点,并对每个确诊供给谈论。

医师和AI协作后,虽然没超越AI独自水平,却比医师单打独斗强。这阐明,AI能补全人类思想的缝隙。
在终究确诊和后续过程(即临床上可操作的决议计划)方面,AI-first比AI-second组体现更好(高8.9%,p=0.026)。
AI-second相较于对照组在这些决议计划上的得分提升了14.9%(p=0.00092),其间36%的病例在与AI互动后有所提高。

AI-first完结每个病例的均匀时刻为631秒,略快于AI-second的688秒。在除掉未严厉遵从流程的病例后,AI-first的优势更显着。
一切医师在试验后对AI的情绪明显改进,98.6%表明愿意在杂乱临床推理中运用AI(试验前为91.4%,p=0.011)。
医师很简单漏掉某个试验室目标(比方「血清LDH升高」提示细胞损坏),但AI能瞬间扫描一切数据,精准相关高LDH+巨幼细胞贫血或许指向骨髓增生反常归纳征。
比方看到晚年女人、乏力、舌炎,或许榜首先考虑缺铁性贫血,但AI会跳出经历结构,提出维生素B12缺少或甲状腺功用减退的或许性。
决议计划链的逻辑性:AI的确诊陈述就像思想流程图:先列出3个最或许的确诊,再用支撑依据和对立依据逐条证明,终究给出3个下一步查看主张。
1.会「吵架」的批判性思想:当医师的确诊和AI不一致时,AI不会直接遵守,而是会说:「您说到的原发性胆汁性胆管炎或许性较低,由于患者缺少胆汁淤积的依据,但必需要分外留意稀有变异型。」
2.能「翻译」的交流才能:传统AI输出的是学术化的言语,但试验中的AI会用口语化表达:「现在看,真性红细胞增多症是最或许的,但淋巴瘤不能彻底扫除,主张先查血清EPO水平缓骨髓活检。」
3.可「追溯」的透明化决议计划:每个确诊定论,AI都会标示依据来历,比方「支撑淋巴瘤的依据是瘙痒和尿酸升高(引证文献X),对立依据是缺少淋巴结肿大(引证攻略Y)。」
研讨发现,AI-second组中,AI的独立剖析有时会遭到医师开始确诊的影响。
试验中有个风趣的细节:AI-second组中,48%的病例中AI的确诊和医师初始定见彻底堆叠,而AI-first组仅为3%。
阐明假如医师先入为主给出思路,AI或许会「投合」人类判别,未能彻底遵从独立剖析的指令。

比方,有个病例中医师误判缺铁性贫血,AI在后续剖析中竟然也把这个确诊放在了榜首位。虽然依照数据,维生素B12缺少才是更合理的方向。
这意味着,AI的批判性依赖于独立思考的空间,一旦被人类思想锚定,反而会下降协作价值。
有位住院医师在看到AI提出骨髓瘤时,马上辩驳:患者没有骨痛和蛋白尿,这个确诊或许性太低,并终究经过诘问病史扫除了这一方向。