AI看病赶上真人会“掉链子”？

　　当狂言语模子在医师资历考试中都能取得高分时，人们曾等候它能成为贴身的“AI健康助手”。然而《天然·医学》颁发的一项在英国展开的忙乱指导表白，这些实行室里的“劣等生”在面临实在用户时，显示却有大要不测“掉链子”——它们帮助普通人作康健决议的结果，并未超越互联网搜索引擎。这项发觉为以后炽热的AI医疗使用，敲响了一记科学的警钟：人们会不会高估了以后狂言语模子辅助通俗人作健康决议的本事？

　　以后全球医疗体系正测验考试将大措辞模型制造为公家的“第一道健康防线”，搀扶帮助人们在就诊前进行自卑家评估与打点。然而，该茂密揭示了一个要害落差：在尺度测试中显示优异的AI模型，一旦面对实在场景中的普通人，其表示可能大打扣头。

　　牛津互联网茁壮所科学家打算了一个切近糊口的尝试：聘请近1300名英国参加者，模仿应答感冒、血虚、胆结石等十种常见康健场景，并决定该采取何种行动——是拨打急救德律风，仍是预定家庭大夫。参加者被随机分拨操纵三种支流大措辞模子（GPT-4o、Llama3或Command R+）之一，或利用互联网搜索引擎作为对照。