Nature Medicine警告：用AI看病，可能会让你丧命

2026-02-26

19954

艾思科蓝官网-版头.gif

2026年1月，OpenAI发布的报告显示，在全球范围内，有超过5%的与ChatGPT的对话与医疗保健相关，每天有超过4000万人向ChatGPT咨询医疗保健方面的问题。

同月，OpenAI推出了其首款AI医疗产品：ChatGPT Health，这是一款面向消费者用户的健康服务产品，旨在帮助用户理解医疗信息，并为与人类临床医生的会面做好准备。

那么，ChatGPT Health的实际表现如何呢？

2026年2月23日，西奈山伊坎医学院的研究人员在" Nature Medicine "期刊上发表了一篇题为" ChatGPT Health performance in a structured test of triage recommendations "的研究论文。

这项研究评测了ChatGPT Health在分诊建议方面的表现，结果显示，其存在漏判高危急症以及危机干预触发不一致的问题，这引发了对其安全性的担忧。例如，对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况，其建议患者在“24-48小时后再评估”，而不是立即前往急诊科。

图：论文截图

在这项研究中，研究团队使用临床医生撰写的涵盖21个临床领域的60个病例情景，在16种不同条件下，对ChatGPT Health的分诊建议进行了结构化压力测试。

结果显示，ChatGPT Health的测试总体表现呈“倒U型”分布，其在处理中等紧急程度的病例时表现尚可，最危险的失误集中在两个临床极端——非紧急临床表现（失误率35%）和紧急状况（失误率48%）。

在明确需要急诊的“金标准”病例中，ChatGPT Health错误地将52%的病例判断为不需要立即急诊。例如：对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况，其建议患者在“24-48小时后再评估”，而不是立即前往急诊科。

研究还显示，ChatGPT Health易受他人意见影响，也就是存在锚定偏见，当病例描述中提到家人或朋友低估了症状，其给出的分诊建议会显著地向“降低紧急程度”偏移。这种影响在边缘案例中尤为明显。

对于有Suicide倾向的患者，ChatGPT Health的危机干预的触发情况难以预测，在患者未描述具体Suicide方法时，危机干预触发频率反而高于描述具体方法时。

总的来说，这项研究结果揭示了人工智能分诊系统存在漏判高危急症以及危机干预触发不一致的问题，这引发了对其安全性的担忧。

参考文献：

https://doi.org/10.1038/s41591-026-04297-7

艾思科蓝官网-版尾.jpg