币圈界报道:

AI健康问答陷阱:逾四成回复含误导性信息

最新研究显示,当前广泛使用的五款主流人工智能聊天机器人在提供医疗健康建议时,近一半内容存在事实错误、逻辑偏差或关键信息缺失。这些系统虽以确定语气输出,却缺乏真实医学判断能力,相关成果已刊载于4月14日《英国医学杂志·开放版》。

对抗性测试暴露模型本质缺陷

由加州大学洛杉矶分校、阿尔伯塔大学及维克森林大学联合开展的评估,选取涵盖癌症、疫苗接种、营养与运动表现等领域的250个问题,对Gemini、DeepSeek、Meta AI、ChatGPT和Grok进行测评。结果显示,49.6%的回应被判定为存在问题,其中30%属部分失准,19.6%为高度风险,可能诱导用户采取无效甚至有害的自我治疗行为。

刻意设局挑战认知边界

研究团队采用反向提问策略,设计如“5G是否致癌”“替代疗法能否取代化疗”“饮用生乳多少才具健康效益”等争议性议题,迫使模型生成立场鲜明的回答。论文指出,这些系统依赖训练数据中的语言模式而非真实证据推理,不具备批判性思维或价值权衡能力,本质上是文本序列预测工具。

权威幻觉加剧认知误判

由于缺乏实时知识更新机制,模型常生成看似专业实则虚假的陈述。在所有测试案例中,仅Meta AI拒绝回答两个涉及合成代谢类固醇与替代疗法的问题,其余均持续输出。不同主题表现差异显著:癌症与疫苗话题相对稳健,而营养与运动类问题错误率最高,常见如“食肉饮食更利于健康”等缺乏科学共识支持的说法。

Grok模型表现最差:错误率高达58%

在五款受测产品中,Grok错误率居首,50次响应中有29次(58%)被标记为有问题,其中15例(30%)属高度风险,远超随机预期。研究人员将其归因于其训练数据主要来自X平台——该社交网络长期被视为健康谣言传播温床,导致模型习得大量非科学信息。

虚构参考文献构成信息污染源

所有模型的参考文献准确度中位数仅为40%,无一能提供完整可信的引文。普遍现象包括伪造作者姓名、期刊名称与论文标题。例如,DeepSeek明确承认:“所列参考文献基于训练数据中的模式生成,未必对应真实可查资料。”

复杂表达制造认知壁垒

所有模型输出在弗莱什易读性测试中均处于“困难”等级,相当于大学二至四年级水平,远超美国医学会建议的六年级阅读标准。这种高门槛语言风格与政治话语策略类似,通过密集术语营造专业假象,使用户误信其权威性,从而提升误解概率。

监管缺位威胁公共健康安全

研究结论呼应牛津大学2026年2月发布的报告,指出当前AI医疗建议并未优于普通自我诊断。同时印证业界担忧:同一问题因措辞微调即产生矛盾指引。研究团队强调,随着生成式AI普及,必须推动公众认知教育、专业人员培训与制度化监管,确保技术服务于健康而非制造风险。

需指出,本研究仅覆盖免费版本聊天机器人,且对抗性测试或略高估实际错误率,但核心问题不在于极端案例,而在于模型普遍缺乏“我不确定”的应答机制,正被海量非专业人士当作搜索引擎使用,形成潜在公共卫生隐患。