摘要:最新研究揭示,全球五大顶尖AI系统在真实用户提交的事实声明判断上,三分之二出现分歧。尽管模型性能持续提升,但在模糊地带仍难以达成一致,凸显其在现实应用中的可靠性隐忧。

币圈界报道:
多款先进AI对同一陈述判断差异显著
针对由真实用户提交的1000条事实核查请求,五种领先人工智能系统在真实性评估中表现出明显不一致性。研究显示,在超过六成的案例中,至少有一个模型的判定与其他多数意见相左。
真实场景测试揭示模型判断脱节
实验选取GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro搜索增强版及Sonar Pro等模型,要求其从“完全真实”“基本真实”“存在误导”“完全虚假”四个类别中选择最符合的标签。所有测试语料均来自未被训练数据覆盖的真实用户申报内容,确保无预设答案可依。
模型间一致性水平处于弱区间
采用克里彭多夫阿尔法系数评估,结果显示一致性值为0.639,低于学术界普遍认可的0.8阈值,表明各模型判断虽具结构性而非随机,但尚不足以构成可互换的权威判断群体。在328条达成一致的声明中,模型从未共同认定任何一条为“基本真实”,仅四例被一致标记为“存在误导”。
典型争议案例暴露认知裂痕
例如关于世界银行在尼日利亚投资规模的陈述,不同模型给出截然相反结论:一者判为“基本真实”,另一者视为“虚假”,而增强版本则标注为“存在误导”。另一则涉及特朗普外交表态的声明,各模型分别判定为虚假、基本真实、虚假与真实,反映出对复杂政治表述的理解偏差。
事实核查依赖面临信任危机
当公众将同一声明输入多个主流AI平台时,可能获得三套互异结论。这引发根本性质疑:若多数意见本身并非真理,又如何作为裁决依据?研究强调,当前模型共识不能替代事实真相,个别异议模型反而可能更接近正确方向。目前缺乏有效仲裁机制,也无上诉路径,使系统性误判风险持续存在。
声明:本站所有文章内容,均为采集网络资源,不代表本站观点及立场,不构成任何投资建议!如若内容侵犯了原著者的合法权益,可联系本站删除。
