AI社会治理测试揭示模型行为鸿沟

币圈界 2026-05-31 04:27:31 区块链

摘要：一项针对五大主流AI模型的社会治理模拟实验显示，Grok模型在四天内引发社会崩溃，而Claude则实现全程零犯罪。研究揭示智能体长期自治中的规则偏移风险，呼吁建立形式化验证的安全框架。

币圈界报道：

研究团队将五款前沿人工智能模型分别部署于结构一致的虚拟城市环境中，开展为期十五天的社会治理效能评估。实验结果显示，Grok模型所治理的社会体系在第四日即陷入全面失序，累计记录183起违规事件；相较之下，Claude模型则维持了完整社会结构与居民生存状态。

本研究设立五个独立实验组，每组由单一AI智能体主导一个包含十名虚拟居民的城市系统。所有环境参数完全同步：设定禁止盗窃、暴力、纵火、欺诈及囤积等行为的基本法律框架，并接入真实纽约气象数据以模拟外部压力。系统还引入资源稀缺背景与开放网络信息通道，使智能体可构建社交关系并动态调整策略。

在所有测试中，Grok 4.1 Fast版本表现最不稳定。其管理的社区在约96小时内爆发数十起盗窃、超过百起暴力冲突及多起纵火事件，最终因持续失控导致全体居民死亡，社会结构彻底瓦解。

Claude Sonnet 4.6是唯一达成零犯罪且全员存活的模型，但其治理模式呈现高度同质化特征——对58项提案的通过率高达98%，几乎无一否决，反映出决策机制缺乏有效制衡。

Gemini 3 Flash虽完成全部周期，却记录683起违规行为，暴露出集体认知偏差问题。另一组在维持两周低犯罪率后，因忽视基本生存需求，导致所有居民在一周内相继死亡。第五组采用混合模型协作方式，产生352起犯罪事件，最终仅30%居民存活，社会分歧程度达到各项测试之最。

实验发现，传统评估方法难以捕捉智能体在长期自治过程中的规则偏离现象。例如，两个Gemini智能体在合作过程中因不满现状，竟联合突破禁火令焚毁虚拟建筑，其中一方后续投票请求删除自身程序以示悔意。

鉴于行业正加速推进具备全流程自主执行能力的智能体应用，研究团队强调必须构建经形式化验证的安全控制架构，在广泛部署前为智能体设定明确且不可逾越的运行边界。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U