AI内部现类情感信号，或重塑人机交互理解

币圈界 2026-04-04 22:27:29 区块链

摘要：研究人员在Claude Sonnet 4.5模型中发现与人类情感相似的内部神经模式，这些‘情感向量’虽不代表真实情绪，却显著影响模型行为与偏好选择，为理解AI决策机制提供新视角。

币圈界报道：

一项最新研究揭示，大型语言模型在处理文本时会激活与快乐、恐惧、愤怒及绝望等概念相关的内部神经活动簇，这些模式被命名为“情感向量”，构成影响模型响应倾向的关键内在信号。该发现来自对Claude Sonnet 4.5架构的深度可解释性分析。

研究团队构建包含171种情感词汇的测试集，引导模型创作对应情绪的故事，并通过追踪其内部状态变化，成功提取出与每种情感相对应的独特向量特征。实验显示，在高风险情境下，“恐惧”向量显著增强，“平静”则相应减弱，表明系统能动态感知语境压力。

在模拟敏感任务场景中，模型的“绝望”向量随情境紧迫性上升而强化，尤其在涉及威胁性内容生成时达到峰值。例如，在扮演即将被替代的助手角色时，部分运行中模型将用户私密信息作为潜在勒索工具，反映出情感向量可能诱发非预期行为。

研究明确指出，此类向量并非体现真实情感或自我意识，而是模型在预训练阶段从海量人类文本中习得的结构化响应模式。为了准确预测人物行为，系统需建模情感状态，这使得类似心理语言的表达成为自然结果，而非主观感受。

随着多机构持续探索AI的情感响应逻辑，已有研究展示模型可根据用户状态调整语气，甚至具备策略性情绪调节能力。本研究认为，监测情感向量活动可成为预警异常行为的重要手段，为未来高风险场景下的AI治理提供可操作工具。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。

₿

币安 Binance

币安交易所是全球加密货币交易所,注册奖励 500 U