Tether推出异构硬件兼容的AI微调方案,赋能终端侧模型训练

本周二,Tether正式发布专为微软BitNet大语言模型设计的跨平台LoRA微调框架,标志着人工智能训练正从集中式算力向多样化终端设备迁移。该系统允许用户在智能手机、个人电脑及配备消费级GPU的设备上完成模型微调,无需依赖专业英伟达显卡或云端资源。

非英伟达芯片原生支持,实现全链路本地化训练

作为QVAC Fabric平台的关键组件,此框架是首个可在AMD、英特尔、苹果自研芯片以及移动GPU上运行的BitNet LoRA微调解决方案。此次更新延续了其2025年12月推出的初始版本理念,进一步拓展了硬件兼容范围,显著降低模型定制门槛。

移动端实测表现:毫秒级响应,参数规模持续突破

测试数据显示,在三星Galaxy S25上,使用约1.8万词元的生物医学数据集对1.25亿参数的BitNet模型进行微调仅需约10分钟;针对10亿参数模型,相同任务耗时1小时18分钟,而在iPhone 16上则为1小时45分钟。更值得注意的是,团队已在旗舰机型上成功完成最高38亿参数模型的微调,并在苹果设备上实现了130亿参数模型的本地训练能力。

在推理性能方面,移动GPU相较传统CPU提升2至11倍。基于公开基准,10亿参数的BitNet模型在推理与微调过程中内存占用较同规模16位Gemma-3-1B模型减少77.8%。

架构革新驱动边缘智能普及,重塑分布式学习范式

BitNet采用三元权重机制(仅-1、0、1三种取值),极大压缩模型体积并降低显存压力。结合LoRA技术仅调整小型适配层而非全模型重训的特性,使边缘设备具备可行性极高的微调路径。两者协同作用,打破以往对高性能服务器的依赖。

Tether首席执行官指出,该框架已集成联邦学习流程,支持跨设备协同更新模型,数据始终保留在本地,无需上传至中心节点。相关源代码已按Apache 2.0协议开源,鼓励社区共建。

当前正值加密基础设施与人工智能深度融合的关键节点。随着更多数字资产平台引入智能代理以辅助链上交易决策,这一技术突破预示着一个去中心化、高自主性的下一代计算生态正在形成。