小型医疗模型性能反超大模型，本地化部署成新范式

币圈界 2026-05-08 01:28:14 区块链

摘要：QVAC MedPsy系列模型以17亿与40亿参数量实现超越多倍规模竞品的性能表现，通过高效标记生成与完全本地化运行，推动医疗AI向低延迟、高隐私安全方向演进。

币圈界报道：

尽管参数规模仅为同类产品的半数以下，Tether推出的1.7B模型在多项基准测试中仍领先谷歌MedGemma-4B达11分以上，展现出卓越的推理能力。

4B版本通过将输出标记数量压缩至原系统的三分之一，显著降低计算资源消耗，并实现设备端响应速度的实质性提升。该系列模型采用GGUF格式实现全链路本地运行，确保患者敏感信息无需上传至远程服务器，从源头保障数据隐私。

QVAC MedPsy提供17亿与40亿参数两个版本，均经由涵盖临床知识、专家推断及真实场景模拟的八套基准测试体系全面验证。结果显示，其综合表现可媲美甚至超越参数量为其数倍的大型模型。

170亿参数模型在七项封闭测试中取得62.62的平均得分，以不足一半的参数量超越谷歌MedGemma-4B逾11分；在HealthBench Hard测试中，更击败参数量接近其十六倍的MedGemma 27B模型。

40亿参数版本在相同测试集上获得70.54分，表现优于参数量约为自身七倍的MedGemma-27B-text及其他主流大模型。其在HealthBench、HealthBench Hard与MedXpertQA等关键指标中持续保持领先优势。

研究团队负责人指出：“我们40亿参数模型仅用不到七分之一的参数即达成超越性表现，且单次响应标记数减少约三分之二。”

本次发布的最大技术亮点在于输出效率的跃升：40亿参数模型每次响应仅生成约909个标记，相较同类系统平均2953个，缩减至32%左右。17亿参数版本则平均使用1110个标记，低于同类系统的1901个。

更短的输出长度直接转化为更快的响应速度与更低的能耗成本，这对对延迟敏感的临床辅助系统至关重要。

两款模型均支持量化后的GGUF格式部署，其Q4_K_M版本体积分别约为1.2GB和2.6GB，可在智能手机、移动终端及医院本地系统中流畅运行。

这些成果源于分阶段训练后优化流程，整合了大规模医疗监督数据、临床推理案例以及复杂病例强化学习，全程未依赖模型规模扩张。

传统医疗AI长期依赖云端处理敏感数据，而QVAC MedPsy通过全本地高性能运行打破这一惯性模式。对于受严格隐私法规约束的医疗机构而言，这为无法接入外部云服务的环境提供了可行的智能化解决方案。

声明：本站所有文章内容，均为采集网络资源，不代表本站观点及立场，不构成任何投资建议！如若内容侵犯了原著者的合法权益，可联系本站删除。