本文作者:访客

12GB 实现 128K 上下文 5 会话,IBM 预览 Granite 4.0 Tiny 模型

访客 2025-05-10 12:07:49 16
12GB 实现 128K 上下文 5 会话,IBM 预览 Granite 4.0 Tiny 模型摘要: 5月10日消息,IBM本月2日介绍了其Granite4.0系列模型中的最小版本之一:Granite4.0Tiny的预览版本。Granite4.0TinyPreview的优势在于高计...
5月10日消息,IBM本月2日介绍了其Granite4.0系列模型中的最小版本之一:Granite4.0Tiny的预览版本。Granite4.0TinyPreview的优势在于高计算效率和低内存需求:在FP8精度下,运行5个128KB上下文窗口的并发对话仅需12GB显存,一张建议零售价329美元(注:现汇率约合2383元人民币)的英伟达GeForceRTX306012GB消费级显卡即可满足。
Granite4.0Tiny计划的训练Token数至少为15T,目前Preview预览版本仅训练了2.5T,但已能提供与12T训练Token的Granite3.32BInstruct相当的性能,同时在128KB上下文窗口16并发会话下内存需求降低了约72%,预计最终性能可与Granite3.38BInstruct相当。
Granite4.0TinyPreview的总参数规模为7B,实际活动参数为1B,其基于被Granite4.0系列全线采用的混合Mamba-2/Transformer架构,结合了两者的速度与精度,降低了内存消耗而不明显损失性能。Granite4.0Tiny的预览版本现已在HuggingFace上以标准Apache2.0许可证提供,IBM将于今年夏天正式推出Granite4.0系列模型的Tiny和Small、Medium版本。

12GB 实现 128K 上下文 5 会话,IBM 预览 Granite 4.0 Tiny 模型

阅读
分享