12GB 实现 128K 上下文 5 会话，IBM 预览 Granite 4.0 Tiny 模型

访客 2025-05-10 12:07:49 67

默认

摘要： 5月10日消息，IBM本月2日介绍了其Granite4.0系列模型中的最小版本之一：Granite4.0Tiny的预览版本。Granite4.0TinyPreview的优势在于高计...

5月10日消息，IBM本月2日介绍了其Granite4.0系列模型中的最小版本之一：Granite4.0Tiny的预览版本。Granite4.0TinyPreview的优势在于高计算效率和低内存需求：在FP8精度下，运行5个128KB上下文窗口的并发对话仅需12GB显存，一张建议零售价329美元（注：现汇率约合2383元人民币）的英伟达GeForceRTX306012GB消费级显卡即可满足。
Granite4.0Tiny计划的训练Token数至少为15T，目前Preview预览版本仅训练了2.5T，但已能提供与12T训练Token的Granite3.32BInstruct相当的性能，同时在128KB上下文窗口16并发会话下内存需求降低了约72%，预计最终性能可与Granite3.38BInstruct相当。
Granite4.0TinyPreview的总参数规模为7B，实际活动参数为1B，其基于被Granite4.0系列全线采用的混合Mamba-2/Transformer架构，结合了两者的速度与精度，降低了内存消耗而不明显损失性能。Granite4.0Tiny的预览版本现已在HuggingFace上以标准Apache2.0许可证提供，IBM将于今年夏天正式推出Granite4.0系列模型的Tiny和Small、Medium版本。