实体
12b Parameter Model
12b Parameter Model
PulseAugur coverage of 12b Parameter Model — every cluster mentioning 12b Parameter Model across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
在 Mac Mini 上探索 Gemma 4 微调的挑战
两篇文章详细介绍了微调 Google 的 Gemma 4 模型时遇到的实际挑战和个人经验。第一篇文章着重于微调过程中遇到的“障碍”,暗示用户遇到的“顺畅路径”并非理想状态。第二篇文章提供了一个具体案例研究,概述了在 Mac mini 上微调 Gemma 4 的过程,并反思了从结果中学到的经验。
-
Google 的 QATs 显示出比 Unsloth 变体更高的精度
r/LocalLLaMA 上的一位用户观察到,Google 的 QATs(量化感知训练)Q4_0 模型似乎比 Unsloth 的 Q4_K_XL 变体具有更高的精度,这与预期相反。这一观察基于文件大小和张量数量,其中 Google 的 Q4_0 模型有时比 Unsloth 的 Q4_K_XL 更大,这表明量化策略或实现方式存在差异。用户正在寻求关于为何会出现这种差异以及如何正确分析 GGUF 文件中张量数据的解释。
-
NVIDIA 将 3 个 AI 模型集成到单个检查点中,提高效率
NVIDIA 开发了一款名为 Star Elastic 的新 AI 模型,该模型将三种不同的模型尺寸(30B、23B 和 12B 参数)集成到一个检查点中。这种方法将训练成本和 token 使用量减少了 360 倍。该模型还承诺提高推理性能,有可能使其在消费级 GPU 上运行。