一个名为 Forge 的新框架在 ACM CAIS 2026 上发布,通过运行时防护栏包装小型开放权重模型来增强它们。这些防护栏包括重试、步骤执行和上下文管理等功能,将一个 8B 模型在代理工作流上的性能从 53% 提升到 99%。另外,一个由六个 Markdown 文件组成的上下文工程工具包,通过使用失败模式和结构化输出契约重塑输入提示来提高模型准确性。该工具包将 Gemma 4 31B 在架构审计上的性能从 12 项发现中的 9 项提升到 12 项中的 11 项,接近了更大前沿模型的可靠性。 AI
影响 这些方法展示了在更小、更易于访问的模型中实现前沿级别可靠性的途径,有可能降低生产就绪的代理工作流的门槛。
排序理由 该集群描述了通过两种不同方法改进小型开放权重语言模型可靠性的新研究:运行时防护栏和提示工程。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →