一种名为“对比共向量”(contrastive co-vector)的新算子已被开发用于“apostate”工具,旨在降低语言模型的拒绝率,同时最大限度地减少对无害行为的影响。该方法包括拟合一个预测器来重现无害方差,同时明确抑制有害提示。在“granite-3.3.8b”模型上进行的测试显示,拒绝率从 96.0% 显著降低到 5.0%,无害 KL 散度仅略微增加到 0.081 nats。 AI
影响 这一新算子可能带来更合规、限制性更小的 AI 模型,从而改善用户交互和实用性。
排序理由 该项目描述了一种修改语言模型的新技术方法,包括实验结果,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →