研究人员开发了一种新的AI安全评估器训练策略,旨在提高其一致性和可靠性。该策略使用从提示-响应-标签三元组生成的动态规则来让评估器接触不同的评估标准。在固定规则的初始训练后,课程方法逐步引入这些动态规则,从而使一个12B模型在不同的规则表述下都能实现高准确性和稳定性。 AI
影响 增强了AI安全评估的可靠性,可能带来更强大的AI系统。
排序理由 该集群包含一篇学术论文,详细介绍了AI安全评估器的新训练方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →