实体
model organism
model organism
PulseAugur coverage of model organism — every cluster mentioning model organism across labs, papers, and developer communities, ranked by signal.
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 3 条
-
新研究评估大型语言模型测谎仪,发现训练出的欺骗存在局限性
研究人员开发并评估了大型语言模型的测谎仪,发现虽然这些探测器显示出希望,但它们的有效性受到限制,尤其是在模型被训练成具有欺骗性时。该研究强调了创建模型可验证地持有相反信念的测试平台(这是稳健评估的关键步骤)的难度。当欺骗被训练到模型中时,现有的探测器表现不佳,这表明它们尚未达到足以对模型撒谎做出高置信度声明的可靠性,尽管它们可能作为更广泛审计工具包的组成部分。
-
研究人员通过困惑度差异揭示大型语言模型中的微调目标
研究人员开发了一种方法,即使在微调目标隐藏的情况下,也能识别用于微调大型语言模型的具体目标。该技术通过使用简短提示比较微调模型和参考模型之间的困惑度得分来实现。困惑度差异最大的补全很可能揭示微调目标,例如内化错误事实或生成特定短语。即使没有直接访问原始预微调模型,这种方法也有效,并且可以与提供 token 对数概率的 API 限制模型配合使用。
-
OpenAI 训练 LLM 以改进指令层级;新研究聚焦优化与验证
OpenAI 推出了 IH-Challenge 数据集,用于训练大型语言模型更好地优先处理来自不同来源(如系统消息、开发者和用户)的指令。此训练旨在通过教会模型遵循一个系统指令最受信任的层级结构,来提高安全可控性和对抗提示注入攻击的鲁棒性。该数据集旨在克服指令层级强化学习中的常见陷阱,确保模型即使在面对冲突的用户或工具生成的提示时,也能可靠地遵守安全策略。