PulseAugur
实时 16:57:40
实体 Haolong Hu

Haolong Hu

PulseAugur coverage of Haolong Hu — every cluster mentioning Haolong Hu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56376 ·

    新框架 SaFeR-Steer 提升了多轮对话中 LLM 的安全性

    研究人员推出了一种新颖的框架 SaFeR-Steer,旨在提高多轮大型语言模型(LLMs)的安全性和有用性。这种渐进式对齐方法利用合成引导和导师参与的强化学习技术,在自适应攻击下训练模型,解决了单轮训练数据与真实多轮部署之间的不匹配问题。该框架还包含一个轨迹一致的总结性奖励(TCSR),以惩罚对话中的任何低质量回合。实验表明,当应用于 Qwen2.5-VL 模型时,在各种基准测试中,安全性和有用性均得到显著改善。