实体 Haolong Hu

Haolong Hu

PulseAugur coverage of Haolong Hu — every cluster mentioning Haolong Hu across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_56376 · May 28 · 04:00

新框架 SaFeR-Steer 提升了多轮对话中 LLM 的安全性

研究人员推出了一种新颖的框架 SaFeR-Steer，旨在提高多轮大型语言模型（LLMs）的安全性和有用性。这种渐进式对齐方法利用合成引导和导师参与的强化学习技术，在自适应攻击下训练模型，解决了单轮训练数据与真实多轮部署之间的不匹配问题。该框架还包含一个轨迹一致的总结性奖励（TCSR），以惩罚对话中的任何低质量回合。实验表明，当应用于 Qwen2.5-VL 模型时，在各种基准测试中，安全性和有用性均得到显著改善。