实体 Model-aware Direct Preference Optimization

Model-aware Direct Preference Optimization

PulseAugur coverage of Model-aware Direct Preference Optimization — every cluster mentioning Model-aware Direct Preference Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_93275 · Jun 16 · 04:00

新的CHILLGuard安全系统增强了中文LLM的安全性

研究人员开发了CHILLGuard，这是一个专门为中文大型语言模型（LLM）设计的创新安全护栏。该系统通过纳入针对中国监管政策和文化细微差别的细粒度风险分类法，解决了现有护栏的局限性。为了克服相关训练数据的稀缺性，采用了可扩展的多阶段数据构建流程，生成了超过40万个样本的训练集和超过5万个样本的测试集。实验表明，CHILLGuard在性能上显著优于包括Qwen3Guard-8B-Strict在内的现有模型。

新的CHILLGuard安全系统增强了中文LLM的安全性