English(EN) CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

新的CHILLGuard安全系统增强了中文LLM的安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员开发了CHILLGuard，这是一个专门为中文大型语言模型（LLM）设计的创新安全护栏。该系统通过纳入针对中国监管政策和文化细微差别的细粒度风险分类法，解决了现有护栏的局限性。为了克服相关训练数据的稀缺性，采用了可扩展的多阶段数据构建流程，生成了超过40万个样本的训练集和超过5万个样本的测试集。实验表明，CHILLGuard在性能上显著优于包括Qwen3Guard-8B-Strict在内的现有模型。 AI

影响增强了中国LLM的安全性和合规性，可能使其在敏感应用中得到更广泛的应用。

排序理由该集群描述了一篇发表在arXiv上的研究论文，详细介绍了一种新的LLM安全护栏。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Wenbo Yu, Bohua Wang, Hao Fang, Kuofeng Gao, Jingru Zeng, Xiaochen Yang, Tianyi Zhang, Xiaoxiao Ma, Jiawei Kong, Hao Wu, Bin Chen, Shu-Tao Xia, Min Zhang · 2026-06-16 04:00

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

arXiv:2606.15396v1 Announce Type: cross Abstract: Malicious content generated from large language models (LLMs) could pose severe safety risks and ethical concerns. While existing LLM safety guardrails excel in English or multilingual settings, they lack adaptation to Chinese-spe…

报道来源 [1]

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

相关实体

相关话题