实体
CultureGuard
CultureGuard
PulseAugur coverage of CultureGuard — every cluster mentioning CultureGuard across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
IndicGuard:面向印度语言的新安全模型和数据集已发布
研究人员开发了 IndicGuard,这是一个新的多语言安全模型和数据集,旨在解决英语为中心的 LLM 安全机制在印度地区存在的局限性。该模型在 4B 参数的 Gemma-3-4B-IT 基础模型上进行了微调,利用了涵盖十种主要印度语言的大型、具有文化细微差别的数据集,以识别和缓解特定区域的危害和对抗性攻击。与 CultureGuard 等现有模型相比,IndicGuard 表现出更优越的性能,即使对于训练数据中未包含的低资源印度语言…
-
新的IndicGuard模型增强了印度语言的LLM安全性
研究人员开发了IndicGuard,这是一个专门为印度语言设计的新型多语言安全防护模型和数据集。该模型通过捕捉独特的区域性危害和社会政治敏感性,解决了现有以英语为中心的安全性机制的局限性。IndicGuard在基于Gemma-3-4B-IT的4B参数模型上进行了微调,在十种主要的印度语言中表现出更强的鲁棒性和审核一致性,优于基线CultureGuard模型。该框架还对未包含在其训练数据中的低资源印度语言表现出有效的泛化能力。