PulseAugur
实时 18:24:36
实体 WildguardMix

WildguardMix

PulseAugur coverage of WildguardMix — every cluster mentioning WildguardMix across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_50624 ·

    新的 D^2-Monitor 系统增强了扩散式大语言模型的安全性

    研究人员推出了一种新颖的 D-LLMs 安全监控系统 $D^2$-Monitor。该系统解决了扩散式大语言模型(D-LLMs)监控的独特挑战,D-LLMs 通过多步过程生成文本,暴露了中间表示。$D^2$-Monitor 将“安全犹豫”——即中间状态反复接近探测器的决策边界——识别为潜在探测器失败的关键指标。它采用动态路由机制,仅当犹豫水平超过阈值时才激活资源密集型探测器,从而优化效率。