PulseAugur
实时 13:27:05
实体 ASSEBench

ASSEBench

PulseAugur coverage of ASSEBench — every cluster mentioning ASSEBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. TOOL · CL_65326 ·

    新的TRACE方法提高了长时LLM代理的安全检测能力

    研究人员推出了一种新颖的TRACE方法,用于增强长时大型语言模型(LLM)代理的安全性。TRACE解决了传统回合级检测器常常忽略的稀疏和延迟安全风险的检测挑战。该系统采用压缩器-读取器(Compressor-Reader)设计,其中压缩器将整个轨迹编码为压缩的潜在状态,然后读取器使用该状态来评估安全性。这种方法有效地汇集了分散的风险线索,并防止了过早的证据丢失,在多个基准测试中表现优于现有方法。

  2. TOOL · CL_22495 ·

    新的 LLM 安全评估员测试揭示了当前评估方法的不可靠性

    研究人员引入了一种名为策略不变性的新方法来评估基于 LLM 的安全评估员的可靠性。该方法测试 LLM 的安全判决是否在评估策略的措辞或修改方式上保持一致。实验表明,当前的 LLM 评估员对细微的措辞变化高度敏感,导致在明确的案例上出现显著的判决翻转,从而将代理行为与提示措辞混淆。