实体 Rules Of Engagement

Rules Of Engagement

PulseAugur coverage of Rules Of Engagement — every cluster mentioning Rules Of Engagement across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_15409 · May 5 · 05:07

新基准揭示军用大语言模型合规性差距和越狱漏洞

一项名为 ARMOR 2025 的新军方对齐安全基准已被推出，用于评估大型语言模型在遵守战争法和交战规则等军事学说方面的合规性。初步结果表明，许多商业大语言模型未能达到这些学说标准。此外，一项新研究提出了 LOCA 方法，用于揭示大语言模型越狱背后的最小、局部因果解释，这可能显著改变 AI 安全策略。

新基准揭示军用大语言模型合规性差距和越狱漏洞