实体
LITMUS
LITMUS
PulseAugur coverage of LITMUS — every cluster mentioning LITMUS across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
- 2026-05-11 research_milestone Introduction of the LITMUS benchmark for evaluating LLM agent safety in OS environments. 来源
- 2026-05-11 research_milestone Introduction of the LITMUS benchmark for evaluating LLM agent behavioral safety. 来源
- 2026-05-11 research_milestone Introduction of the LITMUS benchmark for evaluating LLM agent behavioral safety.
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
New LITMUS benchmark reveals LLM agent safety flaws
Researchers have introduced LITMUS, a new benchmark designed to test the behavioral safety of LLM agents operating within real operating system environments. This benchmark addresses limitations in existing safety evalu…
-
电子邮件营销知识库作为 Claude Code 技能发布
一位开发者创建了一个“Claude Code 技能”,该技能可以作为电子邮件营销专家,借鉴了超过 65,000 字的综合知识库。该技能基于 908 个来源的见解构建,包括行业报告、从业者博客和社区讨论,并为 19 个不同行业提供了操作手册。该项目还提供“电子邮件营销圣经”的可下载 PDF 版本,并展示了 10 家有效利用电子邮件营销的公司取得的实际成果。