PulseAugur
实时 21:33:11
实体 LITMUS

LITMUS

PulseAugur coverage of LITMUS — every cluster mentioning LITMUS across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-11 research_milestone Introduction of the LITMUS benchmark for evaluating LLM agent safety in OS environments. 来源
  2. 2026-05-11 research_milestone Introduction of the LITMUS benchmark for evaluating LLM agent behavioral safety. 来源
  3. 2026-05-11 research_milestone Introduction of the LITMUS benchmark for evaluating LLM agent behavioral safety.
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_34509 ·

    New LITMUS benchmark reveals LLM agent safety flaws

    Researchers have introduced LITMUS, a new benchmark designed to test the behavioral safety of LLM agents operating within real operating system environments. This benchmark addresses limitations in existing safety evalu…

  2. TOOL · CL_17652 ·

    电子邮件营销知识库作为 Claude Code 技能发布

    一位开发者创建了一个“Claude Code 技能”,该技能可以作为电子邮件营销专家,借鉴了超过 65,000 字的综合知识库。该技能基于 908 个来源的见解构建,包括行业报告、从业者博客和社区讨论,并为 19 个不同行业提供了操作手册。该项目还提供“电子邮件营销圣经”的可下载 PDF 版本,并展示了 10 家有效利用电子邮件营销的公司取得的实际成果。