实体 Legal Agent Benchmark

Legal Agent Benchmark

PulseAugur coverage of Legal Agent Benchmark — every cluster mentioning Legal Agent Benchmark across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 0

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_69533 · Jun 3 · 00:00

Fireworks AI 通过混合模型方法降低法律AI成本

Fireworks AI 展示了以显著更低的成本在法律AI任务上实现前沿水平性能的技术。通过采用一种混合机制，该机制使用开源模型作为工作者，并调用 Claude Opus 4.7 等高级模型作为特定子任务的顾问，他们将成本降低了 60% 以上，同时保持了高性能。此外，在其平台上进行后期训练，包括 Kimi K2.6 的监督微调，进一步提高了模型的能力和效率。
FRONTIER RELEASE · CL_57679 · May 28 · 18:22

Anthropic 发布 Claude Opus 4.8，增强了诚实度和速度

Anthropic 发布了 Claude Opus 4.8，这是其旗舰 AI 模型的更新版本，特别强调“诚实”和改进的校准。据报道，这一迭代产生静默代码缺陷的可能性降低了四倍，并提供了更明确的不确定性标记，这对于使用自主编码代理的开发人员来说是一个显著的进步。此次发布还包括更快、更便宜的“快速模式”，并在 SWE-Bench Pro 等基准测试中取得进展，表明 Anthropic 的前沿模型正在持续快速的开发周期中。

Fireworks AI 通过混合模型方法降低法律AI成本

Anthropic 发布 Claude Opus 4.8，增强了诚实度和速度