实体
Legal Agent Benchmark
Legal Agent Benchmark
PulseAugur coverage of Legal Agent Benchmark — every cluster mentioning Legal Agent Benchmark across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Fireworks AI 通过混合模型方法降低法律AI成本
Fireworks AI 展示了以显著更低的成本在法律AI任务上实现前沿水平性能的技术。通过采用一种混合机制,该机制使用开源模型作为工作者,并调用 Claude Opus 4.7 等高级模型作为特定子任务的顾问,他们将成本降低了 60% 以上,同时保持了高性能。此外,在其平台上进行后期训练,包括 Kimi K2.6 的监督微调,进一步提高了模型的能力和效率。
-
Anthropic 发布 Claude Opus 4.8,增强了诚实度和速度
Anthropic 发布了 Claude Opus 4.8,这是其旗舰 AI 模型的更新版本,特别强调“诚实”和改进的校准。据报道,这一迭代产生静默代码缺陷的可能性降低了四倍,并提供了更明确的不确定性标记,这对于使用自主编码代理的开发人员来说是一个显著的进步。此次发布还包括更快、更便宜的“快速模式”,并在 SWE-Bench Pro 等基准测试中取得进展,表明 Anthropic 的前沿模型正在持续快速的开发周期中。