最近的一项基准测试评估了六种大型语言模型从客户支持邮件中提取结构化数据(特别是JSON)的能力。分析发现,Anthropic的Claude Haiku 4.5提供了最佳价值,与更强大的模型相比,以显著更低的成本实现了高准确性。虽然Gemini 2.5 Flash速度快且价格便宜,但它在准确性方面存在困难,尤其是在数据幻觉方面。研究建议将Haiku用于大多数提取任务,将Sonnet用于更复杂的推理,并避免在简单数据提取中使用更昂贵的尖端模型。 AI
影响 确定了最具成本效益的LLM用于结构化数据提取,指导开发人员在生产功能中选择模型。
排序理由 该集群描述了一项比较LLM在特定任务上性能的基准测试,而不是新模型发布或重大行业事件。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →