Nexus Labs 进行了一项影子测试,将一个微调后的 Llama 3.1 8B 模型与 OpenAI 的 gpt-4o-mini 在发票行项目提取方面进行了比较。尽管在特定字段上存在 1.1% 的初始幻觉率,但微调后的模型在准确性上提高了 1.8 个百分点,并且每调用成本降低了 71%。测试利用了 Bifrost 的负载均衡和自定义插件功能来镜像生产流量,而不影响实时响应,从而能够离线比较输出结果。 AI
影响 证明了微调后的开源模型在特定企业任务中的可行性,与通用商业模型相比,有可能降低成本并提高性能。
排序理由 文章详细介绍了在生产环境中使用的微调开源模型,并将其性能和成本与商业模型进行了比较,这属于工具使用和评估的范畴。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →