LLM 评估中的可复现性问题已被查明,其根源并非来自温度等采样参数,而是源于底层推理引擎的行为和提供商的路由。具体而言,批处理中的浮点数变异和静默路由到不同模型版本导致了评估分数的不一致。解决方案包括采用固定的批处理大小和急切执行模式来配置特定的服务,并实施强大的日志记录以跟踪为每个请求提供服务的具体模型和提供商。 AI
影响 强调了可靠的基础设施和日志记录对于确保 LLM 评估的可靠性至关重要,这影响着模型的部署和质量保证。
排序理由 该条目详细介绍了关于 LLM 评估可复现性的技术研究发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →