一篇新的研究论文探讨了小型语言模型的零样本置信度估计,证明简单的方法可以优于监督基线。研究发现,不需要训练数据的平均 token 对数概率,在评估模型正确性方面可以媲美甚至超过监督方法。这种方法对于节省成本的策略至关重要,例如本地到云路由,其中廉价的本地模型处理大多数查询,而昂贵的云调用则保留给困难的案例。 AI
影响 这项研究可以通过提高小型语言模型的自我评估能力,减少对昂贵云资源的依赖,从而实现更高效的部署。
排序理由 该集群包含一篇详细介绍评估小型语言模型新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →