研究人员开发了一种新的在线机制,以提高在移动众包应用中用于微调大型语言模型的人类反馈的准确性。该机制通过根据反馈准确性动态调整工人的影响力来解决工人策略性地误报偏好的问题。所提出的方法保证了真实反馈,并在 T 个时间段内实现了 O(sqrt(T)) 的次线性遗憾,在实验中优于现有的基准方案。 AI
影响 增强了大型语言模型微调的人类反馈的可靠性,有望在移动环境中实现更准确、更符合用户需求的人工智能应用。
排序理由 关于大型语言模型微调新机制的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →