PulseAugur
实时 17:00:26
English(EN) Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

新机制通过真实的众包反馈改进大型语言模型微调

研究人员开发了一种新的在线机制,以提高在移动众包应用中用于微调大型语言模型的人类反馈的准确性。该机制通过根据反馈准确性动态调整工人的影响力来解决工人策略性地误报偏好的问题。所提出的方法保证了真实反馈,并在 T 个时间段内实现了 O(sqrt(T)) 的次线性遗憾,在实验中优于现有的基准方案。 AI

影响 增强了大型语言模型微调的人类反馈的可靠性,有望在移动环境中实现更准确、更符合用户需求的人工智能应用。

排序理由 关于大型语言模型微调新机制的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Shugang Hao, Lingjie Duan ·

    Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing

    arXiv:2605.24052v1 Announce Type: cross Abstract: To better serve users' demands in mobile applications (e.g., navigation), mobile crowdsourcing platforms can iteratively align large language model (LLM)-generated content (e.g., AI-generated traffic condition predictions) with hu…