PulseAugur
实时 16:57:44
English(EN) Towards Spec Learning: Inference-Time Alignment from Preference Pairs

新方法在无需大量微调的情况下使大型语言模型与用户偏好保持一致 · 跟踪 3 个来源

研究人员开发了两种新颖的方法,可以在无需大量参数更新的情况下使大型语言模型(LLM)与用户偏好保持一致。一种方法称为“规范学习”(spec learning),它使用简短的用户指令和少量偏好判断来创建自然语言提示,在推理时指导 LLM。这种方法提供了人类可读的规范,并且在专业领域已显示出优于直接偏好优化(DPO)的性能。第二种方法是基于人类反馈的马尔可夫链(MCHF),它直接使用成对偏好来定义模型输出的转换机制,并快速收敛到平稳分布。MCHF 为基于奖励、博弈论和马尔可夫对齐技术提供了一个统一的视角。 AI

影响 这些方法可以降低对齐 LLM 的成本和复杂性,使它们能够针对特定任务进行更灵活和可控的调整。

排序理由 该集群包含两篇学术论文,详细介绍了 LLM 对齐的新方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

新方法在无需大量微调的情况下使大型语言模型与用户偏好保持一致 · 跟踪 3 个来源

报道来源 [3]

  1. arXiv cs.AI TIER_1 English(EN) · Dhriti Krishnan, Tejas Goyal, Jaromir Savelka ·

    迈向 Spec 学习:来自偏好对的推理时对齐

    arXiv:2606.24004v1 Announce Type: cross Abstract: Steering a large language model (LLM) toward a desired behavior typically relies on an iterative process of hand-crafting a prompt based on a careful inspection of the model's responses. This is an involved, brittle, and error-pro…

  2. arXiv cs.CL TIER_1 English(EN) · Jaromir Savelka ·

    迈向 Spec 学习:来自偏好对的推理时对齐

    Steering a large language model (LLM) toward a desired behavior typically relies on an iterative process of hand-crafting a prompt based on a careful inspection of the model's responses. This is an involved, brittle, and error-prone process. Preference-based fine-tuning is a more…

  3. arXiv stat.ML TIER_1 English(EN) · Tengyuan Liang ·

    一种用于偏好对齐的马尔可夫链方法

    We propose Markov Chain from Human Feedback (MCHF), an elementary approach for aligning generative models from pairwise human preferences. Unlike Reinforcement Learning from Human Feedback (RLHF), which reduces comparisons to a scalar reward, and Nash Learning from Human Feedback…