实体 Mt Bench

Mt Bench

PulseAugur coverage of Mt Bench — every cluster mentioning Mt Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

8

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

8

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_135252 · Jul 10 · 04:00

研究发现：少量数据更改即可颠覆顶级大语言模型排名

一篇新研究论文提出了一种评估大语言模型（LLM）排名系统鲁棒性的方法。研究发现，删除极小比例的偏好数据，低至0.003%，就可能显著改变Chatbot Arena等平台上表现最佳模型的排名。研究还指出，源自MT-bench偏好的排名比Chatbot Arena的排名更稳定，这可能归因于MT-bench使用了专家标注员。论文总结认为，众包人类评估和LLM作为裁判的偏好数据，在数据删除方面表现出相似的敏感性。
RESEARCH · CL_84444 · Jun 10 · 17:04

新指标衡量多轮人工智能对话中的语义进展

研究人员开发了一种新指标来评估多轮对话中的语义进展，重点关注新颖、相关且非冗余信息的累积。这种信息论方法通过测量问题条件下的不确定性降低来量化进展，为 LLM-作为-裁判方法提供了一种可复现且高效的替代方案。实验表明，即使使用轻量级嵌入模型，该指标在 MT-Bench 和 UltraFeedback 等基准测试上与人类判断也高度一致。
RESEARCH · CL_82101 · Jun 9 · 07:57

新方法利用奖励模型状态以获得更好的AI反馈

研究人员开发了一种名为表征感知优势估计（GraphAE）的新方法，该方法增强了来自人类反馈的强化学习（RLHF）。该技术利用奖励模型隐藏状态中编码的更丰富信息，而不是仅仅使用标量奖励，来改进优势估计。通过将响应组视为图并使用图传播，GraphAE 整合了来自相似响应的上下文信息，从而实现了更具样本效率和鲁棒性的 RLHF。
TOOL · CL_51073 · May 26 · 04:00

新框架解决AI反馈中的偏好循环问题

研究人员开发了一个名为拓扑共识奖励（TCR）的新框架，以提高来自AI反馈的强化学习（RLAIF）的稳定性。该方法解决了偏好循环问题，这是大型语言模型（LLM）裁判中的随机测量误差，可能导致排名不一致。TCR利用拓扑多数投票来区分系统趋势和随机噪声，从而对偏好信号进行去噪，在各种基准测试中优于现有的成对和排名算法。
RESEARCH · CL_51277 · May 25 · 10:27

Llamion 语言模型将 Orion-14B 转换为 Llama 架构

研究人员推出了一系列名为 Llamion 的新型 140 亿参数开放权重语言模型。这些模型通过一种称为高效知识保留转换（KEPT）的技术，将 Orion-14B 模型转换为 Llama 架构。该方法结合了参数映射和跨架构知识蒸馏，以保留 Orion 的行为。Llamion 模型在 KoMMLU 等基准测试中表现出色，超越了现有模型，并保留了 Python 编程和处理 200K token 上下文等能力。
RESEARCH · CL_06752 · Apr 28 · 04:00

研究人员开发新方法来消除大型语言模型（LLM）奖励模型的偏差并改进其性能

研究人员开发了新的方法来提高用于对齐大型语言模型（LLM）的奖励模型（RM）的可靠性和可解释性。一种方法引入了因果驱动的干预技术，以在推理时减轻 RM 中的各种偏差，显示出对虚假特征的敏感性降低，而没有性能权衡。另一项开发是“reward-lens”库，它将机制可解释性工具应用于 RM，揭示线性归因并不总是能预测因果打补丁的效果。此外，一种称为时间连贯奖励建模（TCRM）的新方法将 RM 视为价值函数，从而能够进行可解释的 token…
RESEARCH · CL_08284 · Apr 28 · 02:09

研究人员探讨上下文学习与多语言模型指令微调的对比

研究人员正在探索语言模型传统指令微调的替代方案，特别是针对小型和多语言模型。一篇论文研究了上下文学习（ICL）在非英语语言和不同模型规模下指令遵循方面的有效性，发现ICL在此类场景下的性能有所下降。另一项研究引入了M-DaQ，一个用于创建高质量、多样化多语言指令微调数据集的框架，该框架能提升模型在18种语言上的性能。第三篇论文提出了一种名为加权上下文影响（wICI）的数据选择方法，用于识别有效的指令微调数据，在数据受限的情况下优于现有基线。
RESEARCH · CL_44017 · Apr 17 · 00:00

新的DPO方法通过自适应技术增强LLM对齐

研究人员在直接偏好优化（DPO）方面取得了几项进展，DPO是一种用于将大型语言模型（LLM）与人类偏好对齐的方法。AdaDPO引入了自适应系数来平衡梯度更新，提高了效率并减轻了长度偏差，在基准测试中表现优于标准DPO。Uni-DPO提供了一个统一的动态框架，根据数据质量和模型性能自适应地重新加权样本，在各种任务上取得了优于Claude 3 Opus的卓越结果。此外，AttentionPO利用LLM自身的注意力机制来加权token，使其…