实体 BIG-Bench Hard

BIG-Bench Hard

PulseAugur coverage of BIG-Bench Hard — every cluster mentioning BIG-Bench Hard across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_129000 · Jul 7 · 04:00

新的上下文微调方法增强了LLM的少样本适应能力

研究人员推出了一种名为上下文微调（Context Tuning）的新颖方法，旨在无需更新权重即可提高大型语言模型（LLM）的少样本适应能力。该技术利用模型的上下文学习能力初始化一个可训练的记忆表示，然后通过基于梯度的优化进行精炼。在MMLU和BIG-Bench Hard等多个基准测试上的评估表明，上下文微调在性能上超越了传统的上下文学习和基于提示的适应方法，同时在效率更高的情况下展现出与测试时训练相当的准确性。
TOOL · CL_72742 · Jun 5 · 04:00

新框架通过建模任务关系优化大型语言模型微调

研究人员开发了一个名为TaskPGM的新框架，用于优化大型语言模型的微调过程。该方法使用基于能量的任务模型，将任务表示为马尔可夫随机场，以捕捉任务间的关系和效用。通过平衡覆盖率与冗余度，TaskPGM改进了标准的混合策略，并提供了对任务交互的可解释见解，在LLaMA-7B和Qwen2-7B等模型上展示了增强的性能。
RESEARCH · CL_48926 · May 22 · 13:40

新研究揭示机器学习基准易受操纵

研究人员分析了机器学习基准被操纵的易感性，将数据集视为选民，模型视为候选人。他们发现，为了在排行榜上获得最高排名而策略性地将基准数据包含在模型的训练集中是一个NP难问题，类似于选举贿赂。该研究引入了“实例级鲁棒性”来量化操纵所需的最小数据集，并评估了其在MMLU和BIG-Bench Hard排行榜上的表现。
TOOL · CL_25616 · May 8 · 12:54

新研究揭示“耦合税”限制了大型语言模型的推理准确性

一篇新研究论文引入了大型语言模型中的“耦合税”概念，强调了用于推理和最终答案的共享令牌预算如何会损害准确性。研究发现，对于某些任务和模型，在令牌预算有限的情况下，“非思考”模式的表现通常与思维链推理一样好，甚至更好。研究人员提出将预算拆分生成作为一种缓解策略，该策略将推理和答案预算解耦以提高性能。
TOOL · CL_16166 · May 5 · 04:00

SCALE-LoRA 框架审计和组合低秩适配器以获得可靠的 AI 输出

研究人员开发了 SCALE-LoRA，一个旨在改进从开放池中为新任务重用低秩适配器 (LoRA) 的框架。该系统解决了组合多个适配器时出现的适配器兼容性和输出可靠性方面的挑战。SCALE-LoRA 包含一种层自适应稀疏残差组合 (LASRC) 方法来减轻合并干扰，以及一个使用不同组合视图之间不一致作为不确定性信号的可靠性分析层。