实体 HellaSwag

HellaSwag

PulseAugur coverage of HellaSwag — every cluster mentioning HellaSwag across labs, papers, and developer communities, ranked by signal.

总计 · 30天

8

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

7

90 天内 7

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_115691 · Jun 29 · 04:00

Prism Transformer 引入分层注意力的渐进式头调度

研究人员推出 Prism Transformer，这是一种新颖的架构，可修改标准的多头注意力机制。Prism Transformer 不在每个层中为每个注意力头分配相等的维度空间，而是跨层渐进地增加头的数量。这种方法建立了从局部到全局的表示层次结构，使早期层能够用更宽的头捕获复杂的局部模式，而更深的层则用更窄的头进行专业化。该架构是参数中性的，不会引入额外的训练或推理开销，但在下游零样本基准测试中始终优于统一基线。
RESEARCH · CL_115628 · Jun 29 · 04:00

新方法通过自适应解码策略提高 LLM 推理速度

研究人员开发了 BlockPilot，一种新颖的投机解码方法，可自适应地预测生成文本的最佳块大小。该方法通过学习一种策略来提高效率，该策略根据预填充表示来选择块大小，从而实现显著的加速和更长的接受长度。此外，另一篇论文介绍了一种用于掩码扩散语言模型的连续解码框架，该框架允许 token 累积部分进度，为文本生成提供了更灵活的方法。
TOOL · CL_102459 · Jun 21 · 09:02

通用大语言模型在基准测试中已超越专业临床AI，但安全担忧依然存在

通用大语言模型在包括结构化知识和推理在内的各种基准测试中，其性能水平已达到或超过专业临床AI系统。例如，DeepSeek R1等模型在创伤性牙损伤（TDI）基准测试中表现出高准确率，可与专家决策树相媲美。然而，尽管在基准测试中取得了成功，但由于工作流程整合、患者安全和监管障碍等方面的担忧，其在医疗保健领域的广泛应用仍然受限。虽然通用大语言模型提供了强大的功能，但其部署需要仔细考虑其局限性，例如潜在的幻觉和脆弱的判断力，因此必须采取健全…
TOOL · CL_53675 · May 27 · 04:00

新的量化感知训练方法实现近乎无损的大模型性能

研究人员开发了一种新的大语言模型（LLM）量化感知训练（QAT）方法，称为Max-Window Scale Estimation。该技术解决了两种失效模式：amax饱和（延迟的尺度估计会破坏表示）和灾难性遗忘（激进的学习率会抹去预训练知识）。通过采用保守的DTS策略和BF16预热，该方法显著降低了在MMLU和HellaSwag等基准测试上的性能下降，实现了近乎无损的结果，且训练损失偏差极小。
RESEARCH · CL_50617 · May 25 · 15:29

新的QUIET基准客观衡量大型语言模型的创意写作能力

研究人员推出了一项名为QUIET的新基准，旨在评估大型语言模型的创意生成能力。与依赖多项选择格式或主观人工评分的现有基准不同，QUIET采用多空白级联故事填空方法，具有明确的内容约束和空白间的依赖关系。这种方法允许基于“校准惊喜”框架进行客观、自动化的评分，该框架奖励符合约束且富有创意的响应。
TOOL · CL_32060 · May 14 · 18:16

LLM 基准测试成本分析：3 项任务花费 0.12 美元

在单个 T4 GPU 上对三项大型语言模型任务（GSM8K、HellaSwag 和 TruthfulQA）进行基准测试，成本约为 0.12 美元。分析显示，生成任务是主要的成本驱动因素，而对数似然任务可以并行处理。通过将 token 限制在 256 个、使用 25% 的分层样本以及采用 MC2 评分进行优化，可以显著降低运行时间和成本。
TOOL · CL_31715 · May 14 · 13:39

使用Qwen2.5-0.5B评估LLM的成本低于1美元

这篇博文详细介绍了一种经济高效的评估大型语言模型的方法，证明了运行全面的基准测试的成本可以低于一美元。作者使用免费的Google Colab T4实例在三个不同的任务上测试了Qwen2.5-0.5B模型：GSM8K用于数学推理，HellaSwag用于常识，TruthfulQA-MC2用于真实性。实验重点是测量运行时间和成本，利用lm-evaluation-harness并进行特定调整以优化性能和降低费用，例如限制生成令牌的长度。
RESEARCH · CL_24593 · May 10 · 01:24

Aurora 优化器提升神经网络训练效率

研究人员推出 Aurora，这是一种旨在改进大型神经网络训练的新优化器，特别适用于具有矩形矩阵的神经网络。Aurora 解决了现有优化器（如 Muon）在 MLP 层中可能出现的神经元死亡问题，尤其是在应用行归一化时。通过结合感知杠杆率和保持正交性，Aurora 展现出显著的数据效率，在开源互联网数据上实现了 100 倍的提升，并在通用评估中超越了更大的模型。该优化器被呈现为一个几乎没有开销的即插即用替代品，并且其代码已开源。