实体
WMT24
WMT24
PulseAugur coverage of WMT24 — every cluster mentioning WMT24 across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
新的强化学习框架通过自奖励和新词感知方法推进机器翻译
研究人员开发了SSR-Zero,一个新颖的用于机器翻译的强化学习框架,它消除了对外部人工标注数据或预训练奖励模型的需求。通过利用自评估奖励和Qwen-2.5-7B骨干模型,SSR-Zero在英汉翻译任务上取得了优于现有模型的性能。通过外部监督进行的进一步增强,如在SSR-X-Zero-7B中所见,已实现了最先进的性能,超越了开源和闭源的替代品。
-
苹果研究人员探究大型推理模型的思考极限
研究人员引入了一个名为“思考的幻觉”的新框架,以更好地理解大型推理模型(LRM)的推理能力和局限性。该框架利用可控的谜题环境来分析LRM的内部推理过程,超越了仅关注最终答案准确性的传统评估方法。实验表明,LRM在问题复杂度高时会出现完全的准确率崩溃,并表现出一种奇怪的扩展极限,即尽管计算资源充足,推理努力却会减少。