实体 WMT24

WMT24

PulseAugur coverage of WMT24 — every cluster mentioning WMT24 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_56353 · May 28 · 04:00

新的PEAR指标改进机器翻译评估

研究人员开发了PEAR，一种新颖的监督式机器翻译质量评估指标，它将评估重构为成对比较。该方法预测两个候选翻译之间质量差异的方向和幅度。尽管参数较少，PEAR的表现优于现有指标，包括更大的模型和基于参考的方法。它还被证明对最小贝叶斯风险解码有效，以最小的性能影响降低了计算成本。
RESEARCH · CL_06677 · Apr 28 · 04:00

新的强化学习框架通过自奖励和新词感知方法推进机器翻译

研究人员开发了SSR-Zero，一个新颖的用于机器翻译的强化学习框架，它消除了对外部人工标注数据或预训练奖励模型的需求。通过利用自评估奖励和Qwen-2.5-7B骨干模型，SSR-Zero在英汉翻译任务上取得了优于现有模型的性能。通过外部监督进行的进一步增强，如在SSR-X-Zero-7B中所见，已实现了最先进的性能，超越了开源和闭源的替代品。
TOOL · CL_17750 · Jun 8 · 07:24

苹果研究人员探究大型推理模型的思考极限

研究人员引入了一个名为“思考的幻觉”的新框架，以更好地理解大型推理模型（LRM）的推理能力和局限性。该框架利用可控的谜题环境来分析LRM的内部推理过程，超越了仅关注最终答案准确性的传统评估方法。实验表明，LRM在问题复杂度高时会出现完全的准确率崩溃，并表现出一种奇怪的扩展极限，即尽管计算资源充足，推理努力却会减少。

新的PEAR指标改进机器翻译评估

新的强化学习框架通过自奖励和新词感知方法推进机器翻译

苹果研究人员探究大型推理模型的思考极限