实体 DeepScaleR-1.5B

DeepScaleR-1.5B

PulseAugur coverage of DeepScaleR-1.5B — every cluster mentioning DeepScaleR-1.5B across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_79923 · Jun 9 · 04:00

新方法TNT解决推理模型的奖励劫持问题

研究人员开发了一种名为“基于思考的非思考”（TNT）的新方法来解决混合推理模型中的奖励劫持问题。该方法旨在通过使模型能够决定何时进行复杂推理和何时提供直接答案来优化计算效率。据报道，TNT将代币使用量减少了约50%，同时提高了数学基准的准确性，与现有方法相比，在性能和效率之间取得了更好的权衡。