PulseAugur
实时 20:46:46
中文(ZH) HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

HRM-Text:拥有10亿参数的新型架构模型挑战LLM范式

Sapient Intelligence开发的一款名为HRM-Text的新语言模型,因其创新的架构而受到关注,该架构侧重于内部推理,而非仅仅增加模型规模或训练数据。该模型仅拥有10亿参数,训练成本约为1500美元,在MATH和GSM8K等基准测试中取得了令人印象深刻的分数。这种被称为分层推理模型(HRM)的架构强调潜在推理,允许模型在产生输出之前在其内部状态中执行多轮、分层和递归计算,这一概念也得到了Yoshua Bengio团队研究的探索。 AI

影响 该模型对内部推理的关注可能将未来的LLM开发方向从单纯的规模转向更高效的计算。

排序理由 发布了新颖的AI模型架构,在基准测试中表现出色,并获得了知名AI研究人员的认可。[lever_c_demoted from significant: ic=1 ai=1.0]

在 量子位 (QbitAI) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. 量子位 (QbitAI) TIER_1 中文(ZH) · 鹭羽 ·

    HuggingFace CEO strongly recommends, Bengio team also bets on: Why is this HRM model, trained with $1500, so popular?

    模型参数量只有1B