实体 Drop

Drop

PulseAugur coverage of Drop — every cluster mentioning Drop across labs, papers, and developer communities, ranked by signal.

总计 · 30天

5

90 天内 5

发布 · 30天

0

90 天内 0

论文 · 30天

5

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_89191 · Jun 13 · 12:40

HRM-Text：拥有10亿参数的新型架构模型挑战LLM范式

Sapient Intelligence开发的一款名为HRM-Text的新语言模型，因其创新的架构而受到关注，该架构侧重于内部推理，而非仅仅增加模型规模或训练数据。该模型仅拥有10亿参数，训练成本约为1500美元，在MATH和GSM8K等基准测试中取得了令人印象深刻的分数。这种被称为分层推理模型（HRM）的架构强调潜在推理，允许模型在产生输出之前在其内部状态中执行多轮、分层和递归计算，这一概念也得到了Yoshua Bengio团队研究的探索。
TOOL · CL_54382 · May 27 · 10:07

Corsair发布新键盘，劳工部发布DEI指导，巫师3公布扩展包

Corsair发布了一款名为Galleon 100 SD的新键盘，该键盘集成了Stream Deck功能和Drop的设计专长。另外，劳工部向员工发布了关于举报优先考虑DEI倡议的同事的指导，一位员工称此举是“提醒你去告发你的同事”。在游戏新闻方面，CD Projekt宣布为《巫师3：狂猎》推出名为“往日之歌”的新扩展包，并发布了关于在游戏《007 第一道曙光》中为绿野开辟道路的指南。
TOOL · CL_41828 · May 20 · 01:59

HRM-Text模型大幅削减LLM预训练成本

研究人员开发了一种新颖的层次循环模型HRM-Text，它显著减少了预训练大型语言模型所需的计算资源和训练数据。通过将计算分解为策略层和执行层，并专门在指令-响应对上进行训练，一个10亿参数的模型在多个基准测试中取得了有竞争力的性能，而使用的token和计算量仅为标准模型的一小部分。这种方法通过降低从头开始预训练的门槛，使基础LLM研究更加易于获得。
RESEARCH · CL_18265 · May 5 · 01:13

研究人员发现 Transformer 知道计数但难以输出

一篇新论文指出了 Transformer 模型中一个特定的瓶颈，阻碍了它们执行计数任务的能力。研究人员发现，虽然 Pythia、Qwen3 和 Mistral 等模型在内部准确地存储计数信息，但它们难以将这些信息转化为正确的输出 token。对注意力权重进行有针对性的干预，显著提高了模型在自回归任务中生成正确计数的 ist, 表明输出路径存在几何错位。
RESEARCH · CL_01620 · Oct 10 · 00:00

Google DeepMind发布T5Gemma编码器-解码器LLM，改编自Gemma

Google DeepMind推出了T5Gemma，这是一个新的编码器-解码器大型语言模型系列，源自其现有的Gemma 2模型。这种改编技术允许灵活组合编码器和解码器的大小，从而在模型质量和推理效率之间取得更好的平衡。实验表明，T5Gemma模型在各种基准测试中的表现与同类仅解码器的Gemma模型相当或更优，在数学推理和阅读理解等任务中提供了显著的速度和准确性优势。