实体 FineWeb-Edu

FineWeb-Edu

PulseAugur coverage of FineWeb-Edu — every cluster mentioning FineWeb-Edu across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 12

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 12

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

TOOL · CL_147890 · Jul 17 · 04:00

深度循环Transformer展示每Token固定点收敛

研究人员调查了深度循环Transformer的内部计算，特别是每个Token的状态如何在多个处理循环中演变。他们发现，每个Token的状态会收敛到一个固定点，尽管这种收敛并不均匀。虽然中位数Token在第六个循环时稳定下来，但大约10%的Token在典型的八个训练循环深度下仍在更新。这种每Token的变化至关重要，因为一旦Token的输出稳定就停止处理，可以在不牺牲质量的情况下显著降低计算深度。
TOOL · CL_104732 · Jun 20 · 18:42

新研究详述在单 GPU 上训练的小型语言模型

研究人员详细介绍了一种使用显著更少计算资源（具体来说是在单个 NVIDIA L20 GPU 上）训练小型语言模型 L20-Edu-135M 的方法。该研究侧重于数据效率，预训练使用了约 130 亿个 token，这仅占同类模型通常使用的 token 数量的一小部分。虽然所得模型并未超越 SmolLM-135M 等现有的最先进的小型模型，但其性能优于较旧的公开基线模型，并为资源受限的语言模型开发提供了一个可审计的案例研究。
RESEARCH · CL_97829 · Jun 17 · 15:11

新的预训练方法通过集成反思增强了LLM的安全性

研究人员引入了一种名为安全反思预训练的新方法，旨在增强大型语言模型（LLM）在预训练阶段的安全对齐。该方法通过将定期的安全反思纳入预训练语料库，超越了简单的过滤或重写不安全数据。在FineWeb-Edu数据集上对1.7B模型进行的实验表明，安全分类准确性有所提高，并且对攻击的敏感性降低。还开发了一个名为MedSafetyWorld的合成环境，以进一步验证该方法在防止模型从安全数据泛化不安全行为方面的有效性。
TOOL · CL_84918 · Jun 11 · 04:00

EverydayGPT 使用置信度门控将 RAG 延迟降低 120 倍

研究人员开发了 EverydayGPT，一个对话式问答系统，它使用置信度门控路由 (CGR) 机制来提高效率。该系统根据检索距离和提取充分性路由查询，避免了大多数请求昂贵的 GPT 路径。EverydayGPT 在 85% 的查询中实现了 120 倍的延迟降低，同时保持了答案质量，展示了在准确性略有提高的情况下显著的效率提升。
TOOL · CL_84812 · Jun 11 · 04:00

SoftMatcha 2 使万亿级 token 搜索速度提升至 0.3 秒以内

研究人员开发了 SoftMatcha 2，这是一种新颖的算法，旨在对海量文本数据集进行快速、语义灵活的模式匹配。该系统可以在一秒钟内搜索万亿个 token，并能处理查询中的变体，如替换、插入和删除。它通过动态语料库感知剪枝和面向磁盘的设计来实现效率，在大语料库上性能优于现有方法，并证明了其在识别基准污染和增强信息检索方面的实用性。
TOOL · CL_65808 · Jun 2 · 04:00

面向儿童的语音有助于AI语言生成，而非理解

一篇新研究论文探讨了面向儿童的语音（CDS）如何影响语言模型，特别是侧重于生成能力而非仅仅是理解能力。研究发现，在CDS上训练的模型在语法完成和槽填充集中表现出更早的迹象，这表明CDS有助于语言生成。这与理解基准形成对比，后者可能低估了CDS对AI语言习得的好处。
TOOL · CL_58840 · May 29 · 04:00

Kronecker Embeddings 削减语言模型参数，提升性能

研究人员开发了 Kronecker Embeddings，一种表示语言模型中标记的新颖方法，可显著减少可训练参数的数量。该方法用固定的编码器和学习到的投影替换大型嵌入表，将参数数量减少了 91-94%。实验表明，与传统的 BPE 绑定嵌入相比，Kronecker Embeddings 可带来更低的验证损失和更快的收敛速度，同时还能提高对拼写错误的鲁棒性，并通过生成保留字节级信息。
TOOL · CL_51343 · May 26 · 04:00

新的跨域注意力机制融合了Transformer和SSM

研究人员推出了一种名为跨域注意力（Interdomain Attention）的新型机制，它融合了Transformer和深度状态空间模型（SSM）的优势。该新方法使用核方法将SSM集成到注意力模块中，通过特征图近似注意力核，并将键特征投影到由SSM递归管理的共享基函数集上。在FineWeb-Edu上的语言模型实验中，跨域注意力在SSM和softmax基线之上展现了改进的性能，尤其是在更大的规模和更长的上下文长度下。
RESEARCH · CL_28256 · May 11 · 16:26

Muown 优化器通过控制行范数漂移来改进 LLM 训练

研究人员开发了 Muown，这是一种旨在改进大型语言模型训练的新型优化方法。Muown 解决了 Muon 优化器的问题，特别是训练过程中权重矩阵中谱范数的向上漂移。通过将行幅度向量视为显式变量，Muown 提高了各种模型规模下的困惑度和学习率稳定性，性能优于 AdamW 和 Lion 等现有优化器。
TOOL · CL_25579 · May 8 · 14:47

OrScale优化方法改进神经网络训练

研究人员推出了一种名为OrScale的新型优化技术，旨在增强神经网络训练。OrScale在Muon方法的基础上，通过引入层级信任比率缩放来衡量实际应用参数空间方向的Frobenius范数。这一新论文中详细介绍的方法旨在改进现有的Muon和AdamW等方法，尤其适用于语言模型。
TOOL · CL_15985 · May 5 · 04:00

研究人员探索通过模块化组合和分层扩展来增长 Transformer 模型

研究人员探索了一种通过向冻结的基础模型增量添加新层来训练 Transformer 模型的方法，同时保持可训练参数的恒定预算。这种被称为“Growing Transformers”的方法表明，即使只更新模型参数的一小部分，新的模块也可以被有效训练。即使在高度受限的 token 接口下，一个 16 层模型也取得了显著的 MMLU 分数，这表明在参数预算限制下持续学习的可行性，尽管与整体训练相比，最终的困惑度有所权衡。
RESEARCH · CL_14902 · May 4 · 19:11

OpenMythos 项目重建 Anthropic 秘密的 Claude Mythos AI 模型

一个名为 OpenMythos 的新开源项目已发布，旨在理论上重建 Anthropic 的 Claude Mythos 模型的架构。该项目实现了一个循环深度 Transformer (RDT)，其独特结构包括前奏、循环递归块和尾声。RDT 设计通过在单次前向传播中多次重复利用部分层来实现深度可变推理，这与思维链处理不同。