PulseAugur
实时 10:33:03
实体 TinyStories

TinyStories

PulseAugur coverage of TinyStories — every cluster mentioning TinyStories across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_77255 ·

    WAV v1 通过多分辨率残差路由增强Transformer训练

    研究人员推出了一种新颖的方法WAV v1,用于改进深度仅解码器Transformer的训练。该技术通过引入多分辨率细节基来增强残差路由,这些细节基捕获了关于注意力(attention)和MLP更新的方向信息,以及早期与晚期子层动力学。WAV v1在TinyStories和Text8等语言建模任务中表现出显著优势,尤其是在24层和48层等更深的层级中,以最小的参数开销超越了现有方法。

  2. TOOL · CL_60268 ·

    业余爱好者用 8GB 显存从零开始训练小型大型语言模型

    一位 Reddit 用户仅使用 8GB 显存就成功地从零开始训练了一个小型语言模型。该项目可在 GitHub 上找到,专注于 TinyStories 数据集,并探索了各种训练技术。虽然生成的模型只有 2500 万个参数,但用户对在有限的硬件上实现这一壮举表示满意。

  3. TOOL · CL_55150 ·

    微型 LLM 在旧 RTOS 内的模拟 90 年代 CPU 上运行

    一位开发者成功地在一个模拟的 1990 年代 CPU 环境中运行了一个拥有 26 万参数、在 TinyStories 数据集上训练的 LLM。该设置运行在一个已有 18 年历史的实时操作系统 (RTOS) 上,该系统是开发者使用 Claude 和 Qwen 等 AI 工具复活的。为了在缺乏浮点运算单元的模拟 ColdFire MCF5307 处理器上实现这一壮举,模型被量化为 INT8,并采用了 Carmack 的快速平方根倒数等技术…