实体 FlashAttention-2

FlashAttention-2

PulseAugur coverage of FlashAttention-2 — every cluster mentioning FlashAttention-2 across labs, papers, and developer communities, ranked by signal.

总计 · 30天

8

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

significant 1
research 4
tool 3

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_113992 · Jun 27 · 16:44

Picotron框架支持在旧款GPU上进行LLM训练

一位开发者创建了Picotron，一个专为在旧款GPU上运行而不崩溃而设计的LLM训练框架。该框架消除了强制性的GPU特定依赖，使其能在任何支持PyTorch的GPU上运行。Picotron默认使用标准的PyTorch SDPA，但如果可用，也可以利用FlashAttention-2，并包含各种注意力机制和优化技术的配置。
RESEARCH · CL_109474 · Jun 24 · 00:00

新的Causal-rCM配方加速了自回归视频扩散

研究人员推出了一种新颖的自回归视频扩散蒸馏开放配方Causal-rCM。该框架统一了teacher-forcing和self-forcing范式，以增强流式视频生成和交互式世界模型。Causal-rCM利用连续时间一致性模型和自定义FlashAttention-2内核，实现了比以往方法快10倍的收敛速度。该方法在视频生成方面展示了最先进的性能，一个蒸馏的2步因果Wan2.1-1.3B模型在使用最少采样步数的情况下，在VBench-T2…
SIGNIFICANT · CL_94984 · Jun 16 · 15:04

Subquadratic AI 发布 SubQ 1.1 Small，拥有 1200 万 token 上下文

Subquadratic AI 发布了其新模型 SubQ 1.1 Small，该模型利用智能稀疏注意力（Smart Sparse Attention）在长达 1200 万 token 的范围内实现近乎完美的检索。与标准方法相比，该模型显著降低了计算需求，注意力计算量减少高达 1000 倍。在 100 万 token 的情况下，SubQ 1.1 Small 所需的计算量比 FlashAttention-2 少 64.5 倍，运行速度快 …
SIGNIFICANT · CL_95036 · Jun 16 · 14:50

SubQ 发布 SubQ 1.1 Small，拥有 1200 万 token 上下文和稀疏注意力

SubQ 发布了其 SubQ 1.1 Small 模型，该模型采用了一种新的亚二次稀疏注意力（SSA）架构，旨在克服传统注意力机制的二次方扩展限制。这种新架构显著降低了计算需求，能够处理更长的上下文。在“针尖麦芒”测试中，该模型在高达 1200 万 token 的上下文长度下表现出近乎完美的检索能力，并在通用知识和编码基准测试中表现强劲，同时所需的计算量远低于密集注意力和 FlashAttention-2。
SIGNIFICANT · CL_65070 · Jun 1 · 03:04

字节跳动发布 Bernini 开源视频生成框架

字节跳动发布了 Bernini，一个开源的视频生成和编辑框架。该系统结合了用于语义规划的多模态大语言模型和基于 DiT 的渲染器。据开发者称，根据其内部基准测试，Bernini 在视频编辑任务中取得了顶级性能，可与领先的商业模型相媲美。
RESEARCH · CL_43418 · May 22 · 05:38

斯坦福大学的ThunderKittens DSL优化AI内核性能

一篇新文章详细介绍了ThunderKittens，这是斯坦福大学Hazy Research Lab开发的一种紧凑型领域特定语言（DSL），用于创建高性能AI内核。该DSL旨在通过抽象重复的GPU编程任务（如切片布局和内存分配）来平衡研究生产力和硬件效率。这使得开发人员能够密切关注数据移动和调度，同时仍能优化现代AI工作负载在NVIDIA的Hopper和Blackwell等硬件上的性能。
RESEARCH · CL_11887 · May 1 · 04:00

Sigmoid attention 改进了生物基础模型，实现了更快、更稳定的训练

研究人员开发了一种名为 Sigmoid Attention 的新注意力机制，该机制在训练生物基础模型方面提供了显著改进。与传统的 softmax attention 相比，这种新颖的方法能够学习到更好的表示，实现高出 25% 的细胞类型分离度和更高的内聚度指标。此外，Sigmoid Attention 能够实现更快的训练，模型完成速度最多可提高 10%，并通过缓解 softmax attention 中固有的问题来增强稳定性。该团队还…
RESEARCH · CL_00277 · Mar 7 · 20:00

Google AI推出LAVA优化云算力，Together AI扩展GPU云，Modal简化AI/ML部署

Google DeepMind的研究人员开发了LAVA，一种新的人工智能驱动的调度算法，旨在优化云数据中心的资源分配。LAVA持续重新预测虚拟机（VM）的生命周期，适应实际使用模式，而不是依赖初始估计。这种方法旨在通过更精确地将虚拟机打包到物理服务器上来减少浪费的容量并提高效率。该系统使用一种受生存分析启发的概率分布模型来处理虚拟机生命周期中的固有不确定性。