FLASH · PulseAugur

新款Android应用重现童年Flash游戏

一款新的Android应用程序已被开发出来，允许用户玩旧的Flash游戏，提供了一种重温童年娱乐的方式。该应用能够在Android设备上运行Flash内容，带回了过去一种流行的游戏格式。

新的DeLS-Spec方法通过解耦上下文加速LLM推理

研究人员推出了一种名为DeLS-Spec的新方法，通过解耦长短上下文推测解码来加速大型语言模型推理。该方法使用一个固定的长上下文专家DFlash和一个轻量级的、可独立训练的短上下文专家。与需要从头开始训练的Domino和DSpark等先前方法相比，DeLS-Spec提供了显著更低的训练成本和更高的模块化。在Qwen3模型上的实验表明，DeLS-Spec在各种基准测试中提高了加速效果和平均接受长度。

TOOL · CL_130652 · Jul 7 · 16:40

DFlash 将 llama.cpp 中 Qwen 3.6 27B 的性能提升了 4.44 倍

Reddit 的 r/LocalLLaMA 论坛上的一位用户分享了在使用 llama.cpp 中新合并的 DFlash 功能时 Qwen 3.6 27B 模型的性能基准测试。在 RTX 6000 PRO 上进行的测试显示，与之前的方法相比，在 36K 上下文长度下速度显著提高了 4.44 倍。DFlash 功能利用带有块扩散草稿器的投机解码，一次性填充 token 块，提高了效率。

TOOL · CL_129285 · Jul 7 · 04:00

FLASH机制增强时序图神经网络性能

研究人员开发了FLASH，一种旨在提高时序图神经网络（TGNNs）性能的新型机制。FLASH是一种可学习且图自适应的邻域选择方法，解决了TGNNs中当前使用的静态采样启发式方法的局限性。通过无缝集成并使用自监督排序损失进行端到端训练，FLASH在各种基准测试中均显示出持续且显著的性能提升，为未来链接预测提供了从历史交互中聚合时序信号的更有效方法。

COMMENTARY · CL_127747 · Jul 6 · 15:49

《超女》票房失利后，詹姆斯·古恩的DCU领导地位受到质疑

《超女》近期的票房表现不佳，引发了对詹姆斯·古恩领导DC宇宙的质疑。尽管存在冲突和工作室主导的剪辑，但影片的失败更多归因于其在新DCU中的定位，而非古恩的整体能力。文章认为，更换古恩比让他从早期挫折中吸取教训并继续发展该宇宙弊大于利，并引用了他制作高质量超级英雄内容和出色选角的良好记录。

COMMENTARY · CL_127311 · Jul 6 · 07:09

DeepSeek V4 Flash 模型运行成本低引发用户讨论

Reddit 上的用户正在讨论 DeepSeek V4 (Flash) 模型出人意料的低运行成本，尽管它拥有 2840 亿的庞大参数量。与 Qwen 等较小模型相比，该模型的 사용 成本显著更低，引发了对其架构或提供商潜在定价策略的猜测。一些用户质疑低成本是否可持续，或者这是否是一种市场倾销行为。

RESEARCH · CL_128654 · Jul 6 · 00:00

HunyuanOCR-1.5通过更快的推理和增强的功能提升轻量级OCR VLM · 跟踪3个来源

研究人员推出了HunyuanOCR-1.5，这是一款专为光学字符识别（OCR）设计的增强型轻量级视觉语言模型。该模型将各种文档处理任务，包括解析、文本检测和信息提取，统一到一个端到端的系统中。HunyuanOCR-1.5通过DFlash适配实现了更快的解码，提高了效率，显著加快了Transformer推理和vLLM的性能。其能力通过Agentic Data Flow得到进一步增强，这是一个由代理驱动的系统，可以提高在古籍OCR和细粒度…

RESEARCH · CL_127431 · Jul 6 · 00:00

新的推测解码方法提高了 LLM 推理速度和效率 · 跟踪 6 个来源

研究人员推出了 DominoTree，一种新颖的推测解码方法，通过使用条件树状结构显著加速 LLM 推理。该方法在 Qwen3-4B 模型上实现了高达 6.6 倍的加速，并显示出比 DDTree 和 CaDDTree 等现有技术更高的吞吐量。同时，其他研究探索了宽松的推测解码，研究速度和能力之间的权衡，并引入了 AdaptiveSD 以在 CPU 限制下实现鲁棒的、运行时自适应的推理。DSpark 是另一个框架，它将高吞吐量的并行生成…

TOOL · CL_125117 · Jul 4 · 11:14

AI推理技术旨在降低磁盘溢出性能影响

正在探索dSpark、dflash、MTP和QAT等新的推理加速技术，以减轻大型语言模型溢出到磁盘时出现的性能下降。核心问题是，这些进步能否使磁盘溢出的性能影响更加可容忍，从而有可能在功能较弱的硬件上使用更大的模型。早期讨论表明，虽然这些技术提供了速度提升，但它们在使磁盘溢出技术在实际应用中可行方面的有效性仍不确定。

TOOL · CL_122985 · Jul 2 · 08:44

新的Spec-AUF训练方法提高了掩码块草稿器的性能

研究人员开发了一种名为Spec-AUF的新训练方法，用于掩码块草稿器，这是投机解码中用于更快自回归文本生成的一个组件。该方法通过将监督集中在接受的前缀上，而不是通常在第一次拒绝后被丢弃的整个块上，来提高草稿器预测令牌块的能力。在Qwen3_8B模型上的实验表明，Spec-AUF增加了令牌的平均发出长度，从而在多个基准测试中提高了性能。

COMMENTARY · CL_119043 · Jun 30 · 09:26

Cursor 用户探索多模型 AI 以增强代码规划和审查

一位 Cursor subreddit 用户正在询问使用 Cursor CLI 进行多模型任务的有效性，特别是结合 Opus、GPT、Flash 或 Composer 等模型。他们在其他环境中已成功使用类似的多模型方法，并认为这能提高输出质量，尽管可能存在速度和成本方面的缺点。用户的主要用例涉及检查和改进计划与实现的可用性、正确性和架构。

RESEARCH · CL_115628 · Jun 29 · 04:00

新方法通过自适应解码策略提高 LLM 推理速度

研究人员开发了 BlockPilot，一种新颖的投机解码方法，可自适应地预测生成文本的最佳块大小。该方法通过学习一种策略来提高效率，该策略根据预填充表示来选择块大小，从而实现显著的加速和更长的接受长度。此外，另一篇论文介绍了一种用于掩码扩散语言模型的连续解码框架，该框架允许 token 累积部分进度，为文本生成提供了更灵活的方法。

TOOL · CL_114641 · Jun 28 · 13:24

llama.cpp 集成 DFlash 量化以提高本地 LLM 效率

llama.cpp 项目已集成对 DFlash（一种新的量化方法）的支持。此集成通过拉取请求合并，旨在提高在本地运行大型语言模型的效率和性能。DFlash 的加入预计将使在消费级硬件上处理资源密集型 AI 模型的用户受益。

TOOL · CL_114333 · Jun 28 · 08:06

DeepSeek的DSpark系统通过新颖的并行-顺序方法提升LLM推理速度 · 跟踪1个来源

DeepSeek开发了一个名为DSpark的新系统，可显著加速大型语言模型推理。DSpark结合了并行和顺序处理技术，以提高投机解码的效率，这是一种使用较小模型预测较大模型要验证的后续标记的方法。该方法通过优化GPU内存带宽利用率和降低标记生成成本来提高吞吐量。该系统还包含自适应调度和在线校准，以根据实时工作负载和模型行为调整其性能。

FRONTIER RELEASE · CL_113366 · Jun 27 · 09:18

DeepSeek与北大发布DSpark，AI推理速度提升高达85% · 追踪10个来源

DeepSeek与北京大学合作发布了DSpark，这是一个旨在显著加速AI模型推理的开源框架。该新框架基于DeepSeek现有的V4模型，通过采用半自回归架构和置信度调度推测解码，将单用户生成速度提高了60-85%。DSpark的目标是提高AI模型部署的效率并降低计算成本，从而使先进的AI在各种应用中更易于获得。

RESEARCH · CL_109406 · Jun 25 · 00:40

SNIA 推出 MRAM SIG 以标准化接口并促进采用

存储网络工业协会 (SNIA) 成立了磁阻随机存取存储器 (MRAM) 特别兴趣小组 (SIG)，以促进 MRAM 的采用。该小组旨在标准化 MRAM 技术并开发新接口，以简化实施，特别是在人工智能、汽车和数据中心应用领域。SIG 正在与 IEEE 标准协会合作，解决对磁场敏感性的担忧，并致力于制定 JEDEC 标准，使 MRAM 能够与 LPDDR 和 CXL 等现有内存接口无缝集成，从而可能在包括 chiplets 在内的各种架构…

COMMENTARY · CL_108958 · Jun 24 · 16:59

廉价 AI 模型在邮件分类测试中击败 GPT-4o 和 Gemini

一位开发者构建了一个使用 AI 模型对收件邮件进行分类的防火墙，将邮件分为四个级别：SILENT、QUEUE、PUSH 和 AUTO。出乎意料的是，在一个小规模评估中，一个名为 Flash 的成本较低的模型表现优于 GPT-4o 和 Gemini 2.5 Pro，获得了更高的质量评分。开发者将此成功归因于任务的性质，该任务需要一致的信号评分而非深度推理，这使得更快、更便宜的模型更适合且不易过度思考简单决策。

RESEARCH · CL_108333 · Jun 24 · 07:21

DFlash 通过并行令牌块草拟加速 AI 推理 · 跟踪 2 个来源

加州大学圣地亚哥分校的研究人员开发了 DFlash，这是一种新颖的推测性解码技术，可显著加速 AI 推理。与一次生成一个令牌的传统方法不同，DFlash 使用块扩散模型在单次传递中提出整个令牌块。然后，一个更大的目标模型并行验证这些块，从而实现显著的加速。这种方法在 NVIDIA Blackwell GPU 上对 GPT-OSS 120B 等模型显示出高达 15 倍的吞吐量，对于长上下文推理和编码任务尤其有利。

RESEARCH · CL_107757 · Jun 23 · 12:56

LLM 在使用新的音频-文本数据集检测土耳其诈骗方面接受测试

研究人员探讨了大型语言模型 (LLM) 在检测土耳其语（一种低资源语言）电话诈骗方面的有效性。他们引入了一个包含 100 对诈骗和正常对话的对齐音频-文本记录的新数据集。该研究评估了七个 LLM，包括 Gemini 2.5 变体、GPT-4o 和 Qwen 模型，使用了原始音频、自动转录文本和人工校正的转录文本。结果表明，基于文本记录的输入比直接音频处理更有效，而人工校正和未校正的转录文本表现相似。

TOOL · CL_106667 · Jun 22 · 19:01

DiffusionGemma、Dflash、TurboQuant 和 RAG 增强 OCR 功能

一种新方法将 DiffusionGemma 与 Dflash、TurboQuant 和检索增强生成 (RAG) 相结合，以提高光学字符识别 (OCR) 能力。该方法旨在提高 OCR 性能并实现自托管解决方案。文章指出，Google 于 2026 年 6 月发布了 DiffusionGemma。