实体 $7B

$7B

PulseAugur coverage of $7B — every cluster mentioning $7B across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 13

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 8

层级分布 · 90 天

research 2
tool 10
commentary 1

主题

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 13 条

TOOL · CL_171930 · Jul 30 · 04:00

盲目重采样在小型代码模型中优于自我修复

一篇新的研究论文探讨了不同重试策略对小型代码模型的有效性，特别是比较了盲目重采样与自我修复。研究发现，盲目重采样（即在不向模型提供其先前失败尝试的情况下进行重试）通常优于自我修复，尤其对于参数量小于70亿的模型。这表明向模型提供其自身的失败代码可能会导致锚定效应，使其复制类似的错误，而不是生成新颖、正确的解决方案。
TOOL · CL_156183 · Jul 22 · 00:50

Google开发秘密“Project 7”芯片为Gemini AI模型提供动力

据报道，Google正在开发一款专有芯片，旨在显著超越其自身的张量处理单元（TPU），在能效方面表现更佳。这款代号为“Project 7”或“7B”的新芯片旨在为Google的Gemini AI模型提供动力，目标是实现能效十倍的提升。此举表明Google正采取战略性举措，以增强其AI基础设施并降低运营成本。
TOOL · CL_154393 · Jul 21 · 04:00

Octopus模型针对设备端API调用进行微调，性能超越GPT-4

研究人员开发了Octopus，一个专门为调用软件API进行微调的设备端语言模型。该模型提供2B、3B和7B参数规模，在软件API函数调用方面表现优于GPT-4。这项进展旨在通过增强LLM对API结构和语法的理解，利用条件掩码等技术确保正确的输出格式并减少错误，从而改进自动化软件开发和API集成。
COMMENTARY · CL_142415 · Jul 14 · 12:29

微调和 RAG 无法在嘈杂的金融数据中创建可预测的信号

在金融预测任务上对微调和检索增强生成 (RAG) 进行的实验表明，这两种技术都无法在不存在可预测信号的地方制造出可预测的信号。在小型数据集上微调大型模型会导致噪声和错误的记忆，从而导致下游性能下降。作者强调，严格的评估方法至关重要，因为简单的训练/测试分割会产生虚假的发现感，并且生成损失并不能可靠地预测下游质量。
TOOL · CL_141593 · Jul 14 · 04:00

LLM 在单遍生成可运行 Unity 游戏场景方面失败

研究人员调查了大语言模型（LLM）在无需迭代修复循环的情况下，单遍生成可执行 Unity 游戏场景的能力。他们发现，即使使用参数量从 7B 到 30B 不等的模型以及各种条件级别，生成的 C# 脚本也无法编译成可运行的场景。该研究将编译器错误分为“接地”（误用 Unity 类型/API）和“卫生”（结构缺陷），揭示了主要瓶颈在于模型缺乏引擎特定的知识。该研究旨在通过根据对特定知识的需求对目标模式进行排序，帮助游戏设计师理解单遍生成目前失败的地方。
TOOL · CL_117474 · Jun 30 · 04:00

MLLMs 在低成本基于概念的 AI 解释方面展现出潜力

研究人员开发了一种使用多模态大语言模型（MLLMs）在可解释人工智能（XAI）中生成本地化解释的无训练方法。他们的方法称为概念命名（CoNa），评估了这些模型在图像特定区域识别语义概念的能力，甚至可以达到对象和部件级别。对从 7B 到 32B 参数的 MLLMs 进行的实验证明了在对象级别概念命名方面具有显著的准确性，这为更具成本效益的 XAI 研究指明了方向。
TOOL · CL_117099 · Jun 28 · 23:46

新研究提出本地优先信息检索以增强文档搜索隐私性

一篇新研究论文提出了一种信息检索系统的“本地优先信息检索”设计理念，优先在设备上进行索引、模型和推理，以增强隐私性和控制力。实验表明，密集检索模型可以在消费级硬件上处理多达10万份文档并保持高准确性，并且一个7B的本地语言模型表现与云端系统相当。研究强调，主要的权衡在于可搜索内容的范围而非质量。
RESEARCH · CL_113355 · Jun 27 · 08:26

DeepSeek 获70亿美元融资以进行激进扩张并推出 AI 编码代理

DeepSeek 已获得 70 亿美元巨额融资，标志着其从之前的理想主义重点转向激进扩张。该公司计划将其所有部门的员工数量翻一番，并正在组建一支名为 Harness 的新 AI 编码代理团队，以直接与 Anthropic 的 Claude Code 等现有解决方案竞争。
RESEARCH · CL_91397 · Jun 15 · 04:00

全新 7B 统一扩散语言模型 'Sumi' 发布，伴随扩散模型进展

研究人员推出了 Sumi，一个拥有 70 亿参数的统一扩散语言模型 (UDLM)，该模型在 1.5 万亿 tokens 上从头开始预训练。这个开源模型在知识、推理和编码任务上表现出与自回归模型相当的性能，但在常识基准测试上表现稍逊。发布内容包括模型权重、检查点以及完整的训练方法，旨在为大规模研究 UDLM 提供参考。此外，其他研究探索了扩散语言模型的进展，包括生成 CUDA 核的方法、通过自生成错误训练改进 Token 编辑，以及开发…
TOOL · CL_88856 · Jun 13 · 05:05

新的7B像素空间图像模型PRX Pixel已发布

一款名为PRX Pixel的新的70亿参数图像生成模型已发布。该模型在像素空间中运行，为图像合成提供了一种新颖的方法。它可通过Hugging Face获取，并在X上分享了其功能链接。
TOOL · CL_68648 · Jun 3 · 04:42

LLM 推理速度受 GPU 内存带宽而非计算能力限制

本文解释说，生产环境中 LLM 推理的主要瓶颈通常是模型在 GPU 上的原始速度，而不是服务逻辑或网络开销。文章详细介绍了 LLM 推理，尤其是在解码阶段，由于模型权重大且需要流式传输数据，因此受到内存带宽的严重限制。文章强调量化（如 INT8）是一种非常有效的优化技术，它在质量损失最小的情况下减小了内存占用并提高了带宽效率。
TOOL · CL_74867 · Jun 2 · 00:40

腾讯发布 Hy-MT2 翻译模型以供本地部署

腾讯发布了 Hy-MT2，这是其翻译模型的新版本，提供 1.8B 和 7B 参数大小。这个开源模型专为本地部署而设计，测试探索了缓存量化的影响。此次发布旨在通过易于访问的设备端模型来提高翻译能力。
RESEARCH · CL_56226 · May 27 · 17:09

Extrapolative Weight Averaging Extends Code RL Frontiers

研究人员探索了外插权重平均法，作为一种在代码生成强化学习中扩展竞争目标帕累托前沿的方法。通过训练具有嵌套单元测试覆盖率的检查点，他们观察到一个正确性-效率前沿，其中覆盖率的提高会改善优化但降低正确性，而解决率保持不变。在训练端点之外进行外插成功地扩展了这个前沿，证明了其在不同推理设置和模型规模（32B和7B参数）上的效用。该技术在用于集成时，将LCB/hard上的pass@250提高了3.3%。