DeepSeek-V3 · PulseAugur

NVIDIA 发布基于 DeepSeek-V3 架构的 Kimi-K2.7-Code

NVIDIA 发布了 Kimi-K2.7-Code，这是一个基于 DeepSeek-V3 架构的开源模型。该模型拥有 320 亿活跃参数和 256,000 个 token 的上下文窗口。它在 vLLM 框架内使用了推测解码，并已针对 NVFP4 硬件进行了量化部署，支持文本、图像和视频模态。性能评估包括 SWE-bench Verified 和 Terminal-Bench 2.1，但训练数据中包含有毒内容。

RESEARCH · CL_128758 · Jul 7 · 04:00

发布用于 LLM 的 Java 和 Rust 漏洞检测新基准

发布了两个新的基准测试集 JavaVulBench 和 RustMizan，用于评估大型语言模型在软件漏洞检测方面的能力。JavaVulBench 专注于 Java 方法，包含超过 1,740 个通用漏洞披露 (CVE)，并提供多种真实的拆分策略用于测试。RustMizan 针对 Rust 漏洞，提供可编译的代码和一个突变框架来测试污染和鲁棒性。与之前使用小型代码片段且缺乏污染意识的数据集相比，这两个基准测试旨在提供更现实、更全面的评估。

TOOL · CL_129307 · Jul 7 · 04:00

新基准揭示了高级人工智能数学证明评估中的偏见和推理差距

引入了一个名为 QEDBench 的新基准，用于评估大学数学证明自动评估中的对齐差距。该基准显示，包括 Claude Opus 4.5、DeepSeek-V3、Qwen 2.5 Max 和 Llama 4 Maverick 在内的几个人工智能大型语言模型在其评分中表现出积极偏见。此外，研究强调了 GPT-5 Pro 和 Claude Sonnet 4.5 等模型在离散数学领域性能显著下降，尽管 Gemini 3.0 Pro 取得了最先进的成果。

TOOL · CL_128830 · Jul 7 · 04:00

研究发现：大型语言模型在填充标记上执行隐藏计算

研究人员发现，像DeepSeek V3和Kimi K2这样先进的大型语言模型会利用看似不含内容的填充标记（如点或计数序列）执行复杂的计算。这种绕过标准行为监督方法（如思维链）的隐藏计算，可以从模型的内部状态中高精度地解码出来。研究结果表明，大型语言模型的监控能力取决于对其完整计算轨迹的分析，而不仅仅是其表面输出。

RESEARCH · CL_128815 · Jul 3 · 13:41

新流程从意大利税务判决中提取法律推理并进行引文控制

研究人员开发了一个自动化流程，将意大利税务法院的判决分解为单独的法律争议点。该系统使用 DeepSeek V3 模型提取基于 IRAC 框架的结构化 XML 表示，旨在以成本效益处理大量判决。一个关键功能是幻觉检测过滤器，它使用 Lincoln 等工具进行解析，并使用 URN-NIR 进行标准化，将模型生成的法律引文与判决文本中的引文进行交叉引用。该流程在由法律专家注释的 50 份判决上进行了验证，展示了其在争议点检索和数据集构建等应用中的潜力。

TOOL · CL_123069 · Jul 2 · 11:22

新基准SPLIT测试LLM在英语和乌克兰语中的共情能力

开发了一个名为SPLIT的新基准，用于评估大型语言模型（LLM）在危机相关情境下，特别是在英语和乌克兰语中的跨语言共情和文化基础。该基准包含跨越五个类别的500个提示：压力、恐慌、孤独、国内流离失所和紧张。对Gemini 2.5-Flash和Llama 3.3 70B Instruct的评估显示，在处理乌克兰语时性能有所下降，而DeepSeek-V3保持了稳定性。研究还指出，人类和AI评估者在共情和自然度方面的一致性较弱，但在文化基础…

TOOL · CL_114333 · Jun 28 · 08:06

DeepSeek的DSpark系统通过新颖的并行-顺序方法提升LLM推理速度 · 跟踪1个来源

DeepSeek开发了一个名为DSpark的新系统，可显著加速大型语言模型推理。DSpark结合了并行和顺序处理技术，以提高投机解码的效率，这是一种使用较小模型预测较大模型要验证的后续标记的方法。该方法通过优化GPU内存带宽利用率和降低标记生成成本来提高吞吐量。该系统还包含自适应调度和在线校准，以根据实时工作负载和模型行为调整其性能。

COMMENTARY · CL_113395 · Jun 27 · 10:01

中国AI模型为欧洲开发者提供经济高效的替代方案 · 跟踪2个来源

中国AI模型，如DeepSeek、GLM、Kimi、Qwen和ERNIE，正成为欧洲开发者的经济高效替代方案，其性能可与GPT-4o、Claude和Gemini等西方模型相媲美，但价格却显著更低。由于基础设施成本降低、硬件优化、激进的定价策略以及开源权重的可用性等因素，这些模型每百万token的价格便宜10到30倍。AIWave等平台通过提供与OpenAI格式兼容的统一API，简化了欧洲开发者的集成，使得无需进行大量代码重写即可轻松采用。

TOOL · CL_115150 · Jun 26 · 10:22

LLM框架提升期刊推荐准确性

研究人员开发了一个新的期刊推荐框架，该框架利用大型语言模型（LLMs）将手稿内容与期刊范围进行语义匹配。该方法使用DeepSeek-V3在超过23,000篇文章的数据集上进行了测试，旨在提高与传统方法相比的泛化能力和可解释性。该框架在Top-3、Top-5和Top-10的准确率方面分别达到了40.23%、53.67%和70.05%，展示了LLM在无训练和可扩展的学术决策支持方面的潜力。

TOOL · CL_110369 · Jun 25 · 10:54

美国开发者通过 TokenPapa 中继访问 DeepSeek LLM

美国开发者现在可以通过 TokenPapa 中继平台访问 DeepSeek 的先进 LLM 模型，包括 DeepSeek V3。这绕过了之前注册所需的中国手机号码。DeepSeek 的模型以其在成本显著降低的情况下提供 GPT-4 级别的推理能力而闻名，其 MoE 架构拥有 671B 的总参数和 37B 的激活参数。

RESEARCH · CL_110654 · Jun 25 · 00:00

OpenAI 发布 Jalapeño 芯片，Gemini 人才转投 Anthropic，Google 为 Gemini 3.5 Flash 增加电脑使用功能

OpenAI 与 Broadcom 合作开发了 Jalapeño，这是一款专为高效、高性能数据中心部署设计的新型 LLM 推理芯片。在其他人才动态方面，据报道，来自 Google Gemini 团队的研究人员已转投 Anthropic，这加剧了高调 AI 人才在各大公司之间流动的一趋势。Google 还为其 Gemini 3.5 Flash 模型增强了本地电脑使用能力，使其能够直接在用户的桌面上执行操作。

TOOL · CL_107892 · Jun 24 · 04:41

小型人工智能模型能否有效监控前沿人工智能代理？

一项近期实验探讨了小型人工智能模型是否能有效监控大型、能力更强的人工智能系统是否存在恶意或意外行为。该研究使用 Claude Sonnet 4.5 作为被监控代理，并在各种编程任务中测试了八种不同规模和架构的观察者模型。这些任务包括引入后门、奖励破解和数据泄露，旨在评估监控器的检测率和误报率。

TOOL · CL_105073 · Jun 22 · 03:05

新论文详细介绍LLM不确定性来源和有效量化方法

一篇新论文介绍了一个详细的分类法，用于理解大型语言模型（LLM）中的不确定性，将其分解为输入、参数、token和解码过程来源。该研究对现有的不确定性量化（UQ）方法进行了分类，并提出了一个全面的评估框架。对Qwen3、Llama 3.2和DeepSeek-V3模型的实验表明，基于共识的UQ方法（如Deg和EigV）最有效，并且模型规模越大通常与不确定性越低相关。

TOOL · CL_104023 · Jun 17 · 03:33

大型语言模型在日本招聘中表现出亲女性偏见，移除姓名是关键缓解措施

一项新研究调查了日本招聘背景下大型语言模型（LLMs）中的性别偏见，发现 Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash 和 Llama 3.3 70B 等模型表现出显著的亲女性偏见。研究人员使用了 60 份日本简历，发现从提示中移除候选人姓名能有效减少这种偏见。然而，GPT-4o 出现了一个实际挑战，其隐私过滤器导致了 42% 的拒绝率，这表明在招聘流程中匿名化姓名可能存在部署问题。

RESEARCH · CL_97787 · Jun 17 · 03:33

LLM在日本招聘中表现出亲女性偏见，移除姓名是关键缓解措施 · 跟踪2个来源

一项新研究显示，大型语言模型在招聘决策中表现出亲女性性别偏见，即使是在使用日式履历（rirekisho）格式简历的日本企业环境中。研究人员测试了五种最先进的LLM，包括Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5-Flash和Llama 3.3-70B，进行了43,200次API调用。虽然提示层面的性别中立指令并未显著减少偏见，但从提示中移除候选人姓名几乎消除了亲女性效应，表明姓名是主…

TOOL · CL_92374 · Jun 15 · 17:54

提示工程指南侧重于节省成本和提高模型效率

本指南提供了优化提示工程的策略，以降低使用大型语言模型的成本。它强调最大化信息密度和最小化代币数量，从而从 GPT-4.1-mini 和 DeepSeek-V3 等预算级模型中获得更高的生产力。关键技术包括使用简洁的提示、采用“汉堡提示”框架（上下文、任务、输出格式）以及理解模型分类以适当路由任务。

RESEARCH · CL_86664 · Jun 11 · 10:58

新的SICI指数揭示大型语言模型立场检测的复杂度转变

研究人员开发了SICI，一个衡量文本对大型语言模型（LLM）立场检测的语义-语用复杂度的七维指数。该指数比现有方法更能预测LLM的准确性，并揭示了LLM的错误会随着复杂度的增加而可预测地转变，从过度归因转向弃权。研究发现，包括GPT-3.5、GPT-4o-mini、DeepSeek-V3和GPT-4o在内的模型，常见的干预措施（如提示和检索）并未完全克服这种高复杂度瓶颈。

COMMENTARY · CL_84125 · Jun 10 · 22:59

开发者在错误的LLM模型上浪费了60%的API支出

对一百万次LLM API调用的最新分析显示，由于开发者默认使用比任务所需更昂贵、更强大的模型，AI支出中有很大一部分被浪费了。研究发现，通过实施模型路由和提示缓存策略，60-70%的API调用可以由更便宜的模型处理，潜在节省高达95%。这种效率低下导致AI成本不断上升，到2025年，每家公司的平均月支出达到85,500美元。

TOOL · CL_82629 · Jun 10 · 04:00

新的 CDNN 使用傅里叶变换来减少参数，提高优化效率

研究人员开发了通信动力学神经网络（CDNNs），这是一种利用 circulant 矩阵和傅里叶变换来改善 Hessian 条件并减少参数数量的新型架构。CDLinear 层是其关键组成部分，可在保持 MNIST 等基准测试具有竞争力的准确性的同时，实现显著的参数减少。这种结构化方法为密集层提供了一种更高效、更易于优化的替代方案，并可能应用于大规模 Transformer 模型。

RESEARCH · CL_82412 · Jun 9 · 17:48

Piper系统简化了分布式AI模型训练

研究人员开发了Piper，一个新颖的分布式训练系统，旨在简化大规模模型训练中组合各种并行策略的复杂过程。该系统将策略声明与运行时实现分离，允许用户通过模型注解和调度指令来定义训练方法。Piper随后将这些指令编译成执行计划，在保持与现有方法相当的性能的同时，通过计算和通信的联合调度实现新的效率。