GPT-4.1 mini · PulseAugur

大型语言模型工具定义易受隐藏数据渗漏指令的攻击

一位安全研究人员发现了一个大型语言模型解释工具定义的方式存在的漏洞，特别是关于数据渗漏。通过将恶意指令嵌入到JSON Schema的枚举值中，而不是工具的描述中，研究人员发现GPT-4o和GPT-4.1 mini模型都会执行渗漏命令，尽管描述中明确说明该工具从不导出数据。这绕过了只关注描述字段的标准安全检查，突显了当前大型语言模型安全实践中的一个关键漏洞，即模型的执行路径与人类或扫描器的审查不同。

TOOL · CL_132403 · Jul 8 · 16:15

Node.js 运行器在工具更改前测试 Vector Engine API 的一致性

本教程介绍了一个用于合成提示固定装置的 Node.js 运行器，旨在测试 Vector Engine 的 OpenAI 兼容 API 网关。该运行器有助于在更改 LLM API 提供商层之前，确保 Dify、Cursor 和 Node.js 服务等不同工具之间的一致性。通过使用受控的提示集并记录状态和错误代码，团队可以识别诸如错误的 Base URLs、API 密钥问题或模型未找到错误等问题，从而防止工作流程中断。

TOOL · CL_131528 · Jul 8 · 04:00

Persona塑造LLM Agent在策略游戏中的行为

研究人员调查了Persona提示如何影响大型语言模型Agent在“分还是偷”游戏中的策略行为。他们使用了四种开源模型（Ministral-3-3B、phi4:14b、Gemma3:12b和Gemma4:e4b）与一个由GPT-4.1 mini驱动的虚拟人类进行交互，发现相互“分”的结果占主导地位，约占回合数的74%。模型选择显著影响了Agent的行为，phi4和Ministral-3-3B始终表现出合作性，而Gemma模型则展现出更多…

TOOL · CL_129979 · Jul 7 · 10:10

LLM 工具调用失败困扰应用；新日志模式提供修复方案

一篇博文详细介绍了一个 LLM 应用中常见的问，即工具调用看似成功，但未能执行或返回结果，导致用户响应不正确或不完整。作者提出了一种详细的日志记录模式，用于跟踪工具的整个生命周期，从解析参数到回调状态，使开发人员能够区分模型选择不使用工具和实际的系统故障。这种方法旨在通过记录工具链状态，而不仅仅是顶层模型的完成情况，将调试从不确定性转移到根本原因分析。

RESEARCH · CL_128758 · Jul 7 · 04:00

发布用于 LLM 的 Java 和 Rust 漏洞检测新基准

发布了两个新的基准测试集 JavaVulBench 和 RustMizan，用于评估大型语言模型在软件漏洞检测方面的能力。JavaVulBench 专注于 Java 方法，包含超过 1,740 个通用漏洞披露 (CVE)，并提供多种真实的拆分策略用于测试。RustMizan 针对 Rust 漏洞，提供可编译的代码和一个突变框架来测试污染和鲁棒性。与之前使用小型代码片段且缺乏污染意识的数据集相比，这两个基准测试旨在提供更现实、更全面的评估。

COMMENTARY · CL_127975 · Jul 6 · 16:20

Fable AI 模型在纽约时报“连接”谜题基准测试中表现出色

一位 Reddit 用户分享了名为 connections-bench 的基准测试结果，该测试旨在评估 AI 模型解决纽约时报“连接”谜题的能力。名为 'Fable' 的模型表现异常出色，Anthropic 的 Sonnet 5 和另一个模型 glm-5.2 也取得了强劲的成绩。OpenAI 的 GPT-5.5 几乎与 Fable 不相上下，而 Haiku 则表现不佳，gpt-4.1-mini 的表现则很差。

TOOL · CL_127397 · Jul 6 · 10:25

调试 LLM 流媒体故障：用于中断流的日志记录模式

一位开发者分享了一种调试大型语言模型（LLM）流媒体问题的策略，在这种问题中，API 调用看似成功，但导致用户体验不佳。提出的解决方案涉及实施详细的日志记录模式，该模式捕获流生命周期事件、接收到的数据量和终止原因。这种方法旨在区分正常的流完成和静默中断，例如提前结束或停滞，这些是流式 LLM 交互中常见的故障模式。

TOOL · CL_127057 · Jul 6 · 04:05

开发团队通过智能路由、缓存和提示优化将LLM成本降低70%

一个软件开发团队详细介绍了一种策略，通过优化其管道而不是仅仅切换到更小的模型来显著降低LLM的运营成本。关键策略包括实施一个路由层，将简单的任务导向更强大、更便宜的模型，如GPT-4.1 mini，同时将GPT-5等昂贵模型用于复杂的推理。该团队还提倡通过删除不必要的指令来优化提示，采用语义缓存来处理类似查询，并改进RAG系统中的上下文检索，以便只将最相关的信息发送给LLM。

TOOL · CL_122472 · Jul 2 · 18:25

DSPy 框架增强 Datasette Agent 的 SQL 提示生成

Simon Willison 探讨了使用 DSPy 框架来增强 Datasette Agent 的系统提示，Datasette Agent 是一个用于回答数据相关问题的 SQL 查询生成工具。他要求 Claude Code 评估和改进这些提示，特别是关注代理如何列出表模式以及提供关于使用 `describe_table` 的建议。使用 GPT-4.1 mini 和 nano 进行的测试表明，在模式列表中包含列名或调整关于 `descr…

TOOL · CL_117215 · Jun 30 · 04:09

LLM API 调试重点从模型质量转向基础设施问题

开发人员在与大型语言模型集成时，越来越频繁地遇到基础设施和 API 相关问题，而不是模型本身的问题。一种常见的调试方法包括仔细记录请求元数据，例如模型名称、提供商和特定参数，以确保可复现性。区分网络故障、身份验证错误、速率限制和实际模型输出问题至关重要，因为每种问题都需要不同的故障排除策略。OpenAI、DeepSeek 和 Anthropic 等提供商都有独特的错误代码和行为，开发人员必须考虑到这些，这需要强大的错误处理和重试机制。

TOOL · CL_117697 · Jun 30 · 04:00

新基准揭示Web代理的隐藏故障模式

一篇新的arXiv论文介绍了Parallel WebBench，这是一个旨在更严格地评估Web代理的基准，通过识别最终答案正确性之外的故障。研究表明，即使代理检索到相关证据，仍然存在搜索循环、过早终止和合成崩溃等持续性问题。虽然使用GRPO和合成数据进行训练提高了完成率和部分正确性，但在确保最终答案完全正确并基于证据方面仍存在差距。

TOOL · CL_117572 · Jun 30 · 04:00

TRiSM 框架增强了医疗领域 AI 代理的安全性和准确性

一篇新研究论文探讨了代理式 AI 工作流的安全影响，特别是在医疗应用中。该研究将 AI 信任、风险和安全管理 (TRiSM) 框架应用于一个医疗报告生成系统，比较了一个不安全的代理工作流和一个注重安全的代理工作流。TRiSM 指导的方法显著降低了各种注入和投毒场景下的攻击成功率，并提高了报告的准确性。

RESEARCH · CL_115257 · Jun 25 · 18:17

HSA_CORAL的GPT-4.1 Mini在FinCausal 2026金融因果任务中领先

一篇研究论文详细介绍了HSA_CORAL在FinCausal 2026共享任务中的方法，重点在于从金融文本中提取因果关系。该团队探索了三个模型家族：用于token标记的多语言BERT，用于生成的 ist-generation 多语言BART，以及像Llama 3.1和GPT变体这样的decoder-only LLM。他们表现最佳的系统GPT-4.1 Mini，通过利用在合并的多语言数据上的监督微调，在英语和西班牙语中取得了最高分。

TOOL · CL_104123 · Jun 22 · 17:44

合成数据管道提升波斯语LLM性能

该项目详细介绍了为提高波斯语大型语言模型（LLM）的指令遵循能力而专门设计的合成数据管道的创建过程。该管道通过使用GPT 4.1 mini和nano等模型生成结构化指令对，解决了高质量波斯语数据集稀缺的问题。它包含了多阶段过滤，包括语义去重和基于LLM的质量评分，以确保数据的多样性和相关性。然后，使用包含约4,000个指令对（涵盖51个领域）的精选数据集，通过QLoRA对Qwen2.5 3B Instruct模型进行微调，并展示了稳定的收敛性。

TOOL · CL_104777 · Jun 20 · 00:04

RAG压缩评估存在缺陷，掩盖了模型性能差异

arXiv上发表的一篇新研究论文指出了检索增强生成（RAG）压缩评估中的一个关键缺陷。研究表明，固定的压缩方法会掩盖语言模型之间显著的性能差异，导致排名具有误导性。这是因为压缩通过过滤噪声来使较弱的模型受益，但通过删除有用细节来损害较强的模型，从而模糊了各种基准和领域中真实的Reader缩放能力。

TOOL · CL_100954 · Jun 19 · 16:24

编码代理导致 AI 支出激增；LiteLLM 代理增加预算控制

一支软件工程团队在采用编码代理后，AI 成本显著且意外地增加至每月 20,000 美元。主要原因是 Claude Code 和 GPT-4.1 等强大 LLM 的使用未受监控，单次会话会产生大量 API 调用。为解决此问题，该团队实施了开源代理 LiteLLM，以引入每个开发者和团队级别的预算上限、模型访问控制以及通过标签进行成本归属。该解决方案提高了对 AI 支出的可见性和控制力，防止了成本失控，并实现了更准确的成本分配。

RESEARCH · CL_95819 · Jun 16 · 16:21

Handlebars LLM 提示漏洞暴露角色注入风险

一篇新研究论文详细介绍了一种在常用于 LLM 提示的 Handlebars 模板中存在的漏洞，该漏洞可能导致结构化角色注入。研究发现，Handlebars 的默认 HTML 转义机制未能防御某些分隔符家族，从而允许攻击者伪造更高权限的对话轮次。虽然 GPT-3.5 Turbo 表现出显著的易感性，但 Claude Haiku 4.5 对这些攻击表现出很强的抵抗力。

TOOL · CL_92374 · Jun 15 · 17:54

提示工程指南侧重于节省成本和提高模型效率

本指南提供了优化提示工程的策略，以降低使用大型语言模型的成本。它强调最大化信息密度和最小化代币数量，从而从 GPT-4.1-mini 和 DeepSeek-V3 等预算级模型中获得更高的生产力。关键技术包括使用简洁的提示、采用“汉堡提示”框架（上下文、任务、输出格式）以及理解模型分类以适当路由任务。

TOOL · CL_68297 · Jun 3 · 04:00

新基准揭示医疗AI在多轮对话中的安全漏洞

研究人员开发了MultiTurnPSB，这是一个用于评估医疗AI聊天机器人在多轮对话中安全性的新基准。标准的单轮评估未能捕捉到随着对话进行，不安全响应显著增加的情况，其中一个模型的不安全响应比例从35%上升到第四轮的近80%。研究还发现，Claude Sonnet 4.5在拒绝行为方面与GPT-4.1-mini相比表现出显著差异，这表明安全训练可能会泛化到攻击者角色。

TOOL · CL_56175 · May 28 · 04:00

DecomposeRL：用于可追溯声明验证的新型人工智能

研究人员开发了 DecomposeRL，一种新颖的声明验证方法，在准确性和可检查的追踪之间取得平衡。该方法将分解框架化为强化学习策略，使用 GRPO 和多方面奖励系统进行训练。DecomposeRL 可以以完全监督和半监督模式运行，利用未标记的声明。一个包含 5,000 个声明的蒸馏数据集被用来训练一个 7B 参数策略，该策略在各种基准测试中取得了与更大模型和 GPT-4.1-mini 相媲美的性能。