LLM
PulseAugur coverage of LLM — every cluster mentioning LLM across labs, papers, and developer communities, ranked by signal.
- instance of large-language models 95%
- instance of large language model 95%
- authored Eugene Yanayt 95%
- instance of Language Models 95%
- instance of Pinocchio Dimension 95%
- instance of generative artificial intelligence 90%
- used by graphics processing unit 90%
- used by JSON 90%
- uses JSON 90%
- used by transformer 90%
- used by KV cache 90%
- instance of Llama 90%
- 2026-05-26 research_milestone A study shows LLM-generated feedback increases preprint revisions and subsequent LLM tool adoption. 来源
- 2026-05-25 research_milestone Researchers introduce a multi-agent LLM system for generating physics-constrained constitutive models. 来源
- 2026-05-22 research_milestone Researchers published a paper detailing a new multi-agent LLM approach for generating physics-constrained constitutive models. 来源
- 2026-05-21 research_milestone Development of a multi-agent LLM that learns to defer to human input. 来源
- 2026-05-15 research_milestone A paper details the use of an LLM-guided tree search algorithm for scientific discovery, specifically in optimizing photovoltaic structures. 来源
- 2026-05-14 research_milestone A new paper proposes a method combining LLMs with neural processes for text-conditioned regression. 来源
- 2026-05-13 research_milestone A new paper reveals that prior harmful actions can steer LLM decisions toward unsafe actions, especially when consistency is emphasized. 来源
- 2026-05-11 research_milestone Researchers proposed a new framework for formally evaluating LLM guardrail classifiers. 来源
26 天有情绪数据
-
新基准测试LLM代理在电路设计挑战中的表现
研究人员开发了PostEDA-Bench,一个旨在评估大型语言模型(LLM)代理在电路设计最后阶段性能的新基准。该基准通过整合设计规则检查(DRC)修复并专注于分层任务结构,解决了现有工具的局限性。对八个LLM进行的初步测试显示,虽然代理在简单的DRC和单目标PPA任务上表现良好,但在复杂的推理和多目标优化方面却面临巨大挑战,这表明这些领域需要进一步发展。
-
新的攻击框架揭示大语言模型评分代理的漏洞
研究人员开发了一个名为GradingAttack的新框架,用于揭示基于大语言模型(LLM)的教育评分代理中的安全漏洞。该研究引入了令牌级和提示级攻击策略,旨在以高隐蔽性操纵评分结果。实验表明,这些攻击可以有效地破坏评分代理,凸显了在教育领域对更安全的大语言模型系统迫切的需求。
-
强化学习优化知识图谱检索以用于LLM
研究人员开发了KG-R1,一个利用强化学习优化知识图谱检索增强生成(KG-RAG)系统的新框架。与采用固定多大型语言模型(LLM)模块管道的现有方法不同,KG-R1使用单个智能体学习与知识图谱交互。这种方法通过将检索和生成整合到统一流程中,降低了推理成本并提高了准确性,即使在使用Qwen 2.5-3B等较小模型时也是如此。该框架还表现出强大的可迁移性,无需重新训练即可在未见过的知识图谱上保持性能。
-
新的分类法识别软件中普遍存在的“LLM 代码异味”
研究人员开发了一种新的分类法和检测方法,用于识别“LLM 代码异味”,即大型语言模型在软件系统中集成不当的实践。他们的静态分析工具 SpecDetect4LLM 在超过 690 个开源项目上进行了评估。研究结果表明,这些代码异味普遍存在,影响了超过 73% 的已分析系统,并且检测工具实现了高精度。
-
大型语言模型在格陵兰主权模拟中难以应对地缘政治胁迫
研究人员开发了一种新颖的AI压力测试,利用格陵兰主权争端来评估大型语言模型在地缘政治决策方面的表现。该研究模拟了数千场博弈,让八个前沿大型语言模型扮演不同的国际角色,结果显示,当被设定为胁迫情境时,所有模型都更频繁地升级冲突。值得注意的是,与西方模型相比,源自中国的模型在扮演美国角色时表现出不同的权力动态,并且在模拟中,和平获取格陵兰的情况很少见。
-
用户寻求参与者为其LLM图灵测试网站
一位用户创建了一个网站,该网站被设计成一个图灵测试,旨在收集关于人类与AI检测LLM响应的数据。该项目要求用户进行几轮匹配,他们将与人类或四种大型语言模型之一进行互动,然后尝试识别他们与之互动的是哪一方。创建者正在寻求参与者进行几轮测试,以收集其项目所需的数据。
-
发布了在Windows硬件上运行本地LLM的指南
一份新指南提供了关于选择硬件以在Windows和Intel系统上本地运行大型语言模型的建议。它涵盖了GPU等关键组件以及其他硬件考虑因素,适用于有兴趣自托管AI模型用户。该资源旨在帮助个人为其本地AI设置做出明智的购买决定。
-
开发者在多提供商 LLM 集成方面面临挑战
开发者越来越多地使用来自不同提供商的多个大型语言模型(LLM),这导致了复杂的集成挑战。简单的 API 包装器往往无法满足管理这些多提供商工作流的核心需求。关键要求包括强大的可观察性、治理、可靠性和路由透明度,这些是 HUBAPI 等新解决方案正在探索的领域。
-
开发者校准LLM评委,以实现真实的广告脚本评分
一位开发者创建了一个生成广告脚本的系统,其中LLM最初对生成的钩子给予了过高的分数。为解决此问题,开发者在系统提示中实施了三层方法。这包括提供一个校准的评分标准,其中包含每个分数的清晰定义,并提供范例,以及强制执行结构化JSON输出,以确保LLM遵守评分指南,从而实现更真实的评分分布。
-
AI研究人员警告“疯牛病式”大型语言模型病
一位AI研究人员创造了“疯牛病式”大型语言模型病的术语,用来描述大型语言模型在以自身生成输出来训练时出现的性能退化现象。这一概念与疯牛病进行了类比,疯牛病是由牛食用其他牛制成的饲料引起的。研究人员认为,这种对自身输出的摄入会导致模型性能和连贯性迅速下降。
-
Python管道使用LLM从markdown中提取结构化数据
本文详细介绍了一个Python管道,该管道旨在使用大型语言模型从非结构化markdown文档中提取结构化数据。它强调了传统markdown解析器在语义内容提取方面的局限性,并提出了一种基于LLM的方法,以提高对格式变化的适应性。该过程包括为所需的JSON输出定义一个Pydantic模式,将此模式直接嵌入到LLM的提示中,并实现一个健壮的提取和验证层,以确保模型仅返回有效的JSON。
-
LLM 代理添加恢复端点以防止代理进度丢失
一个名为 Trooper 的新的 Go 语言 LLM 代理引入了一个新颖的恢复端点,旨在防止代理在多代理工作流中丢失进度。与仅仅重试请求或回退到其他提供商的传统代理不同,Trooper 实时跟踪已完成的步骤。当发生故障时,其 `/recovery/{session_id}` 端点为编排层提供已完成任务列表以及恢复的确切步骤,从而避免了重复工作。
-
RAG 管道评估框架解决检索和生成失败问题
本文概述了一个用于评估检索增强生成 (RAG) 管道的综合框架,强调需要独立评估检索和生成组件。它强调了常见的失败模式,例如检索过时或不相关的文档,以及与提供上下文相悖的生成。提出的 RAG Triad 框架使用三个核心指标:上下文精确度、忠实度和答案相关性,以确保准确可靠的响应。
-
ByteDance 研究:提问式学习在 LLM 文档训练中优于转录式学习
一项 ByteDance 的研究表明,一个拥有 70 亿参数的模型能够有效地处理并回答关于包含大量图像的长文档的问题。这种通过模型回答问题和定位相关段落来学习的方法,比传统的转录方法更可靠,即使文档长度远超模型的训练数据。该研究表明,这种提问式学习方法可以提高大型语言模型(LLMs)处理广泛且多模态内容时的性能。
-
新的 AI 架构将大型语言模型与 Oracle EBS 集成,无需重写核心代码
一种新的架构方法已被开发出来,用于将生成式 AI 与像 Oracle E-Business Suite (EBS) 这样的整体式企业系统集成,而无需更改核心遗留代码。该方法涉及创建一个轻量级的语义层,该层充当插件,将复杂的技术数据结构转换为 AI 模型可理解的业务术语。这种抽象层通过在虚拟数据市场而非直接数据库访问上来操作,可以防止 AI 幻觉并确保准确的数据解释,即使在高度定制的环境中也是如此。
-
Lisp、Scheme 项目揭示对 AI 代码贡献的混合立场
最近对 Lisp 和 Scheme 编程项目的调查显示,在 AI 生成代码的使用方面存在各种立场。截至 2026 年 5 月,许多项目已制定了政策,其中一些严格禁止 LLM 贡献,另一些则犹豫地接受它们。少数项目仍在等待官方政策,或采取细微的方法,例如允许核心开发人员使用 LLM,但不允许外部贡献。
-
Skillpunk架构将AI智能从LLM编排器中分散
Skillpunk架构提出了一种从集中式LLM编排器转向分布式模型的建议,在该模型中,个体技能拥有自主性。与当前将工具调用视为一次性事件的LLM集成不同,Skillpunk使技能能够随着时间的推移管理自己的状态、触发器和多步行为。通过将智能直接嵌入每个技能中,这种方法可以实现持久的后台操作,例如监控价格或安排警报,而无需LLM持续干预。
-
VS Code 扩展通过智能粘贴和同步简化 Markdown 编写
一位开发者创建了一个名为 Marksmith 的 VS Code 扩展,通过解决常见的流程痛点来改善 Markdown 编写体验。该扩展具有“智能粘贴”功能,可自动将复制的表格格式化为 Markdown,并从选定的文本和 URL 创建链接。它还实现了编辑器和预览窗格之间的双向滚动同步,并包含一个“文档 X 光”功能来估算文档的 LLM 令牌计数。
-
研究发现:LLM 主题演讲掩盖了消费级硬件的局限性
一项实际研究强调了令人印象深刻的 LLM 主题演讲演示与消费级硬件局限性现实之间的差异。作者对诚实的评估表示感谢,并指出内存带宽瓶颈和 GPU 节流严重影响本地模型的性能。这种观点与高调演示中经常呈现的看似神奇的结论形成对比。
-
LLM运维:检测评估漂移并跟踪客户成本
作者讨论了管理LLM应用的两个常见挑战:评估集漂移和按客户成本报告。对于评估集漂移,他们建议在嵌入上使用最大均值差异(MMD)来检测评估数据集何时不再代表生产数据。对于成本报告,他们建议利用OpenTelemetry baggage在服务之间传播客户ID,避免昂贵的管道重新架构。