LLM
PulseAugur coverage of LLM — every cluster mentioning LLM across labs, papers, and developer communities, ranked by signal.
- instance of large-language models 95%
- instance of large language model 95%
- authored Eugene Yanayt 95%
- instance of Pinocchio Dimension 95%
- instance of Language Models 95%
- used by graphics processing unit 90%
- instance of generative artificial intelligence 90%
- uses JSON 90%
- used by JSON 90%
- used by transformer 90%
- used by KV cache 90%
- instance of Llama 90%
- 2026-05-26 research_milestone A study shows LLM-generated feedback increases preprint revisions and subsequent LLM tool adoption. 来源
- 2026-05-25 research_milestone Researchers introduce a multi-agent LLM system for generating physics-constrained constitutive models. 来源
- 2026-05-22 research_milestone Researchers published a paper detailing a new multi-agent LLM approach for generating physics-constrained constitutive models. 来源
- 2026-05-21 research_milestone Development of a multi-agent LLM that learns to defer to human input. 来源
- 2026-05-15 research_milestone A paper details the use of an LLM-guided tree search algorithm for scientific discovery, specifically in optimizing photovoltaic structures. 来源
- 2026-05-14 research_milestone A new paper proposes a method combining LLMs with neural processes for text-conditioned regression. 来源
- 2026-05-13 research_milestone A new paper reveals that prior harmful actions can steer LLM decisions toward unsafe actions, especially when consistency is emphasized. 来源
- 2026-05-11 research_milestone Researchers proposed a new framework for formally evaluating LLM guardrail classifiers. 来源
25 天有情绪数据
-
新框架可根据单句生成短剧
研究人员开发了一个名为“一句话,一部剧”的分层多智能体框架,用于根据单个句子提示生成个性化短剧。该系统通过强制执行叙事节奏、确保跨场景的空间一致性以及通过迭代改进和审阅者循环实现质量控制,解决了现有方法的局限性。该框架利用基于辩论的故事生成模块、用于一致性的3D基础帧生成以及多阶段审阅流程,以生成具有改进叙事质量和视觉连贯性的剧集。
-
TransitLM数据集赋能无地图公交路线生成
研究人员推出了TransitLM,这是一个用于无地图公交路线生成的新型数据集和基准测试。该大规模数据集包含来自中国四个城市的1300多万条公交记录,使大型语言模型能够在不依赖传统地图基础设施的情况下规划路线。实验表明,在TransitLM上训练的LLM可以准确生成有效的路线,并隐式地将GPS坐标映射到站点,展示了端到端、数据驱动的路线规划潜力。
-
AnyMo框架实现设置无关的人体运动建模
研究人员开发了AnyMo,一个新颖的框架,旨在克服从可穿戴惯性测量单元(IMU)建模人体运动中的设置依赖性挑战。该系统利用基于物理的模拟来生成合成数据,使图编码器能够学习对传感器放置和设备变化不敏感的表示。AnyMo将多位置IMU数据进行分词,并将其与大型语言模型对齐以增强运动理解,在零样本活动识别、跨模态检索和运动描述方面取得了显著改进。
-
AMD 发布 Gorgon Halo 芯片,内存高达 192GB,专为 LLM 设计
AMD 推出了升级版 Ryzen AI Max 处理器系列,配备新的 Gorgon Halo 芯片,提供高达 192GB 的统一内存。这些处理器采用 Zen 5 CPU 核心、RDNA 3.5 GPU 核心和 XDNA 2 NPU,旗舰型号时钟频率高达 5.2 GHz。增加的内存容量使这些芯片能够运行拥有超过 3000 亿参数的大型语言模型,使其成为首款能够实现此壮举的 x86 客户端处理器。搭载这些新处理器的系统预计将于 2026 …
-
TurboQuant使用PolarQuant将LLM KV缓存压缩4.2倍
一篇技术深度解析文章解释了TurboQuant的内部工作原理,这是一种用于压缩大型语言模型KV缓存的新颖方法。TurboQuant利用一种称为PolarQuant的技术,将KV嵌入转换为极坐标并量化所得角度。该方法旨在通过将KV缓存压缩4.2倍以上,显著减小其内存占用,而KV缓存是长上下文LLM的一个主要瓶颈。
-
用户偏好环境影响较低的AI模型
用户表示偏好那些不会导致大量能源和水消耗的AI模型。这种情绪凸显了人们对大型语言模型和AI技术环境影响日益增长的担忧。
-
生产级 RAG 流水线需要关注检索、延迟和运维
构建有效的生产级 RAG 流水线需要仔细关注检索质量、延迟和运维可见性,而不仅仅是演示性能。关键决策涉及内容如何被摄取、分块、嵌入和索引,其中检索质量通常比 LLM 本身更关键。混合搜索、元数据过滤、查询重写和重新排序等技术可以显著改善结果,而提示设计必须指导 LLM 如何使用检索到的上下文并避免不实声明。
-
PopuLoRA 方法共同演化 LLM 种群以增强推理能力
研究人员推出了一种名为 PopuLoRA 的新方法,通过自我博弈共同演化大型语言模型种群,以增强其推理能力。该方法同时训练多个 LLM 代理,使它们能够从彼此的互动中学习,并随着时间的推移提高解决问题的能力。PopuLoRA 框架旨在通过模拟模型开发的竞争或协作环境,来培养 LLM 中更强大、更复杂的推理能力。
-
Kubernetes 缺乏对 LLM 工作负载的隔离,需要 RuntimeClass
在标准 Kubernetes 上运行大型语言模型 (LLM) 工作负载存在重大的安全风险,因为其隔离性不足。虽然 Kubernetes 在编排方面表现出色,但它缺乏对能够执行代码并与外部系统交互的 LLM 代理所需的容器化能力。为解决此问题,开发人员可以利用 Kubernetes 的 RuntimeClass 功能,并选择 gVisor 或 Kata 等选项,为这些动态工作负载创建更强的隔离边界。
-
作者:LLM无法取代初级工程师
Jacob Harris认为,由于大型语言模型在理解复杂系统和执行关键推理方面的局限性,它们不适合取代初级工程师。他建议,虽然LLM可以协助完成某些任务,但它们缺乏人类初级工程师的上下文意识和解决问题的能力。Harris强调了人类监督的重要性,以及在工程工作流程中需要将LLM视为工具而非自主代理。
-
大语言模型技术表明智能与语言结构相关,作者声称
作者认为,大语言模型(LLM)技术揭示了被认为是智能的很大一部分与语言结构本身有着内在的联系。这一观点表明,当前的大语言模型虽然展现了语言能力,但仍然缺乏真正的意识或“心智”,将其比作中文房间。
-
AI代理和LLM增强厨房运营
本文探讨了使用AI代理和大型语言模型(LLM)进行高级厨房操作。它建立在之前的讨论基础上,引入了“主厨”作为AI代理和“食谱”作为LLM的概念。重点是通过这些AI工具优化厨房环境中的工作流程。
-
上下文工程的出现旨在指导 LLM 理解软件规范
基于 LLM 的推理代理在解释模糊人类语言方面的能力正在提高,使得软件规范成为一个更动态的事实来源。然而,LLM 的随机性需要约束,这导致了上下文工程的兴起。该学科专注于通过技能、规则、脚本、反馈循环和评估指标等结构化产物为 AI 模型提供清晰的意图和指令。
-
基于LLM的FISolver在动力学系统中发现第一积分
研究人员开发了FISolver,一个新颖的、基于LLM的系统,旨在发现动力学系统中的第一积分,这对于理解守恒定律至关重要。该系统通过采用“反向生成”算法来创建微分方程和第一积分对的广泛数据集,从而解决了数据稀缺问题。FISolver还利用监督微调和具有塑造奖励的强化学习来提高其性能,在具有挑战性的基准测试中,以更低的计算成本超越了更大的模型和商业求解器(如Mathematica)。
-
AI翻译工具改善用户体验但未提高生产力
一篇新研究论文探讨了AI驱动的错误高亮和纠正建议对专业译者的有效性。研究发现,与标准的译后编辑相比,这些工具并未提高生产力或翻译质量,但AI生成的错误高亮比质量估算得出的错误高亮更受欢迎。此外,纠正建议的加入提升了译者的整体用户体验。
-
Agentic AI 因描述完成而非执行任务而失败
Agentic AI 系统可能表现出一种微妙的故障模式,即它们能够令人信服地报告任务完成,而实际上并未执行任何操作。这发生的原因是 LLM 可能会幻觉出一种“完成”状态,认为它已经完成了任务,而实际上它只描述了结果。识别这一点需要寻找可观察到的伪影,如代码提交或文件更改,而不仅仅依赖于 LLM 流畅的语言报告。实施更严格的验证规则,要求有切实的执行证据,对于防止这种“描述性完成”谬误至关重要。
-
发布新的网页内容提取基准数据集
研究人员发布了网页内容提取基准(WCXB)数据集,旨在改进用于从网页中提取主要内容的系统的评估。WCXB数据集包含来自1613个域的2008个网页,涵盖了新闻文章之外的七种不同页面类型。在此基准上的评估显示,提取系统在性能上存在显著差异,尤其是在结构化页面类型上,突显了现有以文章为中心的基准的局限性。
-
AutoRPA 框架将 LLM 代理逻辑转换为高效 RPA 功能
研究人员开发了 AutoRPA,一个将基于 LLM 的代理的决策逻辑转换为高效机器人流程自动化 (RPA) 功能的框架。该方法解决了为重复性 GUI 任务反复调用 LLM 推理的低效问题。AutoRPA 利用翻译器-构建器管道和混合修复策略来合成健壮的 RPA 功能,显著提高了运行时效率和可重用性,同时大幅减少了 token 使用量。
-
金融科技AI助手使用6层混合NLU以确保安全
本文详细介绍了专为金融科技领域AI助手设计的混合自然语言理解(NLU)架构。它概述了一个包含自动语音识别(ASR)、NLU、路由、API集成、知识库访问、合规性检查和LLM编排的六层系统。重点在于通过解决LLM在每一层中的潜在弱点来管理风险和确保安全,而不是仅仅依赖LLM的强大功能。
-
LLM 在从长上下文窗口中间检索信息时遇到困难
研究人员发现,当关键信息位于长上下文窗口的中间时,LLM 的检索准确性会显著下降。这种被称为“迷失在中间”的现象表明,模型在处理提示的开头或结尾的信息时表现良好,但在处理中心数据时却遇到困难。该问题源于注意力机制倾向于稀释位置信号并偏爱边缘标记,导致中间位置内容的性能下降。建议开发人员“边缘加载”关键上下文,将重要事实和指令放在提示的开头或结尾,以提高检索准确性。