LLM
PulseAugur coverage of LLM — every cluster mentioning LLM across labs, papers, and developer communities, ranked by signal.
- instance of large-language models 95%
- instance of large language model 95%
- authored Eugene Yanayt 95%
- instance of Pinocchio Dimension 95%
- instance of Language Models 95%
- used by graphics processing unit 90%
- instance of generative artificial intelligence 90%
- uses JSON 90%
- used by JSON 90%
- used by transformer 90%
- used by KV cache 90%
- instance of Llama 90%
- 2026-05-26 research_milestone A study shows LLM-generated feedback increases preprint revisions and subsequent LLM tool adoption. 来源
- 2026-05-25 research_milestone Researchers introduce a multi-agent LLM system for generating physics-constrained constitutive models. 来源
- 2026-05-22 research_milestone Researchers published a paper detailing a new multi-agent LLM approach for generating physics-constrained constitutive models. 来源
- 2026-05-21 research_milestone Development of a multi-agent LLM that learns to defer to human input. 来源
- 2026-05-15 research_milestone A paper details the use of an LLM-guided tree search algorithm for scientific discovery, specifically in optimizing photovoltaic structures. 来源
- 2026-05-14 research_milestone A new paper proposes a method combining LLMs with neural processes for text-conditioned regression. 来源
- 2026-05-13 research_milestone A new paper reveals that prior harmful actions can steer LLM decisions toward unsafe actions, especially when consistency is emphasized. 来源
- 2026-05-11 research_milestone Researchers proposed a new framework for formally evaluating LLM guardrail classifiers. 来源
26 天有情绪数据
-
新的SCI-Defense框架对抗LLM排名操纵攻击
研究人员开发了SCI-Defense,一个旨在对抗针对基于LLM的排名系统的操纵攻击的新型框架。这些被称为生成式引擎优化(GEO)的攻击,涉及对手将误导性信号注入产品描述中以人为地提高其排名。SCI-Defense集成了困惑度检测、语义完整性评分和候选间检测,以识别和阻止这些操纵。在亚马逊产品描述和MS MARCO网页上的评估表明,SCI-Defense在对抗各种攻击类型方面具有高精度和高召回率,优于现有的防御机制。
-
LLM多智能体系统自动化MCU神经网络定制
研究人员开发了AutoMCU,一个利用基于LLM的多智能体方法为微控制器单元(MCU)定制神经网络的新颖系统。该方法通过在设计过程早期整合供应商工具链反馈来优先考虑可行性,与传统的硬件感知神经网络架构搜索方法相比,显著降低了搜索成本和时间。AutoMCU在基准数据集上展示了具有竞争力的准确性,并成功部署在STM32微控制器上,使边缘智能更加易于访问。
-
新方法预测LLM提示程序性能
研究人员开发了一种名为RAP(Retrieved Approximate Prior)的方法,用于预测符号程序和基于提示的程序的性能。该系统分析少量领域内示例,以估算程序在未见过的任务上的表现。这种方法考虑了符号程序(通常是全有或全无)与提示程序(通常接近正确)不同的先验性能分布。
-
LLM模型高精度预测词汇难度
研究人员开发了两个预测词汇难度的模型,其中一个在共享任务中取得了最佳结果。高精度模型采用了经过微调的LLM和软目标损失函数,相关性超过0.91。一个可解释模型也表现强劲,相关性超过0.77,并提供了影响词汇难度因素的见解,这些因素不仅包括发音难度,还包括拼写复杂性和测试项目构建。
-
新的 ComprExIT 框架增强了 LLM 上下文压缩
研究人员开发了一个新的上下文压缩框架 ComprExIT,以解决长上下文 LLM 代理日益增长的成本问题。该框架通过增强压缩令牌之间的协调并减轻层间信号稀释,改进了现有方法。实验表明,ComprExIT 的性能显著优于当前的软压缩基线,在 F1 分数上取得了实质性改进,同时仅增加了极少的额外可训练参数并提高了压缩速度。
-
AI框架增强交通安全数据访问能力
研究人员开发了一个新的框架,利用生成式AI使交通安全数据更易于访问。该系统将自然语言查询转换为结构化操作,确保从PostGIS数据库获得可复现且基于模式的结果。使用马萨诸塞州交通数据进行的评估显示,验证层纠正了29%的查询错误,凸显了灵活语言与严格数据要求对齐的挑战。该方法旨在拓宽公共部门规划者对关键安全信息的访问渠道。
-
新框架增强了LLM辅助的数字孪生创建
研究人员提出了一个名为FactoryFlow的新框架,以提高大型语言模型(LLM)辅助数字孪生创建的可靠性。该框架引入了三个核心原则:将结构建模与参数拟合分离,使用经过预验证组件的受限中间表示(IR),以及采用保持密度的IR。研究强调Python是一种合适的保持密度的IR,并详细说明了其结构如何紧凑地表示复杂系统并减少LLM引起的错误。
-
新的基准 CTFExplorer 测试 AI 代理在多目标网络攻击中的能力
研究人员开发了 CTFExplorer,这是一个新的基准套件,旨在评估 AI 代理在进攻性网络安全方面的战略推理能力。与以往关注单一目标的基准不同,CTFExplorer 为代理提供了一个多目标 Web 夺旗(Capture-the-Flag)环境。这种设置要求代理能够自主发现、优先排序和利用众多漏洞,模仿真实 CTF 参与者的行为。
-
DrugRAG管道提升药学问答LLM准确性
研究人员开发了DrugRAG,一种新颖的检索增强生成管道,旨在提升大型语言模型(LLM)在药学相关问答任务上的性能。在他们的研究中,他们评估了十个LLM,发现在一个包含141个问题的的数据集上,GPT-5和o3表现最佳。DrugRAG在不改变模型架构的情况下整合了结构化的药物信息,将多个模型(尤其是较小的开源模型)的准确性显著提高了多达21个百分点。
-
LLM剪枝适应方法以更少的计算量媲美再训练
研究人员开发了一种新的方法来适应剪枝后的大型语言模型(LLMs),称为局部重构。该技术涉及一次适应模型参数的子集,以匹配原始密集模型的激活,即使对于多达720亿参数的模型也证明是有效的。局部重构实现了与完全再训练相当的性能,但需要显著更少的数据和计算量,并且只要包含非线性子模块,其有效性在很大程度上独立于特定的窗口大小。研究还发现,这种适应方法降低了剪枝标准本身的重要性,使得更简单的剪枝技术在更大模型规模下更具竞争力。
-
AI 进展是“锯齿状”的,新基准测试揭示
研究人员推出了 SciAidanBench,这是一个旨在衡量大型语言模型科学创造力的新基准测试。研究发现,AI 进展是“锯齿状”的,这意味着能力在不同任务和模型之间提高不均衡。然而,通过推理时间计算和模型集成等技术可以利用这种锯齿状特性来增强科学创意生成。
-
提出区块链架构以监管LLM智能体协作
研究人员提出了一种基于区块链的架构,用于管理大型语言模型(LLM)驱动的自主智能体的治理和问责。该分层系统包括用于追踪智能体行为、评估动态声誉和预测恶意活动的模块。目标是为复杂的多智能体生态系统中的监管监督建立一个可信赖且可扩展的框架。
-
LLM预训练为时间序列预测创造了可泛化的流形
一篇新的研究论文探讨了如何在时间序列预测中有效利用在文本上预训练的大型语言模型(LLM)。该研究表明,语言预训练为Transformer配备了一个可重用的流形,使其能够在无直接监督的情况下学习时间序列动力学。这种预训练不仅改进了优化过程,还允许在微调期间进行低维对齐,有效地将数值动力学投影到与任务相关的方向上。
-
新方法实现高维问题贝叶斯优化的自动化
研究人员开发了改进贝叶斯优化(一种用于优化复杂函数的技术)的新方法。一种方法,动态共享嵌入贝叶斯优化(DSEBO),可自动调整搜索空间的维度,以更有效地处理高维问题。另一种方法,核发现,利用 LLM 自动生成和选择这些优化任务的最佳核函数,性能优于现有基线。第三个框架 BOOST,可自动联合选择核函数和采集函数,在各种优化场景中表现出鲁棒性。
-
PrivacyAkinator 工具简化了开发人员的隐私风险评估
研究人员开发了 PrivacyAkinator,这是一个旨在简化 NIST 隐私风险评估方法 (PRAM) 的工具,面向初级开发人员。该工具通过回答大型语言模型生成的多项选择题,帮助用户阐明与隐私相关的设计决策。一项研究表明,与传统 PRAM 用法相比,使用 PrivacyAkinator 的开发人员能在更短的时间内识别出更多的关键隐私决策。
-
新框架识别AI聊天机器人中老年人特有的风险
研究人员开发了GrandGuard,一个旨在解决老年用户与AI聊天机器人交互时特定安全问题的框架。该框架包含一个包含50种风险类型的分类法,涵盖心理健康、财务、医疗、毒性和隐私领域,这些风险类型基于现实世界的事件和利益相关者研究。一个包含超过10,000个提示和响应的基准测试显示,领先的LLM在超过一半的情况下未能处理这些老年人特有的风险。为缓解这些问题,实施了两项保障措施,在检测不安全提示方面取得了高准确率。
-
新的LLM水印技术旨在保护知识产权和追踪使用情况
研究人员开发了新的大型语言模型(LLM)水印方法,以保护知识产权和追踪使用情况。ArcMark是一种新技术,可在不改变LLM输出分布或困惑度的情况下,将多个字节的信息嵌入文本中。另一种方法SAFESEAL使用密钥条件采样来保持语义保真度并检测所有权,即使面对对抗性攻击。TextSeal是第三种方法,提供本地化检测,并且可以通过模型蒸馏转移其水印信号,使其能够有效防止未经授权的使用和复制。
-
AI 生成的代码成功交付,用户声称
一位 Mastodon 用户声称,由大型语言模型生成的代码可以成功部署。他们认为 AI 生成代码的质量取决于输入数据,并引用了“输入垃圾,输出垃圾”原则和哥德尔不完备定理。
-
用户计划使用小型LLM开发小说生成应用
一位Mastodon用户强调了语言模型的广泛能力,并强调它们能够从数据结构到音乐学习各种模式。他们计划使用一个小型8B参数LLM开发一个浏览器应用程序,该应用程序能够根据用户指令一键生成一本日本小说。
-
NVIDIA RTX 5090 GPU 凭借 32GB 显存提升 LLM 性能
NVIDIA RTX 5090 于 2025 年初发布,其 32GB GDDR7 显存相比 RTX 4090 的 24GB GDDR6X,为本地 LLM 用户带来了显著的升级。增加的显存使得 5090 能够更流畅地运行更大规模的模型,例如以更高量化级别运行 34B 参数模型,甚至以较低量化级别运行 70B 模型,而这些在 4090 上是无法实现的。虽然 5090 的价格更高,约为 2000 美元,但对于需要运行更大模型或需要更多显存来…