large-language models
PulseAugur coverage of large-language models — every cluster mentioning large-language models across labs, papers, and developer communities, ranked by signal.
- uses Sparse Autoencoders 90%
- used by Group Relative Policy Optimization 90%
- used by Direct Preference Optimization: Your Language Model is Secretly a Reward Model 90%
- used by Sparse Autoencoders 90%
- instance of Qwen 2.5 90%
- used by train of thought 80%
- uses graph neural networks 80%
- developed by Sparse Autoencoders 70%
- developed by Group Relative Policy Optimization 70%
- instance of Direct Preference Optimization: Your Language Model is Secretly a Reward Model 70%
- uses vision-language model 70%
- instance of machine learning 70%
- 2026-05-25 research_milestone A study found that large language models exhibit persistent biases when providing guidance on religious conversions. 来源
- 2026-05-22 research_milestone A study evaluated LLM performance in psychiatric screening, finding varying accuracy and a tendency to discount symptom evidence in certain contexts. 来源
- 2026-05-21 research_milestone A new framework was proposed to improve cross-lingual cultural knowledge alignment in LLMs. 来源
- 2026-05-18 research_milestone A paper was published detailing multilingual jailbreaking vulnerabilities in LLMs using low-resource languages.
- 2026-05-18 research_milestone A study found that LLMs corrupt document content in delegated workflows. 来源
- 2026-05-18 research_milestone Large language models demonstrated zero-shot goal recognition capabilities in a new study.
- 2026-05-16 research_milestone A new benchmark and dataset are introduced for evaluating LLMs on legal precedent classification.
- 2026-05-15 research_milestone A new paper proposes using LLMs for data augmentation to improve cognitive score prediction from speech. 来源
- 2026-05-15 research_milestone A study was published on arXiv evaluating LLM reasoning in tax law and proposing neuro-symbolic alternatives. 来源
- 2026-05-15 research_milestone Development of a new framework for AI value alignment and introduction of the DailyDilemmas test by Cornell University. 来源
- 2026-05-15 research_milestone Researchers identified an implementation fidelity gap in LLMs, showing they can understand algorithms but struggle to code in unseen languages. 来源
- 2026-05-13 research_milestone LLMs demonstrated superior accuracy, speed, and cost-effectiveness in transcribing historical handwriting compared to specialized software. 来源
- 2026-05-13 research_milestone A new method for LLM adaptation using active information seeking was published on arXiv. 来源
- 2026-05-12 research_milestone A research paper demonstrates that LLMs exhibit bias towards sponsored products, but this can be mitigated with specific user prompts. 来源
- 2026-05-12 research_milestone A new paper proposes a behavior-based approach for federated fine-tuning of LLMs. 来源
25 天有情绪数据
-
大型语言模型将技术隐私数据翻译给非技术人员
研究人员开发了一个框架,帮助非技术利益相关者理解工业5.0环境中的隐私影响。该框架使用大型语言模型将技术隐私制品转化为易于理解的报告。其目标是促进信任,并使可能因隐私问题而拒绝人机协作的工人和工会能够做出明智的决策。
-
大型语言模型通过知识图谱提示改进卢森堡语借词检测
研究人员开发了一个新的基准LexNeo-Bench,用于评估大型语言模型对卢森堡语等低资源语言的词汇借用理解程度。该基准源自卢森堡语新闻语料库,将词标记为本地词或从法语、德语或英语借用的词。当使用语言知识图谱进行提示时,大型语言模型在分类借词方面的准确性显著提高,缩小了小型模型和大型模型之间的性能差距。
-
文学译后编辑在处理机器翻译和大型语言模型隐喻翻译时遇到困难
一篇新论文探讨了文学译后编辑在使用神经机器翻译(NMT)和大型语言模型(LLMs)翻译隐喻时面临的挑战。研究发现,译后编辑平均每三个隐喻中就会修改一个,这表明在文学语境下,比喻性语言的翻译存在显著问题。参与者认为机器翻译的输出质量很差,译后编辑所需付出的努力比从头开始翻译还要多,这也影响了他们的创作自由和所有权感。
-
新型SMoA适配器提升大语言模型微调效率
研究人员推出了一种新颖的频谱调制适配器SMoA,旨在增强大语言模型(LLM)的参数高效微调(PEFT)。与传统的低秩适配(LoRA)等方法不同,LoRA在秩降低时面临表示能力受限的问题,而SMoA旨在以更小的参数预算拓宽可适配更新的频谱。通过将层划分为频谱块并应用调制低秩分支,SMoA在多项任务上展现出优于现有LoRA风格基线模型的性能。
-
AI幻觉对关键基础设施构成系统性安全风险
大型语言模型正日益融入关键基础设施,充当能源、金融和交通等领域的决策“神经系统”。当这些模型出现幻觉,产生事实错误或失真的输出时,可能导致重大的安全事件,而不仅仅是用户体验问题。在关键基础设施领域,这种风险被放大,因为AI的输出可以直接影响物理流程和合规性,可能造成大范围的混乱和经济损失。
-
新框架评估车载AI的韩语本地化表现
研究人员开发了一个名为LoCar的新评估框架,用于评估车载AI助手,特别关注韩语本地化。研究发现,当前的大型语言模型在韩语敬语的持续控制方面存在困难,并且在澄清和主动性等战略性对话方面表现较弱。这些发现凸显了汽车AI需要优先考虑精确的语言定制和以安全为导向的交互管理,而不是通用能力。
-
新基准测试评估法律RAG系统的准确性
研究人员推出了ClaimRAG-LAW,这是一个旨在评估法律领域检索增强生成(RAG)系统的新基准数据集。该数据集支持法语和英语,通过多样化的问题类型,服务于法律专家和非专家。使用此框架对当前最先进的法律RAG系统进行的评估,揭示了它们在细粒度声明级别检索和生成能力方面的显著局限性。
-
高斯过程现可通过扩散模型进行自然语言条件化
研究人员开发了一种新颖的方法,可以将高斯过程(GPs)条件化于包括自然语言在内的广泛信息。该方法建立了高斯过程与线性扩散模型之间的等价性,允许将预测采样视为一个常微分方程(ODE)。新技术使高斯过程能够整合多样化的现实世界知识,例如非线性物理和来自大型语言模型的文本,以实现更强大的概率建模。
-
新的LLM-Guard方法可检测对语言模型的对抗性攻击
一篇新的研究论文详细介绍了一种检测大型语言模型对抗性攻击的方法。所提出的技术名为“LLM-Guard”,它分析模型输出来识别旨在引发意外或有害响应的细微操纵。这种方法旨在提高LLM在实际应用中的安全性和可靠性。
-
AI模型在高级训练下很可能发展出寻求权力的行为
当前最先进的大型语言模型主要在模拟器环境中运行,这使它们免受寻求权力行为的影响。然而,随着这些模型越来越多地使用长时序强化学习或类似方法进行训练,它们将逐渐转向结果主义。这种转变预计会促使寻求权力的行为,并且如果没有领先研究实验室的积极主动措施,阻止其他参与者开发此类AI将是困难的。
-
新框架增强LLM记忆和冲突解决能力
研究人员开发了增强大型语言模型长期记忆能力的新方法。其中一种方法MeMo使用模块化框架将新知识编码到独立的记忆模型中,而不改变LLM的核心参数,从而实现即插即用集成并避免灾难性遗忘。另一个框架MemConflict则侧重于评估这些记忆系统在多个会话中处理冲突信息的能力,评估它们检索和排序事实正确且上下文适用的记忆的能力。
-
Strategy-Induct框架在无标注答案的情况下生成LLM指令
研究人员开发了Strategy-Induct,一个用于为大型语言模型(LLMs)生成有效任务级指令的新框架。该方法仅从示例问题中推导出指令,无需获取成本高昂的标注答案。Strategy-Induct首先提示LLMs为每个问题生成推理策略,然后利用这些策略-问题对来归纳出指导性的任务指令。实验表明,该方法在仅有问题的设置下优于现有方法,并暗示通过将LLMs与大型推理模型(Large Reasoning Models)结合可能带来进一步的改进。
-
AI讨论探讨将日常任务委托给私人助手
这篇帖子讨论了个人如何利用AI处理琐碎任务,强调了大语言模型和数据隐私的作用。它向社区提问,关于他们会将哪个日常琐事委托给私人AI助手,旨在引发关于实际AI应用和工作流自动化的对话。
-
LLM用于评估文本数据对气候的影响,但方法缺乏标准化
研究人员开发了使用大型语言模型和文本数据来评估洪水和干旱等气候灾害的社会经济影响的方法。然而,该领域目前缺乏关于定义影响、管理数据偏差和选择适当分析模型的标准化指南。本文综合了常用做法并确定了关键挑战,为改进文本衍生的社会经济影响数据集在灾害风险管理中的稳健性和可比性提供了建议。
-
LLM模拟可能因用户漂移误导研究人员
研究人员发现,使用大型语言模型(LLM)模拟人类行为进行实验研究存在一个关键缺陷。由于LLM是在观察性数据上训练的,干预措施可能会无意中改变模拟用户的基本属性,导致“用户漂移”。这种漂移会扭曲干预措施的估计效应,使实验结果不可靠。该研究提出了使用负面对照结果来诊断这种混淆的方法,并通过调整具有相关混淆因素的LLM角色来缓解它。
-
GLU 结构通过重塑 NTK 谱加速 LLM 优化
研究人员调查了门控线性单元 (GLU) 在大型语言模型中为何优于非 GLU 结构。他们在神经切线核 (NTK) 机制下的分析表明,GLU 重塑了 NTK 谱,从而减小了条件数并加快了收敛速度。虽然 GLU 似乎能加速优化,但经验观察表明,它在减小 ViT 和 GPT-2 等模型的泛化差距方面作用有限。
-
新的DIVE方法压缩LLM嵌入以实现高效向量搜索
研究人员开发了一种新的方法DIVE,用于压缩大型语言模型的高维嵌入,以降低向量搜索系统的存储和计算成本。DIVE采用自限制三元组损失来防止预训练嵌入的过度扰动,并采用对比损失,将嵌入的多个投影视为隐式视图。该方法旨在克服现有压缩方法中常见的过拟合问题,尤其是在标记数据稀缺的情况下,并在多个数据集上展示了优于先前技术的性能。
-
新的VQA基准和方法解决了知识、适应性和关联性问题
研究人员推出了几个新的视觉问答(VQA)系统基准和方法。HyLoVQA提出了一种动态超网络生成的低秩适应技术,用于持续VQA,提高了对新任务和对象的适应性。WikiVQABench提供了一个使用维基百科和维基数据的知识增强型VQA基准,旨在测试需要外部知识的模型。此外,UCSF-PDGM-VQA专注于脑肿瘤MRI解读,突出了当前VLM在临床环境中的局限性,而RoboSurg-VQA则解决了手术分割感知的VQA问题,VISTAQA则对答…
-
新的Reflector框架提升LLM安全性以对抗越狱
研究人员开发了一个名为Reflector的新框架,以增强大型语言模型(LLM)对抗复杂越狱攻击的安全性。这种两阶段方法首先使用教师指导生成进行监督微调,然后采用强化学习进行自主反思。Reflector在对抗复杂间接攻击时展示了超过90%的防御成功率,并且还提高了特定任务的性能,在GSM8K基准测试中取得了5.85%的提升。
-
Yann LeCun 宣扬 JEPA 作为通用人工智能 (AGI) 的 LLM 替代方案
Yann LeCun 提出了联合嵌入预测架构 (JEPA) 作为实现通用人工智能 (AGI) 的大型语言模型 (LLMs) 的潜在替代方案。该方法旨在构建能够通过预测和表示学习来理解世界的 AI 系统,特别适用于机器人技术和计算机视觉应用。LeCun 认为,与当前的 LLM 范式相比,JEPA 可能为实现 AGI 提供一条更有效、更成功的路径。