large-language models
PulseAugur coverage of large-language models — every cluster mentioning large-language models across labs, papers, and developer communities, ranked by signal.
- uses Sparse Autoencoders 90%
- used by Direct Preference Optimization: Your Language Model is Secretly a Reward Model 90%
- instance of Qwen 2.5 90%
- used by Sparse Autoencoders 90%
- used by train of thought 80%
- uses graph neural networks 80%
- developed by Sparse Autoencoders 70%
- used by Chain Of Thought 70%
- instance of PixelBank 70%
- uses vision-language model 70%
- instance of machine learning 70%
- instance of Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond 70%
- 2026-05-25 research_milestone A study found that large language models exhibit persistent biases when providing guidance on religious conversions. 来源
- 2026-05-22 research_milestone A study evaluated LLM performance in psychiatric screening, finding varying accuracy and a tendency to discount symptom evidence in certain contexts. 来源
- 2026-05-21 research_milestone A new framework was proposed to improve cross-lingual cultural knowledge alignment in LLMs. 来源
- 2026-05-18 research_milestone A paper was published detailing multilingual jailbreaking vulnerabilities in LLMs using low-resource languages.
- 2026-05-18 research_milestone A study found that LLMs corrupt document content in delegated workflows. 来源
- 2026-05-18 research_milestone Large language models demonstrated zero-shot goal recognition capabilities in a new study.
- 2026-05-16 research_milestone A new benchmark and dataset are introduced for evaluating LLMs on legal precedent classification.
- 2026-05-15 research_milestone A new paper proposes using LLMs for data augmentation to improve cognitive score prediction from speech. 来源
- 2026-05-15 research_milestone A study was published on arXiv evaluating LLM reasoning in tax law and proposing neuro-symbolic alternatives. 来源
- 2026-05-15 research_milestone Development of a new framework for AI value alignment and introduction of the DailyDilemmas test by Cornell University. 来源
- 2026-05-15 research_milestone Researchers identified an implementation fidelity gap in LLMs, showing they can understand algorithms but struggle to code in unseen languages. 来源
- 2026-05-13 research_milestone LLMs demonstrated superior accuracy, speed, and cost-effectiveness in transcribing historical handwriting compared to specialized software. 来源
- 2026-05-13 research_milestone A new method for LLM adaptation using active information seeking was published on arXiv. 来源
- 2026-05-12 research_milestone A research paper demonstrates that LLMs exhibit bias towards sponsored products, but this can be mitigated with specific user prompts. 来源
- 2026-05-12 research_milestone A new paper proposes a behavior-based approach for federated fine-tuning of LLMs. 来源
26 天有情绪数据
-
Reddit用户寻求开源音乐推荐系统
一位Reddit用户正在寻找Spotify电台或YouTube音乐精选等专有音乐推荐系统的开源替代品。他们提出,如果大型语言模型(LLM)同时在用户收听数据和相关文本数据(如评论和评价)上进行训练,可能会很有效。用户指出,由于Spotify等封闭平台的存在,公开获取批量收听指标受到限制,这阻碍了此类开源工具的开发。
-
生成式递归教育创建定制化互动教科书
一种名为生成式递归教育(GRE)的新方法允许即时创建定制化、互动式教科书。该方法利用人工智能生成教育内容,这些内容可以根据用户互动和学习进度进行调整和演变。目标是提供比传统静态教科书更个性化、更动态的学习体验。
-
AI在确定性运营智能方面的局限性凸显
未来企业技术文档的格局,将由那些构建了受监管知识生态系统的组织塑造,而不仅仅是那些生成更多AI内容的组织。大型语言模型虽然是令人印象深刻的语言生成器,但其本质上是概率性的,无法固有地提供确定性的运营智能。这意味着它们缺乏对运营正确性、治理、安全或合规性的理解,从而导致对其能力产生潜在危险的乐观情绪。
-
大型语言模型(LLM)融合数据和控制平面,带来新的安全风险
大型语言模型(LLM)本质上模糊了数据和控制之间的界限,为基础设施工程师和机器学习运维人员带来了重大的安全挑战。与传统计算不同,LLM缺乏明确的数据平面,这意味着其上下文窗口内的所有信息,无论是提示、文档,还是图像中隐藏的指令,都被视为可执行命令。这种架构缺陷允许不受信任的工件影响模型行为,可能导致绕过数据库安全或更改工程计算等漏洞。
-
Yann LeCun 驳斥 LLM 是通往 AGI 的道路,力挺 JEPA
Yann LeCun 认为,当前的大型语言模型(LLMs)由于缺乏预测后果或执行基于搜索的推理的能力,并非通往人类水平智能的道路。他提倡他的联合嵌入预测架构(JEPA)方法,该方法侧重于世界模型的自监督学习。JEPA 旨在通过预测缺失的数据嵌入来学习表征,他认为这种方法在实现通用智能方面更有前景。
-
大语言模型未能掌握德语美因茨方言
研究人员调查了大语言模型(LLMs)理解和生成德语美因茨方言词汇的能力。他们的实验显示,当前最先进的大语言模型在此任务上表现困难。在生成方言词汇定义方面,表现最好的模型准确率仅为6.27%;而在根据定义生成方言词汇方面,准确率仅为1.51%。
-
新基准评估大语言模型中的阿联酋方言能力
研究人员开发了一个新的基准,用于严格评估大语言模型在阿联酋方言方面的能力。该基准旨在提供对人工智能模型理解和生成阿联酋阿拉伯语的程度进行鲁棒评估。这项工作是旨在提高人工智能在不同语言和方言变体方面性能的更广泛计划的一部分。
-
AI心理健康建议因训练数据偏差而失真
生成式AI模型,尤其是在心理健康咨询领域使用的模型,在训练过程中存在严重的数据不平衡问题。这些模型基于庞大的互联网数据集进行训练,而这些数据集不成比例地偏向于常见话题,导致稀有或更细微的信息代表性不足。因此,AI可能提供不恰当甚至有害的建议,因为用户通常意识不到这些固有的偏见,并认为AI的指导是全面且权威的。
-
人工智能公司寻求世界模型以增强超越LLM的AI理解能力
人工智能公司正专注于开发能够理解外部世界的系统,以超越当前大型语言模型的能力。最近的讨论强调了“世界模型”在实现这一目标方面的重要性。这项研究旨在使人工智能对其环境有更深入的理解。
-
残差连接通过绕过层来支持更深层的LLM训练
本文解释了残差连接,这是Transformer架构中的一个关键组成部分,对于训练像大型语言模型(LLMs)这样的深度神经网络至关重要。残差连接通过提供梯度的替代路径来帮助克服梯度消失问题,使模型能够学习更复杂的模式。这项技术对于自然语言处理(NLP)任务(如翻译、摘要和文本生成)的进步至关重要。
-
AI代理的token使用量导致成本意外增加
使用AI,特别是AI代理的成本正在因高token消耗而意外上涨。尽管token价格已大幅下降,但代理操作的复杂性,涉及大量的工具调用和内部处理步骤,导致token的放大。这些隐藏的工作,通常用户甚至付费公司都看不到,构成了大部分的token使用量,并导致不可预测和膨胀的AI账单。
-
大语言模型的叙事性解释可能阻碍决策表现
一篇新发表在arXiv上的研究探讨了大型语言模型(LLMs)的说服性叙事性解释如何影响人类在分类任务中的决策。研究发现,虽然这些解释增加了对AI的依赖,但与单独的AI预测相比,它们并未显著提高决策准确性。此外,更具说服力的叙事可能会负面影响响应时间和辨别正确AI预测的能力,这表明在使用叙事性解释时可能存在权衡。
-
LLM编排的AI可加速O-RAN服务提供
研究人员开发了一种双脑架构,将大型语言模型(LLM)集成到开放无线接入网(O-RAN)系统中。该方法使用基于LLM的编排器进行意图翻译和代码生成,并结合一个名为NeuralSmith的自动化机器学习引擎进行按需模型训练。该系统旨在简化O-RAN内AI应用程序的创建和部署,解决当前手动且缓慢的流程。
-
OnePred 预测 LLM 聊天中的下一个用户查询,减少 token 数量
研究人员开发了 OnePred,一个旨在预测与大型语言模型进行多轮对话中下一个用户查询的新颖系统。该方法旨在超越被动式 AI,通过预测用户需求而无需完整的对话历史记录,从而减少 token 消耗。OnePred 利用递归更新的记忆来跟踪不断变化的用户意图,在更长的对话中尤其能实现显著的效率提升和预测质量的提高。
-
新的强化学习策略可实现游戏中可扩展、由个性驱动的NPC
研究人员开发了一种名为pcsp的新型强化学习策略,旨在实现生命模拟游戏中可扩展且可控的非玩家角色(NPC)。这一单一策略以个性描述的LLM嵌入为条件,可实现独特且一致的NPC行为。该方法在零样本个性识别方面显著优于随机水平,并且与基于LLM的策略相比,推理速度更快,证明了其在商业游戏引擎中的可行性。
-
大语言模型框架提升复杂数据中的名称匹配准确性
一种名为结构引导实体解析(SGER)的新框架已被开发出来,用于改进大语言模型(LLMs)匹配名称的方式,尤其是在复杂的语言情况下。SGER采用两阶段课程,首先教授大语言模型名称结构知识,然后对其进行实体匹配优化。该方法在印度身份数据上达到了99.02%的准确率和0.994的F1分数,优于GPT-4o提示等现有方法。SGER系统现已在拥有超过2.5亿用户的平台Dream11投入生产,证明了其在现实世界多语言应用中的可扩展性和有效性。
-
AI安全研究论文呼吁增加防御激励
arXiv上最近发表的一篇论文强调了AI安全研究中存在的显著不平衡,即对攻击方法的研究远超对防御策略的研究。研究表明,攻击性论文通常在夸大威胁严重性的条件下进行评估,而防御性研究则面临更严格的审查。这种差异导致该领域充斥着漏洞披露,但缺乏实用、可部署的保护措施,因此作者呼吁增加对防御性研究的激励。
-
中国人工智能初创公司融资额增至162亿美元,押注大型语言模型和机器人技术
中国人工智能初创公司的融资额在第一季度大幅增长,同比几乎翻了三倍,达到162亿美元。这一热潮主要得益于投资者对大型语言模型和具身智能技术的信心。人工智能投资的增加也促进了中国私募股权和风险投资市场的整体上涨。
-
MIT robots learn new physical tasks using LLMs without full retraining
Researchers at MIT have developed a new method for robots to learn physical tasks more efficiently, similar to how humans acquire new skills. By leveraging large language models (LLMs), these robots can bridge the gap b…
-
自动化流水线生成LLM代码安全基准
研究人员开发了AutoBaxBuilder,这是一个旨在为大型语言模型生成代码安全基准的自动化流水线。该系统使用LLM创建功能测试和安全漏洞利用,显著减少了基准创建通常所需的手动工作和成本。生成的基准AutoBaxBench已公开发布,并在当前LLM上进行了评估,证明了在人力方面减少了12倍。