PulseAugur
实时 08:14:27
实体 large-language models

large-language models

PulseAugur coverage of large-language models — every cluster mentioning large-language models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
490
90 天内 490
发布 · 30天
0
90 天内 0
论文 · 30天
378
90 天内 378
层级分布 · 90 天
关系
时间线
  1. 2026-05-25 research_milestone A study found that large language models exhibit persistent biases when providing guidance on religious conversions. 来源
  2. 2026-05-22 research_milestone A study evaluated LLM performance in psychiatric screening, finding varying accuracy and a tendency to discount symptom evidence in certain contexts. 来源
  3. 2026-05-21 research_milestone A new framework was proposed to improve cross-lingual cultural knowledge alignment in LLMs. 来源
  4. 2026-05-18 research_milestone A paper was published detailing multilingual jailbreaking vulnerabilities in LLMs using low-resource languages.
  5. 2026-05-18 research_milestone A study found that LLMs corrupt document content in delegated workflows. 来源
  6. 2026-05-18 research_milestone Large language models demonstrated zero-shot goal recognition capabilities in a new study.
  7. 2026-05-16 research_milestone A new benchmark and dataset are introduced for evaluating LLMs on legal precedent classification.
  8. 2026-05-15 research_milestone A new paper proposes using LLMs for data augmentation to improve cognitive score prediction from speech. 来源
  9. 2026-05-15 research_milestone A study was published on arXiv evaluating LLM reasoning in tax law and proposing neuro-symbolic alternatives. 来源
  10. 2026-05-15 research_milestone Development of a new framework for AI value alignment and introduction of the DailyDilemmas test by Cornell University. 来源
  11. 2026-05-15 research_milestone Researchers identified an implementation fidelity gap in LLMs, showing they can understand algorithms but struggle to code in unseen languages. 来源
  12. 2026-05-13 research_milestone LLMs demonstrated superior accuracy, speed, and cost-effectiveness in transcribing historical handwriting compared to specialized software. 来源
  13. 2026-05-13 research_milestone A new method for LLM adaptation using active information seeking was published on arXiv. 来源
  14. 2026-05-12 research_milestone A research paper demonstrates that LLMs exhibit bias towards sponsored products, but this can be mitigated with specific user prompts. 来源
  15. 2026-05-12 research_milestone A new paper proposes a behavior-based approach for federated fine-tuning of LLMs. 来源
情绪 · 30 天

25 天有情绪数据

最近 · 第 3/10 页 · 共 200 条
  1. TOOL · CL_45869 ·

    大语言模型未能掌握德语美因茨方言

    研究人员调查了大语言模型(LLMs)理解和生成德语美因茨方言词汇的能力。他们的实验显示,当前最先进的大语言模型在此任务上表现困难。在生成方言词汇定义方面,表现最好的模型准确率仅为6.27%;而在根据定义生成方言词汇方面,准确率仅为1.51%。

  2. TOOL · CL_45667 ·

    新基准评估大语言模型中的阿联酋方言能力

    研究人员开发了一个新的基准,用于严格评估大语言模型在阿联酋方言方面的能力。该基准旨在提供对人工智能模型理解和生成阿联酋阿拉伯语的程度进行鲁棒评估。这项工作是旨在提高人工智能在不同语言和方言变体方面性能的更广泛计划的一部分。

  3. COMMENTARY · CL_45583 ·

    AI心理健康建议因训练数据偏差而失真

    生成式AI模型,尤其是在心理健康咨询领域使用的模型,在训练过程中存在严重的数据不平衡问题。这些模型基于庞大的互联网数据集进行训练,而这些数据集不成比例地偏向于常见话题,导致稀有或更细微的信息代表性不足。因此,AI可能提供不恰当甚至有害的建议,因为用户通常意识不到这些固有的偏见,并认为AI的指导是全面且权威的。

  4. TOOL · CL_45492 ·

    人工智能公司寻求世界模型以增强超越LLM的AI理解能力

    人工智能公司正专注于开发能够理解外部世界的系统,以超越当前大型语言模型的能力。最近的讨论强调了“世界模型”在实现这一目标方面的重要性。这项研究旨在使人工智能对其环境有更深入的理解。

  5. TOOL · CL_45331 ·

    残差连接通过绕过层来支持更深层的LLM训练

    本文解释了残差连接,这是Transformer架构中的一个关键组成部分,对于训练像大型语言模型(LLMs)这样的深度神经网络至关重要。残差连接通过提供梯度的替代路径来帮助克服梯度消失问题,使模型能够学习更复杂的模式。这项技术对于自然语言处理(NLP)任务(如翻译、摘要和文本生成)的进步至关重要。

  6. COMMENTARY · CL_45256 ·

    AI代理的token使用量导致成本意外增加

    使用AI,特别是AI代理的成本正在因高token消耗而意外上涨。尽管token价格已大幅下降,但代理操作的复杂性,涉及大量的工具调用和内部处理步骤,导致token的放大。这些隐藏的工作,通常用户甚至付费公司都看不到,构成了大部分的token使用量,并导致不可预测和膨胀的AI账单。

  7. RESEARCH · CL_48774 ·

    大语言模型的叙事性解释可能阻碍决策表现

    一篇新发表在arXiv上的研究探讨了大型语言模型(LLMs)的说服性叙事性解释如何影响人类在分类任务中的决策。研究发现,虽然这些解释增加了对AI的依赖,但与单独的AI预测相比,它们并未显著提高决策准确性。此外,更具说服力的叙事可能会负面影响响应时间和辨别正确AI预测的能力,这表明在使用叙事性解释时可能存在权衡。

  8. RESEARCH · CL_48962 ·

    LLM编排的AI可加速O-RAN服务提供

    研究人员开发了一种双脑架构,将大型语言模型(LLM)集成到开放无线接入网(O-RAN)系统中。该方法使用基于LLM的编排器进行意图翻译和代码生成,并结合一个名为NeuralSmith的自动化机器学习引擎进行按需模型训练。该系统旨在简化O-RAN内AI应用程序的创建和部署,解决当前手动且缓慢的流程。

  9. RESEARCH · CL_48771 ·

    OnePred 预测 LLM 聊天中的下一个用户查询,减少 token 数量

    研究人员开发了 OnePred,一个旨在预测与大型语言模型进行多轮对话中下一个用户查询的新颖系统。该方法旨在超越被动式 AI,通过预测用户需求而无需完整的对话历史记录,从而减少 token 消耗。OnePred 利用递归更新的记忆来跟踪不断变化的用户意图,在更长的对话中尤其能实现显著的效率提升和预测质量的提高。

  10. RESEARCH · CL_48702 ·

    新的强化学习策略可实现游戏中可扩展、由个性驱动的NPC

    研究人员开发了一种名为pcsp的新型强化学习策略,旨在实现生命模拟游戏中可扩展且可控的非玩家角色(NPC)。这一单一策略以个性描述的LLM嵌入为条件,可实现独特且一致的NPC行为。该方法在零样本个性识别方面显著优于随机水平,并且与基于LLM的策略相比,推理速度更快,证明了其在商业游戏引擎中的可行性。

  11. RESEARCH · CL_48857 ·

    大语言模型框架提升复杂数据中的名称匹配准确性

    一种名为结构引导实体解析(SGER)的新框架已被开发出来,用于改进大语言模型(LLMs)匹配名称的方式,尤其是在复杂的语言情况下。SGER采用两阶段课程,首先教授大语言模型名称结构知识,然后对其进行实体匹配优化。该方法在印度身份数据上达到了99.02%的准确率和0.994的F1分数,优于GPT-4o提示等现有方法。SGER系统现已在拥有超过2.5亿用户的平台Dream11投入生产,证明了其在现实世界多语言应用中的可扩展性和有效性。

  12. RESEARCH · CL_48761 ·

    AI安全研究论文呼吁增加防御激励

    arXiv上最近发表的一篇论文强调了AI安全研究中存在的显著不平衡,即对攻击方法的研究远超对防御策略的研究。研究表明,攻击性论文通常在夸大威胁严重性的条件下进行评估,而防御性研究则面临更严格的审查。这种差异导致该领域充斥着漏洞披露,但缺乏实用、可部署的保护措施,因此作者呼吁增加对防御性研究的激励。

  13. SIGNIFICANT · CL_43691 ·

    中国人工智能初创公司融资额增至162亿美元,押注大型语言模型和机器人技术

    中国人工智能初创公司的融资额在第一季度大幅增长,同比几乎翻了三倍,达到162亿美元。这一热潮主要得益于投资者对大型语言模型和具身智能技术的信心。人工智能投资的增加也促进了中国私募股权和风险投资市场的整体上涨。

  14. RESEARCH · CL_43392 ·

    麻省理工学院的机器人利用大型语言模型学习新的物理任务,无需完全重新训练

    麻省理工学院的研究人员开发了一种新方法,使机器人能够像人类学习新技能一样更有效地学习物理任务。通过利用大型语言模型(LLMs),这些机器人可以弥合语言指令与物理动作之间的差距,使它们能够在无需完全重新训练的情况下适应新任务。这一进步超越了以前仅限于执行预编程的固定任务的机器人。

  15. TOOL · CL_45009 ·

    自动化流水线生成LLM代码安全基准

    研究人员开发了AutoBaxBuilder,这是一个旨在为大型语言模型生成代码安全基准的自动化流水线。该系统使用LLM创建功能测试和安全漏洞利用,显著减少了基准创建通常所需的手动工作和成本。生成的基准AutoBaxBench已公开发布,并在当前LLM上进行了评估,证明了在人力方面减少了12倍。

  16. TOOL · CL_44982 ·

    新框架GraphSSR改进了基于LLM的零样本图学习

    研究人员开发了GraphSSR,一个通过自适应提取和去噪子图来改进零样本图学习的新框架。该方法解决了当前使用“一刀切”子图提取策略的方法的局限性,这种策略会引入噪声并扭曲预测。GraphSSR采用“采样-选择-推理”过程进行定制化子图提取,并使用监督微调和强化学习来过滤无关信息并增强基于LLM的图推理能力。

  17. TOOL · CL_44975 ·

    新框架融合LLM和贝叶斯优化实现AutoML

    研究人员开发了CoFEH,一个将大型语言模型(LLM)与贝叶斯超参数优化(HPO)相结合的端到端自动化机器学习新框架。该系统使用具有思维树(Tree of Thought)方法的LLM来生成灵活的特征工程流水线,并使用贝叶斯优化模块进行HPO。CoFEH独特地交织了这些过程,允许在特征工程和超参数调优之间进行知情决策,与现有方法相比,其性能得到了提升。

  18. RESEARCH · CL_44965 ·

    LLM在高级化学任务中的评估,配备新基准

    研究人员开发了新的基准和方法来评估和增强大型语言模型(LLM)在化学相关任务中的能力。其中一种方法,Speak-to-Structure(S^2-Bench),专注于开放域分子生成,超越了简单的“一对一”映射,以评估创造性和多样化的分子设计能力。另一种方法引入了原子锚定的LLM,它使用独特的原子标识符来锚定链式思维推理以进行分子转化,在逆合成等任务中取得了很高的成功率,而无需进行特定任务的训练。

  19. TOOL · CL_44950 ·

    大型语言模型应用于恒星光谱进行参数推断

    研究人员开发了一种新颖的两阶段大型语言模型框架,用于分析恒星光谱以进行参数和丰度推断。该方法利用了大型语言模型在自然语言处理和生物序列分析中的泛化能力,来解释恒星光谱中的复杂数据。该模型能够准确估算关键恒星属性,如温度、引力、金属丰度和约20种化学元素的丰度,并且根据规模法则分析表明,随着更多数据的可用,性能会得到提升。

  20. TOOL · CL_44935 ·

    新基准测试 LLM 在系统日志中的入侵检测能力

    研究人员开发了 HIDBench,这是一个旨在评估大型语言模型 (LLM) 在使用系统日志进行主机入侵检测方面的有效性的新基准。该基准整合了三个公共数据集和一个用于将原始遥测数据处理成 LLM 友好格式的管道,模拟了真实的检测场景。对领先 LLM 的评估显示出显著的性能差异,模型在处理嘈杂和复杂的日志数据时遇到困难,这表明虽然 LLM 在入侵检测方面显示出潜力,但其可靠性取决于数据的复杂性和强大的系统设计。