PulseAugur
实时 01:14:06
实体 large-language models

large-language models

PulseAugur coverage of large-language models — every cluster mentioning large-language models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
491
90 天内 491
发布 · 30天
0
90 天内 0
论文 · 30天
378
90 天内 378
层级分布 · 90 天
关系
时间线
  1. 2026-05-25 research_milestone A study found that large language models exhibit persistent biases when providing guidance on religious conversions. 来源
  2. 2026-05-22 research_milestone A study evaluated LLM performance in psychiatric screening, finding varying accuracy and a tendency to discount symptom evidence in certain contexts. 来源
  3. 2026-05-21 research_milestone A new framework was proposed to improve cross-lingual cultural knowledge alignment in LLMs. 来源
  4. 2026-05-18 research_milestone A paper was published detailing multilingual jailbreaking vulnerabilities in LLMs using low-resource languages.
  5. 2026-05-18 research_milestone A study found that LLMs corrupt document content in delegated workflows. 来源
  6. 2026-05-18 research_milestone Large language models demonstrated zero-shot goal recognition capabilities in a new study.
  7. 2026-05-16 research_milestone A new benchmark and dataset are introduced for evaluating LLMs on legal precedent classification.
  8. 2026-05-15 research_milestone A new paper proposes using LLMs for data augmentation to improve cognitive score prediction from speech. 来源
  9. 2026-05-15 research_milestone A study was published on arXiv evaluating LLM reasoning in tax law and proposing neuro-symbolic alternatives. 来源
  10. 2026-05-15 research_milestone Development of a new framework for AI value alignment and introduction of the DailyDilemmas test by Cornell University. 来源
  11. 2026-05-15 research_milestone Researchers identified an implementation fidelity gap in LLMs, showing they can understand algorithms but struggle to code in unseen languages. 来源
  12. 2026-05-13 research_milestone LLMs demonstrated superior accuracy, speed, and cost-effectiveness in transcribing historical handwriting compared to specialized software. 来源
  13. 2026-05-13 research_milestone A new method for LLM adaptation using active information seeking was published on arXiv. 来源
  14. 2026-05-12 research_milestone A research paper demonstrates that LLMs exhibit bias towards sponsored products, but this can be mitigated with specific user prompts. 来源
  15. 2026-05-12 research_milestone A new paper proposes a behavior-based approach for federated fine-tuning of LLMs. 来源
情绪 · 30 天

26 天有情绪数据

最近 · 第 10/10 页 · 共 200 条
  1. TOOL · CL_40794 ·

    新的评分标准评估大语言模型生成的法律命题

    研究人员开发了LP-Eval,这是一个新的评分标准和数据集,旨在衡量大语言模型生成的法律命题的质量。该评分标准与法律专家共同创建,基于形式有效性和实质性维度,并使用欧洲联盟法院的判决。研究结果表明,大语言模型可以生成格式正确的法律命题,其质量因源案例的近期性而异。此外,研究发现大语言模型可以充当评估者,与专家评估相比,在遵循评分标准的指导下,其评估结果与专家评估的一致性更好。

  2. COMMENTARY · CL_39065 ·

    AI拥护者忽视了隐藏的成本和低效率

    作者认为,许多AI拥护者忽视了当前AI系统的隐藏成本和低效率。虽然AI工具可以加快写作等任务的速度,但节省的时间往往被验证AI生成内容的需求所抵消。此外,作者指出维护AI基础设施和训练大型语言模型对环境、人类和经济造成了巨大的影响,并认为AI并没有真正节省时间或比人类表现更好,而是将问题转移了。

  3. TOOL · CL_40813 ·

    大型语言模型生成性别化行为,影响智能体的信任校准

    研究人员开发了一种为社会交互式智能体生成多模态行为的方法,旨在根据智能体的能力和仁慈度来校准用户信任。该研究利用 GPT-5.4 生成语言、声音、手势和面部表情,并展示了跨模态的一致性。虽然生成的行为与预期的可信度水平一致,但研究也发现,当提示中指定性别时,大型语言模型倾向于延续性别刻板印象,将男性智能体与更高的能力相关联,将女性智能体与更高的仁慈度相关联。

  4. TOOL · CL_40804 ·

    LLM通过结构感知文本嵌入增强图异常检测

    研究人员开发了TERGAD,一个利用大型语言模型(LLM)的图异常检测新框架。TERGAD将节点的结构属性转化为自然语言叙述,然后由LLM处理以生成语义嵌入。这些嵌入与原始节点属性融合,以重建图结构和节点特征,并通过重建误差识别异常。在六个数据集上的实验表明,TERGAD的性能优于现有方法。

  5. TOOL · CL_40928 ·

    AI代理获得物理理解以用于CAD工程设计

    研究人员开发了一种新的混合代理架构,将经过验证的工程工具集成到计算机辅助设计(CAD)的AI代理中。该方法旨在赋予AI物理理解能力,通过在闭环决策过程中嵌入显式的物理验证,使其能够生成更可靠的工程设计。该系统使用基于知识的工具作为反馈,迭代地规划、生成、评估和修改设计,与现有的代理方法相比,结构复杂性提高了4.2倍,编译率提高了3.5%。该团队计划发布代码库、提示和数据集以促进可重复性。

  6. TOOL · CL_40816 ·

    大型语言模型在低资源语音识别错误纠正方面展现出潜力

    研究人员探讨了大型语言模型(LLMs)在纠正低资源自动语音识别(ASR)系统错误方面的有效性,特别关注弗里斯兰语。他们的研究引入了一种使用公共和自定义离线数据集的污染感知方法,以确保观察到的改进是真实的。研究结果表明,基于LLM的错误纠正通常会提高ASR性能,其中一个模型甚至优于词错误率的基准,表明其具有真正的纠正能力。

  7. COMMENTARY · CL_38754 ·

    AI网关:2026年管理LLM的必备工具

    文章讨论了AI网关的战略重要性,AI网关充当管理和访问各种大型语言模型的中央枢纽。文章强调,在2026年,选择合适的网关对于企业高效集成和利用AI技术至关重要。选择网关的关键考虑因素包括可扩展性、安全性、成本效益以及支持多种模型的能力。

  8. TOOL · CL_38915 ·

    CodePercept 利用代码而非仅靠推理来提升 LLM 的视觉感知能力

    上海交通大学和 Qwen 团队的研究人员推出了一种名为 CodePercept 的新方法,旨在增强大型语言模型在 STEM 任务中的视觉感知能力。他们的研究表明,提升视觉感知能力,而非仅仅是推理能力,是模型解决科学和数学问题的关键瓶颈。CodePercept 利用代码作为精确的视觉理解语言,使模型能够生成准确表示图像内容的、可执行的代码,从而克服自然语言描述的固有歧义。

  9. TOOL · CL_40822 ·

    跨模态技能注入可高效提升VLM能力

    研究人员探索了一种称为跨模态技能注入的技术,以有效地将领域特定专业知识从大型语言模型(LLM)转移到视觉语言模型(VLM)。与传统的微调不同,该方法旨在诱导新的跨模态能力,而无需大量新的训练数据或大量的计算资源。研究发现,这种技能注入对于指令遵循和跨语言任务有效,但对于数学推理效果不佳。在测试的方法中,TA和DARE被证明更优越,研究还详细分析了它们的关键超参数调整。

  10. COMMENTARY · CL_38632 ·

    AI生成内容与人类写作难以区分

    由于大型语言模型的进步,区分AI生成文本和人类书写文本变得越来越困难。这一挑战促使人们需要新的方法和工具来可靠地识别内容的来源。随着AI能力的增长,人工智能和人类表达之间的界限持续模糊,需要对检测技术进行持续研究。

  11. TOOL · CL_46845 ·

    新框架SciCustom为科学任务定制化LLM评估

    研究人员开发了SciCustom,一个旨在为评估大型语言模型科学能力创建定制化基准的新框架。现有的基准通常过于通用或手动策划,未能捕捉到真实科学应用所需的特定技能。SciCustom通过将科学知识组织成结构化单元来解决这个问题,从而能够从大型数据集中生成定制化基准,而无需专家注释或合成问题生成。

  12. TOOL · CL_40828 ·

    新框架SciCustom为科学任务定制化LLM评估

    研究人员开发了SciCustom,一个旨在为评估大型语言模型科学能力创建定制化基准的新框架。该系统通过从大规模科学数据构建特定应用的评估来解决现有基准的局限性。SciCustom将科学知识组织成单元,映射数据实例,并检索相关单元以生成基准,从而在无需专家注释或合成数据的情况下揭示细粒度的LLM差异。

  13. TOOL · CL_40839 ·

    新的PAVE架构使生成式代理能够证明违规行为的合理性

    研究人员开发了PAVE,一种新颖的生成式代理认知架构,使其能够推理和执行合法的违规行为。PAVE的四个模块——感知(Perception)、评估(Assessment)、裁决(Verdict)和模仿(Emulation)——允许代理分析上下文,判断违反规则的必要性和相称性,然后在有限范围内采取行动。在名为Voville的交通模拟环境中进行测试时,配备PAVE的代理表现出改进的决策能力,遵守了合法违规、服从权威和有限范围等属性,并被人类…

  14. RESEARCH · CL_40845 ·

    针对可解释的错误信息检测对大型语言模型进行微调

    研究人员开发了一种新流程 LONSREX,用于对大型语言模型 (LLM) 进行微调,以实现更有效和可解释的错误信息检测。该方法解决了现有方法的一些局限性,例如 LLM 生成的解释不足或过于冗长。LONSREX 旨在生成既必要又充分的解释,以支持模型对真实性的预测,从而提高错误信息检测的透明度。

  15. TOOL · CL_40846 ·

    研究发现:跨语言大型语言模型解释可能缺乏忠实性

    一篇新的研究论文探讨了大型语言模型跨语言解释中的权衡问题。研究发现,为非英语输入生成的英语解释可能不如母语解释那样忠实于模型的实际推理过程,即使它们看起来很合理。这种忠实性的下降,以全面性和充分性衡量,可能非常显著,全面性与母语解释相比下降了多达5.7倍。研究表明,在输入语言中审计解释并使用多方面忠实性指标对于准确的模型评估至关重要。

  16. TOOL · CL_40847 ·

    新的DECOR框架使用信息操纵理论审计LLM欺骗

    研究人员开发了DECOR,一个旨在审计和检测大型语言模型(LLM)欺骗的新框架。该系统基于信息操纵理论,将信息分解为更小的单元,以分析LLM如何微妙地改变真实数据。DECOR在识别各种模型和现实场景中的欺骗方面取得了最先进的性能,与以前的方法相比,提供了一种更具可解释性的方法。

  17. RESEARCH · CL_43841 ·

    Google的TurboQuant大幅削减LLM内存需求,影响芯片股

    Google Research开发了一种名为TurboQuant的算法,该算法显著降低了大型语言模型(LLM)的内存需求。这种新方法可以将内存需求减少多达六倍,可能对内存芯片行业产生影响。三星、SK海力士和美光等内存生产主要厂商的股价已受到此发展的影响。

  18. RESEARCH · CL_40851 ·

    论文:LLM不确定性量化是错误的无监督聚类

    一篇新论文认为,目前量化大型语言模型(LLM)不确定性的方法存在根本性缺陷,将其比作无监督聚类算法。这些方法主要衡量内部一致性而非外部正确性,因此无法检测到自信的幻觉。作者主张范式转变,采用将验证锚定在客观真理上的不确定性量化(UQ)方法,以确保模型置信度能可靠地反映现实。

  19. TOOL · CL_46856 ·

    New LLM defense rewrites training data to combat poisoning attacks

    Researchers have developed a new defense strategy called Open-Book Benign Rewriting (OBBR) to protect Large Language Models (LLMs) from data poisoning attacks. This method involves rewriting training data to align with …

  20. RESEARCH · CL_40855 ·

    GRASP框架增强LLM论点评估一致性

    研究人员开发了GRASP,一个旨在提高用作评估论点的模型(LLM-as-a-Judge)的一致性和透明度的新框架。当前LLM-as-a-Judge方法由于过度简化复杂的辩论结构,常常产生不稳定的全局判决。GRASP通过攻击-防御传播算子聚合稳定的局部交互判断来解决这一问题,从而产生更具可复现性的全局排名,侧重于结构充分性而非主观说服力。