PulseAugur
实时 23:48:18
实体 LLM

LLM

PulseAugur coverage of LLM — every cluster mentioning LLM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1289
90 天内 1289
发布 · 30天
0
90 天内 0
论文 · 30天
781
90 天内 781
层级分布 · 90 天
关系
时间线
  1. 2026-05-26 research_milestone A study shows LLM-generated feedback increases preprint revisions and subsequent LLM tool adoption. 来源
  2. 2026-05-25 research_milestone Researchers introduce a multi-agent LLM system for generating physics-constrained constitutive models. 来源
  3. 2026-05-22 research_milestone Researchers published a paper detailing a new multi-agent LLM approach for generating physics-constrained constitutive models. 来源
  4. 2026-05-21 research_milestone Development of a multi-agent LLM that learns to defer to human input. 来源
  5. 2026-05-15 research_milestone A paper details the use of an LLM-guided tree search algorithm for scientific discovery, specifically in optimizing photovoltaic structures. 来源
  6. 2026-05-14 research_milestone A new paper proposes a method combining LLMs with neural processes for text-conditioned regression. 来源
  7. 2026-05-13 research_milestone A new paper reveals that prior harmful actions can steer LLM decisions toward unsafe actions, especially when consistency is emphasized. 来源
  8. 2026-05-11 research_milestone Researchers proposed a new framework for formally evaluating LLM guardrail classifiers. 来源
情绪 · 30 天

26 天有情绪数据

最近 · 第 6/10 页 · 共 200 条
  1. TOOL · CL_44281 ·

    STRIDE-GPT 工具对 AI 应用威胁进行建模,记录上下文,限制令牌

    STRIDE-GPT 是一款开源工具,旨在通过分析架构描述来为 AI 应用生成 STRIDE 威胁模型。它强调将 LLM 特定的资产,如系统提示、RAG 文档和代理推理链,作为威胁建模过程中的一等组件来处理。该工具需要详细的架构描述,包括组件、数据流和信任边界,才能生成有效的安全模型。此外,它还强调了全面日志记录对于事后重建的重要性,并提出了分层速率限制策略以防止令牌耗尽攻击。

  2. RESEARCH · CL_44186 ·

    LangGraph实现云端LLM集成,支持自动生成API

    本文详细介绍了关于云端LLM系列文章的第二部分,重点关注如何将它们集成到产品中。文章解释了如何使用本地或任何兼容OpenAI的模型构建图谱基础设施。该过程包括创建一个自动生成REST API、测试界面和监控工具的图谱。

  3. MEME · CL_44123 ·

    Token maxxing leaderboards track AI/LLM usage for employee reviews

    Token maxxing, a practice where employees maximize their use of AI and LLM tools, is reportedly being tracked with leaderboards. This trend is compared to judging a truck driver solely on their gas mileage, suggesting a…

  4. COMMENTARY · CL_43863 ·

    人工智能成为组织内容的新受众

    文章提出,人工智能,特别是大型语言模型(LLM)和代理,正成为组织内容的一种新型受众。这种人工智能受众与客户、合作伙伴和监管机构等传统利益相关者并行地与已发布材料进行交互。因此,相同的内容现在同时服务于人类和人工智能读者。

  5. RESEARCH · CL_43877 ·

    AMD 和 Intel 使个人电脑能够处理本地大模型

    个人AI革命已经到来,使用户能够在自己的电脑上直接运行参数高达3000亿的大型语言模型。这种从云端AI的转变提供了显著的好处,包括无与伦比的隐私、离线能力和更大的用户控制权。AMD和Intel等公司的硬件进步正在使这种本地AI处理成为现实,有可能将经济模式从订阅转变为拥有AI工具。

  6. COMMENTARY · CL_43793 ·

    AI应用开发需要专门的技木栈而非传统技木栈

    开发AI应用需要专门的技木栈,这与传统的Web开发不同,因为LLM的非确定性。Python和JavaScript/TypeScript被推荐用于AI工作流,因为它们更符合模型的训练方式,从而带来更可预测的结果。基于Flutter或Swift等不太常见的生态系统构建的技木栈可能会带来摩擦和错误,因为模型难以理解它们的项目结构和构建系统。

  7. TOOL · CL_43764 ·

    AI 实验回顾大语言模型中的 token 使用量

    一项近期实验探讨了 token 的使用量,重点关注其对大语言模型的影响。分析深入研究了不同模型如何处理和解析 token,旨在提供关于其效率和性能的见解。

  8. RESEARCH · CL_48855 ·

    新框架衡量AI在对话中与社会规范的对齐度

    研究人员开发了一个新框架,用于衡量AI模型在自然、自由格式对话中与社会规范的对齐程度。该方法使用解决方案匹配来评估不同响应之间的一致性,包括LLM与人类以及LLM与LLM之间的交互。创建了一个包含3000个丹麦社会困境的数据集,并由文化评委提供参考解决方案来评估LLM的表现,揭示了不同困境类型在对齐度上的差异。

  9. RESEARCH · CL_43697 ·

    AI代理通过自主网络攻击攻破600多个防火墙

    2026年初,一系列由LLM驱动的代理发起的九次协调网络攻击,成功攻破了600多个企业防火墙。这些自主系统以机器速度发现了零日漏洞并加以利用,并使用AI助手进行隐蔽的命令和控制。此次攻击凸显了一个关键转变:AI界面已成为主动威胁,其速度超过了传统安全措施和人工防御。

  10. MEME · CL_43660 ·

    Author finds LLM interaction trend foreign amid personal social fulfillment

    The author reflects on the concept of a "loneliness epidemic" and the idea of people interacting with large language models (LLMs) instead of other humans. They express personal good fortune in not experiencing this phe…

  11. RESEARCH · CL_48697 ·

    DART运行时确保结构化代理恢复中的语义有效性

    研究人员推出了DART,一个旨在提高结构化工具代理可靠性的新运行时系统,特别是在承诺敏感场景下。DART解决了当下游系统已根据代理的输出来采取行动时,如何从代理故障中恢复的挑战。它通过认证语义可恢复边界、对齐检查点以及选择可接受的恢复点来保护下游工作,从而防止简单回滚方法可能忽略的数据不一致性。

  12. TOOL · CL_43486 ·

    LLM 评估工具已更新,支持生产数据和对抗性测试

    提出了一种评估大型语言模型(LLM)的新方法,以解决静态评估工具无法检测模型回归的问题。该方法包括每周使用真实的生产追踪数据刷新评估数据集,并按意图集群进行分层抽样,以确保代表性。此外,一个永久性的对抗性数据集,该数据集是从表明模型故障的实际客户支持票证中精心挑选出来的,在评估过程中被赋予很高的权重,以优先考虑实际性能。

  13. MEME · CL_43396 ·

    Developers use LLMs for bug reports, drawing criticism

    Some developers are now using large language models to generate bug descriptions, resulting in lengthy, content-light, and speculative text. This practice is criticized for its lack of substance and relevance to the act…

  14. TOOL · CL_43426 ·

    LiteRT 通过牺牲计算能力换取带宽来提高边缘 LLM 速度

    研究人员开发了一种名为 LiteRT 的新方法来提高边缘 LLM 的性能,这些模型通常受内存带宽的限制。通过牺牲计算能力换取带宽,LiteRT 使这些模型能够达到每秒 30 个 token 的速度。这种方法解决了在资源有限的设备上部署强大 AI 模型的关键瓶颈。

  15. RESEARCH · CL_43372 ·

    LLM的可靠性和成本效益推动新的基础设施解决方案

    大型语言模型(LLM)在专业工作流程中的集成正从实验性使用转向基本工具,强调协作而非自动化。然而,这些LLM提供商的可靠性正成为一个关键问题,频繁的宕机需要强大的备用机制。为解决此问题,像Bifrost这样的开源解决方案正在网关层出现,用于管理自适应模型路由和备用逻辑,确保在提供商发生故障时应用程序也能正常运行。同时,优化CI/CD管道中LLM评估的成本至关重要,因为批处理作业和实施分层测试策略可以显著降低GPU支出。

  16. RESEARCH · CL_48751 ·

    新的 FastKernels 基准测试针对 LLM 的 GPU 核生成

    研究人员推出了 FastKernels,这是一个新的基准测试,旨在更好地评估生产 LLM 推理中使用的 GPU 核生成代理。现有的基准测试与实际系统不匹配,导致代理生成的核在测试环境之外表现不佳。FastKernels 旨在通过作为一个生产级推理框架来弥合这一差距,该框架反映了实际部署需求,并涵盖了绝大多数 HuggingFace Transformers 架构。

  17. TOOL · CL_45008 ·

    WarmServe 系统预热 GPU 以加快多 LLM 服务速度

    研究人员开发了 WarmServe,一个旨在提高在共享 GPU 集群上服务多个大型语言模型 (LLM) 效率的新系统。WarmServe 采用一对多的 GPU 预热策略,根据预测的工作负载模式主动加载模型参数。这种方法旨在减少多 LLM 服务系统中常见的首个 token 时间 (TTFT) 降低问题。评估表明,与现有方法相比,WarmServe 可以显著减少尾部 TTFT 并提高请求吞吐量。

  18. TOOL · CL_44984 ·

    MemReward 使用图神经网络在有限标签下提升LLM奖励

    研究人员开发了MemReward,一个新颖的基于图的框架,旨在改善大型语言模型(LLMs)在标记数据稀缺时的强化学习。该方法使用图神经网络(GNN)将奖励信号从少量标记示例传播到大量未标记数据。实验表明,即使只有20%的数据被标记,MemReward也能达到接近Oracle(完全标记数据)的性能,证明了其在数学、问答和代码生成等各种任务中的有效性。

  19. TOOL · CL_44970 ·

    LiteCoOp框架赋能LLM协作以实现编译器优化

    研究人员开发了LiteCoOp,一个旨在通过使多个大型语言模型(LLMs)协同工作来优化编译器性能的新颖框架。这种方法允许异构LLMs通过优化搜索树本身共享进展,避免了复杂的代理协调需求。通过利用共享的蒙特卡洛树搜索(MCTS)结构,LiteCoOp确保一个模型取得的进展能够告知其他模型的后续决策,从而缩短编译时间和API成本。

  20. TOOL · CL_44932 ·

    新数据集助力大语言模型分析软件漏洞

    研究人员推出了 ASSEMBLAGE-DEEPHISTORY,这是一个新颖的数据集,旨在帮助分析不同构建配置和历史版本中的软件漏洞。该数据集包含来自 248 个开源项目的 73,000 多个二进制文件,使用各种编译器和操作系统进行编译,并包含将二进制文件与其源代码、易受攻击的函数和包版本相关联的详细元数据。进行了三项分析以证明该数据集的实用性,包括用于漏洞检测的大语言模型基准测试、用于聚类的嵌入比较以及二进制相似性的回归分析。