PulseAugur
实时 16:24:04
实体 LLM

LLM

PulseAugur coverage of LLM — every cluster mentioning LLM across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1289
90 天内 1289
发布 · 30天
0
90 天内 0
论文 · 30天
781
90 天内 781
层级分布 · 90 天
关系
时间线
  1. 2026-05-26 research_milestone A study shows LLM-generated feedback increases preprint revisions and subsequent LLM tool adoption. 来源
  2. 2026-05-25 research_milestone Researchers introduce a multi-agent LLM system for generating physics-constrained constitutive models. 来源
  3. 2026-05-22 research_milestone Researchers published a paper detailing a new multi-agent LLM approach for generating physics-constrained constitutive models. 来源
  4. 2026-05-21 research_milestone Development of a multi-agent LLM that learns to defer to human input. 来源
  5. 2026-05-15 research_milestone A paper details the use of an LLM-guided tree search algorithm for scientific discovery, specifically in optimizing photovoltaic structures. 来源
  6. 2026-05-14 research_milestone A new paper proposes a method combining LLMs with neural processes for text-conditioned regression. 来源
  7. 2026-05-13 research_milestone A new paper reveals that prior harmful actions can steer LLM decisions toward unsafe actions, especially when consistency is emphasized. 来源
  8. 2026-05-11 research_milestone Researchers proposed a new framework for formally evaluating LLM guardrail classifiers. 来源
情绪 · 30 天

26 天有情绪数据

最近 · 第 4/10 页 · 共 200 条
  1. TOOL · CL_46880 ·

    提示词测试脚本将 LLM 提示词视为代码迁移

    本文介绍了一种测试大型语言模型提示词更改的方法,将其视为代码迁移而非简单编辑。文章提出了一个 50 行的 Python 脚本,该脚本针对两个提示词版本运行评估,计算输出分数的差异,并使用自举法确定统计显著性。这种方法旨在防止细微的提示词更改在未被立即检测到的情况下降低模型性能,确保跨不同用户群体的质量得到维持。

  2. TOOL · CL_46805 ·

    新的“衰减分数”解决了来自过时数据的 RAG 管道幻觉问题

    开发了一个新的“衰减分数”来解决检索增强生成 (RAG) 管道中信息过时的问题。该分数衡量向量数据库检索到的文档的时间陈旧性,这可能导致 LLM 使用被取代的信息产生幻觉。衰减分数根据文档年龄和特定来源的半衰期计算,在 LLM 综合答案之前应用,为陈旧内容提供警告,而不会改变现有管道。提供免费试用以测试此新网关。

  3. COMMENTARY · CL_46653 ·

    AI在软件开发中的作用在Mastodon上引发争论

    Mastodon上的一场讨论探讨了AI和LLM对软件开发的影响。用户们争论AI是否能真正理解并满足软件项目中复杂的人类需求,一些人认为人类互动和细致的咨询是不可替代的。对话强调了将不精确的人类请求转化为AI系统可操作规范的挑战。

  4. RESEARCH · CL_46376 ·

    新论文显示,大语言模型在规划和承认无知方面存在不足

    两篇新论文评估了大语言模型的元认知能力,特别是它们的规划和弃权能力。TRIAGE 论文发现,大多数前沿和开源大语言模型在没有反馈的情况下,在规划问题解决序列和分配 token 预算的任务上表现不佳,而经过推理训练的模型表现不如标准模型。AbstentionBench 显示,当前的大语言模型难以识别不可回答的问题,并且推理微调会损害它们弃权的能力,因为强化学习方法缺乏直接的“我不知道”梯度。

  5. MEME · CL_46330 ·

    Musician finds joy in physical pedalboards over AI

    A user is building pedalboards and effect loops for their son's band, finding satisfaction in the tactile process of adjusting physical equipment. They contrast this with the potential of using an LLM, suggesting it cou…

  6. MEME · CL_46280 ·

    AI安全:用户提出复杂问题拒绝服务攻击

    一位Mastodon用户提出了一种通过向AI系统提出复杂问题来使其过载的拒绝服务攻击方法,并将其与一集《星际迷航》进行了类比。尽管承认目前的AI可能不会受到影响,但该用户建议,一种利用大型语言模型(LLM)漏洞的定制方法可能有效。这个想法触及了AI安全和当前大型语言模型潜在的弱点。

  7. MEME · CL_46263 ·

    AI开发者哀叹“氛围编码”趋势胜过实质

    用户对AI项目中“氛围编码”的普遍存在表示沮丧,在这种情况下,项目感知到的质量或时髦性被置于其真实实质或技术优势之上。这种趋势被视为AI开发当前状况的一个负面指标。

  8. TOOL · CL_46177 ·

    开源工具支持本地 RAG 实现私密文档聊天

    本文介绍了检索增强生成(RAG)作为一种通过允许大型语言模型(LLM)访问和引用用户提供的文档信息来增强其能力的方法。文章详细介绍了三种实现 RAG 的开源、私密选项:Open WebUI、AnythingLLM,以及使用 LangChain 的手动方法。这些工具使用户能够上传各种文件类型,如 PDF 和代码,然后使用本地 LLM 查询其内容,而无需将数据发送到外部。

  9. COMMENTARY · CL_46126 ·

    作者旨在通过新的博文系列揭开 AI 和 LLM 炒作的神秘面纱

    作者旨在通过新的博文系列来简化和揭开当前 AI 和大型语言模型 (LLM) 趋势的神秘面纱。第一篇重点介绍了 LLM、Agent 和 MCP(模型中心编程)范式的基本概念。该系列旨在提供对这些技术的更清晰的理解。

  10. TOOL · CL_48188 ·

    微调LLM扮演C-3PO,揭示最佳角色注入数据格式

    一位机器学习爱好者微调了一个大型语言模型来模仿C-3PO角色,以研究不同训练数据格式在角色注入方面的有效性。实验测试了三种格式:聊天演示、第一人称陈述和合成维基百科风格文档,每种格式使用500个示例,模型和LoRA配置相同。结果表明,第一人称陈述的泛化能力更优,而合成文档模型在了解C-3PO的特质与其一致地表达之间表现出一种奇怪的脱节。

  11. COMMENTARY · CL_46086 ·

    提示工程:削减臃肿的少样本示例以节省Token

    提示工程指南常常忽略一个关键问题:LLM提示中少样本示例的臃肿。随着时间的推移,这些示例会因为错误修复和边缘情况处理而累积,导致Token成本增加,但准确性并未相应提高。提出的解决方案是使用一种留一法消融测试,类似于机器学习中的特征选择,系统地移除示例并衡量它们对性能的影响。这种严格的测试可以识别并消除非必需的示例,从而优化提示效率并降低运营成本。

  12. COMMENTARY · CL_46090 ·

    开发者被敦促在 LLM 输出中使用 XML 标签而非 JSON 模式

    开发者被建议在 LLM 输出中使用结构化 XML 标签而非 JSON 模式,因为 XML 在模型迁移和流式传输问题方面具有更好的弹性。这种方法为提示和模型之间提供了更强大的契约,确保了数据提取和格式的一致性。作者建议为提示使用特定的 XML 骨架结构,详细说明了角色、格式、拒绝策略和示例等部分,这比基于文本的指令更可靠。

  13. MEME · CL_45938 ·

    AI-generated 120-page document requires extensive human edits

    An AI-generated delivery document, produced in one hour, required significant human editing to correct errors and add meaning. The document, which was 120 pages long, contained inaccuracies that necessitated a three-hou…

  14. COMMENTARY · CL_45966 ·

    自托管 LLM 本地成本高昂,不适合副业项目

    为副业项目在本地自托管大型语言模型(LLM)面临严峻挑战,主要涉及硬件成本和电力消耗。高性能 GPU、大量内存和快速存储的初始投入可能高达数千美元,持续的电费账单也增加了开销。虽然本地托管承诺更低的延迟和增强的隐私性,但实际性能在很大程度上取决于硬件能力,如果缺乏足够的 GPU,响应速度可能比云服务慢。量化等优化技术可以缓解部分硬件需求,但总体投资对于小型项目来说可能不划算。

  15. TOOL · CL_45777 ·

    Morph 使用 LLM 进行更安全、基于计划的代码重构

    Morph 是一款新工具,它使用 LLM 通过生成结构化的操作计划而非直接的代码更改来执行代码重构。这种方法提高了可审查性和安全性,因为审查者可以快速理解预期的更改,并且系统在执行前会根据代码库的依赖图验证操作。Morph 包括在转换后测试失败时的自动回滚功能,确保代码库保持稳定状态。

  16. COMMENTARY · CL_45716 ·

    使用 Ollama 进行本地 LLM 部署需要强大的安全性

    使用 Ollama 在本地运行大型语言模型需要采取强大的安全措施,包括适当的隔离、身份验证和网络控制。这些预防措施对于防止敏感数据或系统漏洞被意外暴露至关重要。文章强调,本地 LLM 部署同样需要考虑通常应用于云系统的安全问题。

  17. TOOL · CL_45717 ·

    LLM 分词器惩罚随机字符删除,增加成本

    一位 AI 系统管理员发现,为了节省 token 成本而从 LLM prompt 中随机删除字符实际上会增加 token 数量。这是因为像字节对编码 (BPE) 和 SentencePiece 这样的分词器是在干净文本上训练的,并且难以处理损坏的输入。当删除字符时,分词器会回退到对更小的片段进行编码,通常是在字节级别,导致 token 数量比原始文本更多。一项实验表明,删除 25% 的字符会导致 prompt token 数量增加 2…

  18. COMMENTARY · CL_45733 ·

    AI代码生成需要确定性的反馈循环

    使用AI编写代码不仅仅是指导模型;它需要一个强大的反馈循环。实施自动化测试和静态分析对于确保大型语言模型生成的代码的质量和正确性至关重要。这种方法为管理AI作为主要贡献者的代码库提供了一种确定性的方式。

  19. COMMENTARY · CL_45720 ·

    LLM 成本指南详述 Token 计数与优化策略

    本指南通过关注 Token 计数和优化来解释如何管理使用大型语言模型的相关成本。它详细说明了 Token 是分词器生成的文本块,不仅仅是单词或字符,并且提供商通常对输出 Token 收费高于输入 Token。文章建议在 API 调用前使用 `tiktoken` 等库准确计算 Token,并实施提示压缩和硬性输出上限等策略,以减少不必要的 Token 使用并控制开支。

  20. TOOL · CL_45694 ·

    prompttools 在本地提供结构化的 LLM 提示词评估

    Jesper 发布了 prompttools,这是一个开源工具,旨在跨多个 LLM 提供商和向量数据库进行系统化的提示词评估。该工具旨在将提示词测试从主观的“感觉”提升到更结构化的工程方法。它提供本地执行、各种导出选项以及面向非编码人员的 Streamlit 游乐场,目标是帮助用户构建更好的实际 ML 应用。