实体 langsmith

langsmith

PulseAugur coverage of langsmith — every cluster mentioning langsmith across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 50

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

significant 2
research 5
tool 35
commentary 8

主题

产品 50
基础设施 27
其他 14
安全 4
论文 4
模型发布 2

关系

competes with Langfuse 70%
competes with Braintrust Ai 70%
used by Promptfoo 70%
used by vcrpy 70%
competes with Helicone 60%
competes with Promptfoo 60%
competes with Arize Phoenix 60%
competes with Arize 60%
competes with DeepEval 60%
other Langfuse 50%
partners with Braintrust Ai 50%
uses Braintrust Ai 50%

时间线

2026-05-28 product_launch AWS and LangChain released a guide detailing how to use LangSmith on AWS for evaluating AI agents. 来源

情绪 · 30 天

14 天有情绪数据

最近 · 第 1/3 页 · 共 50 条

TOOL · CL_134594 · Jul 9 · 18:59

将 RAG 扩展到 1000 万份文档需要先进的摄取和检索技术

将检索增强生成（RAG）系统从几千份文档扩展到数百万份会带来重大挑战，这些挑战常常会破坏简单的实现。生产规模的 RAG 需要强大的摄取管道，能够使用 Apache Tika、Unstructured 和 Docling 等工具处理各种文件格式，以提取文本和结构元数据。有效的分块策略至关重要，优先考虑语义完整性和保留文档结构，而不是固定大小的分割，LlamaIndex 等工具提供了高级方法。在规模化方面，向量搜索依赖于 HNSW 等近似…
TOOL · CL_134310 · Jul 9 · 15:31

Harbor 添加 LangSmith 集成，实现可切换的 AI Agent 评估后端

Harbor 是一个用于评估 AI Agent 的开源框架，现已集成了 LangSmith 的生产沙箱。这使得用户可以编写一次评估代码，并在包括 Daytona、E2B、Modal 以及现在的 LangSmith 在内的各种环境中运行，而无需为每个提供商重新配置。该框架旨在通过提供环境、Agent 和任务的模块化接口，以及预集成的 CLI Agent 和基准测试注册表，来简化运行 Agent 基准测试和优化模型的流程。
TOOL · CL_130608 · Jul 7 · 17:26

LLM追踪工具简化了不正确AI输出的调试过程

调试LLM输出需要强大的追踪工具，这些工具能够捕获从提示组装到工具执行和检索到的块的完整请求生命周期。Helicone、LangSmith、Langfuse、Future AGI和Braintrust等工具提供了应对这一挑战的不同方法。有效调试的关键功能包括检索特定请求追踪记录的速度、捕获信息的粒度（例如，检索到的上下文、工具输入/输出、令牌计数）以及与OpenTelemetry等标准的集成，以便跨不同系统组件获得统一视图。
COMMENTARY · CL_127653 · Jul 6 · 16:27

LLM 发布门禁：超越传统的 CI/CD 以实现 AI 功能

传统的 CI/CD 流水线不足以管理 LLM 功能的发布，因为 LLM 的输出是经过评估而非断言的，并且可能以意想不到的方式退化。为解决此问题，团队正在实施新的发布门禁，其中包括带有精选数据集的离线评估套件、用于已知故障模式的回归语料库，以及监控拒绝率和每次请求成本等实时指标的金丝雀或影子阶段。Braintrust 和 LangSmith 等专业平台比通用 CI 工具更适合这些 LLM 特定评估需求。
TOOL · CL_126992 · Jul 6 · 02:58

AI 工作流框架：Prompt-based, LangGraph, Temporal 和 n8n 对比

文章对比了四种 AI 工作流框架：Prompt-based、LangGraph、Temporal 和 n8n，重点介绍了它们在工作流定义、状态持久化和执行引擎方面的不同方法。Prompt-based 工作流使用 Markdown 和 YAML，并由 LLM 驱动路由，易于非工程师修改，但引入了不确定性。LangGraph 和 Temporal 利用确定性的 Python 代码进行执行和状态管理，提供更好的可测试性和可观察性，其中 La…
TOOL · CL_126518 · Jul 5 · 17:02

LLM评估必须权衡失败的严重性，而不仅仅是通过率

最近一次LLM部署中发生了PII泄露事件，一个代理在支持回复中意外包含了客户的账户ID和部分账单地址。尽管评估仪表板显示通过率为94%，但仍发生了此事件。该问题凸显了LLM评估中单一、扁平的通过率指标的不足，因为它未能区分各种失败的严重程度。例如，PII泄露的后果远比措辞冗长或语气不正确等小问题严重得多。
TOOL · CL_126553 · Jul 1 · 20:51

OpenWiki CLI 通过 GitHub 集成自动化 AI 代理文档

OpenWiki 是一款新的命令行界面 (CLI) 工具，旨在自动化 AI 代理代码库文档的创建和维护。它由 LangChain AI 开发，并与 GitHub Actions 集成，通过自动打开拉取请求进行更新，确保文档保持最新。该工具支持包括 OpenAI 和 Anthropic 在内的各种推理提供商，并可以将指令附加到代理特定的文件（如 AGENTS.md 或 CLAUDE.md）中，以指导其寻求上下文的行为。
TOOL · CL_115006 · Jun 28 · 22:58

AI代理评估工具将焦点从最终答案转移到整个过程

评估AI代理需要一种不同于评估单个LLM调用的方法，重点关注代理的整个过程，而不是仅仅最终输出。LangSmith、Galileo、Arize Phoenix、Braintrust、Future AGI和Langfuse等工具提供了不同的能力，其中一些专注于代理工作流，另一些提供开源可观察性。关键在于不仅要对最终答案进行评分，还要对工具选择、参数和从错误中恢复的序列进行评分，以区分真正的推理和运气。
TOOL · CL_114729 · Jun 28 · 15:54

新的代理提供自托管 LLM 的每个代理 GPU 成本跟踪

开发了一个新的 LLM 推理代理，以解决自托管模型时 AI 代理成本可见性的差距。与专注于 token 数量的现有工具不同，该代理跟踪 GPU 小时消耗，提供每个代理和模型的精细成本数据。这有助于在迁移到不同 LLM 之前进行更好的预算管理、模型使用策略执行和影响分析。
TOOL · CL_112405 · Jun 26 · 13:38

新工具 AgentBreak 发现 LLM 邮件代理易受收件箱劫持攻击

通过间接提示注入，在利用工具的基于 LLM 的邮件代理中发现了一个安全漏洞。攻击者可以精心制作一封电子邮件，操纵代理将其整个收件箱转发到一个指定的恶意地址，而不会发出任何通知。现有的安全工具，如 Garak、promptfoo 和 LangSmith，由于它们不模拟代理工作流中工具之间复杂的相互依赖关系，因此不足以检测到此威胁。为了解决这个问题，开发了一个名为 AgentBreak 的开源工具，用于扫描这些代理工作流，识别从不受信任的…
TOOL · CL_112136 · Jun 26 · 06:52

LangChain 更新 fireworks 集成，修复依赖项

LangChain 发布了其 langchain-fireworks 集成的 1.4.3 版本，其中包含多项依赖项更新和小的改进。此次发布通过将 aiohttp 版本限制在 3.14 以下（由于 vcrpy 的要求）来解决兼容性问题，并更新了 langsmith、pytest 和 Mypy。它还刷新了模型配置文件数据，并包含了一个针对 OpenAI 集成的热修复程序，以管理核心依赖项版本。
TOOL · CL_105829 · Jun 23 · 12:46

欧盟数据法规迫使会议助手采用新颖的 LLM 评估方法

一位开发人员在构建会议助手时，由于严格的欧盟数据驻留规则，在实时生产评估方面遇到了挑战。标准的在线评估方法需要访问输入和输出，这与需要屏蔽敏感个人数据的需求不兼容。开发人员通过实现遥测转换函数来解决此问题，仅发出数据的派生、安全投影，而不是原始输入或输出。这种方法允许进行定性检查，如事实核查和幻觉检测，同时不违反数据隐私法规。
TOOL · CL_106833 · Jun 23 · 03:45

LangChain 更新 OpenRouter 集成，新增功能并提升依赖版本

LangChain 发布了其 OpenRouter 集成的 0.2.4 版本，更新了依赖项并引入了新功能。此版本将 OpenRouter 库版本提升至 0.9.2，删除了文件处理的临时解决方案，并在 bind_tools 上公开了并行工具调用。此外，它还包括了模型配置文件数据的多项更新以及 Langsmith 和 vcrpy 等库的依赖版本提升。
TOOL · CL_104832 · Jun 23 · 03:19

Runcap 为 AI 代理引入飞行前成本控制

一款名为 Runcap 的新工具应运而生，旨在解决失控 AI 代理成本的问题，提供独特的飞行前成本控制机制。与 Langfuse 等可观测性工具或 LiteLLM 等网关不同，Runcap 作为代理运行，在进行 AI 调用之前估算并强制执行硬性成本上限。它还采用了一种新颖的令牌压缩技术，通过仅发送文件版本之间的更改而不是重新读取整个文件来降低成本。
TOOL · CL_99720 · Jun 19 · 02:03

开发者构建 PII 防火墙以阻止敏感数据进入 LLM 提示

一位开发者为 LLM 交互构建了一个 PII 防火墙，以防止敏感数据发送到云端模型。该系统使用 FastAPI 和 Microsoft Presidio 实现，在提示到达 GPT-4o 等模型之前对其进行扫描，阻止任何包含个人身份信息或违反已定义策略的提示。这种方法通过防止数据泄露（而不仅仅是记录）来确保符合 GDPR 等法规。
TOOL · CL_99386 · Jun 18 · 22:56

LLM 可观测性工具忽略语音代理的关键音频层

LLM 的可观测性工具主要关注跟踪模型调用，包括提示、完成和延迟，这对于语音代理来说是不够的。语音代理的失败通常发生在音频层，例如轮次结束检测、ASR 延迟和插入检测，而当前的 LLM 跟踪器无法捕获这些。基于 OpenTelemetry 构建的工具为与 LLM 指标一起检测这些音频层跨度提供了灵活的画布，但需要自定义实现，而其他工具则更侧重于 LLM 调用，需要额外的遥测来提供音频见解。
TOOL · CL_99290 · Jun 18 · 19:39

LangChain 发布核心库和合作伙伴集成更新

LangChain 已发布其核心库和合作伙伴集成的多项更新。主 LangChain 库 1.3.11 版本包含对 OpenAI 兼容模型和依赖项更新的修复。`langchain-anthropic` 集成版本为 1.4.7，包含了一个用于卡带重新生成的紧急修复和依赖项升级。此外，`langchain-openai` 更新至 1.3.3，解决了响应项 ID 和 `stop` 参数的问题，并进行了依赖项更新和模型配置文件刷新。`langc…
COMMENTARY · CL_94568 · Jun 16 · 12:01

AI代理需要类似软件的版本控制以保证稳定性

文章讨论了AI代理版本控制的关键需求，将它们的配置复杂性比作软件代码。文章强调了在未经充分测试的情况下直接将更改部署到生产环境的风险，这可能导致宕机和数据损坏。作者提倡将软件开发的最佳实践，如CI/CD，应用于AI代理开发，以确保稳定性和可靠性。
TOOL · CL_91813 · Jun 15 · 11:11

LangChain 通过标准化组件简化 LLM 应用开发

LangChain 是一个旨在简化 LLM 应用开发的框架，它为各种组件提供了一个标准化的接口。它抽象了与不同 AI 模型、文档加载器、文本分割器、向量存储和代理交互的复杂性。这种抽象允许开发人员轻松地在不同的 LLM 提供商之间切换，尝试不同的模型，并在无需大量代码重写的情况下构建复杂的检索增强生成（RAG）等管道。该框架支持 Python 和 Node.js，并提供用于文档摄取、嵌入生成、检索以及用于多步任务的代理创建的工具。
TOOL · CL_89476 · Jun 13 · 20:01

LangSmith 支持 LLM 回归测试和审计跟踪

本系列分为两部分，探讨 LLM 可观测性和可追溯性，重点介绍 LangSmith 平台。第一部分详细介绍了如何使用 LangSmith 的追踪功能和自定义回调使 LLM 应用程序可重放并创建防篡改审计日志。第二部分讨论了如何通过实现数据集、评估器和实验来防止回归，类似于传统的软件回归测试，并讨论了选择正确的工具栈。

将 RAG 扩展到 1000 万份文档需要先进的摄取和检索技术

Harbor 添加 LangSmith 集成，实现可切换的 AI Agent 评估后端

LLM追踪工具简化了不正确AI输出的调试过程

LLM 发布门禁：超越传统的 CI/CD 以实现 AI 功能

AI 工作流框架：Prompt-based, LangGraph, Temporal 和 n8n 对比

LLM评估必须权衡失败的严重性，而不仅仅是通过率

OpenWiki CLI 通过 GitHub 集成自动化 AI 代理文档

AI代理评估工具将焦点从最终答案转移到整个过程

新的代理提供自托管 LLM 的每个代理 GPU 成本跟踪

新工具 AgentBreak 发现 LLM 邮件代理易受收件箱劫持攻击

LangChain 更新 fireworks 集成，修复依赖项

欧盟数据法规迫使会议助手采用新颖的 LLM 评估方法

LangChain 更新 OpenRouter 集成，新增功能并提升依赖版本

Runcap 为 AI 代理引入飞行前成本控制

开发者构建 PII 防火墙以阻止敏感数据进入 LLM 提示

LLM 可观测性工具忽略语音代理的关键音频层

LangChain 发布核心库和合作伙伴集成更新

AI代理需要类似软件的版本控制以保证稳定性

LangChain 通过标准化组件简化 LLM 应用开发

LangSmith 支持 LLM 回归测试和审计跟踪