langsmith
PulseAugur coverage of langsmith — every cluster mentioning langsmith across labs, papers, and developer communities, ranked by signal.
7 天有情绪数据
-
AI团队采用正式工作流程来发布提示词变更
发布大型语言模型提示词的变更需要一个健壮的发布工作流程,类似于代码部署,因为即使是微小的编辑也可能在生产环境中导致重大的、语义上的回归。这些提示词变更被视为生产资产,需要版本控制、所有权、测试和分阶段推出。LangSmith、Braintrust 和 PromptLayer 等平台正在开发管理这些提示词发布流程的工具,超越了简单的提示词工程,进入了提示词发布工程领域。
-
LangGraph实现云端LLM集成,支持自动生成API
本文详细介绍了关于云端LLM系列文章的第二部分,重点关注如何将它们集成到产品中。文章解释了如何使用本地或任何兼容OpenAI的模型构建图谱基础设施。该过程包括创建一个自动生成REST API、测试界面和监控工具的图谱。
-
Guide to benchmarking LLM prompts and managing them with PromptMan
This tutorial explains how to build a custom scoring framework in Python to objectively benchmark prompt variants for large language models, moving beyond subjective evaluations. It details setting up a development envi…
-
Indie hacker builds £0.20 LLM evaluation system for bug detection
An indie hacker has developed a cost-effective LLM evaluation system for solo developers, costing approximately £0.20 per run. This system utilizes a small golden dataset of 50-100 input-output pairs from production log…
-
Indie Devs Build Cheap LLM Eval Systems for CI
Indie developers and small teams can build their own LLM evaluation systems to catch prompt regressions without expensive enterprise tools. The approach involves creating a "golden dataset" of real user inputs and defin…
-
Spring AI integrates with LangSmith and OpenLIT for observability
This article details how to integrate Spring AI applications with observability tools like LangSmith or OpenLIT. The integration leverages OpenTelemetry and Arconia to provide key insights into AI-infused applications, …
-
LLM 可观测性平台:Langfuse、LangSmith 与 OpenTelemetry 对比
本文探讨了生产环境中 LLM 可观测性的关键需求,并强调了成本和错误可见性方面的挑战。文章对比了三个领先平台:Langfuse,一个专注于成本归属的开源选项,为某团队节省了每月 400 欧元;LangSmith,Anthropic 为 LangChain 用户提供的集成解决方案,具有强大的根本原因分析能力,但价格上限较高;以及 OpenTelemetry,一个供应商无关的标准,提供最大的控制权,但需要更多仪器化工作。选择取决于具体需求…
-
CrewAI 与 LangGraph:为协作或控制选择 LLM Agent 框架
两个流行的 LLM Agent 框架 CrewAI 和 LangGraph,为构建复杂的 AI 应用程序提供了不同的方法。CrewAI 擅长快速组装基于角色的协作 Agent 以用于业务流程,使其易于模拟 AI 团队。另一方面,LangGraph 提供了一个低级别的、基于图的运行时,用于对有状态工作流进行精细控制,强调持久性和明确的执行路径。两者的选择取决于优先考虑的是多 Agent 协作的快速开发(CrewAI)还是复杂、有状态 A…
-
LangChain, LlamaIndex, Haystack: Top LLM frameworks for 2026
For developing LLM applications in 2026, developers can choose from three primary frameworks: LangChain, LlamaIndex, and Haystack. LangChain is the most popular for general-purpose applications and agent orchestration, …
-
AI developers face rate limits, latency; routing is key
Developers are encountering significant challenges with API rate limits and latency when using AI models, particularly from Anthropic. These issues often stem from architectural choices that rely on a single provider fo…
-
Developer releases local LLM pipeline tracer 'opensmith'
Shivnath Tathe has developed "opensmith," a local-first tool designed to trace and debug LLM pipelines without sending data to the cloud. This alternative to services like LangSmith allows developers to monitor function…
-
Developers build LLM observability tools and audit existing setups to track costs and errors
A developer has created a zero-configuration Python tool called llm-lens to monitor API calls to OpenAI and Anthropic, tracking costs, latency, and errors without requiring SDK changes or account setup. The tool uses mo…
-
LangChain releases updates for Mistral AI integration, adding image support
LangChain has released updates for its Mistral AI integration, with version 1.1.4 addressing a specific issue with ToolMessage. The previous version, 1.1.3, introduced support for image inputs in human messages and incl…
-
OpenAI launches Sora 2 video model and social network, Anthropic releases Claude 4.5 Sonnet
OpenAI has unveiled Sora 2, an upgraded video and audio generation model that enhances physical world modeling and introduces character consistency for real-world element injection. This release coincides with OpenAI's …
-
AI 实验室转向 Agent 产品,DeepSeek 推出降价策略
研究人员开发了一个基准测试,用于评估大型语言模型处理法律法规时效性变化的能力,识别出信息过时和近期偏见等问题。与此同时,AI 行业正经历重大转变,模型实验室越来越专注于构建基于 Agent 的产品,而非仅仅是基础模型。AI21 和 DeepSeek 等公司是这一战略转变的典范,而 DeepSeek 针对其 V4-Pro 模型推出的激进定价策略,进一步提高了先进 AI 的可及性。
-
AI初创公司Cekura和Hamming推出语音代理的自动化测试
Cekura和Hamming推出了旨在自动化测试和监控AI语音及聊天代理的平台。这些服务解决了在众多对话路径和复杂场景下手動验证代理性能的挑战。通过模拟真实用户交互并采用基于LLM的评判,这些平台旨在部署前捕获回归问题并确保代理的可靠性,为开发和实时流量监控提供解决方案。
-
Eugene Yan 推出 AlignEval 以简化和自动化 LLM 评估
Eugene Yan 推出了 AlignEval,这是一款旨在简化和自动化大型语言模型 (LLM) 评估过程的新应用程序。该工具引导用户上传数据、将样本标记为通过或失败、定义评估标准以及优化基于 LLM 的评估器。AlignEval 强调数据优先的方法,鼓励用户从实际模型输出来推导评估标准,而不是预定义的指标,旨在减少 AI 产品开发中的瓶颈。
-
Hamel Husain 为AI产品团队提供关于选择评估工具和构建健壮系统的建议。
AI顾问Hamel Husain强调,在开发成功的AI产品时,构建健壮的评估系统至关重要,他借鉴了CodeSearchNet和Rechat的AI助手Lucy等项目的经验。他认为,通过有效的评估、调试和修改流程实现的快速迭代是AI产品成功的关键。Husain强调了三个层面的评估:单元测试、模型和人工评估以及A/B测试,并强调简化评估流程对于持续改进至关重要。
-
CrewAI 库通过 LangChain 简化 AI 代理编排
CrewAI 是一个旨在简化多个 AI 代理的创建和编排的新库。它构建在 LangChain 之上,允许开发人员集成各种工具和 LLM,包括本地开源模型。该平台为旅行规划和股票分析等常见用例提供了模板,并与 Replit 集成以进行云部署,与 LangSmith 集成以进行代理运行调试。