实体 DeepEval

DeepEval

PulseAugur coverage of DeepEval — every cluster mentioning DeepEval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

15

90 天内 15

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

research 4
tool 6
commentary 5

主题

关系

competes with Ragas 60%

情绪 · 30 天

9 天有情绪数据

最近 · 第 1/1 页 · 共 15 条

RESEARCH · CL_133162 · Jul 8 · 11:44

新论文评估 RAG 指标与人类评分的对比结果

一项新的研究论文评估了各种检索增强生成 (RAG) 指标的有效性，将其与人类评估和召回率等标准指标进行比较。该研究使用了源自业务数据并由人工标注者评分的问答数据集。它强调了当前方法论的局限性，并提出了未来的研究方向，该研究建立在先前一篇法语出版物的基础上。
TOOL · CL_126518 · Jul 5 · 17:02

LLM评估必须权衡失败的严重性，而不仅仅是通过率

最近一次LLM部署中发生了PII泄露事件，一个代理在支持回复中意外包含了客户的账户ID和部分账单地址。尽管评估仪表板显示通过率为94%，但仍发生了此事件。该问题凸显了LLM评估中单一、扁平的通过率指标的不足，因为它未能区分各种失败的严重程度。例如，PII泄露的后果远比措辞冗长或语气不正确等小问题严重得多。
COMMENTARY · CL_116443 · Jun 29 · 16:56

合成LLM评估数据可能具有误导性，dev.to警告

使用合成数据评估LLM可能是一个陷阱，因为生成的数据集可能无法准确反映真实世界的流量。虽然工具可以轻松创建数千个测试用例，但关键挑战在于确保这些合成输入与用户交互的实际分布相匹配，包括罕见和复杂的情况。没有这种验证，合成数据的高通过率可能会产生误导，掩盖潜在的生产问题。
TOOL · CL_115073 · Jun 28 · 23:09

RAG 框架易受提示注入攻击，即使使用先进模型也无法幸免

对 LangChain、LlamaIndex 和 Haystack 等流行的检索增强生成 (RAG) 框架进行的安全性分析显示，这三个框架开箱即用都容易受到提示注入攻击。即使使用 GPT-5.1 等更先进的模型，这种漏洞依然存在，某些攻击甚至会加剧。识别出的核心问题不在于模型的智能，而在于 RAG 架构倾向于将检索到的文本视为可信上下文，而不是不可信数据。解决方案包括将检索到的文本视为数据，对其进行界定，并明确标记为模型不可信的数据，…
TOOL · CL_111496 · Jun 26 · 02:38

AI 代理：在发布前使用 DeepEval 测试失败路径

文章提倡在开发过程早期集成 AI 代理评估，特别是使用 DeepEval 在部署前测试失败路径。它强调为给定的代理或 RAG 系统定义什么构成错误答案，然后选择适当的指标来识别特定的失败类型，例如不正确的上下文使用或任务完成错误。作者强调，对于代理来说，评估执行跟踪比仅仅评估最终输出更重要，因为它揭示了工具选择、上下文使用和错误处理。
COMMENTARY · CL_110173 · Jun 25 · 07:01

AI 合同代理失败凸显语义与语法验证的差距

一位开发者在使用 Claude 3.5 Sonnet 和 GPT-4o 等模型进行模式验证的情况下，遇到了一个用于合同提取的 AI 代理的三个不同故障。问题源于模型的语义理解错误，例如返回释义文本而非逐字引述、生成不正确的嵌套结构以及模型升级后的回归。这些问题绕过了 Pydantic 的语法验证，凸显了对单独的语义验证层和谨慎的模型升级流程的需求。开发者实施了包括语义检查、限制重试次数和影子评估在内的多层方法来解决这些问题。
RESEARCH · CL_106950 · Jun 23 · 17:41

研究发现 LLM-as-judge 工具未能优先考虑人类验证

最近对六种 LLM-as-judge 工具的评估显示，大多数工具优先生成分数，而不是确保分数的可靠性。作者认为，法官根据人类标签进行的验证，通过 Cohen's kappa 等指标衡量，比原始评分性能更关键。DeepEval、Confident AI、Evidently、Braintrust、Promptfoo 和 Future AGI 等工具被审查，发现没有一个默认将法官-人类一致性计算作为其主要功能，将这一关键验证步骤留给了用户。
COMMENTARY · CL_88926 · Jun 13 · 10:41

LLM评估工具：确保长期可用性的关键问题

选择LLM评估工具需要仔细考虑，而不仅仅是功能，因为供应商锁定可能成为一个重大问题。文章建议在承诺使用某个工具之前，提出四个关键问题，重点关注长期可用性和数据所有权。关键考虑因素包括工具是否真正支持自托管、企业功能的许可影响以及是否能够轻松导出和保留评估数据集的所有权。
COMMENTARY · CL_85350 · Jun 11 · 10:35

语音代理测试在罕见输入时失败；模拟是关键

使用真实通话记录测试语音代理可能会产生虚假的安全感，因为它无法捕捉罕见或新颖的用户行为。一名开发者在遇到一名呼叫者在句子中间切换语言时遇到了严重故障，而这种模式在他的大量过往生产通话测试集中并不存在。为解决此问题，团队转向模拟对抗性呼叫者画像，发现虽然各种工具可以执行这些模拟，但有效性取决于明确定义的画像，而不是具体的测试平台。
TOOL · CL_75638 · Jun 7 · 03:32

开发者发布 Regtrace CLI 以检测 LLM 的静默回归

一位开发者创建了 Regtrace，一个开源命令行工具，旨在捕获大型语言模型中的静默回归。与传统的测试方法不同，Regtrace 专注于检测由提示词更改引起的细微错误，这些错误可能导致输出不正确。该工具通过将新的模型运行与基线进行比较来运行，标记事实准确性或格式等指标的任何下降趋势，并且可以集成到 CI/CD 管道中。
TOOL · CL_47522 · May 24 · 22:41

DeepEval 评估框架在本地 RAG 系统上进行测试

作者详细介绍了他们使用开源评估框架 DeepEval 在本地测试检索增强生成 (RAG) 系统的经验。他们遇到了设置 RAG 管道和集成 DeepEval 的挑战，强调了对强大 MLOps 实践的需求。该实验深入了解了在开发环境中评估 LLM 应用的实际问题。
COMMENTARY · CL_28503 · May 12 · 12:08

AI Harness对于生产级大语言模型代理至关重要，而不仅仅是模型本身

生产级AI代理需要强大的“AI Harness”，而不仅仅是更优越的模型，因为大多数AI项目因基础设施问题而失败。这种Harness充当一个操作系统层，管理上下文、工具、记忆、控制循环、安全护栏和评估。关键组件包括LangChain和LlamaIndex等代理框架、编码Harness或工作流编排器等执行层，以及Promptfoo等评估工具。
RESEARCH · CL_17516 · May 5 · 18:33

RAG评估系统衡量检索、事实依据和答案忠实度

检索增强生成（RAG）系统虽然因减少幻觉而广受欢迎，但需要超越简单检索指标的强大评估。这些系统包含两个耦合组件：检索器和生成器，两者都可能独立失败。全面的评估应衡量检索质量、上下文相关性、忠实度（答案是否得到上下文支持）、答案正确性和幻觉率。RAGAS等框架提供基于LLM的指标来量化这些方面，确保改进是数据驱动的，并识别出诸如无事实依据的答案或忽略上下文之类的问题。
RESEARCH · CL_15900 · May 4 · 12:21

新的RAG研究解决偏见问题并对检索进行基准测试以提高AI准确性

两篇新的arXiv论文探讨了专业领域检索增强生成（RAG）的进展。第一篇论文对生物医学问答的五种检索策略进行了基准测试，发现Cross-Encoder Reranking产生了最佳结果。第二篇论文介绍了HeteroRAG，这是一个旨在通过实现跨异构源（如多模态报告和文本语料库）的有效检索来改进医学视觉语言模型的框架。
RESEARCH · CL_02975 · Apr 23 · 07:02

AI模型在会议摘要上进行评估，GPT-5.1显示出提升

研究人员开发了一个可重用的流水线来评估AI生成的会议摘要，该流水线旨在适应不同领域。该系统将真实数据和AI输出都视为结构化产物，从而能够进行详细分析和统计检验。通过对市议会、私有数据和白宫新闻发布会数据集进行基准测试，评估显示GPT-4.1-mini的准确率最高，而GPT-5.1在完整性和覆盖率方面表现出色，尽管GPT-5.4后来在所有指标上都超越了GPT-4.1。