实体 tau-Bench

tau-Bench

PulseAugur coverage of tau-Bench — every cluster mentioning tau-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

9

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

9

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

6 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

TOOL · CL_128680 · Jul 7 · 04:00

新的 Incognita 框架在社交任务中评估生成式代理

研究人员开发了 Incognita，一个用于在复杂社交任务环境中评估生成式代理的新框架。该系统基于康考迪亚大学，将社交互动与基于现实的执行分开，允许代理与中介动作的专家进行交流。Incognita-Retail 是一个特定应用，将 tau-Bench 零售环境改编为多实体设置。在 18 项任务上的评估表明，虽然代理在成功率方面有所提高并减少了过早定稿，但其整体可靠性仍然很低，突显了知识提取和动作理由方面的未来发展领域。
TOOL · CL_122959 · Jul 3 · 04:00

新架构根据任务难度路由客户服务 AI

研究人员推出了一种旨在管理自主客户服务代理的难度路由服务控制架构。该系统旨在保持常规任务的效率，同时为涉及客户指令、策略限制和后端写入的复杂操作实施增强的安全措施。通过根据操作冲突路由会话，该架构将审议和错误预防集中在产生后果的行动之前，而不是对所有交互应用统一的控制。在零售和航空任务上的评估表明，可靠性得到提高，并对冲突的请求施加了更强的控制。
RESEARCH · CL_107868 · Jun 22 · 20:57

AI检索指标可能误导对代理策略效用的评估

研究人员发现，在评估AI代理时使用检索指标可能存在潜在缺陷。这项针对长时域工具使用代理的研究发现，精确匹配的检索召回率可能低估了提供给决策模型的策略上下文的实际效用。在tau-bench上使用Qwen2.5-3B/7B分类器进行的实验表明，在某些分类任务中，即使检索到的子句不完全匹配，其性能也可能与黄金标准子句相当。这表明，在分类循环中直接评估检索到的策略比仅依赖召回率指标更有信息量。
TOOL · CL_105539 · Jun 19 · 00:00

新数据集“Counsel”旨在改进AI代理评估

研究人员推出了Counsel，一个旨在改进AI代理评估的新数据集。该数据集包含人类对大型语言模型（LLMs）为代理任务生成的批评进行的元评估。目标是增强自动化评估方法的校准和可靠性，目前这些方法由于人工标注耗时而成为瓶颈。Counsel通过根据人类在错误位置和推理质量方面的一致性对批评进行分层，提供数据以帮助对基于LLM的代理系统评估器进行校准。
RESEARCH · CL_93186 · Jun 15 · 17:38

新论文提出贝叶斯审计用于AI评估档案

一篇新论文提出了一种贝叶斯推理框架，用于审计前沿AI评估的公共档案。研究强调了选择性报告和基准修订如何扭曲对AI进展的认知，并以LiveBench和Open LLM Leaderboard v2作为主要例子。提出的档案和裁决协议旨在重建评估历史，建立经过验证的时间界限，并使关于AI能力的未经证实的说法无效。
RESEARCH · CL_90852 · Jun 12 · 07:31

新的基础模型旨在大规模模拟人类行为

研究人员推出 OdysSim，一个用于开发旨在模拟人类行为的基础模型的新框架。该项目包括一个包含 2140 万次交互的大型语料库和一个名为 SOUL-Index 的基准测试，该基准测试统一了五个能力轴上的 23 项任务。由此产生的 80 亿参数模型 OSim 表现强劲，在 8 项任务上排名第一，并展示了类似人类的输出质量，甚至在零样本情况下也能泛化到分布外用户仿真。
TOOL · CL_20510 · May 7 · 04:00

新研究认为仅靠模型级测试无法判断人工智能对齐性

一篇新论文认为，仅在模型层面评估人工智能对齐性不足以理解其在现实世界中的部署。研究强调，当前的基准测试缺乏面向用户的验证和过程可控性，因此仅凭模型级分数无法推断真正的对齐性。研究表明，评估脚手架的有效性高度依赖于模型，因此有必要转向具有对齐性配置文件和明确推断距离报告的系统级评估。
RESEARCH · CL_06668 · Apr 28 · 04:00

AgentEval 框架通过基于 DAG 的错误跟踪改进 AI 代理工作流评估

研究人员开发了 AgentEval，一个通过将代理工作流表示为有向无环图 (DAG) 来评估代理工作流的新框架。这种方法允许进行详细的步级评估和错误传播跟踪，与传统的端到端检查相比，显著提高了故障检测和根本原因分析能力。一项与工程师进行的试点研究表明，AgentEval 在识别发布前回归和缩短问题定位时间方面非常有效。
RESEARCH · CL_02985 · Apr 23 · 03:48

新指标量化大型语言模型代理的行为相似性和收敛性

一篇新论文介绍了两个指标：响应模式相似性（RPS）和动作图相似性（AGS），用于量化不同AI代理的工具使用行为有多相似。这些指标旨在区分与任务相关的基本操作和模型蒸馏产生的非必要行为模式。研究发现，同一提供商的模型比不同提供商的模型表现出更相似的工具使用习惯，并强调了Kimi-K2的高相似性得分。