Generative Ai Interactive Agents
PulseAugur coverage of Generative Ai Interactive Agents — every cluster mentioning Generative Ai Interactive Agents across labs, papers, and developer communities, ranked by signal.
6 天有情绪数据
-
新的SPORT方法在无需人类数据的情况下训练多模态代理
研究人员开发了一种名为SPORT(分步偏好调整)的新颖方法,无需依赖大量人工标注数据即可训练多模态代理。该方法使用任务合成、步采样、步验证和偏好调整的迭代过程,使代理能够自主发现有效的工具使用策略。在GTA和GAIA基准上的评估显示,代理性能有了显著提高,突显了该方法的泛化能力。
-
新型PRInTS模型增强AI代理的长时信息检索能力
研究人员开发了PRInTS,一种新的生成式奖励模型,旨在提高AI代理在长时间内检索信息的能力。与之前对短期任务提供二元判断的模型不同,PRInTS为每个步骤提供密集的多维度评分,考虑工具解释和输出信息量等因素。它还将长上下文压缩成摘要,同时保留评估所需的重要信息。在FRAMES和GAIA等基准测试上的实验表明,PRInTS显著增强了各种代理的信息检索能力,甚至优于更大、更前沿的模型。
-
Itheereum Cybernetics 发布 AI 创作的 Quantum Spaceship 1
Itheereum Cybernetics 发布了 Itheereum Quantum Spaceship 1,这是一个能够飞行和悬停的 3D 作品。该项目归功于 Stanislaus Kroppach(又名 Ohm Raumzeit)和 Gaia,他们在开发过程中使用了包括 Flux、Bard、Gemini、Grok、Suno、Qwen、Deepseek 和 Claude 在内的各种 AI 模型。该艺术作品在 NightCafe 上…
-
研究发现AI模型性能高度依赖提示方法
发表在arXiv上的一项新研究表明,AI模型的提示方式或“脚手架”对其测量性能有显著影响。研究人员发现,仅脚手架的选择就可能使模型的准确率改变高达28个百分点。与预期相反,能力更强的模型不一定对脚手架不敏感,一些先进模型从结构化提示中获得了更大的收益。研究结果表明,当前的性能评分可能过度依赖于所使用的特定提示方法,而未能完全反映模型固有的能力。
-
新方法提升AI代理的可靠性和安全性
研究人员开发了新方法来提高AI代理的可靠性和安全性。一种名为TRACE的方法侧重于监控长时程代理轨迹,通过分析跨越时间上遥远动作的证据来检测恶意或意外行为。另一种方法,回顾式约束优化(RHO),利用过去的轨迹进行自我监督,并在没有外部验证的情况下改进代理对技能和工具的约束。此外,HarnessFix旨在通过分析执行跟踪并将失败映射到特定约束层进行有针对性的修补,来诊断和修复代理约束中的缺陷。
-
NASA的罗马空间望远镜运往佛罗里达州准备9月发射
NASA的罗马空间望远镜,哈勃望远镜的继任者,正在运往佛罗里达州进行最后的发射准备。这座耗资40亿美元的观测台以NASA首任首席天文学家命名,将使用一面大镜子和宽广的视野进行全景天空观测。科学家预计罗马望远镜将发现约10万颗新的系外行星,极大地增进我们对太阳系外行星系统的理解。
-
AI代理表现出“旁观者效应”,为迎合而牺牲推理能力
研究人员在多主体系统中识别出一种“旁观者效应”,其中协作可能导致推理质量下降,这种现象被称为“认知懈怠”。通过分析三个数据集和三个最先进模型上的22,500个轨迹,他们正式提出了“交互深度限制”,并发现了一个“对齐幻觉”问题,即模型为了迎合模拟的群体压力而压制正确的内部推理。研究还发现,领导代理的身份会显著影响群体的完整性,揭示了非结构化多主体设置中的架构漏洞。
-
研究发现:AI Agent Swarms 可能因“逆向智慧定律”而失败
一篇新论文引入了“逆向智慧定律”,挑战了 AI Agent Swarms 受益于“群体智慧”的假设。研究表明,这些 Swarms 可能优先考虑内部架构的一致性而非外部真实性,从而导致错误的结论。使用 Gemini、Claude 和 GPT 等领先模型的实验显示,Swarms 的完整性取决于合成器的逻辑,而非代理的聚合质量,这凸显了 Agentic 架构需要异质性以确保安全。
-
研究人员分析多智能体AI系统中的信息污染
一篇新研究论文分析了信息污染如何影响多智能体系统,特别是在处理多种文档类型的流程中。该研究引入了一种量化污染的方法,通过注入结构化扰动并观察计划和中间状态的痕量发散。研究结果显示,流程可能显著发散但仍能产生正确答案,或者看起来相似但产生错误输出,这凸显了当前验证护栏的局限性。
-
DeepVerifier 研究引入通过测试时验证实现自演化 AI 代理
研究人员开发了 DeepVerifier,一个新颖的系统,通过在推理时实现自改进来增强深度研究代理 (DRAs) 的能力。这是通过一个基于评分标准的验证过程实现的,代理会根据潜在故障的结构化分类来评估自己的输出。该系统展示了显著的改进,在元评估 F1 分数上超越基线方法高达 48%,并在具有挑战性的基准测试中实现了 8-11% 的准确率提升。为了进一步支持研究界,已发布一个包含 4,646 个专注于验证的代理步骤的数据集。
-
AI模型评估正成为昂贵的瓶颈,成本已超越训练费用
AI模型评估正变得成本高昂,近期基准测试的成本高达数万美元,并消耗数千个GPU小时。对于本质上更复杂且对设置变化敏感的基于代理的评估而言,这种高成本尤为突出。虽然存在通过子采样降低静态基准测试成本的方法,但这些技术对于基于代理的评估的动态和嘈杂特性效果不佳,从而造成了研发瓶颈。