实体 AgentWorldBench

AgentWorldBench

PulseAugur coverage of AgentWorldBench — every cluster mentioning AgentWorldBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

3

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

SIGNIFICANT · CL_108235 · Jun 24 · 05:03

Qwen 大模型发布 Qwen-AgentWorld，首个语言世界模型

Qwen 大模型正式发布了新一代语言世界模型（LWM）Qwen-AgentWorld。该模型能够跨越 MCP 和 Search 等文本环境，以及 Web 和 OS 等图形用户界面（GUI）环境，实现跨领域知识迁移。同时发布的还有 AgentWorldBench，这是一个涵盖七个领域的 LWM 评估基准，并为每个测试样本提供了真实世界执行数据。
FRONTIER RELEASE · CL_107582 · Jun 22 · 14:49

阿里巴巴 Qwen 发布开源语言世界模型，用于 AI 代理 · 跟踪 4 个来源

阿里巴巴的 Qwen 团队发布了 Qwen-AgentWorld-35B-A3B，这是一个专为模拟代理环境而设计的开源语言世界模型。该模型采用混合专家（MoE）架构，拥有 350 亿总参数和 30 亿激活参数，并具备 256K 的上下文窗口。它旨在通过内化世界建模和在行动前预测环境状态来推进通用代理能力。此次发布包括模型权重、AgentWorldBench 等相关基准测试以及各种推理框架的集成指南。
RESEARCH · CL_105023 · Jun 22 · 00:00

新的 AI 智能体利用世界模型和自我修复来增强推理能力

研究人员推出了 Qwen-AgentWorld，这是一种新颖的语言世界模型，旨在模拟七个领域的智能体环境。该模型通过持续预训练、监督微调和强化学习的三阶段流程进行训练，并使用新的 AgentWorldBench 基准进行评估。此外，还开发了一个名为 Polaris 的小型语言模型框架，通过经验抽象和策略修复实现递归自我改进，在各种推理基准上显示出持续的提升。