实体 K-BrowseComp

K-BrowseComp

PulseAugur coverage of K-BrowseComp — every cluster mentioning K-BrowseComp across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_65077 · Jun 1 · 00:00

新的韩语网络浏览基准揭示了大型语言模型的性能差距

研究人员推出了 K-BrowseComp，这是一个旨在评估大型语言模型在韩国语境下网络浏览代理能力的新基准。该基准包含 400 个问题，其中 300 个问题经过人工验证。初步评估显示，GPT-5.5 和 DeepSeek-V4-Pro 等领先的前沿模型在此子集上的性能水平在 30.00% 到 45.67% 之间，与它们在英语基准上的表现相比有显著下降。特定于韩语的大型语言模型表现更低，表明在韩语任务的代理能力方面存在巨大差距。