实体
Kim
Kim
PulseAugur coverage of Kim — every cluster mentioning Kim across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
- 2026-05-18 research_milestone Researchers release the Grounded Integration Measure (GIM) benchmark for evaluating AI models. 来源
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
朝鲜承诺与俄罗斯建立军事同盟
朝鲜领导人金正恩已表达对俄罗斯及其政策的坚定支持,标志着两国之间军事同盟的深化。这种被描述为“牢固的军事同盟”和“历史新篇章”的加强关系,建立在2024年6月签署的《全面战略伙伴关系条约》之上。金正恩在俄罗斯日致普京的贺电,凸显了朝鲜与俄罗斯联邦站在一起的承诺。
-
GIM基准测试在整合认知任务上评估LLM
研究人员推出了Grounded Integration Measure (GIM),这是一个旨在通过整合多个认知域来评估大型语言模型的新基准。GIM包含820个原创问题,需要对可访问的知识进行各种认知操作的协调,旨在评估基于现实任务的推理,而不是纯粹的记忆或抽象推理。该基准包括一个公共-私有划分,用于污染诊断,并利用在28个模型超过200,000个提示-响应对上校准的IRT模型来生成强大的能力估计和全面的排行榜。