研究人员引入了广义图灵测试(GTT),一个旨在通过不可区分性来比较任意智能体智能的新型形式化框架。该框架定义了一个“图灵比较器”,用于确定一个智能体是否不能被可靠地区分于另一个智能体,从而提供一种与任务和数据集无关的相对智能度量。使用GTT框架对现代AI模型进行的初步实证评估表明,它产生了与现有排名一致的有意义的比较排序。 AI
影响 引入了一个新颖的、与数据集无关的AI智能评估框架,可能改变衡量和比较AI能力的方式。
排序理由 学术论文,介绍了一种新的AI评估理论框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →