PulseAugur
实时 17:04:15
实体 Massive Multitask Chinese Understanding

Massive Multitask Chinese Understanding

PulseAugur coverage of Massive Multitask Chinese Understanding — every cluster mentioning Massive Multitask Chinese Understanding across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56245 ·

    新基准评估大型中文语言模型在各领域的表现

    一项名为“大规模多任务中文理解”(MMCU)的新基准被提出,用于评估大型中文语言模型在各个领域的能力。该基准包含医学、法律、心理学和教育等任务,并特别关注医学和教育子任务。初步评估显示,尽管顶级模型表现出一定的熟练度,但总体性能中等,在法律领域存在明显不足。GPT-3.5-turbo模型在临床医学方面表现出最高的准确率,但没有模型在所有测试领域都取得高分,这凸显了对更全面的中文LLM评估的需求。