实体 Massive Multitask Chinese Understanding

Massive Multitask Chinese Understanding

PulseAugur coverage of Massive Multitask Chinese Understanding — every cluster mentioning Massive Multitask Chinese Understanding across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_56245 · May 28 · 04:00

新基准评估大型中文语言模型在各领域的表现

一项名为“大规模多任务中文理解”（MMCU）的新基准被提出，用于评估大型中文语言模型在各个领域的能力。该基准包含医学、法律、心理学和教育等任务，并特别关注医学和教育子任务。初步评估显示，尽管顶级模型表现出一定的熟练度，但总体性能中等，在法律领域存在明显不足。GPT-3.5-turbo模型在临床医学方面表现出最高的准确率，但没有模型在所有测试领域都取得高分，这凸显了对更全面的中文LLM评估的需求。

新基准评估大型中文语言模型在各领域的表现