实体 SemCog Bench

SemCog Bench

PulseAugur coverage of SemCog Bench — every cluster mentioning SemCog Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_86662 · Jun 11 · 11:33

新基准测试大型语言模型在阿拉伯语-希伯来语同源词歧义上的表现

研究人员开发了 SemCog Bench，这是一个旨在评估大型语言模型（LLMs）在处理阿拉伯语和希伯来语同源词方面能力的基准。该基准包含 1,858 对单词和句子级别的注释，用于测试识别和语义消歧能力。评估显示，大型语言模型在真正的同源词上表现良好，但在处理假朋友词和外来词时却面临显著困难，这表明它们依赖于表面相似性而非深层语义理解。即使有上下文线索的帮助，性能提升也很有限，这凸显了当前大型语言模型在解决跨语言意义冲突方面的根本局限性。