English(EN) Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages

新数据集测试AI对多语言习语的理解能力

作者 PulseAugur 编辑部 · [3 个来源] · 2026-06-01 12:16

研究人员推出了MIDI，一个旨在评估多语言NLP模型对习语理解能力的新数据集。该数据集包含句子和对话语境下的习语，涵盖高、中、低资源语言。对当前模型的基准测试显示，在低资源语言中性能显著下降，并且即使在对话语境下，模型也普遍难以进行字面解释。 AI

影响凸显了当前AI模型在理解细微语言差别方面的局限性，尤其是在低资源环境中。

排序理由该集群包含一篇学术论文，介绍了一个新的NLP数据集和评估方法。

在 arXiv cs.AI 阅读 →

MIDI
NLP

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.AI TIER_1 English(EN) · Ayman Ali Sharara · 2026-06-03 04:00

IdiomX 一个用于习语理解、检索和解释的多语言基准

arXiv:2606.02584v1 Announce Type: cross Abstract: Idiomatic expressions remain a persistent challenge for natural language processing because their meanings are often non-compositional, context-dependent, and difficult to align across languages. Existing idiom resources are often…
arXiv cs.AI TIER_1 English(EN) · Saeed Almheiri, Bilal Elbouardi, Salsabila Zahirah Pranida, Irina Nikishina, Ashwath Rao B, Parameswari Krishnamurthy, Muhammad Cendekia Airlangga, Rifo Ahmad Genadi, Nguyen Phan Gia Bao, Amir Hossein Yari, Hawau Olamide Toyin, Nurdaulet Mukhituly, Mena … · 2026-06-02 04:00

高、中、低资源语言的句子和对话中的多语言习语

arXiv:2606.02147v1 Announce Type: cross Abstract: Idiomatic expressions pose a major challenge for multilingual NLP because their meanings shift between figurative and literal usage, often requiring context for accurate interpretation. Prior work has focused on high-resource lang…
arXiv cs.AI TIER_1 English(EN) · Fajri Koto · 2026-06-01 12:16

高、中、低资源语言的句子和对话中的多语言习语

Idiomatic expressions pose a major challenge for multilingual NLP because their meanings shift between figurative and literal usage, often requiring context for accurate interpretation. Prior work has focused on high-resource languages typically evaluates isolated idiom-meaning q…

报道来源 [3]

IdiomX 一个用于习语理解、检索和解释的多语言基准

高、中、低资源语言的句子和对话中的多语言习语

高、中、低资源语言的句子和对话中的多语言习语

相关实体

相关话题