研究人员推出了 BD-LSC 和 ST-WSD 数据集,用于基准测试模型在检测词汇语义变化方面的能力,特别是针对具有俚语和标准含义的词语。这些数据集能够研究词义随时间推移的获得、丢失和稳定性。虽然 GPT-4o 在少样本设置下,在精确词义匹配等指标上表现强劲,但整体 Macro-F1 分数表明,识别罕见的俚语词义仍然是一个重大挑战。 AI
影响 新数据集可能提高 LLM 对细微语言(尤其是俚语)的理解能力。
排序理由 介绍用于 NLP 模型基准测试的新数据集的研究论文。
- arXiv
- BD-LSC Dataset
- GPT-4o
- SlangTrack Word Sense Disambiguation
- alphaXiv
- CatalyzeX Code Finder for Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →