研究人员开发了Naamah,一个包含超过10万个梵语句子的大型合成数据集,旨在改进古典梵语文学的命名实体识别(NER)。该数据集通过从DBpedia提取实体并结合一个240亿参数的混合推理模型生成。Naamah旨在克服标注资源稀缺的问题,并用于对XLM RoBERTa和IndicBERTv2 Transformer架构进行基准测试。 AI
影响 为推进古典梵语的NLP能力提供了关键数据集,可能催生新的研究和应用。
排序理由 介绍针对特定NLP任务的新数据集的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →