研究人员创建Naamah，一个使用LLM的大型合成梵语NER数据集

作者 PulseAugur 编辑部 · [2 个来源] · 2026-04-29 09:12

研究人员开发了Naamah，一个包含超过10万个梵语句子的大型合成数据集，旨在改进古典梵语文学的命名实体识别（NER）。该数据集通过从DBpedia提取实体并结合一个240亿参数的混合推理模型生成。Naamah旨在克服标注资源稀缺的问题，并用于对XLM RoBERTa和IndicBERTv2 Transformer架构进行基准测试。 AI

影响为推进古典梵语的NLP能力提供了关键数据集，可能催生新的研究和应用。

排序理由介绍针对特定NLP任务的新数据集的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Akhil Rajeev P, Annarao Kulkarni · 2026-04-30 04:00

Naamah：通过DBpedia播种和LLM生成的大规模合成梵语NER语料库

arXiv:2604.26456v1 Announce Type: new Abstract: The digitisation of classical Sanskrit literature is impeded by a scarcity of annotated resources, particularly for Named Entity Recognition. While recent methodologies utilise generic Large Language Models (LLMs) for data augmentat…
arXiv cs.CL TIER_1 English(EN) · Annarao Kulkarni · 2026-04-29 09:12

Naamah：一个通过DBpedia播种和LLM生成的大规模合成梵语NER语料库

The digitisation of classical Sanskrit literature is impeded by a scarcity of annotated resources, particularly for Named Entity Recognition. While recent methodologies utilise generic Large Language Models (LLMs) for data augmentation, these approaches remain prone to error and …

报道来源 [2]

Naamah：通过DBpedia播种和LLM生成的大规模合成梵语NER语料库

Naamah：一个通过DBpedia播种和LLM生成的大规模合成梵语NER语料库

相关实体

相关话题