PulseAugur
实时 03:03:18

研究人员创建Naamah,一个使用LLM的大型合成梵语NER数据集

研究人员开发了Naamah,一个包含超过10万个梵语句子的大型合成数据集,旨在改进古典梵语文学的命名实体识别(NER)。该数据集通过从DBpedia提取实体并结合一个240亿参数的混合推理模型生成。Naamah旨在克服标注资源稀缺的问题,并用于对XLM RoBERTa和IndicBERTv2 Transformer架构进行基准测试。 AI

影响 为推进古典梵语的NLP能力提供了关键数据集,可能催生新的研究和应用。

排序理由 介绍针对特定NLP任务的新数据集的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

研究人员创建Naamah,一个使用LLM的大型合成梵语NER数据集

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Akhil Rajeev P, Annarao Kulkarni ·

    Naamah:通过DBpedia播种和LLM生成的大规模合成梵语NER语料库

    arXiv:2604.26456v1 Announce Type: new Abstract: The digitisation of classical Sanskrit literature is impeded by a scarcity of annotated resources, particularly for Named Entity Recognition. While recent methodologies utilise generic Large Language Models (LLMs) for data augmentat…

  2. arXiv cs.CL TIER_1 English(EN) · Annarao Kulkarni ·

    Naamah:一个通过DBpedia播种和LLM生成的大规模合成梵语NER语料库

    The digitisation of classical Sanskrit literature is impeded by a scarcity of annotated resources, particularly for Named Entity Recognition. While recent methodologies utilise generic Large Language Models (LLMs) for data augmentation, these approaches remain prone to error and …