PulseAugur
实时 22:29:49
English(EN) The Russian Legislative Corpus

研究人员发布全面的俄罗斯立法语料库,用于自然语言处理任务

研究人员推出一个新的语料库,包含1991年至2025年的俄罗斯初级和二级立法。该数据集包含超过30万份文本,总计超过1.94亿个词元。该语料库提供两个版本:一个基础版本,包含简单的元数据;一个详细版本,提供原始文本以及通用依存关系CoNLL-U格式的对应文本,并附有词性、形态和句法标注。 AI

影响 为自然语言处理研究提供了一个新的大规模数据集,可能促进法律文本分析和俄语理解方面的进步。

排序理由 这是一篇描述新数据集的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

研究人员发布全面的俄罗斯立法语料库,用于自然语言处理任务

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Denis Saveliev, Ruslan Kuchakov ·

    The Russian Legislative Corpus

    arXiv:2406.04855v3 Announce Type: replace Abstract: We present a comprehensive corpus of Russian primary and secondary legislation adopted between 1991 and 2025, comprising 304,382 texts (194,425,905 tokens). The corpus is available in two versions: the basic version contains tex…