研究人员发布了两篇详细介绍捷克语处理资源进展的论文。第一篇论文介绍了 Prague Dependency Treebank -- Consolidated 2.0 (PDT-C 2.0),这是一个广泛、统一标注的捷克语语料库,包含近 400 万个词元。该资源历经三十年开发,旨在系统地整合各种语言层面,包括共指和语篇关系等句间现象。第二篇论文介绍了 UD_Czech-PDTC,这是一个大型且体裁丰富的句法树库,已转换为可用于 Universal Dependencies,并强调了转换过程以及两种标注方案之间的差异。 AI
影响 这些新的、大规模、体裁多样的捷克语句法树库将促进自然语言处理工具的开发和评估,尤其是在捷克语方面,并有助于跨语言比较。
排序理由 该集群包含两篇在 arXiv 上发表的学术论文,详细介绍了用于自然语言处理的新语言资源。
- arXiv
- Czech
- Hugging Face
- natural language processing
- PDT-C 2.0
- Prague Dependency Treebank
- UD_Czech-PDTC
- Universal Dependencies
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →