研究人员开发了TOTEN,一个基于知识的本体标记化框架,旨在改进巴西葡萄牙语中技术符号的语义理解。与传统的字节对编码不同,TOTEN使用工程实体的形式本体来分类和表示物理量、单位和表达式。评估表明,TOTEN在本体原子性和数值重构方面显著优于最先进的基线,证明了其鲁棒性和准确性。 AI
影响 这项研究可能导致对技术文档和科学文献进行更准确、更具语义意识的处理。
排序理由 该集群包含一篇详细介绍新标记化框架的研究论文。
- Antonio Leitao Filho
- Brazilian Portuguese
- byte-pair encoding
- EngQuant
- physical quantities
- quantulum3
- Toten
- Unicode Character Database
- Ontology of Engineering Entities
- Pint
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →