研究人员开发了一种新颖的四阶段流水线,利用大型语言模型(LLM)自动标注大型自然语言语料库中的语法。该方法包括提示工程、事前评估、批量处理和事后验证,通过OpenAI API在标注美国历史英语语料库(Corpus of Historical American English)中的143,933行‘consider’同现行时,准确率超过98%。随后的分析揭示了先前未被记录的、特定体裁的评价性consider结构的变化,这表明LLM可以通过探索先前因实际限制而无法触及的问题,显著加速语料库语言学研究。 AI
影响 实现了以往因手动标注瓶颈而无法进行的大规模语言学研究。
排序理由 该集群描述了一篇详细介绍LLM辅助语料库标注新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- Cameron Morin
- Corpus of Contemporary American English
- Corpus of Historical American English
- Hugging Face
- OpenAI API
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →