研究人员推出了Ishigaki-IDS-Bench,这是一个新的基准测试,旨在评估大型语言模型(LLM)根据建筑信息模型(BIM)需求生成信息交付规范(IDS)XML的能力。该基准测试包含166个跨越不同建筑领域和语言的专家验证示例,以及用于比较的黄金IDS文件。初步评估显示,虽然LLM可以部分表达信息需求,但它们在持续生成符合IDS标准和IFC词汇约束的XML方面存在困难,表现最好的模型内容一致性仅达到65.6%。 AI
影响 该基准测试将有助于提升LLM在生成特定领域标准化结构化数据方面的能力,这对于建筑等行业至关重要。
排序理由 该集群描述了一篇介绍用于评估LLM在特定结构化数据生成任务中性能的基准测试的新学术论文。
- Building Information Modeling
- GitHub
- Hugging Face
- IFC
- Information Delivery Specification
- Ishigaki-IDS-Bench
- Large language models
- XML
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →