PulseAugur
实时 22:13:22

新基准测试LLM生成BIM行业标准XML的能力

研究人员推出了Ishigaki-IDS-Bench,这是一个新的基准测试,旨在评估大型语言模型(LLM)根据建筑信息模型(BIM)需求生成信息交付规范(IDS)XML的能力。该基准测试包含166个跨越不同建筑领域和语言的专家验证示例,以及用于比较的黄金IDS文件。初步评估显示,虽然LLM可以部分表达信息需求,但它们在持续生成符合IDS标准和IFC词汇约束的XML方面存在困难,表现最好的模型内容一致性仅达到65.6%。 AI

影响 该基准测试将有助于提升LLM在生成特定领域标准化结构化数据方面的能力,这对于建筑等行业至关重要。

排序理由 该集群描述了一篇介绍用于评估LLM在特定结构化数据生成任务中性能的基准测试的新学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Ryo Kanazawa, Koyo Hidaka, Teppei Miyamoto, Takayuki Kato, Tomoki Ando, Chenguang Wang, Dayuan Jiang, Naofumi Fujita, Shuhei Saitoh, Atomu Kondo, Koki Arakawa, Daiho Nishioka ·

    Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements

    arXiv:2605.22079v1 Announce Type: new Abstract: Large language models (LLMs) are widely used to generate structured outputs such as JSON, SQL, and code, yet public resources remain limited for evaluating generation that must simultaneously satisfy industry-standard XML and domain…

  2. arXiv cs.CL TIER_1 English(EN) · Daiho Nishioka ·

    Ishigaki-IDS-Bench: A Benchmark for Generating Information Delivery Specification from BIM Information Requirements

    Large language models (LLMs) are widely used to generate structured outputs such as JSON, SQL, and code, yet public resources remain limited for evaluating generation that must simultaneously satisfy industry-standard XML and domain vocabulary constraints. This paper presents Ish…