English(EN) Reinforcement learning to improve large language model-based automated code compliance systems

新的P4IR框架使用RL来提高LLM在代码合规性系统中的准确性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-21 09:17

研究人员开发了P4IR，一个新颖的两阶段框架，旨在提高大型语言模型（LLM）在生成建筑法规自动化代码合规性（ACC）系统方面的准确性。该框架首先采用监督微调（SFT）为LLM注入领域特定知识，然后采用组相对策略优化（GRPO）来优化生成的代码骨架。与仅SFT的基线相比，该方法显示出显著的改进，将树编辑距离减少了高达23.8%，将令牌级Levenshtein距离减少了38.6%，同时还显示出假阳性率的降低。 AI

影响这项研究提供了一种提高LLM生成的代码合规性系统的可靠性和准确性的方法，有可能减少自动化法规检查中的错误。

排序理由该集群包含一篇研究论文，详细介绍了一个用于提高LLM在特定任务上性能的新框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Justin K. W. Yeoh · 2026-06-21 09:17

强化学习改进基于大型语言模型的自动化代码合规性系统

Large language model (LLM)-based approaches for automated code compliance (ACC) of building regulations are prone to generating incorrect and hallucinated computer-processable rules. This paper introduces P4IR, a two-stage framework that uses supervised fine-tuning (SFT) to insti…

报道来源 [1]

强化学习改进基于大型语言模型的自动化代码合规性系统

相关实体

相关话题