PulseAugur
实时 08:17:09
English(EN) Reinforcement learning to improve large language model-based automated code compliance systems

新的P4IR框架使用RL来提高LLM在代码合规性系统中的准确性

研究人员开发了P4IR,一个新颖的两阶段框架,旨在提高大型语言模型(LLM)在生成建筑法规自动化代码合规性(ACC)系统方面的准确性。该框架首先采用监督微调(SFT)为LLM注入领域特定知识,然后采用组相对策略优化(GRPO)来优化生成的代码骨架。与仅SFT的基线相比,该方法显示出显著的改进,将树编辑距离减少了高达23.8%,将令牌级Levenshtein距离减少了38.6%,同时还显示出假阳性率的降低。 AI

影响 这项研究提供了一种提高LLM生成的代码合规性系统的可靠性和准确性的方法,有可能减少自动化法规检查中的错误。

排序理由 该集群包含一篇研究论文,详细介绍了一个用于提高LLM在特定任务上性能的新框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的P4IR框架使用RL来提高LLM在代码合规性系统中的准确性

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Justin K. W. Yeoh ·

    强化学习改进基于大型语言模型的自动化代码合规性系统

    Large language model (LLM)-based approaches for automated code compliance (ACC) of building regulations are prone to generating incorrect and hallucinated computer-processable rules. This paper introduces P4IR, a two-stage framework that uses supervised fine-tuning (SFT) to insti…