一项新研究评估了大型语言模型(LLM)生成建筑安全代码的可靠性,这种做法被称为“vibe coding”。研究发现,虽然 LLM 可以生成语法正确的代码,但由于存在错误的数学逻辑和缺乏防御性编程,它们常常会引入静默故障。在 Claude 3.5 Haiku、GPT-4o-Mini 和 Gemini 2.5 Flash 等测试模型中,很大一部分生成的代码存在逻辑缺陷,其中 GPT-4o-Mini 在超过一半的函数代码中产生了不准确的输出。 AI
影响 当前的 LLM 缺乏独立进行建筑安全工程所需的确定性严谨性,需要 AI 包装器和治理。
排序理由 评估 LLM 生成代码可靠性的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →