PulseAugur
实时 08:27:27
English(EN) When Can Conformal Risk Control Certify LLM Outputs? Bounds, Impossibility, and Adaptation for Structured Generation

新框架评估LLM输出的可认证性,识别理论极限

研究人员开发了一个框架,用于评估大型语言模型(LLM)在命名实体识别和问答等结构化生成任务中的输出可认证性。他们得出了一个不可能性的结果,指出了在何种情况下,一致性风险控制(CRC)无法满足用户指定的风险目标。该研究还分析了一系列界限,包括Hoeffding、经验Bernstein和e-CRC,证明了认证率的显著提高,尤其是在Hoeffding到Bernstein之间。在数据集迁移下,自适应一致性推理(ACI)被验证可以减少风险目标违规,尽管在理论上认证不可能的配置中仍存在一些失败。 AI

影响 为关键应用中的LLM输出可靠性提供理论和实践保证。

排序理由 学术论文,详细介绍了LLM输出认证的新理论框架和经验验证。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新框架评估LLM输出的可认证性,识别理论极限

报道来源 [1]

  1. arXiv cs.LG TIER_1 English(EN) · Varun Kotte ·

    何时才能对LLM输出进行一致性风险控制认证?结构化生成的界限、不可能与适应性

    arXiv:2606.29054v1 Announce Type: new Abstract: Large language models (LLMs) deployed for structured generation (NER, JSON extraction, QA, and classification) lack formal reliability guarantees, and standard heuristic abstention policies miss user-specified risk targets by 7.5--1…