研究人员开发了一个框架,用于评估大型语言模型(LLM)在命名实体识别和问答等结构化生成任务中的输出可认证性。他们得出了一个不可能性的结果,指出了在何种情况下,一致性风险控制(CRC)无法满足用户指定的风险目标。该研究还分析了一系列界限,包括Hoeffding、经验Bernstein和e-CRC,证明了认证率的显著提高,尤其是在Hoeffding到Bernstein之间。在数据集迁移下,自适应一致性推理(ACI)被验证可以减少风险目标违规,尽管在理论上认证不可能的配置中仍存在一些失败。 AI
影响 为关键应用中的LLM输出可靠性提供理论和实践保证。
排序理由 学术论文,详细介绍了LLM输出认证的新理论框架和经验验证。[lever_c_demoted from research: ic=1 ai=1.0]
- Adaptive conformal inference
- Conformal risk control
- e-CRC
- Hoeffding's inequality
- Hugging Face
- JSON
- Large language models
- Named-entity recognition
- QA
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →