一篇新论文提出,LLM幻觉并非源于知识缺乏,而是源于承诺失败,模型将概率质量分散到多个备选答案上,而不是集中于正确答案。这种现象随着模型规模的增大而增加,并且会因指令调优而加剧。另一篇论文介绍了GAMMA,一个用于混合精度量化的框架,该框架优化了LLM的比特分配,在内存限制下显著提高了准确性,并在Llama和Qwen模型上表现优于现有方法。此外,还开发了一个名为SciEval的基准,用于自动评估K-12科学教学材料,结果显示,当前主流LLM在没有领域特定微调的情况下,在此任务上表现不佳。 AI
影响 新研究阐明了LLM幻觉的机制,并引入了模型优化和评估的新方法,有望提高其可靠性和效率。
排序理由 该集群包含多篇详细介绍LLM行为和优化技术研究成果的学术论文。
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →