两篇新的arXiv论文探讨了大型语言模型(LLM)在抽象摘要方面的有效性。第一篇论文介绍了OmniCSEval,这是一个旨在跨不同场景、上下文长度和推理能力评估LLM的综合基准,并使用了一个新颖的事实核查框架。第二篇论文研究了推理策略对摘要质量和事实忠实度的影响,发现明确的推理有时会损害事实基础,并且增加LLM的内部推理预算并不总能提高性能。 AI
排序理由 两篇学术论文发表在arXiv上,详细介绍了LLM能力的新基准和发现。
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Haohan Yuan
- Hugging Face
- Large Reasoning Models
- LLMs
- OmniCSEval
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →