研究人员推出了TS-Skill,这是一个旨在评估大型语言模型(LLM)和时间序列语言模型(TSLM)在时间序列问答(TSQA)中的分析能力的新基准。该基准侧重于三个特定技能:时间尺度选择、时间定位和跨区间整合,这些技能对于理解时间数据模式至关重要。使用TS-Skill进行的实验揭示了这些技能之间显著的性能差距,特别是突出了非代理模型在整合独立时间区间信息方面的挑战。 AI
影响 提供了一个细粒度的评估框架,以识别和解决LLM和TSLM中特定的时间推理弱点。
排序理由 该集群包含一篇介绍用于评估特定AI能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →