PulseAugur
实时 21:18:03
English(EN) TS-Skill: A Benchmark for Evaluating Analytical Skills in Time-Series Question Answering

新的TS-Skill基准评估LLM的时间序列分析能力

研究人员推出了TS-Skill,这是一个旨在评估大型语言模型(LLM)和时间序列语言模型(TSLM)在时间序列问答(TSQA)中的分析能力的新基准。该基准侧重于三个特定技能:时间尺度选择、时间定位和跨区间整合,这些技能对于理解时间数据模式至关重要。使用TS-Skill进行的实验揭示了这些技能之间显著的性能差距,特别是突出了非代理模型在整合独立时间区间信息方面的挑战。 AI

影响 提供了一个细粒度的评估框架,以识别和解决LLM和TSLM中特定的时间推理弱点。

排序理由 该集群包含一篇介绍用于评估特定AI能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Liying Han, Kang Yang, Oliver Wang, Jason Wu, Pengrui Quan, Gaofeng Dong, Ozan Baris Mulayim, Sizhe Ma, Yuyang Yuan, Dezhi Hong, Mario Berges, Mani Srivastava ·

    TS-Skill: A Benchmark for Evaluating Analytical Skills in Time-Series Question Answering

    arXiv:2605.24703v1 Announce Type: cross Abstract: Large language models (LLMs) and time-series language models (TSLMs) are increasingly applied to time-series question answering (TSQA). Unlike text-only QA, TSQA requires models to ground answers in temporal signals whose patterns…