English(EN) TS-Skill: A Benchmark for Evaluating Analytical Skills in Time-Series Question Answering

新的TS-Skill基准评估LLM的时间序列分析能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员推出了TS-Skill，这是一个旨在评估大型语言模型（LLM）和时间序列语言模型（TSLM）在时间序列问答（TSQA）中的分析能力的新基准。该基准侧重于三个特定技能：时间尺度选择、时间定位和跨区间整合，这些技能对于理解时间数据模式至关重要。使用TS-Skill进行的实验揭示了这些技能之间显著的性能差距，特别是突出了非代理模型在整合独立时间区间信息方面的挑战。 AI

影响提供了一个细粒度的评估框架，以识别和解决LLM和TSLM中特定的时间推理弱点。

排序理由该集群包含一篇介绍用于评估特定AI能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

LLMs
TSLMs

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Liying Han, Kang Yang, Oliver Wang, Jason Wu, Pengrui Quan, Gaofeng Dong, Ozan Baris Mulayim, Sizhe Ma, Yuyang Yuan, Dezhi Hong, Mario Berges, Mani Srivastava · 2026-05-26 04:00

TS-Skill: A Benchmark for Evaluating Analytical Skills in Time-Series Question Answering

arXiv:2605.24703v1 Announce Type: cross Abstract: Large language models (LLMs) and time-series language models (TSLMs) are increasingly applied to time-series question answering (TSQA). Unlike text-only QA, TSQA requires models to ground answers in temporal signals whose patterns…

报道来源 [1]

TS-Skill: A Benchmark for Evaluating Analytical Skills in Time-Series Question Answering

相关实体

相关话题