English(EN) Hindsight Preference Optimization for Financial Time Series Advisory

AI利用滞后优化金融时间序列咨询

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了滞后偏好优化（HPO）方法，这是一种训练语言模型提供金融时间序列咨询的新颖方法。该技术利用了强化学习原理，特别是使用观察到的结果来生成偏好对进行训练，而无需人工标注。将其应用于一个拥有40亿参数的模型以处理S&P 500股票时间序列，HPO在准确性和咨询质量方面均优于其更大的教师模型。 AI

影响引入了一种新颖的LLM训练方法，有望提高金融应用中的咨询质量。

排序理由这是一篇介绍LLM新训练方法的学术论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Yanwei Cui, Guanghui Wang, Xing Zhang, Peiyang He, Ziyuan Li, Bing Zhu, Wei Qiu, Xusheng Wang, Zheng Yu, Anqi Xin · 2026-04-28 04:00

Hindsight Preference Optimization for Financial Time Series Advisory

arXiv:2604.23988v1 Announce Type: new Abstract: Time series models predict numbers; decision-makers need advisory -- directional signals with reasoning, actionable suggestions, and risk management. Training language models for such predictive advisory faces a fundamental challeng…

报道来源 [1]

Hindsight Preference Optimization for Financial Time Series Advisory

相关实体

相关话题