实体 Hindsight Preference Optimization

Hindsight Preference Optimization

PulseAugur coverage of Hindsight Preference Optimization — every cluster mentioning Hindsight Preference Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_06799 · Apr 28 · 04:00

AI利用滞后优化金融时间序列咨询

研究人员开发了滞后偏好优化（HPO）方法，这是一种训练语言模型提供金融时间序列咨询的新颖方法。该技术利用了强化学习原理，特别是使用观察到的结果来生成偏好对进行训练，而无需人工标注。将其应用于一个拥有40亿参数的模型以处理S&P 500股票时间序列，HPO在准确性和咨询质量方面均优于其更大的教师模型。

AI利用滞后优化金融时间序列咨询