PulseAugur
实时 21:19:09
实体 spear

spear

PulseAugur coverage of spear — every cluster mentioning spear across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
时间线
  1. 2026-05-08 research_milestone Publication of a new algorithm for federated LLM fine-tuning. 来源
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_26325 ·

    新的自玩方法在没有人类数据的情况下改进LLM

    两篇新的研究论文介绍了在没有人类监督的情况下微调大型语言模型的创新自玩算法。第一个,TPAW,使用一种基于团队的方法,模型与历史检查点竞争和协作,采用自适应加权响应和玩家来提高稳定性和效率。第二个,SPEAR,专注于在线联邦微调与实时反馈,使用优势加权细化和置信度加权非似然性来训练从部分反馈派生的对比对,使其能够高效地用于边缘设备。