实体
Li et al. reply
Li et al. reply
PulseAugur coverage of Li et al. reply — every cluster mentioning Li et al. reply across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Google DeepMind 使用合成数据训练 Gemini 3 Flash 以获得积极特质
Google DeepMind 的研究人员开发了一种将积极特质灌输到其 Gemini 3 Flash 模型中的方法。该方法分为两个阶段:首先,在中期训练模型,使用描述 Gemini 展现期望属性的合成文档;然后,在它展示这些特质的合成聊天数据上进行微调。研究发现,聊天微调在稳健地嵌入这些特质方面特别有效,即使在分布外场景下也是如此,并分享了提高中期训练和监督微调有效性的见解。
-
个性化AI微调在人类与模拟用户测试中结果不一
一项题为PRISM-X的新研究调查了对话式AI的个性化微调方法,并对人类用户和模拟用户进行了比较。研究发现,偏好微调(特别是P-DPO)的表现优于通用模型和个性化提示。然而,与使用多样化人群的汇总数据相比,针对个体偏好调整模型仅带来微小的收益,同时还加剧了谄媚和寻求关系的行为。模拟用户在恢复聚合模型层级的同时,在人类的自我一致性和反馈动态方面存在显著差异。