PulseAugur
实时 08:36:22
实体 Zhanhao Hu

Zhanhao Hu

PulseAugur coverage of Zhanhao Hu — every cluster mentioning Zhanhao Hu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_77338 ·

    GradShield 过滤有害数据以在微调后保持 LLM 对齐

    研究人员开发了 GradShield,一种防止大型语言模型在微调后发生错位的新方法。该技术通过计算每个数据点的微调隐含有害分数 (FIHS) 来识别和删除有害数据点,防止它们破坏模型的对齐。实验表明,GradShield 在将攻击成功率保持在 6% 以下的同时,能有效维持模型效用,其性能优于现有的基线方法。