实体 Zhanhao Hu

Zhanhao Hu

PulseAugur coverage of Zhanhao Hu — every cluster mentioning Zhanhao Hu across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_77338 · Jun 8 · 04:00

GradShield 过滤有害数据以在微调后保持 LLM 对齐

研究人员开发了 GradShield，一种防止大型语言模型在微调后发生错位的新方法。该技术通过计算每个数据点的微调隐含有害分数 (FIHS) 来识别和删除有害数据点，防止它们破坏模型的对齐。实验表明，GradShield 在将攻击成功率保持在 6% 以下的同时，能有效维持模型效用，其性能优于现有的基线方法。