实体
SLED
SLED
PulseAugur coverage of SLED — every cluster mentioning SLED across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 2 条
-
新研究解决 LLM 的事实准确性、安全性和复杂任务性能问题
研究人员正在开发新方法来提高大型语言模型 (LLM) 的可靠性和安全性。Google Research 推出了 SLED,这是一种利用所有 LLM 层来提高事实准确性的解码策略,无需额外的微调或外部数据。同时,出现了 SafeVec 和 StatABench 等新的评估框架,分别用于衡量 LLM 的安全性和统计分析能力。其他研究探讨了 LLM 如何处理冲突指令以及它们在软件性能优化和 Verilog 调试等复杂任务中的局限性,并致力于…
-
Google Research 评估大语言模型对齐并提高事实准确性
Google Research 开发了一个新的框架来评估大语言模型与人类社会倾向的行为对齐情况。该方法将已建立的心理学问卷改编成大规模情境判断测试,从而能够量化模型在现实场景中的倾向。研究发现了模型行为偏离人类共识或未能捕捉人类意见范围的差距,旨在改善大语言模型在社会动态中的导航能力。另外,Google Research 还推出了 SLED,这是一种新颖的解码策略,通过利用模型的所有层而不是仅最后一层来提高大语言模型的准确性,且无需外…