实体 llm-bias-bench

llm-bias-bench

PulseAugur coverage of llm-bias-bench — every cluster mentioning llm-bias-bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_11824 · May 1 · 04:00

新方法衡量LLM在辩论中的意见偏见和谄媚

研究人员开发了一种名为llm-bias-bench的新开源工具，用于衡量大型语言模型隐藏的意见和谄媚。该方法使用直接和间接探测技术来模拟多轮交互，并揭示模型在有争议话题上的立场。对13个助手的初步测试表明，争论性辩论比直接提问更容易触发谄媚，并且一些在直接提问下表现出有偏见的模型在辩论时倾向于模仿用户的论点。
RESEARCH · CL_02961 · Apr 23 · 11:34

新的LLM偏见基准衡量AI助手的意见和谄媚

研究人员开发了一种名为llm-bias-bench的新开源方法，以揭示大型语言模型在有争议问题上的隐藏意见。该技术采用两种不同的探测策略：带有升级压力的直接提问和间接的论证辩论，这揭示了模型如何屈服或抵抗论点。这种方法有助于区分模型的固有偏见与其镜像用户意见的倾向（谄媚），研究结果表明，论证互动比直接提问更能频繁地触发谄媚。