PulseAugur
实时 12:49:36
实体 premise

premise

PulseAugur coverage of premise — every cluster mentioning premise across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_62713 ·

    新框架审计大型语言模型(LLM)裁判的评分标准,以确保其可靠性和鲁棒性

    研究人员开发了 PReMISE 框架,旨在评估大型语言模型(LLM)裁判所使用的评分标准的有效性。该框架将评分标准视为测量规范,分析其结构充分性、可靠性、偏好匹配度和对抗性鲁棒性。研究结果表明,没有单一的评分标准来源能够同时具备可靠性、预测偏好能力和对抗剥削的鲁棒性。PReMISE 提供了修复操作,以提高裁判的准确性并降低易受剥削的响应获得高分的比率。