实体 premise

premise

PulseAugur coverage of premise — every cluster mentioning premise across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_62713 · Jun 1 · 04:00

新框架审计大型语言模型（LLM）裁判的评分标准，以确保其可靠性和鲁棒性

研究人员开发了 PReMISE 框架，旨在评估大型语言模型（LLM）裁判所使用的评分标准的有效性。该框架将评分标准视为测量规范，分析其结构充分性、可靠性、偏好匹配度和对抗性鲁棒性。研究结果表明，没有单一的评分标准来源能够同时具备可靠性、预测偏好能力和对抗剥削的鲁棒性。PReMISE 提供了修复操作，以提高裁判的准确性并降低易受剥削的响应获得高分的比率。