PulseAugur
实时 08:07:31
实体 Dynamic Boundary Evaluation

Dynamic Boundary Evaluation

PulseAugur coverage of Dynamic Boundary Evaluation — every cluster mentioning Dynamic Boundary Evaluation across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_22499 ·

    研究人员提出超越固定基准的LLM动态边界评估方法

    研究人员引入了动态边界评估(DBE),一种超越静态基准的大型语言模型(LLM)评估新方法。DBE专注于识别模型成功率约为50%的性能边界,从而创建一个更具信息量且可比的难度量表。该方法利用了一个校准的项目库和技能引导边界搜索算法,即使只有API访问权限,也能在安全、能力和真实性等各个领域自适应地评估模型。