PulseAugur
实时 02:08:18
实体 IndustryBench

IndustryBench

PulseAugur coverage of IndustryBench — every cluster mentioning IndustryBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-11 research_milestone Introduction of IndustryBench, a new benchmark for evaluating LLMs on industrial knowledge and safety. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_27492 ·

    新基准揭示大型语言模型在工业安全和标准方面存在困难

    研究人员开发了IndustryBench,一个旨在评估大型语言模型(LLMs)处理工业采购任务能力的新基准。这些任务通常涉及复杂的标准和安全法规。该基准包含2,049个中文条目及其翻译,结果显示即使是表现最佳的模型在准确性和安全合规性方面也存在困难,扩展推理常常导致安全关键性错误。评估方法将原始正确性与安全违规检查分开,表明安全调整会显著改变模型排名,突显了在专业领域需要更强大、更注重安全的LLM评估。