实体 Kimi-k2.5-1T-A32B

Kimi-k2.5-1T-A32B

PulseAugur coverage of Kimi-k2.5-1T-A32B — every cluster mentioning Kimi-k2.5-1T-A32B across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_27492 · May 11 · 09:30

新基准揭示大型语言模型在工业安全和标准方面存在困难

研究人员开发了IndustryBench，一个旨在评估大型语言模型（LLMs）处理工业采购任务能力的新基准。这些任务通常涉及复杂的标准和安全法规。该基准包含2,049个中文条目及其翻译，结果显示即使是表现最佳的模型在准确性和安全合规性方面也存在困难，扩展推理常常导致安全关键性错误。评估方法将原始正确性与安全违规检查分开，表明安全调整会显著改变模型排名，突显了在专业领域需要更强大、更注重安全的LLM评估。

新基准揭示大型语言模型在工业安全和标准方面存在困难