实体 PRBench

PRBench

PulseAugur coverage of PRBench — every cluster mentioning PRBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

RESEARCH · CL_53905 · May 27 · 04:00

新的基准和框架推动了人工智能模型鲁棒性评估的进步

研究人员推出了 PRBench，这是一个旨在标准化深度学习模型概率鲁棒性评估的新基准。该基准在准确性、鲁棒性、训练效率和泛化误差等多个指标上比较了各种对抗性训练（AT）和针对性概率鲁棒性（PR）的训练方法。研究结果表明，AT 方法在提高对抗性和概率鲁棒性方面更为通用，而 PR 目标方法则提供了更好的泛化能力和干净准确性。此外，一个使用离散连续性模（DMOC）的新框架提供了一种数据驱动的方法来评估神经网络的鲁棒性，超越了传统的 Lips…
RESEARCH · CL_05463 · Apr 27 · 07:34

大型语言模型难以复现物理实验结果，数值模拟能力欠佳

北京大学的一项新预印本评估了大型语言模型复现物理实验论文数值结果的能力。研究人员发现，包括由GPT-5.3驱动的OpenAI Codex在内的所有测试大型语言模型，端到端回调率均为0%，这意味着它们无法复现任何完整的数值结果。尽管模型展示了对论文方法的深刻理解，但在数据分析和数值模拟方面却持续出错，导致最终结果不正确。研究确定了多种失败模式，例如公式实现错误和复杂物理模型过度简化。