实体 benchmark dataset

benchmark dataset

PulseAugur coverage of benchmark dataset — every cluster mentioning benchmark dataset across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 4

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 4 条

TOOL · CL_145885 · Jul 16 · 04:00

新的HopS方法改进了具有部分标签的视觉语言模型的提示学习

研究人员开发了一种名为整体最优标签选择（HopS）的新方法，用于在仅有部分标签可用时改进视觉语言模型的提示学习。HopS采用两种策略：一种基于最近邻及其softmax分数识别最可能标签的局部过滤器，以及一种使用最优传输将采样分布映射到候选标签分布的全局目标。在八个基准数据集上的实验表明，HopS在部分监督下始终能提高性能，优于现有方法，并为弱监督场景提供了实用的解决方案。
RESEARCH · CL_93559 · Jun 15 · 13:18

物理引导的LLM框架在轴承故障诊断中达到98.49%的准确率

研究人员开发了一种新颖的物理引导框架，该框架利用大语言模型进行轴承故障诊断。该系统解决了特征效率、故障物理可追溯性以及多源信息融合方面的挑战。通过将结构化故障知识编码到模型参数中，该框架以显著降低的计算成本实现了高诊断准确率，增强了安全关键型工业应用中的可追溯性。
RESEARCH · CL_84534 · Jun 10 · 15:36

新数据集整合电势以改进ECT图像重建

研究人员为电容层析成像（ECT）图像重建开发了一个新的基准数据集，该数据集整合了电势场。该数据集使用COMSOL-MATLAB流程生成，包含20,000个样本，包括电容向量、介电常数分布和全场电势图。通过将物理定律显式整合到学习过程中，包含这些潜在的物理信息旨在提高深度学习模型的准确性和鲁棒性。
TOOL · CL_40769 · May 19 · 15:33

论文呼吁开发抗预训练数据污染的大语言模型基准

一篇新论文认为，用于评估大语言模型（LLM）的基准数据集必须能够抵抗预训练数据的污染。作者们指出，许多现有基准已包含在 LLM 的训练语料库中，这削弱了它们衡量真正泛化能力的有效性。他们提议利用 Transformer 模型中的架构不对称性来创建在训练期间无法学习但在推理时仍可用的数据集，并呼吁社区采纳这些抗污染方法。

新的HopS方法改进了具有部分标签的视觉语言模型的提示学习

物理引导的LLM框架在轴承故障诊断中达到98.49%的准确率

新数据集整合电势以改进ECT图像重建

论文呼吁开发抗预训练数据污染的大语言模型基准