PulseAugur
实时 22:02:12
实体 arXiv

arXiv

PulseAugur coverage of arXiv — every cluster mentioning arXiv across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
4423
90 天内 4423
发布 · 30天
0
90 天内 0
论文 · 30天
4399
90 天内 4399
层级分布 · 90 天
关系
时间线
  1. 2026-05-26 research_milestone Publication of a research paper detailing a new multi-agent dialog system for industrial asset operations and maintenance. 来源
  2. 2026-05-20 research_milestone A new paper detailing a two-phase non-parametric retrieval workflow for corporate credit underwriting was published on arXiv. 来源
  3. 2026-05-18 controversy Controversy over AI-generated articles with fabricated citations on ArXiv. 来源
  4. 2026-05-17 regulatory arXiv will ban authors for one year if they allow AI to generate their work without significant human oversight. 来源
  5. 2026-05-16 regulatory ArXiv implements a policy to ban authors for a year if they rely entirely on AI for their submissions. 来源
  6. 2026-05-16 regulatory ArXiv will ban authors for one year if AI does all the work on their submissions. 来源
  7. 2026-05-15 regulatory arXiv implements a new policy against AI-generated hallucinations in research papers.
  8. 2026-05-15 regulatory arXiv is implementing a new policy to ban users who submit AI-generated content with hallucinations. 来源
  9. 2026-05-15 regulatory arXiv implements a new policy to ban submitters of AI-generated hallucinations. 来源
  10. 2026-05-15 regulatory ArXiv implements a new policy to ban authors for one year if their submitted papers show incontrovertible evidence of unchecked AI generation. 来源
  11. 2026-05-15 regulatory ArXiv implements a new policy banning researchers for one year for submitting AI-generated papers. 来源
  12. 2026-05-15 regulatory ArXiv implements a new policy to ban researchers for one year if their submissions contain incontrovertible evidence of unchecked AI-generated content. 来源
  13. 2026-05-15 regulatory ArXiv implements a new policy to ban researchers for one year for submitting papers with unchecked AI-generated content. 来源
  14. 2026-05-15 regulatory ArXiv implements a new policy banning researchers for one year for submitting papers with unchecked AI-generated content. 来源
情绪 · 30 天

25 天有情绪数据

最近 · 第 8/10 页 · 共 200 条
  1. TOOL · CL_44910 ·

    表格预测模型学习因果排序以提高准确性

    研究人员开发了一种名为TabOrder的新模型,该模型将因果结构学习集成到表格数据的上下文学习中。通过基于学习到的变量因果排序而非仅仅相关性模式进行预测,该方法旨在提高预测准确性,尤其是在分布变化或干预下。TabOrder无监督地学习这种最优排序,并在预测、插补以及在干预下提供生物数据见解方面取得了成功。

  2. TOOL · CL_44908 ·

    新框架通过选择性标签解决长期公平性问题

    研究人员开发了一个新框架,以解决机器学习模型中的长期公平性问题,特别是在标签被选择性揭示的情况下。所提出的方法将公平性分解为观察到的标签偏差和预测的标签偏差,从而可以使用标签预测器的置信度来估计真正的公平性。这一理论进展催生了一种新颖的强化学习算法,旨在通过选择性标签实现有效的长期公平决策,在半合成环境中,其性能可与具有真实标签访问权限的预言机相媲美。

  3. TOOL · CL_44900 ·

    Transformer输出多样性由架构预测

    研究人员开发了一种方法,可以根据Transformer模型的架构预测其能产生的独特序列数量。该分析为Transformer有时在简单的序列任务中失败提供了理论解释。研究结果表明,可访问序列的长度随提示长度线性增长,但这些序列的比例随序列长度呈指数级衰减。

  4. TOOL · CL_44891 ·

    新理论解释了为什么鲁棒的AI教师会损害学生模型

    研究人员发现了一种关键机制,解释了用于提高学生模型鲁棒性的对抗蒸馏技术为何成功率不一。他们发现,当一个鲁棒的教师模型在学生模型难以学习的数据点上提供自信的监督时,会导致学生模型过拟合噪声。相反,在这些具有挑战性的样本上表现出不确定性的教师模型,则有助于学生模型专注于可学习的、鲁棒的信号,从而实现更好的泛化。

  5. TOOL · CL_44884 ·

    AI 预测竞技游戏中的最佳策略切换

    研究人员开发了一个名为 TQP(Transition Quality Predictor)的新系统,以改进《Clash Royale》等竞技游戏中的策略推荐。与以往假设切换策略没有成本的系统不同,TQP 考虑了行为成本和玩家的个人倾向。该系统使用一个三阶段流程来确定谁应该切换、何时切换以及切换到什么策略,旨在提供比简单推荐最佳策略更有效的指导。

  6. TOOL · CL_44880 ·

    新平台旨在标准化世界模型研究

    研究人员推出 stable-worldmodel (swm),这是一个开源平台,旨在标准化和提高世界模型研究的可复现性。该平台解决了代码库碎片化、数据加载缓慢以及缺乏标准化泛化基准等关键挑战。SWM 提供了一个高性能数据层、世界模型基线和规划求解器的强大实现,以及一套全面的环境,用于评估世界模型的各个方面。

  7. TOOL · CL_44871 ·

    新框架通过面向特征的原型增强机器学习可解释性

    研究人员开发了“Alike Parts”,一个通过整合特征重要性来增强机器学习分类器可解释性的新框架。该方法突出了实例与其最近原型之间共享的特征子集,用于局部解释。此外,它促进了全局原型选择中的特征多样性,实验表明这可以维持或提高预测保真度。

  8. TOOL · CL_44860 ·

    新的 AC-GATE 框架揭示了时间序列中特定于实体的滞后模式

    研究人员开发了一个名为 AC-GATE 的新框架来分析面板时间序列数据,特别关注不同实体在不同时间段内如何响应历史信息。这种具有尺度不变滞后门的自适应条件编码器旨在使有效滞后成为模型的结构化输出,而不是依赖于事后解释。使用合成和真实国家级数据进行的评估证明了 AC-GATE 恢复异质滞后结构和生成有意义的有效滞后的能力。

  9. TOOL · CL_44856 ·

    研究发现污染数据中的线性回归出现双重下降

    研究人员调查了在训练数据被异常值污染的情况下,线性回归模型中出现的“双重下降”现象。他们的模拟研究将标准的最小二乘插值估计器与几种稳健的替代方法进行了比较。研究结果表明,即使在数据被污染的情况下,高度过参数化的模型仍然可以表现出双重下降,与稳健方法相比,具有更优的泛化性能。

  10. TOOL · CL_44854 ·

    新型Transformer模型在金融犯罪检测方面展现潜力

    研究人员开发了一种用于金融犯罪检测的时间对比Transformer (TCT) 模型,利用自监督学习从交易序列创建嵌入。虽然单独的TCT嵌入显示出0.8644的AUC的良好预测性能,但当与现有领域工程特征结合时,它们并未显著改善,实现了0.9205的AUC,而基线为0.9245。这表明该模型捕捉了相关的时间信号,但在超越既定特征工程方法方面增加了价值方面面临挑战,表明这是自动化金融犯罪分析中一个有前景但中间的步骤。

  11. TOOL · CL_44853 ·

    新的Symphony系统增强了实时医疗语音识别

    研究人员开发了Symphony for Speech-to-Text,一个专为实时医疗语音接口设计的新系统。该系统旨在通过将转录过程分解为识别、格式化和上下文校正的专业组件,来提高医疗保健环境中语音识别的准确性和可靠性。评估表明,Symphony在临床数据集上的表现优于现有的最先进系统,同时在通用领域数据上保持了强劲的性能,暗示了其广泛的适用性。该系统现在可以通过API用于各种临床用例,包括实时听写和批量处理。

  12. TOOL · CL_44845 ·

    新方法校准谱值以改进AI模型合并

    研究人员推出了一种名为奇异值校准(SVC)的新型后处理技术,旨在通过解决谱过剩累积问题来改进模型合并。该方法量化并重新缩放跨任务共享知识中的重叠谱方向,防止奇异值和子空间偏差的膨胀。SVC无需训练、无需数据,已在视觉和语言基准测试中展现出持续的性能提升,增强了现有的合并基线并取得了最先进的成果。

  13. TOOL · CL_44843 ·

    量化研究使更小、更准确的Whisper-small ASR成为可能

    一篇新发布的arXiv研究论文评估了用于Whisper-small自动语音识别模型的各种训练后量化(PTQ)技术。该研究测试了PyTorch、Optimum-Quanto、HQQ和bitsandbytes等库,发现使用Quanto的动态int8量化在压缩和准确性之间取得了最佳平衡。该方法将模型大小减少了57%,同时在LibriSpeech数据集上略微提高了词错误率,使得Whisper-small更容易部署在资源受限的设备上。

  14. RESEARCH · CL_44836 ·

    AI代理在程序验证和定理证明方面展现出潜力

    研究人员正在探索使用基于代理的AI系统,特别是那些利用大型语言模型(LLMs)的系统,来处理程序验证和数学定理证明等复杂任务。研究表明,这些系统在生成有效规范和认证代码方面取得了很高的成功率,有时在新基准测试中表现优于专用模型。然而,研究也突显了当前AI能力与现有验证基准的严谨性之间日益扩大的差距,表明需要更稳健的评估方法。

  15. TOOL · CL_44831 ·

    新的西班牙网络安全大模型 VectraYX-Nano 集成了原生工具使用能力

    研究人员开发了 VectraYX-Nano,一个拥有 4200 万参数、专门为拉丁美洲的西班牙语网络安全任务训练的语言模型。该模型包含了一个新颖的西班牙网络安全语料库、一个专门的 Transformer 解码器架构,以及带有回放机制的课程学习。值得注意的是,它通过模型上下文协议 (MCP) 具备了原生工具调用能力,使其成为首个发布并实现端到端 MCP 集成的西班牙语原生网络安全大模型。

  16. TOOL · CL_44824 ·

    新框架增强了从科学论文中提取结构化信息的能力

    研究人员开发了STRUCT-SENSE,一个开源框架,旨在改进从科学文献中提取结构化信息。这个任务无关的系统结合了本体引导的符号知识、代理式自我完善和人工在环验证。在模式匹配提取、论文元数据提取和神经科学命名实体识别等任务上的评估证明了其泛化能力和准确性,甚至在某些生物医学基准测试中提取了超出黄金标准注释的额外实体。

  17. TOOL · CL_44815 ·

    BEiTScore 提供高效、无参考的图像字幕评估

    研究人员开发了 BEiTScore,这是一种新颖的图像字幕评估指标,解决了现有方法的局限性。这种新指标利用了一个高效的交叉编码器模型,该模型从视觉问答检查点初始化,以提供更敏感且计算上可行的评估。BEiTScore 在包含对抗性增强的多元数据集上进行训练,并在为详细字幕评估设计的新基准上展示了最先进的性能。

  18. TOOL · CL_44798 ·

    AI代理需要系统安全,而不仅仅是模型鲁棒性

    一篇新论文认为,保护AI代理需要系统层面的方法,将AI模型视为一个不可信的组件。研究人员提议将既定的系统安全原则应用于代理设计,并声称仅关注模型鲁棒性是不够的。该论文分析了十一个现实世界的代理攻击,展示了系统级安全如何能够阻止它们,并概述了剩余的研究挑战。

  19. TOOL · CL_44790 ·

    WriteSAE 可直接操控循环语言模型状态

    研究人员开发了 WriteSAE,这是一种新颖的稀疏自编码器,旨在操控循环语言模型状态内的矩阵更新。该方法学习秩-1 矩阵原子,直接替换模型自身的矩阵更新,在最终标记分布准确性方面显示出显著的改进。该技术已成功应用于 Gated DeltaNet 和 Mamba-2 等模型,展示了其在引导模型生成和理解内部状态动态方面的潜力。

  20. RESEARCH · CL_44788 ·

    新的分布外检测方法展现出领先性能和效率提升

    研究人员开发了一种名为ConjNorm的新型分布外(OOD)检测方法,该方法将密度函数设计重新构建为优化范数系数。该方法在OOD检测基准测试中展现出领先性能,显著优于先前的方法。与此同时,一项比较研究发现,传统的机器学习方法在分布外检测方面可以达到与深度学习方法相媲美的性能,尤其是在医学影像等视觉复杂度较低的领域,同时提供更高的计算效率和更低的延迟。