multilayer perceptron

物理感知AI将物理学集成到训练循环中

本文详细介绍了物理感知AI的进展，特别是将物理原理直接集成到AI模型的训练循环中。与之前在生成后进行物理检查的方法不同，这种方法使用语言模型作为编码器，对可微分的数值头进行条件化。该头预测张量输出，允许直接在这些张量上计算物理残差，从而实现梯度反向传播，提高模型解决偏微分方程等物理问题的能力。

TOOL · CL_133576 · Jul 9 · 04:00

几何代数层在深度 3D 学习中展现优势

一项新近发表在 arXiv 上的研究，调查了神经网络中几何代数层在学习 3D 向量定律方面的有效性。该研究使用多层感知机 (MLP) 将 Clifford 代数 Cl(3,0) 原始元与更简单的标量化基线进行了比较。对于简单、单阶段的定律，标量化方法被证明更有效率和更有效。然而，对于复杂、嵌套的群操作，几何代数层显著优于基线，在达到可比结果时所需数据量减少了一个数量级。

TOOL · CL_133520 · Jul 9 · 04:00

新研究揭示了训练强大的轻量级游戏AI代理的关键技术

研究人员开发了一种稳健的方法，用于训练不完美信息纸牌游戏（如Gin Rummy和Leduc Hold'em）中的轻量级代理。通过使用一个固定的、强大的专家代理作为基准，他们确定了能够显著提高代理性能的关键训练技术。这些技术包括信任区域更新、有针对性的奖励、一系列难度递增的对手、预热启动以及保留最佳模型检查点。研究还发现，某些架构选择和训练方法（如学习状态嵌入、模仿学习以及使用大型语言模型作为对手）并无益处或计算成本过高。

TOOL · CL_133511 · Jul 9 · 04:00

新的审计工具揭示表示压缩在神经网络中滞后于泛化

开发了一个新的审计工具来分析神经网络中的“grokking”现象，特别是检查泛化后表示的压缩情况。该工具显示，对于模运算任务，嵌入压缩在泛化后可以持续数万步，显著高估了收敛值。研究表明，在 transformer 中添加 LayerNorm 可以减少 grokking 阶段的压缩程度。

RESEARCH · CL_133244 · Jul 8 · 03:21

SpiS-GAN 生成逼真手写体，改进识别系统 · 追踪 2 个来源

研究人员开发了 SpiS-GAN，一个用于合成逼真手写体的新颖框架，以解决训练手写识别系统所需标注数据稀缺的问题。该生成对抗网络在其生成器中使用了星螺旋块（Star-Spiral Blocks）和调制椭圆螺旋全连接层（Modulated Elliptical SpiralFC），使其比以前的基于 MLP 或 CNN 的模型更能追踪复杂草书轨迹。一项关键创新是 Sobel 正则化边缘重建损失（Sobel-Regularized Edge…

TOOL · CL_131692 · Jul 7 · 07:58

新的MARL框架通过延迟感知提升空中目标定位精度

研究人员开发了一个新的多智能体强化学习框架，旨在提高空中目标三维定位的精度，特别是在反无人机应用中。该框架通过将信息年龄（AoI）纳入观测，解决了检测、通信和决策中的累积延迟问题。实验表明，与假设瞬时反馈的方法相比，这种延迟感知的⽅法显著提高了三角测量有效性并降低了均方根误差。

RESEARCH · CL_131360 · Jul 7 · 07:03

神经网络架构对时间数据偏移的鲁棒性各不相同

一篇新发表在arXiv上的研究论文，探讨了不同的神经网络架构如何应对时间分布偏移（即真实世界数据随时间变化导致模型性能下降的现象）。该研究系统地比较了多层感知机、卷积神经网络、循环神经网络和基于Transformer的编码器等多种模型家族，应用于图像分类、文本分类和文本回归任务。研究结果表明，依赖高度特定特征的架构往往下降更快，而使用更广泛、更稳定表示（如预训练编码器）的架构则对这些时间偏移表现出更强的鲁棒性。

TOOL · CL_129336 · Jul 7 · 04:00

将量子电路集成到神经网络中以提高效率

研究人员引入了一个名为量子变分激活函数（QVAFs）的新框架，该框架利用参数化量子电路作为神经网络中可学习的激活函数。一个具体的实现DARUAN，在集成到Kolmogorov-Arnold网络（KANs）时，展示了指数级的参数减少和更高的表达能力，从而创建了受量子启发的KANs（QKANs）。这些QKANs提供了更高的参数效率和泛化能力，而混合架构（HQKANs）则旨在实现可扩展性，并有可能取代大型模型中的传统MLP。实验在函数回归、…

TOOL · CL_129189 · Jul 7 · 04:00

卷积神经过程在天气降尺度方面展现出潜力

研究人员探索了使用卷积条件神经过程（ConvCNPs）对天气数据进行降尺度，特别是瑞士的每日最高温度。ConvCNP模型改编自现有架构，并结合了高分辨率地形数据进行增强，其平均绝对误差为1.31摄氏度，相对于双线性插值的技能得分为0.524。消融研究强调了高程多层感知机（MLP）组件的关键作用，而季节性特征和地形位置指数提供了次要改进。研究还指出，虽然模型在输入稀疏的情况下能够良好运行，但它难以处理离网站点观测数据，并且由于其高斯似然…

TOOL · CL_128911 · Jul 7 · 04:00

新研究揭示了人工智能模型如何隐秘地通过几何对齐传播特征

研究人员在机器学习模型中展示了一种称为隐秘特征传播（CTP）的现象，即学生模型即使在用随机噪声训练的情况下也能继承教师模型的能力。这种转移不仅通过信息，还通过网络内部表示的几何对齐来实现，特别是输出投影 W_2 作为公共坐标键。实验表明，共享初始化至关重要，操纵特定网络层可以启用或禁用此特征传播，这表明对模型如何学习和转移知识有了更深入的机制理解。

RESEARCH · CL_128536 · Jul 6 · 17:55

TabPack 引入表格深度学习的高效超参数集成

研究人员推出 TabPack，一种用于表格深度学习创建高效超参数集成的新颖方法。与之前需要为每个多层感知器 (MLP) 进行大量超参数调优的方法不同，TabPack 并行训练具有不同超参数的多个 MLP，并在训练过程中动态选择集成成员。这种方法显著减少了对精确超参数规范和计算资源的需求，在默认设置下即可获得与精细调优方法相当的性能。

RESEARCH · CL_128435 · Jul 6 · 16:20

强化学习优化AI推理路由，提高吞吐量

研究人员开发了一种强化学习（RL）方法来优化AI系统的推理批处理和路由，特别是在多GPU环境中。他们的研究结果表明，虽然RL在单GPU设置中仅带来边际收益，但在异构多GPU路由场景中，其性能远超传统启发式方法。RL代理发现了一种工作负载隔离策略，通过消除队首阻塞（Head-of-Line blocking）来显著降低延迟并提高吞吐量，证明了RL在推理基础设施的复杂组合决策制定中的有效性。

TOOL · CL_123095 · Jul 2 · 16:54

用于多智能体活动识别的量子增强联邦学习框架

研究人员开发了QFedAgent，一个将量子计算与个性化联邦学习相结合用于多智能体活动识别的新颖框架。这种混合方法解决了多智能体系统中异构和非独立同分布（non-IID）传感器数据带来的挑战，这些数据通常会降低传统联邦学习算法的性能。QFedAgent利用变分量子电路进行融合，与经典方法相比显著减少了参数，并在OPPORTUNITY数据集上展示了具有竞争力的准确性。

RESEARCH · CL_128530 · Jul 1 · 00:00

FreshCache系统通过风险感知语义缓存优化LLM检索

研究人员开发了FreshCache，一个新颖的三层语义缓存系统，旨在降低检索增强型大型语言模型（LLM）的延迟和成本。FreshCache将缓存重用视为一个风险约束的时间推理问题，使用拟合的指数衰减模型和学习到的MLP来估计缓存数据过时的概率。与二元的过时/新鲜决策不同，这种方法允许数据随着时间的推移优雅地降级。在基准测试中，FreshCache在最小化过时错误的同时实现了显著的搜索API节省，其性能优于SemanticTTL和vCa…

TOOL · CL_121065 · Jul 1 · 00:00

Valdi: 用于快速MPC的扩散世界模型

研究人员开发了Valdi，一种用于模型预测控制（MPC）的世界模型的新方法，该方法将潜在扩散动力学模型与端到端在线训练相结合。该方法旨在通过使用扩散模型来解决MPC所需的快速和富有表现力的动力学预测的挑战，而扩散模型通常在实时规划方面速度较慢。在CarRacing环境上的初步实验表明，Valdi通过单次扩散步骤即可达到与确定性MLP基线相当的性能，尽管它突显了预测多模态性与控制性能之间的权衡。

TOOL · CL_118015 · Jun 30 · 04:00

新框架利用无人机和高斯溅射技术实现逼真的玻璃幕墙数字化

研究人员开发了RefGlass-GS，一个旨在创建具有高度逼真和交互式数字模型的建筑反射玻璃幕墙的新框架。该系统利用无人机（UAV）进行数据采集，并采用优化的高斯溅射技术，结合新颖的反射MLP，精确渲染复杂的反射。该框架还包括精确的玻璃面板分割方法和基于对象的建模标准化数据组织，增强了其在数字孪生平台等应用中的实用性。

TOOL · CL_117917 · Jun 30 · 04:00

深度学习工具可快速评估飓风后电网损坏情况并安排修复

研究人员开发了一种两阶段深度学习工具，以加快对电网进行飓风后损坏评估和修复调度。第一阶段使用MLP、ResMLP和GraphSAGE等模型识别损坏的线路，第二阶段计算修复计划，比较MLP、DeepSets和Set Transformer。该流程线采用ResMLP-Set Transformer配置，实现了0.920的损坏作业F1分数，并在顺序一致性和时间准确性方面表现出色，为飓风响应提供了快速的决策支持。

TOOL · CL_117908 · Jun 30 · 04:00

Transformer模型提升疫苗表位选择效率

研究人员开发了一种基于Transformer的主动学习方法，以提高疫苗表位选择的效率。该方法通过优化模型架构、训练配置和采集策略，显著提高了识别猪繁殖与呼吸综合征（PRRS）高亲和力结合表位的准确性。与随机抽样相比，主动学习策略（特别是使用Transformer模型）表现出更优越的性能，在某些条件下甚至优于在两倍数据量下训练的标准基线模型。

RESEARCH · CL_117712 · Jun 30 · 04:00

新方法以有限数据增强无监督跨模态检索 · 跟踪4个来源

研究人员正在开发新的无监督跨模态检索方法，旨在提高效率并减少对大型手动标注数据集的依赖。论文提出了属性提示核哈希（APKH）和全局邻域对齐哈希（GNAH）等技术，这些技术利用视觉语言基础模型和有限的配对数据来构建紧凑、对齐的汉明空间。另一种方法UniCA引入了双向交叉注意力和正相似性损失，以实现更鲁棒的多模态检索，并在WebQA+等基准测试中取得了改进。

RESEARCH · CL_117264 · Jun 29 · 15:14

形式证明显示 Transformer 可以执行精确的贝叶斯推理

一篇新论文正式证明了 Transformer 架构可以作为完整的贝叶斯过程运行。该研究在测度论核框架内进行，表明当 Transformer 满足特定的贝叶斯联合分布条件时，其内部计算等同于精确的贝叶斯后验推理。这种等价性从核心的贝叶斯 Transformer 到完整的多层堆栈都成立，其中 Softmax 注意力机制被特别证明可以诱导一个有效的概率分布。