Vits · PulseAugur

视觉模型适应性取决于高分辨率下的全局注意力

研究人员发现，冻结的视觉基础模型适应细粒度分割任务的能力，很大程度上取决于骨干网络是否将全局注意力应用于高分辨率的令牌集。在整个网格上进行全局注意力的各向同性视觉 Transformer (ViT) 随着分辨率的提高而持续改进，而那些在全局阶段之前对信息进行池化的分层骨干网络则在较低分辨率下达到平台期。这种效应特定于低秩适应技术。一个名为 SALT (Side-stem, Attention-gated U-Net, Low-rank…

RESEARCH · CL_128520 · Jul 5 · 21:37

首个埃菲克语语音合成系统问世

研究人员开发了首个端到端的文本到语音（TTS）系统，用于埃菲克语，一种在尼日利亚使用的低资源声调语言。该研究创建了一个包含2,632个发音的语料库，并评估了四种神经网络模型：VITS、MMS-TTS、SpeechT5和Orpheus-TTS。MMS-TTS表现最佳，MOS得分为3.80，但仍存在声调错误。研究结果强调了非洲语言需要更大的数据集和声调感知模型。

TOOL · CL_114149 · Jun 28 · 03:05

NagaTranslate 使用 LLMs、Whisper、VITS 构建低资源语言管线

一个名为 NagaTranslate 的项目正在为印度那加兰邦的低资源语言（包括 Nagamese、Ao 和 Sema）开发翻译和语音管线。该系统利用商业 LLM API 进行文本翻译，利用微调后的 VITS 模型进行语音合成，并利用微调后的 Whisper 模型进行语音识别。开发者正在寻求关于自托管开放权重模型、处理 Nagamese 的拼写变体以及用有限数据提高 TTS/ASR 对地区口音的鲁棒性的建议。

RESEARCH · CL_97987 · Jun 17 · 16:26

新框架探究 Vision Transformer 的几何结构和表征动态

研究人员引入了 Transformer Geometry Observatory (TGO) 框架，旨在探索 Vision Transformers (ViTs) 的表征几何结构。首个版本 TGO-I 专门研究 ViT 表征的光谱几何结构。在 ImageNet-100 上训练的 ViT-Small/16 模型实验表明，随着训练的进行，维度利用率增加，而各向异性降低。与预期相反，信息在表征维度之间重新分配，而不是集中在少数几个主导方向上…

RESEARCH · CL_68555 · Jun 2 · 04:45

$A^2$ 方法使用小型 ViT 实现更好的物体定位

研究人员开发了一种名为 $A^2$ 的新方法，通过更好地定位前景物体来改进视觉分类。令人惊讶的是，更小的自监督 Vision Transformers (ViTs) 比更大的 ViTs 产生更准确的定位注意力图。$A^2$ 方法结合了用于注意力裁剪的小型 ViT 和用于丰富特征提取的大型 ViT，在五个基准测试中取得了有竞争力的结果，而无需分组标签或特定数据集的训练。

RESEARCH · CL_66328 · Jun 2 · 04:00

新型 AI 模型提升医学图像分割精度

研究人员开发了两种改进医学图像分割的新方法。一种方法通过添加轻量级边界框预测器来增强 MedSAM 模型，该预测器使用单击即可估算边界框，以最小的开销提高了在各种数据集上的准确性。另一种方法探索纯粹的 VRWKV 模型，引入了频率感知小波注意力和多尺度通道融合模块，即使参数更少，也能与现有方法相比取得具有竞争力或更优的性能。

RESEARCH · CL_65987 · Jun 1 · 14:09

LLM激活尖峰被识别为结构向量偏见

研究人员发现，大型语言模型（LLM）中的大规模激活尖峰并非简单的标量偏见，而是特定token内的结构向量偏见。这些向量通过模型的投影权重和位置嵌入得以保留，即使在扰动下也是如此。为了解决这些尖峰在量化过程中造成的性能下降问题，开发了一种名为INSERTQUANT的新型训练后量化框架。该方法对尖峰进行钳制并恢复其功能，从而能够实现跨模态的高保真度、鲁棒的低比特量化。

TOOL · CL_58778 · May 29 · 04:00

新的模型融合技术提高了零样本性能

研究人员开发了一种新的以神经元为中心的模型融合方法，解决了独立训练的神经网络中表示发散带来的挑战。该方法将融合视为一个表示匹配问题，对齐模型间的中间神经元以近似目标表示。它结合了神经元归因分数来优先考虑显著特征，并适用于各种架构，尤其在零样本和非独立同分布（non-IID）数据场景下表现出显著的改进。

TOOL · CL_40938 · May 19 · 10:00

UniRefiner 框架教会 ViT 丢弃虚假 token

研究人员开发了 UniRefiner，一个旨在提高 Vision Transformer (ViT) 模型空间精度的框架。该方法教会预训练的 ViT 识别和丢弃可能降低空间敏感任务性能的无关或虚假 token。通过使用对比寄存器和双重目标，UniRefiner 能够以最小的微调来优化各种 ViT，从而在语义分割等任务中取得显著改进。

TOOL · CL_37975 · May 18 · 07:51

新的MARR技术提升了LLM和ViT的低比特量化性能

研究人员开发了一种名为模块自适应残差重构（MARR）的新技术，以改进大型语言模型和视觉变换器的低比特训练后量化。MARR通过自适应地平衡不同模型模块之间的误差校正和偏差来解决现有方法的局限性。该方法使用特定于模块的缩放系数和基于PID的更新策略来优化系数，从而在4位或更低的量化级别上带来显著的性能提升。

TOOL · CL_32560 · May 14 · 13:09

Vision Mamba模型在AI生成图像检测方面展现出潜力

一项新的研究论文调查了Vision Mamba模型在检测AI生成图像方面的有效性。该研究系统地评估了各种Vision Mamba架构与CNN、ViT和VLM等既有方法。研究结果表明，虽然Vision Mamba展现出潜力，但目前在区分真实和合成视觉内容方面仍存在局限性。

TOOL · CL_28287 · May 11 · 15:49

新的 FedMITR 框架增强了 ViTs 的单次联邦学习

研究人员开发了一个名为 FedMITR 的新框架，以改进单次联邦学习，特别是在高度非独立同分布 (non-IID) 数据的情况下。该方法通过采用稀疏模型反演来关注有意义的图像块并避免背景噪声，从而解决了现有方法生成的低质量合成数据的问题。此外，FedMITR 还采用了一种用于 Vision Transformers (ViTs) 的 Token 重标号策略，通过区分高信息密度和低信息密度块来增强预测鲁棒性。

RESEARCH · CL_21785 · May 7 · 17:28

SoftSAE 引入动态稀疏性以实现自适应神经网络可解释性

研究人员推出 SoftSAE，这是一种新颖的自适应稀疏自编码器，旨在提高神经网络的可解释性。与使用固定数量特征的传统方法不同，SoftSAE 根据单个输入的复杂性动态调整稀疏度级别。这使得模型能够为每个数据样本选择适当数量的特征，从而获得更准确、信息量更大的表示。SoftSAE 的源代码是公开可用的。

TOOL · CL_18586 · May 6 · 04:00

新指标评估文本到语音的语音质量和自然度

研究人员开发了一种基于指标的方法，通过分析语音映射来评估文本到语音（TTS）系统的质量。该研究评估了包括 VITS、Glow-TTS 和 Tacotron 2 在内的六种有影响力的 TTS 模型，使用了峰值因子、频谱平衡和倒谱峰值突出度（CPPs）等指标。研究结果表明，语音范围是模型能力的关键指标，其中 VITS 显示出最宽的范围，而 Glow-TTS 在柔和发音方面表现出色。研究还确定，7-8 dB 之间的 CPPs 值与自然的语音…