English(EN) Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals

小波标记统一音频、图像和视频处理

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员提出了一种新颖的方法，使用小波作为音频、图像和视频的通用标记方法，摆脱了特定于模态的潜在网格。他们的初步模型采用 Haar DWT/IDWT 前端和共享系数标记布局，在语音、图像和视频的基准数据集上取得了显著的 PSNR 分数。研究表明，统一的小波标记模式是可行的，进一步的实验表明稀疏训练和能量选择方法提供了有效的压缩策略。 AI

影响提出了一种多模态AI的统一标记方法，可能简化模型架构并提高效率。

排序理由该集群包含一篇详细介绍新信号处理方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shenghao Ding · 2026-06-03 04:00

小波作为分词器：共享小波分词模式在自然信号上的初步结果

arXiv:2606.02631v1 Announce Type: cross Abstract: This paper studies whether audio, images, and video can share a common wavelet token schema rather than relying on separate modality-specific latent grids. It introduces a preliminary continuous-token model built around a one-leve…

报道来源 [1]

小波作为分词器：共享小波分词模式在自然信号上的初步结果

相关实体

相关话题