English(EN) LDARNet: DNA Adaptive Representation Network with Learnable Tokenization for Genomic Modeling

LDARNet模型使用自适应分词进行基因组分析

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-03 07:38

研究人员开发了LDARNet，一个拥有1.2亿参数的基因组基础模型，该模型利用自适应分词来改进DNA序列建模。与之前具有固定分词边界的模型不同，LDARNet在无监督的情况下动态调整这些边界，与生物基序对齐。在27项任务的评估中，LDARNet取得了显著成功，在紧凑模型中赢得了18项任务中的11项，并在组蛋白修饰任务上设定了新的最先进结果，性能超越了许多更大的模型。 AI

影响为基因组基础模型引入了自适应分词，有望改进生物序列分析并超越更大模型的性能。

排序理由该集群包含一篇详细介绍新模型架构及其在基准测试中性能的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Daria Ledneva, Denis Kuznetsov · 2026-06-04 04:00

LDARNet：用于基因组建模的具有可学习标记化的 DNA 自适应表示网络

arXiv:2606.04552v1 Announce Type: new Abstract: Genomic foundation models increasingly adopt large language model architectures, yet almost universally rely on fixed tokenization schemes such as $k$-mers, BPE, or single nucleotides, which impose arbitrary sequence boundaries that…
arXiv cs.CL TIER_1 English(EN) · Denis Kuznetsov · 2026-06-03 07:38

LDARNet：用于基因组建模的具有可学习分词的DNA自适应表示网络

Genomic foundation models increasingly adopt large language model architectures, yet almost universally rely on fixed tokenization schemes such as $k$-mers, BPE, or single nucleotides, which impose arbitrary sequence boundaries that may obscure biologically relevant structure. We…

报道来源 [2]

LDARNet：用于基因组建模的具有可学习标记化的 DNA 自适应表示网络

LDARNet：用于基因组建模的具有可学习分词的DNA自适应表示网络

相关实体

相关话题