实体 Cola

Cola

PulseAugur coverage of Cola — every cluster mentioning Cola across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 7

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 7

层级分布 · 90 天

主题

关系

instance of SST-2 Benchmark 50%

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 7 条

RESEARCH · CL_133148 · Jul 8 · 06:23

新的黎曼几何方法增强语言模型嵌入

研究人员开发了一种名为黎曼均值池化（RMP）的新方法，用于分析预训练语言模型嵌入的几何结构。该技术在对称正定流形上使用黎曼几何和弗雷歇聚合来提取每个标记的度量。在CoLA、CREAK和RTE等数据集上的实验表明，RMP在处理具有复杂语言结构的复杂数据集时，优于传统的欧几里得均值池化，这表明几何聚合在提高可解释性和安全性方面起着关键作用。
TOOL · CL_129193 · Jul 7 · 04:00

SAD-LoRA 通过谱对齐改进低秩知识蒸馏

研究人员推出了一种新颖的低秩知识蒸馏方法 SAD-LoRA，该方法专注于对齐适配器权重子空间的谱属性。该方法旨在通过确保适配器占据教师模型更新的相关子空间来改进参数高效压缩。在合成数据和 RoBERTa-large 到 RoBERTa-base 在 GLUE 任务上的蒸馏实验表明，SAD-LoRA 显著增强了子空间对齐和秩效率，在低秩设置下优于现有的谱基线。
RESEARCH · CL_106575 · Jun 22 · 09:19

CoLA框架通过双路径LoRA增强多模态AI适配

研究人员推出CoLA（Cross-Modal Low-rank Adaptation），一个旨在高效适配基础模型以用于多模态任务的新框架。与现有方法分别独立适配各模态不同，CoLA在标准的模态内适配路径之外，增加了一条模态间适配路径。这种双路径方法可以在不干扰模态特定学习和跨模态学习的情况下实现有效适配。在视觉语言和音频视觉基准上的评估显示，CoLA的性能分别比标准LoRA高出约3%和2%，同时保持了参数效率。
TOOL · CL_53706 · May 27 · 04:00

StreamSplit 使边缘设备上的高效连续音频学习成为可能

研究人员开发了 StreamSplit，一个旨在使对比学习在资源约束波动的边缘设备上变得实用的新框架。该系统使用一种基于分布的方法将表示质量与局部批次大小解耦，并采用混合损失（Hybrid Loss）来保证稀疏更新的保真度。一个由强化学习策略驱动的、不确定性引导的自适应分割器（Uncertainty-Guided Adaptive Splitter）通过整合实时资源监控和嵌入模糊性，动态地划分计算，以优化准确性和延迟。
RESEARCH · CL_30733 · May 13 · 15:11

大语言模型预训练研究探索稀疏与密集及低秩方法

两篇新研究论文探讨了大语言模型高效预训练的方法。第一篇论文在小规模上比较了密集和稀疏的专家混合（MoE）Transformer架构，发现MoE模型在匹配激活参数时能改善验证损失，但在总参数容量相等的情况下，其性能并不超过密集模型。第二篇论文研究了各种低秩预训练技术，表明即使验证困惑度相似，这些方法也会收敛到几何上不同的解，并且不能完全复制全秩训练的泛化能力或内部表示。
RESEARCH · CL_14140 · Apr 30 · 21:35

Lost in State Space: Probing Frozen Mamba Representations

一篇新的研究论文调查了 Mamba（一种循环神经网络架构）的内部工作原理。该研究测试了一个假设，即 Mamba 的状态可以直接产生语义句子摘要，而无需额外训练。然而，研究结果表明，这种方法并不总是优于更简单的池化技术。研究发现了 Mamba 冻结状态中存在显著的表示坍塌和各向异性问题。
RESEARCH · CL_05149 · Apr 27 · 04:00

LoRA微调研究表明秩1已足够，并提出数据感知初始化方法

三篇新研究论文探讨了优化大型语言模型LoRA微调的方法。其中一篇论文提出将LoRA秩阈值降低到1，用于二分类任务，并显示出与更高秩相当的性能。另一项研究引入了一个基于Fisher的框架，该框架利用数据感知敏感性来选择最优LoRA子空间，从而提高下游性能。第三篇论文分析了LoRA权重更新的谱结构，发现低频分量占主导地位，并建议将谱稀疏性作为参数高效微调的设计原则。