Lora
PulseAugur coverage of Lora — every cluster mentioning Lora across labs, papers, and developer communities, ranked by signal.
- used by Vít 90%
- instance of Low Rank Adaptation 90%
- used by large-language models 70%
- used by peft 70%
- instance of Direct Preference Optimization 70%
- used by Glue 70%
- used by magazine 70%
- used by supervised fine-tuning 70%
- developed large-language models 70%
- used by Bert 70%
- used by Dopravní podnik Ostrava 70%
- used by Transformer Reinforcement Learning 70%
- 2026-05-12 research_milestone A paper is published detailing findings on parameter placement in LoRA for fine-tuning. 来源
16 天有情绪数据
-
基础模型在癌症研究中分类非典型有丝分裂方面显示出潜力
研究人员对深度学习和视觉基础模型进行了分类非典型与正常有丝分裂的基准测试,这是肿瘤恶性程度的关键指标。该研究评估了端到端训练的模型、线性探测和使用 LoRA 进行微调,涵盖了多个数据集,包括新引入的数据集。结果显示,在域内数据上的平均平衡准确率高达 0.81,在域外数据上的平均平衡准确率高达 0.77,证明了迁移学习技术在这一具有挑战性的分类任务中的有效性。
-
新管线生成合成工业缺陷以扩充稀缺的真实世界数据
研究人员开发了 SynSur,一个用于生成合成工业表面缺陷的端到端管线,以解决缺陷检测中标记数据稀缺的问题。该管线结合了视觉语言模型、LoRA 适配的扩散模型和掩码引导的图像修复技术,以创建逼真的缺陷样本。实验表明,虽然合成数据本身不能替代真实数据,但当与现有数据集结合使用时,可以提高性能,尤其是在改进训练方案和跨域迁移方面。
-
新框架 ILSE 通过聚合中间层数据来增强 LLM 预测
研究人员开发了层间结构编码器 (ILSE),这是一个新的训练后框架,旨在增强大型语言模型 (LLM) 的预测。ILSE 聚合了来自冻结 LLM 所有层的信息,克服了仅依赖最终层表示的局限性。该框架利用新颖的 Cayley-Encoder 模块进行高效的层间通信,并在各种任务和 LLM 大小上展示了显著的性能提升,甚至优于基于 LoRA 的微调。
-
CRC-SAM框架实现多模态结直肠癌分割
研究人员开发了CRC-SAM,一个用于分割CT、结肠镜和组织学等多种成像类型结直肠癌的新型框架。该系统基于MedSAM模型,并利用低秩适配(LoRA)技术进行高效迁移学习,以适应不同的医学成像领域。在多个数据集上的实验表明,CRC-SAM的性能优于现有方法,证明了轻量级适配基础模型在癌症分析中的有效性。
-
Praxy Voice 以最小的干预实现了商业级印度语 TTS
研究人员开发了 Praxy Voice,一种使用预训练的非印度语模型来改进印度语文本到语音 (TTS) 的方法。该方法结合了用于脚本罗马化的 Brahmic Unified Phoneme Space (BUPS)、用于文本令牌预测器的 LoRA 适配器以及语音提示恢复技术。该方法在无需新的声码器训练或商业 TTS 数据的情况下,实现了泰卢固语、泰米尔语和印地语的商业级音频输出。
-
Fed-FSTQ 将边缘设备上的LLM微调流量减少了46倍
研究人员开发了Fed-FSTQ,一种用于在边缘设备上高效进行大型语言模型(LLM)联邦微调的新系统。该方法使用Fisher代理来指导令牌量化,优先处理重要信息并减少冗余传输。Fed-FSTQ旨在做到模型无关,并兼容现有的联邦学习管道(如LoRA),支持带宽异构的客户端。实验表明,上行流量显著减少,达到准确度的时间缩短,并在边缘硬件上具有潜在的速度提升。
-
CARD框架通过集群级自适应增强个性化文本生成
研究人员引入了CARD,一个旨在高效地为个别用户个性化大型语言模型的新颖框架。CARD采用分层方法,首先根据风格相似性对用户进行聚类,然后应用轻量级的、特定于集群的适配器。这种方法即使在数据有限的情况下也能实现强大的泛化能力和有效的个性化。在推理时,通过解码调整和偏好向量实现个性化,同时保持基础模型不变。
-
ECG基础模型在心脏病筛查方面展现潜力
研究人员开发了一种方法,用于将预训练的心电图(ECG)基础模型改编用于筛查结构性心脏病(SHD)。通过在EchoNext数据集上应用领域内自监督适应和选择性监督微调,这些改编后的模型在检测六种特定的超声心动图衍生异常方面取得了优越的性能。研究强调,这种结合了适应和微调的迁移学习策略是基于ECG的病例发现和超声心动图分诊最有效的方法。
-
新管线增强白细胞分类在领域迁移下的鲁棒性
研究人员开发了一种分层集成推理管线,以提高自动化白细胞分类的准确性,特别是在存在领域迁移的情况下。该方法利用了带有DinoBloom骨干网络的内存增强方法,通过LoRA进行微调,并在多个阶段结合了k近邻检索。该管线在ISBI 2026挑战赛的WBCBench数据集上进行了测试,基于宏F1分数取得了前十名的成绩,证明了其在识别爆炸细胞等关键稀有细胞亚型方面的鲁棒性。
-
新的MTEEG框架通过LoRA实现统一的多任务脑电图分析
研究人员开发了MTEEG,一个用于多任务脑电图(EEG)分析的新型框架。该方法利用特定任务的低秩自适应(LoRA)模块,使单个预训练模型能够同时适应多个下游任务,从而解决了单独任务微调的计算效率低下问题。MTEEG的设计旨在解耦参数空间并减轻由脑电图数据异质性引起的冲突,在多项指标上优于最先进的单任务方法。该框架有望推动通用脑机接口的发展。
-
研究人员开发高斯探测技术,以非生成方式评估有害AI模型专业化
研究人员开发了一种名为高斯探测(Gaussian probing)的新方法,用于评估开放权重生成模型中存在的有害专业化,而无需生成任何输出。该技术从模型的内部状态(如参数或表示)推断模型能力,而不是依赖可能存在问题的输出。高斯探测已证明在识别专门用于儿童性虐待材料(CSAM)的模型方面是有效的,而在此领域,直接生成受到法律限制。这种非生成式方法为审计高风险AI系统提供了一个可扩展的解决方案。
-
新研究发现CLIP模型在360度视觉语义方面存在困难
一篇新论文研究了CLIP模型对360度全景图像及其相关文本的理解程度。研究人员发现,虽然CLIP可以理解与全景内容相关的文本线索,但在视觉语义方面却难以处理在水平移动时应保持一致的语义。为解决此问题,提出了一种基于LoRA的微调方法,以提高对这些移动的不变性,尽管这在原始性能上带来了一些权衡。
-
联邦学习通过自适应系统和隐私聚焦推动大语言模型微调
研究人员推出了一种自适应联邦联邦学习系统SplitFT,旨在克服分布式客户端微调大语言模型(LLMs)的挑战。该系统允许客户端动态设置其切分层以适应数据和设备的异构性,同时通过调整LoRA秩来减少通信开销。实验结果表明,SplitFT在各种基准测试中的微调效率和模型性能方面优于现有方法。此外,一篇综述论文系统地回顾和分类了联邦学习在LLM微调领域的最新进展,重点关注模型优化、系统效率和隐私保护。
-
新AI研究探索从有限数据和合成数据集中高效学习
研究人员开发了一种新的面部识别方法,该方法可以从单个标记图像和无标记数据流中学习,在训练样本有限的情况下显著提高准确性。另外,引入了一个名为RDB-PFN的新关系基础模型,该模型完全在合成数据上进行训练,通过上下文学习适应各种关系数据库。此外,还提出了一种轻量级的联邦学习算法Fed-DLoRA,通过将动态低秩适应与自适应资源选择相结合,提高无线环境中的训练效率并降低通信成本。
-
OpenKB 和 OpenRouter 实现无向量AI知识库;揭示LoRA的生产限制
一项新研究表明,LoRA和QLoRA微调方法所依据的低秩假设在生产环境中可能不成立。虽然这些技术能够在有限的硬件上高效地适应大型语言模型,但实际应用经常违反均匀分布的假设,导致性能问题。这一发现可能会对定制化LLM的开发和部署产生重大影响。
-
LoRA微调研究表明秩1已足够,并提出数据感知初始化方法
三篇新研究论文探讨了优化大型语言模型LoRA微调的方法。其中一篇论文提出将LoRA秩阈值降低到1,用于二分类任务,并显示出与更高秩相当的性能。另一项研究引入了一个基于Fisher的框架,该框架利用数据感知敏感性来选择最优LoRA子空间,从而提高下游性能。第三篇论文分析了LoRA权重更新的谱结构,发现低频分量占主导地位,并建议将谱稀疏性作为参数高效微调的设计原则。
-
DeepSeek-V4、LoRA 及其他 LLM 技术在新博客中详述
Outcome School 上线了一系列六篇博客文章,详细介绍了当代大型语言模型的基本组成部分。这些文章涵盖了 RMSNorm、DeepSeek-V4、LoRA、RoPE、GQA 和交叉熵损失等技术概念。这些解释旨在解读支撑现代人工智能系统的核心构建模块。
-
CRAFT方法加速了序列到序列模型的训练数据选择
研究人员开发了一种名为CRAFT(Clustered Regression for Adaptive Filtering of Training data)的新方法,用于高效地为序列到序列模型选择高质量的训练数据子集。该方法分解了联合源-目标分布,并使用两阶段选择过程来匹配验证分布并最小化预期距离。CRAFT在英-印翻译任务中表现出显著的改进,取得了比现有方法更高的BLEU分数,同时大大缩短了选择时间。
-
研究人员发现 Adam 优化器在持续学习中存在隐藏失效模式
研究人员在持续学习场景中,当梯度修改技术与 Adam 优化器结合使用时,发现了一种隐藏的失效模式。这个问题,尤其在使用共享路由投影方法时普遍存在,会导致显著的性能下降,使模型遗忘先前学到的信息。问题源于 Adam 的二阶矩路径,在梯度被修改时会膨胀有效的学习率。提出的解决方案,自适应解耦矩路由,将修改后的梯度路由到一阶矩,同时保留二阶矩统计信息,成功地防止了在各种方法和规模下的性能崩溃。
-
研究人员探讨混合语言模型中 LoRA 的最佳放置位置
一篇新论文探讨了 LoRA 适配器在混合语言模型中的最佳放置位置,该模型结合了注意力机制和循环组件。研究表明,调整注意力路径比全模型调整更有效,所需的参数也少得多。至关重要的是,研究发现调整循环骨干网络在顺序混合模型中可能是有害的,但在并行模型中有益,这凸显了拓扑感知调整策略的重要性。