Lora
PulseAugur coverage of Lora — every cluster mentioning Lora across labs, papers, and developer communities, ranked by signal.
- used by Vít 90%
- instance of Low Rank Adaptation 90%
- used by large-language models 70%
- used by peft 70%
- instance of Direct Preference Optimization 70%
- used by Glue 70%
- used by magazine 70%
- used by supervised fine-tuning 70%
- developed large-language models 70%
- used by Bert 70%
- used by Dopravní podnik Ostrava 70%
- used by Transformer Reinforcement Learning 70%
- 2026-05-12 research_milestone A paper is published detailing findings on parameter placement in LoRA for fine-tuning. 来源
16 天有情绪数据
-
LoRA 微调意外改变模型行为,而非仅避免特定词语
研究人员探讨了 LoRA 适配器如何影响大型语言模型,发现虽然它们可以改变文本长度等特定行为,但难以强制执行避免某些词语等负面约束。这表明 LoRA 微调在教授新行为方面比强制严格禁止更有效。
-
LEGO framework uses LoRA to detect synthetic images with greater accuracy
Researchers have developed LEGO, a novel framework designed to detect synthetic images by focusing on generator-specific artifacts. This approach utilizes Low-Rank Adaptation (LoRA) modules, each trained to identify uni…
-
子令牌路由在新的研究中提高了Transformer的效率和KV压缩能力
研究人员引入了子令牌路由作为一种新颖的方法来提高Transformer的效率,它提供了一种比现有技术更精细的压缩方法。该方法侧重于在令牌表示内部进行路由,并探索了查询无关和查询感知的设置。实验表明,将子令牌路由与令牌级选择相结合,可以在保持高任务准确性的同时实现显著的KV压缩。
-
LoRA emerges as a viable parametric knowledge memory for LLMs, complementing RAG and ICL
A new paper explores the use of Low-Rank Adaptation (LoRA) as a method for continuously updating knowledge in large language models. The research empirically analyzes LoRA's capacity, composability, and optimization for…
-
LoRA 使用 Sentinel-2 数据高效地将地理空间模型适应于野火测绘
研究人员使用 Sentinel-2 卫星数据评估了三种地理空间基础模型(GFM)——Terramind、DINOv3 和 Prithvi-v2——用于野火测绘。研究发现,低秩适应(LoRA)是适应这些模型最高效的方法,仅需更新不到 1% 的参数即可实现强大的跨领域泛化能力。经 LoRA 适应的 Prithvi-v2 在准确性和相对于完全微调的改进方面表现最佳,为大规模烧毁区域测绘提供了一个可扩展的解决方案。
-
LLM 通过新颖的基于 Delta 的代码生成加速神经架构搜索
研究人员正在探索使用大型语言模型 (LLM) 进行神经架构搜索 (NAS) 的新颖方法。一种名为 SPARK 的方法旨在通过显式选择功能因素进行修改来改进 LLM 知识集成,从而减少意外的副作用并提高效率。另一种技术,Delta-Code Generation,专注于微调 LLM 以生成紧凑的代码差异,以改进现有架构而不是从头开始生成它们,从而显著减少代码冗余和计算成本。一项调查还根据效率、鲁棒性和持续学习对 NAS 方法进行了分类,…
-
AI 代理通过新的加密签名协议在无线电上保护支付
Agentsign.dev 的首席执行官/创始人 Raza Sharif 开发了 MCPS(模型上下文协议安全),以解决广泛使用的 AI 代理 MCP 标准中的关键安全漏洞。MCPS 在 MCP 消息中引入了加密签名、随机数和时间戳验证,以防止提示注入和重放攻击等问题。为了证明其传输无关性,Sharif 成功地通过 868 MHz LoRa 无线网络发送了经过加密签名的 MCPS 支付,绕过了传统的互联网和云基础设施。
-
新的基准研究探讨了塔吉克语词性标注的神经网络性能
本文介绍了塔吉克语词性标注的第一个基准测试,评估了各种神经网络架构。该研究使用了TajPersParallel语料库,重点关注孤立词汇单元的独立于上下文的分类。结果表明,使用LoRA微调的mBERT模型表现最佳,但所有模型在没有句法上下文的情况下都难以处理形态歧义。
-
CellxPert 集成多组学数据,用于高级单细胞分析和扰动预测
研究人员开发了 CellxPert,这是一种新颖的多模态基础模型,旨在统一和分析单细胞及空间多组学数据。该模型集成了多种数据类型,包括转录组学、染色质可及性和蛋白质组学测量,以及空间成像数据。CellxPert 提供了细胞类型注释、高效微调以及使用马尔可夫链采样方法预测计算机内扰动全基因组转录组反应的能力,以确保生物学可解释性。
-
Budgeted LoRA 框架通过结构化计算分配优化 LLM 推理效率
研究人员推出了一种新颖的蒸馏框架 Budgeted LoRA,旨在创建更高效的用于推理的大型语言模型。该方法将模型压缩视为一个结构化计算分配问题,允许根据全局计算预算在密集和低秩路径之间重新分配容量。该方法能够控制推理速度提升,实证结果表明在激进预算下可实现显著的速度提升,同时在某些任务上保持具有竞争力的准确性。
-
RD-ViT 降低分割数据需求,参数更少,性能优于标准 ViT
研究人员开发了 RD-ViT,一种用于语义分割任务的新型循环深度视觉Transformer。该架构通过使用一个共享的、循环多次的Transformer块,显著降低了数据依赖性,这与需要为每一层使用独特参数的传统视觉Transformer不同。RD-ViT 结合了自适应计算时间和混合专家等技术来提高效率和专业化,在心脏MRI分割基准测试中,以更少的数据和更少的参数展示了改进的性能。
-
LLM微调以从代码预测神经网络性能
研究人员开发了一种方法,通过微调大型语言模型(LLM)来预测神经网络在图像分类任务上的性能。通过分析神经网络架构代码,LLM可以确定网络在两个数据集中的哪一个上表现更好。这种方法已集成到NNGPT框架中,并在LEMUR数据集上进行了测试,结果表明LLM可以从代码中提取比仅从数据集元数据中提取更多的预测信号。
-
Top Open-Source Libraries Enable Local LLM Fine-Tuning in 2026
A recent analysis highlights the top open-source libraries for locally fine-tuning large language models in 2026. These tools, including LoRA, QLoRA, Hugging Face Transformers, and Unsloth, aim to reduce hardware requir…
-
MILE框架提供参数高效的持续语义分割
研究人员推出了一种新颖的持续语义分割框架MILE,该框架能够有效地适应新领域和新模态,而不会遗忘之前的任务。MILE利用低秩自适应(LoRA)创建轻量级的、特定任务的专家,这些专家独立训练,并保留冻结的基础网络。这种方法提供了一种可扩展且参数高效的解决方案,每个任务只需要少量参数的增加,并且与完全重新训练模型相比,大大减少了存储需求。
-
SCALE-LoRA framework audits and composes Low-Rank Adaptation adapters for reliable AI outputs
Researchers have developed SCALE-LoRA, a framework designed to improve the reuse of Low-Rank Adaptation (LoRA) adapters from open pools for new tasks. This system addresses challenges in adapter compatibility and output…
-
Researchers explore growing Transformers with modular composition and layer-wise expansion
Researchers have explored a method for training Transformer models by incrementally adding new layers to a frozen base, maintaining a constant budget for trainable parameters. This approach, termed 'Growing Transformers…
-
新方法通过分离任务特定知识和共享知识来解决LLM的持续学习问题
两篇新的研究论文提出了用于大型语言模型持续学习的新颖方法,解决了在不遗忘先前信息的情况下获取新知识的挑战。第一篇论文《Split-on-Share》引入了一个框架,将模型参数分为任务特定专家和共享专家,并使用弹性权重锚定来保护关键的共享知识。第二篇论文《Task-Driven Subspace Decomposition》专注于低秩适配(LoRA)方法,提出了一种称为LoDA的技术,通过执行任务驱动的分解来解耦知识共享和隔离的方向。这…
-
LinMU 为多模态理解模型实现线性复杂度
研究人员开发了 LinMU,一种新颖的视觉语言模型(VLM)架构,实现了线性复杂度,克服了当前模型二次复杂度的限制。这种新设计利用了 M-MATE 块,结合了状态空间模型和窗口注意力,以高效处理高分辨率图像和长视频。通过三阶段蒸馏过程,LinMU 在显著减少处理时间和提高吞吐量的同时,达到了现有模型的性能,使先进的多模态推理更加易于访问。
-
Ortho-Hydra 论文提出改进扩散 Transformer LoRA 微调的新方法
研究人员提出了 Ortho-Hydra,一种新颖的重新参数化技术,旨在改进扩散 Transformer (DiT) 在多风格数据上的 LoRA 微调。该方法解决了“风格泄露”问题,即单个低秩残差难以表示多样化的艺术风格,导致输出平均化。Ortho-Hydra 通过结合正交共享基和每个专家分离的输出子空间来实现这一点,从而在初始训练阶段就能实现专业化。
-
新的OCRR基准衡量AI模型通过纠正从分布变化中恢复的能力
研究人员推出OCRR,这是一个新的基准,旨在评估机器学习系统通过在线纠正从分布变化中恢复的程度。与静态基准不同,OCRR模拟了模型遇到新数据类别并必须适应的现实世界场景。该基准衡量了在应用纠正时,新类别上的准确性以及原始数据上准确性的保留情况。