实体 Lora

Lora

PulseAugur coverage of Lora — every cluster mentioning Lora across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

134

90 天内 134

发布 · 30天

90 天内 0

论文 · 30天

111

90 天内 111

层级分布 · 90 天

frontier release 1
significant 1
research 50
tool 74
commentary 4
meme 4

关系

used by Vít 90%
instance of Low Rank Adaptation 90%
used by large-language models 70%
used by peft 70%
instance of Direct Preference Optimization 70%
used by Glue 70%
used by magazine 70%
used by supervised fine-tuning 70%
developed large-language models 70%
used by Bert 70%
used by Dopravní podnik Ostrava 70%
used by Transformer Reinforcement Learning 70%

时间线

2026-05-12 research_milestone A paper is published detailing findings on parameter placement in LoRA for fine-tuning. 来源

情绪 · 30 天

16 天有情绪数据

最近 · 第 7/7 页 · 共 134 条

RESEARCH · CL_03002 · Apr 23 · 17:50

新方法通过高效、结构化的低秩调优增强大语言模型适应性

研究人员推出了一种名为 MLorc 的新方法，用于大语言模型的内存高效适应，该方法在训练过程中压缩参数动量。该方法旨在降低内存需求而不牺牲性能，其表现优于 LoRA 和 GaLore 等现有技术。同时，另一项研究通过信号处理的视角探讨了低秩适应（LoRA），分析了其架构和优化机制。此外，还开发了一个名为 StructLoRA 的新框架，通过过滤不相关的更新方向并确保层间一致性来改进 LoRA，从而在各种模型类型上取得了最先进的结果，且…
RESEARCH · CL_02946 · Apr 23 · 17:48

GiVA: Gradient-Informed Bases 改进向量化适配效率

研究人员推出 GiVA，这是一种新颖的基于梯度的初始化策略，旨在提高大型模型向量化适配方法的效率。该方法旨在克服现有向量化技术的局限性，这些技术通常需要比 LoRA 更高的秩才能达到可比的性能。GiVA 能够匹配 LoRA 的训练时间，同时保持极高的参数效率，在自然语言理解、生成和图像分类的各种基准测试中，显著将秩要求降低高达八倍。
RESEARCH · CL_02082 · Apr 23 · 13:33

New method uses LLMs for encoder-free human motion understanding

Researchers have developed a novel method called Structured Motion Description (SMD) for understanding human motion using large language models (LLMs). Unlike previous approaches that required dedicated encoders to alig…
RESEARCH · CL_03556 · Apr 23 · 09:39

机器学习初学者就3B与7B模型用于多任务推理微调寻求建议

一位自学成才的个人正在为复杂的、多任务推理项目寻找微调语言模型的建议。用户需要确定一个30亿或70亿参数的模型，例如Phi-4-mini或Qwen 2.5，是否更适合涉及识别潜在问题、持有多种观点以及从噪音中辨别关键信息等任务。他们拥有一个40-60k个示例的数据集，并担心相关推理模式之间可能出现的混淆以及训练此类任务的难度。
RESEARCH · CL_06837 · Apr 23 · 06:47

AI研究探索情感学习、太阳能预测和Transformer效率

研究人员开发了SolarTformer，一个使用Transformer架构和自注意力机制的深度学习模型，用于更准确的短期太阳能发电预测。该模型整合了气象数据和电站特定的元数据，以捕捉时间依赖性和空间变异性，表现优于以往的方法。另外，一项新研究利用多模态融合和基于Transformer的架构，探索了通过社交媒体内容预测诱发愉悦感，准确率达到0.6624。另一篇论文比较了n-gram模型与LSTM和Transformer等神经网络在事件日…
RESEARCH · CL_37345 · Apr 21 · 09:17

NVIDIA Cosmos Predict 2.5 微调用于机器人；出现新的 ShadowPEFT 方法

NVIDIA 发布了一份指南，介绍如何使用 LoRA 和 DoRA 等参数高效技术微调其 Cosmos Predict 2.5 世界模型以生成机器人视频。此方法允许适应特定领域，例如机器人操作，而无需承担完全微调的高成本和灾难性遗忘风险。该过程涉及使用 diffusers 和 accelerate 等库在较小的数据集上进行训练，从而能够为下游学习任务生成合成机器人轨迹。另外，研究人员推出了 ShadowPEFT，这是一个新颖的参数高效…
RESEARCH · CL_05409 · Apr 19 · 11:59

Hugging Face introduces REGLU for efficient LLM unlearning

Researchers have developed a new method called Representation-Guided Low-rank Unlearning (REGLU) to address the challenge of removing specific information from large language models (LLMs) without degrading their overal…
TOOL · CL_17917 · Mar 12 · 18:52

IonRouter 推出具有自定义 IonAttention 引擎的 AI 推理服务

IonRouter 推出了新的推理服务，该服务专为高吞吐量和低成本而设计，并利用其专有的 IonAttention 引擎。该引擎能够将多个模型多路复用到单个 GPU 上，从而实现快速模型切换和实时流量适应。该服务支持各种开源模型和微调模型，提供按秒计费和极短的冷启动时间，适用于机器人技术和实时视频分析等应用。
RESEARCH · CL_11317 · Sep 29 · 18:09

Mira Murati：在特定条件下 LoRA 微调性能可匹配完全微调

Mira Murati 在连接主义上的最新帖子探讨了在何种条件下 LoRA 微调可以达到与完全微调相当的性能。研究展示了实验结果，表明 LoRA 的性能常常比预期更接近完全微调。这些发现为有效利用 LoRA 提供了建议，使高级模型适配更加易于获取。
COMMENTARY · CL_04670 · Nov 24 · 00:00

Eugene Yan 分享举办每周 AI 论文俱乐部以建立学习社区的指南

Eugene Yan 详细介绍了其成功的每周论文俱乐部，该俱乐部已运行 18 个月，讨论了至少 80 篇与 AI 相关的论文。俱乐部专注于机器学习中的基础概念、模型、训练和推理技术。Yan 为他人建立类似的学习社区提供了实用指南，强调了持续的日程安排、预读和引导式讨论，以促进技术理解和建立专业人脉。
FRONTIER RELEASE · CL_00841 · Aug 22 · 14:57

Cosine Genie 利用 GPT-4o 微调成为顶级编码代理

Cosine 推出了 Genie，一个编码代理，在 SWE-Bench 基准测试中取得了最高排名，显著超越了之前的领先者。这一成功归功于在数十亿个合成生成的代码和运行时错误 token 上微调 OpenAI 的 GPT-4o 模型。OpenAI 与 Cosine 在微调过程的规模和细节方面进行了合作，包括 LoRA 适配器的动态调整。Genie 采用四阶段工作流程，旨在以适合直接集成到代码库的格式输出代码。
RESEARCH · CL_04679 · Jan 7 · 00:00

Eugene Yan 精选语言模型论文供学习小组参考

Eugene Yan 整理了一份基础语言模型论文的阅读清单，旨在促进小组学习会议。该清单包括了“Attention Is All You Need”、“BERT”和“GPT-3”等开创性论文，并附有对其核心贡献的简要总结。Yan 还提供了如何阅读研究论文的指导，并鼓励社区贡献来完善该清单。
RESEARCH · CL_00298 · Jun 7 · 00:00

Apple 研究扩散模型泛化能力；Hugging Face 详解 Stable Diffusion 微调

Apple 的研究论文探讨了条件扩散模型中组合泛化（compositional generalization）的机制，特别关注模型如何处理训练期间未见过的条件组合。研究证实，表现出局部条件得分（local conditional scores）的模型在泛化方面表现更好，并且强制执行这种局部性可以提高性能。另外，Hugging Face 发布了多篇博客文章，详细介绍了微调和优化 Stable Diffusion 模型的各种方法，包括 D…
RESEARCH · CL_01035 · Jan 18 · 00:00

优化Transformer推理：更快、更便宜的大模型技术

大型Transformer模型因其巨大的内存占用和计算成本，给推理带来了显著挑战，这些成本随输入长度呈二次方增长。研究人员和从业者正在探索各种优化技术来缓解这些问题。这些方法包括网络压缩策略，如剪枝、量化和知识蒸馏，以及架构改进和高效并行。目标是减少内存使用、计算复杂度和推理延迟，以实现实际的大规模部署。

新方法通过高效、结构化的低秩调优增强大语言模型适应性

GiVA: Gradient-Informed Bases 改进向量化适配效率

New method uses LLMs for encoder-free human motion understanding

机器学习初学者就3B与7B模型用于多任务推理微调寻求建议

AI研究探索情感学习、太阳能预测和Transformer效率

NVIDIA Cosmos Predict 2.5 微调用于机器人；出现新的 ShadowPEFT 方法

Hugging Face introduces REGLU for efficient LLM unlearning

IonRouter 推出具有自定义 IonAttention 引擎的 AI 推理服务

Mira Murati：在特定条件下 LoRA 微调性能可匹配完全微调

Eugene Yan 分享举办每周 AI 论文俱乐部以建立学习社区的指南

Cosine Genie 利用 GPT-4o 微调成为顶级编码代理

Eugene Yan 精选语言模型论文供学习小组参考

Apple 研究扩散模型泛化能力；Hugging Face 详解 Stable Diffusion 微调

优化Transformer推理：更快、更便宜的大模型技术