PulseAugur
实时 07:20:54
实体 Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct

PulseAugur coverage of Qwen2.5-7B-Instruct — every cluster mentioning Qwen2.5-7B-Instruct across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
5
90 天内 5
发布 · 30天
0
90 天内 0
论文 · 30天
4
90 天内 4
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 5 条
  1. TOOL · CL_45469 ·

    Jane Street LLM 后门挑战揭示 DeepSeek-V3 漏洞

    Jane Street LLM 后门挑战的一名参与者分享了他们试图揭示微调模型中隐藏触发器的经验。最初,提示策略未能成功揭示后门。该挑战涉及一个较小的、可在本地运行的 Qwen2.5-7B-Instruct 模型以及通过 API 访问的较大的 DeepSeek-V3 Mixture-of-Experts 模型,后者被证明特别难以分析。

  2. RESEARCH · CL_48764 ·

    CoSPlay框架通过自我博弈增强LLM代码生成能力

    研究人员开发了CoSPlay,一个无需依赖真实单元测试即可改进LLM代码生成的新框架。这种无需训练的方法使用合作式自我博弈来迭代地完善生成的代码及其关联的单元测试。通过分析执行信号,CoSPlay能够修剪弱代码并刷新不可靠的测试,从而显著提高代码生成准确性和测试质量。

  3. TOOL · CL_18884 ·

    MICA框架通过新颖的强化学习方法增强LLM情感支持对话

    研究人员推出了一种新颖的强化学习框架MICA,旨在提高大型语言模型在多轮情感支持对话中的表现。这种无需批评者的方法通过从共享势函数中推导即时和延迟信用,来解决稀疏奖励和信用分配不佳等挑战。MICA利用增量距离奖励进行逐轮优化,并利用其蒙特卡洛回报来处理延迟效应,在Qwen模型测试中,在EMPA、EQ-Bench和EmoBench等基准测试中表现出显著的改进。

  4. RESEARCH · CL_11820 ·

    AI doctor agent uses reinforcement learning for proactive medical consultations

    Researchers have developed DoctorAgent-RL, a novel multi-agent reinforcement learning framework designed to improve AI's capabilities in real-world clinical consultations. This system trains a doctor agent, utilizing th…

  5. RESEARCH · CL_11433 ·

    DPN-LE方法以最小的神经元干预精确编辑LLM个性

    研究人员开发了DPN-LE,一种通过靶向特定神经元来编辑大型语言模型“个性”的新颖方法。现有技术通常通过修改过多神经元(其中许多是多功能的)来降低整体模型性能。DPN-LE通过对比MLP激活来识别特定于个性的神经元,并使用双重标准过滤方法来分离相关的神经元子集。该方法仅干预一小部分神经元,在保持通用能力的同时实现精确的个性控制。