实体 Gemma 3-4B

Gemma 3-4B

PulseAugur coverage of Gemma 3-4B — every cluster mentioning Gemma 3-4B across labs, papers, and developer communities, ranked by signal.

总计 · 30天

14

90 天内 14

发布 · 30天

0

90 天内 0

论文 · 30天

13

90 天内 13

层级分布 · 90 天

significant 1
research 5
tool 8

主题

关系

competes with Llama 3.2:3b 70%

情绪 · 30 天

6 天有情绪数据

最近 · 第 1/1 页 · 共 14 条

TOOL · CL_128799 · Jul 7 · 04:00

研究发现，LLM算法实现的准确性因规范格式而异

一篇新发表在arXiv上的研究调查了不同格式的算法规范对大型语言模型（LLM）生成的机器学习实现准确性的影响。该研究比较了在五项机器学习任务和三个模型上，散文、LaTeX伪代码、PDF提取的伪代码、Markdown、类似YAML的格式、类似JSON的格式和Python代码存根。结果表明，在核心信息设置下，LaTeX算法风格的伪代码、类似YAML的规范和普通散文显示出最大的格式效应，而在完整信息下的匹配比较中，GPT-5.4 mini未…
TOOL · CL_119907 · Jul 1 · 07:30

模型压缩对Gemma性能影响极小，SAE仍有效

一项最新分析探讨了权重压缩对Google DeepMind的Gemma 3 4B和Gemma 3 12B模型的影响。研究发现，即使经过8位和4位压缩，以交叉熵和困惑度衡量的性能基本保持不变，仅在4位压缩时有轻微下降。此外，稀疏自动编码器（SAE）在不同压缩级别下都能持续有效地重建模型的残差流。这表明，随着压缩模型的普及，基于SAE的可解释性工具可能仍然有效。
RESEARCH · CL_117645 · Jun 30 · 04:00

新研究应对大语言模型对齐、安全和优化挑战

研究人员正在探索改进大语言模型（LLM）对齐和可靠性的新方法。一项研究发现字节对编码（BPE）分词中存在一个漏洞，该漏洞可能被利用来绕过安全机制，导致多个模型系列产生有害输出。另一篇论文提出了一个名为HAL的框架，通过优化明确的、可解释的对话特征来诱导大语言模型产生类似人类的对话行为。此外，一个名为Object Aligner的新库提供了一种可配置的方法来评估JSON模式相似度，这对于大语言模型提示优化和工具使用非常有用。最后，对大语…
TOOL · CL_98912 · Jun 17 · 00:00

Bag of Dims：揭示训练无关的 Transformer 可解释性方法

研究人员开发了一种名为“Bag of Dims”的新方法，该方法实现了 Transformer 模型训练无关的机械可解释性。该方法将 Transformer 隐藏状态内的单个维度视为独立的寄存器，其中维度的符号表示语义内容，其幅度表示置信度。该框架已在语言、视觉和音频领域的各种模型中得到验证，证明仅符号模式就能以高精度预测下一个 token 准确率并检测语义类别。此外，实验表明这些特征具有因果作用，意味着可以通过操纵它们的符号来抑制模…
TOOL · CL_93507 · Jun 16 · 04:00

新解码方法提升小型视觉语言模型在医学VQA方面的表现

研究人员开发了一种名为 Wasserstein 平衡解码的新解码方法，旨在提高小型视觉语言模型（2-8B）在医学视觉问答任务中的可靠性。该方法通过使用语义感知的 Wasserstein 停止准则，将博弈论解码扩展到处理开放式医学 VQA。与传统基线相比，该方法在 VQA-RAD 和 PathVQA 等数据集上实现了持续改进，提高了准确性并减少了推理迭代次数。
TOOL · CL_86780 · Jun 12 · 04:00

新的“Bag of Dims”方法实现了无需训练的 Transformer 可解释性

研究人员开发了一种名为“Bag of Dims”的新颖方法，该方法能够对 Transformer 模型进行无需训练的机械可解释性分析。该方法利用 Transformer 隐藏状态中各个维度的符号模式来编码语义内容，其功能类似于独立的二进制寄存器。在 Qwen 3.5-4B、Gemma 3-4B 和 Mistral 7B 等多个模型系列上的实验表明，仅凭这些符号模式就具有高度预测性，在下一个词预测中达到了很高的准确率，并能够在没有任何额…
TOOL · CL_49804 · May 25 · 12:58

经过角色训练的 AI 模型在代理任务中无法维持角色设定

研究人员发现，在聊天格式中针对特定角色进行微调的模型，在代理场景中使用时难以维持这些角色。当这些经过角色训练的模型在模拟代理任务中被提示生成电子邮件时，它们的人设表达能力显著下降。这表明，通常通过 SFT 或 DPO 在聊天数据上进行的角色训练，并不能很好地泛化到不同的输出格式或任务上下文中。
TOOL · CL_38837 · May 18 · 12:31

Wasserstein 平衡解码提升医学 VQA 可靠性

研究人员开发了一种名为 Wasserstein 平衡解码的新解码方法，以提高医学视觉问答（VQA）系统的可靠性，特别是对于较小的模型。该方法使用语义感知的 Wasserstein 停止准则来实现相似答案之间的一致性，避免了词汇排序问题。该方法在 VQA-RAD 和 PathVQA 等医学 VQA 数据集上显示出一致的改进，提高了 Qwen3-VL-2B 和 Gemma-3-4B 等模型的准确性和推理效率。
TOOL · CL_38307 · May 18 · 08:41

KV 缓存驱逐保护比评分更重要

研究人员开发了一种管理大型语言模型中 KV 缓存驱逐的新方法，发现结构性保护比评分算法更关键。他们对 Transformer 模型的研究表明，如果没有保护，现有的驱逐策略会显著退化。通过为结构性保护保留一小部分缓存，模型即使在缓存大小有限的情况下，也能恢复相当数量的原始质量。
RESEARCH · CL_20498 · May 5 · 18:14

大型语言模型在冲突监测中表现出显著偏见，未准备好部署

一篇新论文评估了几种大型语言模型在西非冲突监测任务中的适用性。研究发现，像Gemma 3 4B和Llama 3.2 3B这样的开放权重模型表现出显著偏见，将合法战斗错误地归类为平民暴力，并且对特定措辞很脆弱。虽然像AfroConfliBERT和AfroConfliLLAMA这样的领域适应模型表现出中立性有所提高，但它们仍然表现出基于行动者的选择性偏见，偏袒国家行动者而非非国家行动者。研究得出结论，当前模型尚未准备好在冲突监测中进行无监…
RESEARCH · CL_15892 · May 4 · 08:51

新方法在解码时消除大型语言模型偏见，无需重新训练即可提高公平性

研究人员开发了一种新颖的方法，可以在解码阶段减轻大型语言模型的偏见，而无需更改模型的权重。该方法使用单独的过程奖励模型（PRM）对公平性和流畅性的 token 候选进行评分。顺序批评和修订方案被证明是最有效的，将偏见分数提高了高达 0.40，同时保持了流畅性。该框架在包括 GPT-4o-mini、Llama 3.2 3B、Gemma 3 4B 和 Qwen 2.5 3B 在内的模型上进行了评估。
RESEARCH · CL_06290 · Apr 27 · 05:53

Gemma 3 4B LLM 置信度训练结果喜忧参半，事后提高准确性

一项针对 Gemma 3 4B 模型的研究，探讨了提高其回应言语自信度的方法。最初尝试使用过滤后的数据集进行置信度条件监督微调（CSFT）未能奏效，反而降低了性能。然而，一种移除过滤器并在所有校准项上进行训练的探索性方法，显著提高了模型预测言语正确性的能力，在 TriviaQA 上达到了 0.774 的 AUROC2。
RESEARCH · CL_06304 · Apr 26 · 16:49

新的RAG方法用于医学QA，结果喜忧参半，多模态方法在大规模上优于微调

研究人员开发了MED-VRAG，一个新颖的迭代多模态检索增强生成框架，该框架处理医学文档页面图像，包括表格和图形，而不仅仅是文本。该系统在四个医学QA基准测试中的平均准确率为78.6%，比基线高5.8个百分点，比MedRAG + GPT-4的比较高1.8个百分点。另外，一项在4B参数模型上比较领域微调与RAG在医学问答中的研究发现，微调带来了显著的6.8个百分点的准确率提升，而RAG未显示统计学上的显著改进。
SIGNIFICANT · CL_45251 · Feb 6 · 00:00

Together AI 扩展 LLM 微调功能，增加更长上下文

Together AI 增强了其微调平台，以支持更广泛的大型语言模型，包括 DeepSeek、Qwen 和 Meta 的最新版本，以及 OpenAI 的 gpt-oss。该平台现在提供扩展的上下文长度，部分模型的上下文长度可达 131k token，且无需额外费用，从而便于处理长文档和复杂的代码编辑等任务。另外，Together AI 的研究人员使用最小、主题中立的提示来探索 LLM 的行为，以揭示模型固有的偏好，他们发现 GPT-O…