实体 gemma3-1b

gemma3-1b

PulseAugur coverage of gemma3-1b — every cluster mentioning gemma3-1b across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_105184 · Jun 22 · 17:00

新研究量化了LLM中数据影响与数据相似性之间的一致性

研究人员量化了用于将LLM输出追溯到其训练数据的数据相似性与数据影响度量之间的一致性。他们的发现表明，这两种度量之间存在显著的重叠，数据影响度量为数据相似性确定的顶级文档分配了更一致的排名。在对OLMo2-1B、Qwen3-1.7B、LlaMa3.2-1B、Gemma3-1B和GPT2等模型的实验中都观察到了这种不对称性。该研究建议利用这种不对称性，通过使用数据影响度量来改进数据相似性结果，从而实现更好的成本-准确性权衡。
TOOL · CL_66851 · Jun 2 · 12:56

Jetson Orin Nano 在不同功耗模式下对8个微型LLM进行基准测试

在Jetson Orin Nano Super 8GB设备上对八个小型语言模型（1.35亿至约10亿参数）进行了基准测试。测试使用了llama.cpp CUDA后端，探索了四种功耗模式（7W、15W、25W、MAXN）。研究结果表明，25W功耗模式在所有测试模型中提供了性能和效率的最佳平衡，在每焦耳生成的令牌数量方面优于15W和MAXN模式。
RESEARCH · CL_08262 · Apr 28 · 14:29

新的DPO方法通过基于偏好的后训练提升NMT模型性能

研究人员开发了一种新的神经机器翻译（NMT）系统的后训练方法，该方法利用了强化学习和直接偏好优化（DPO）。该框架仅需要一个通用的文本语料库和来自专家翻译者（可以是人类或AI）的反馈。在英译德翻译上的实验表明，将这种由DPO驱动的方法应用于gemma3-1b模型显著提高了其翻译质量，COMET分数从0.703提升至0.747。