实体 Gemma 2-2B-it

Gemma 2-2B-it

PulseAugur coverage of Gemma 2-2B-it — every cluster mentioning Gemma 2-2B-it across labs, papers, and developer communities, ranked by signal.

总计 · 30天

8

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

8

90 天内 8

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

TOOL · CL_109891 · Jun 25 · 04:00

语言模型可解释性：检测与引导不一致

研究人员调查了语言模型中行为表示的“知晓”与其“引导”能力之间的关系。他们发现，用于检测行为（如幻觉）的方向与用于控制该行为的方向并不相同，在多个模型和规模上都观察到了显著的几何差距。这种检测与引导之间的分离似乎源于预训练阶段，并且不会因指令调整而改变。虽然朝着引导方向进行的小幅旋转可以改善控制效果，但研究表明，检测是一个高维现象，简单的几何角度并非可引导性的可靠预测指标。
RESEARCH · CL_64704 · Jun 2 · 01:42

New Diffusion Transformers Advance Image Generation and Transmission

研究人员正在开发新的扩散 Transformer 模型，用于先进的图像生成和传输。其中一种方法 DDM-SSCC，将扩散语言模型应用于无损像素级图像传输，在噪声信道条件下表现优于现有方法。另一个模型 HyperDiT，通过连接语义和像素流形，利用超连接跨尺度交互来实现高保真像素生成。此外，PixelDiT，一个拥有 13 亿参数的模型，提供无 VAE 的文本到图像生成功能，并支持图像编辑和各种宽高比。
RESEARCH · CL_58542 · May 28 · 16:18

新审计方法揭示AI模型对危险内容拒绝不一致

一项新的研究论文介绍了一种名为BioRefusalAudit的方法，用于评估AI模型拒绝处理危险内容的鲁棒性。研究发现，许多模型的拒绝行为不一致，在轻微的提示更改或令牌限制下就会崩溃。一些模型还过度拒绝良性生物话题，表明拒绝行为受法律和文化显著性影响，而非仅仅是危险性。该研究提出使用内部稀疏自编码器激活来检测行为分析无法看到的故障模式。
RESEARCH · CL_53832 · May 27 · 04:00

新研究探索高效且鲁棒的机器学习擦除技术

研究人员正在开发新的机器学习擦除方法，旨在无需完全重新训练即可从训练模型中去除特定数据的影响。多篇论文提出了实现更高效、更鲁棒擦除的新技术。这些方法侧重于在确保遗忘的知识不易被恢复的同时，保持模型的效用，即使在持续训练或对抗性攻击下也是如此。
TOOL · CL_47588 · May 18 · 11:14

SANA-WM 模型生成时长一分钟的 720p 视频

研究人员发布了 SANA-WM，一个能够生成时长一分钟、分辨率为 720p 的视频的开源世界模型。该扩散 Transformer 模型采用了混合线性注意力机制和双分支架构来实现精确的相机控制。该模型还包含一个两阶段生成流程，并使用精炼器来增强质量和时间一致性，它使用具有度量尺度 6-DoF 相机姿态的强大标注流程进行训练。
TOOL · CL_34049 · May 16 · 03:58

新方法简化语言模型可解释性

研究人员推出了一种名为示例划分（Exemplar Partitioning, EP）的新方法，用于语言模型的机械可解释性。与现有的稀疏自编码器（sparse autoencoders）等字典学习技术相比，EP提供了一种更简化的方法。EP通过基于观察到的示例来划分激活空间，从而识别其中可解释的结构，避免了稀疏自编码器固有的重建和稀疏性损失。该方法在AxBench潜在概念检测基准等基准测试中取得了有竞争力的性能，并且计算成本显著低于稀疏自编码器。
RESEARCH · CL_21954 · May 7 · 09:03

新方法在不牺牲性能或推理能力的情况下增强了大型语言模型的控制能力

研究人员开发了新的方法，可以在推理时引导大型语言模型（LLM）的行为，而不会牺牲生成质量。一种方法是仅提示词转向向量（Prompt-only SV, PrOSV），它仅干预提示词标记，在AxBench等基准测试中表现优于传统的全序列转向向量。另一种方法是FLAS（基于流的激活转向），它学习一个条件概念的速度场来传输激活，在Gemma模型上始终优于提示词方法。第三种技术SKOP（通过关键正交投影进行转向）将注意力重新路由限制在保留推理和…
RESEARCH · CL_18787 · May 6 · 04:00

新方法增强稀疏自编码器的可解释性和稳定性

研究人员开发了新方法来解决稀疏自编码器（SAE）的局限性，SAE用于解释大型语言模型的内部表示。一篇论文介绍了自适应弹性网络SAE（AEN-SAE），这是一种可微分架构，可在不进行启发式重采样的情况下缓解特征饥饿和收缩偏差。另一项研究提出了一种用于分析SAE特征的成对矩阵协议，揭示了单特征检查可能会错误标记因果轴，并且相干性损失与方向模式有关。此外，另一篇论文提出，结合局部顺序辅助损失（如有限差分符号误差）可以提高自编码器重建精度，超…