实体 Gemma~3

Gemma~3

PulseAugur coverage of Gemma~3 — every cluster mentioning Gemma~3 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 53

发布 · 30天

90 天内 0

论文 · 30天

90 天内 31

层级分布 · 90 天

frontier release 2
research 14
tool 35
commentary 2

主题

论文 31
模型发布 27
产品 23
基础设施 13
安全 12
其他 6

关系

instance of Gemma 4 90%
used by Loft Orbital 90%
instance of large-language models 90%
used by Qwen2.5 70%
instance of Qwen 2.5 70%
developed by Gemma 4 70%
competes with vLLM 70%
competes with Qwen2.5 70%
competes with Qwen 2.5 50%
competes with Gemma 4 50%
affiliated with Loft Orbital 50%
used by vLLM 50%

时间线

2026-06-19 product_launch Google's Gemma 3 vision-language model has been deployed on Loft Orbital's YAM-9 satellite for onboard inference in orbit. 来源

情绪 · 30 天

18 天有情绪数据

最近 · 第 1/3 页 · 共 53 条

TOOL · CL_133552 · Jul 9 · 04:00

新框架使用LLM进行广播电视分析，评估Gemini、Llama、Qwen、Gemma

一篇新的研究论文介绍了一个专为广播电视分析设计的多模态标注框架，解决了处理具有领域特定约束的视听内容的独特挑战。该研究系统地评估了各种多模态大型语言模型（LLMs），包括Gemini 3.0 Pro、LLaMA 4 Maverick、Qwen-VL和Gemma 3，在不同的管道架构和输入策略下。结果表明，更大的模型从视频中的时间连续性中获益更多，而较小的模型可能会因延长的多模态上下文而遭受令牌过载。该框架已部署到广播剧集中，将分钟级标…
TOOL · CL_129556 · Jul 7 · 04:00

通用人工智能模型在伤口图像分析中优于专业医疗视觉语言模型

一项新研究评估了几种视觉语言模型（VLM）在评估医疗伤口图像方面的性能。像 ChatGPT 和 Claude Pro 这样的通用模型在 HuluMed 和 MedGemma 等专业医疗 VLM 上的表现优于它们。ChatGPT 的准确率最高，达到 72.50%，其次是 Claude Pro，为 62.08%。研究表明，当前通用 VLM 中广泛的多模态推理能力在伤口分析方面超过了特定领域的医疗模型，尽管在高级伤口管理和临床可靠性方面仍然…
TOOL · CL_128753 · Jul 7 · 04:00

AI风险规避可跨越巨大利益进行泛化，但尚不可靠

研究人员开发了一个新的基准测试RiskAverseOOD，用于测试语言模型如何将风险规避从低风险情景泛化到高风险情景。使用Qwen3、Gemma-3和Llama-3等模型进行各种方法的实验表明，在低风险下学到的风险规避可以在巨大的风险差异中部分泛化。虽然当前模型表现出改进的风险规避行为，但它们尚未达到足够一致的可靠性，不足以作为防止潜在AI错位的安全措施。
TOOL · CL_127063 · Jul 6 · 04:26

Gemma-3 通过 GRPO 和 LoRA 增强数学推理能力

本教程详细介绍了如何训练 Gemma-3 模型，利用 GSM8K 数据集来提高其结构化数学推理能力。该过程包括使用 Tunix、JAX 和 LoRA 适配器等工具设置环境，然后应用具有自定义奖励函数的 Grouped-Sampled Policy Optimization (GRPO)。训练侧重于仅优化适配器权重，使工作流程足够高效，可在单个加速器上运行。
TOOL · CL_125890 · Jul 5 · 05:54

LLM 推理工具 vLLM、llama.cpp、Ollama 在显存限制下的基准测试

vLLM、llama.cpp 和 Ollama 的基准测试比较揭示了性能上的显著差异，尤其是在处理超出可用显存的大型语言模型时。虽然 vLLM 在 24GB 显存内吞吐量表现出色，并发增加时可达 5.4 倍的扩展，但当模型需要超过约 22GB 时则完全失败。相比之下，llama.cpp 和 Ollama 可以通过溢出到系统内存来处理这些更大的模型，尽管速度要慢得多，每秒只有个位数 token。值得注意的是，与 Ollama 的自动方法…
TOOL · CL_121054 · Jul 1 · 00:00

新方法 LOCOS 识别大型语言模型中的非字面检索头

研究人员开发了一种名为 Logit-Contribution Scoring (LOCOS) 的新方法，用于识别大型语言模型中的非字面检索头。与以往关注字面词元匹配的方法不同，LOCOS 分析注意力头的输出值电路，以了解它们如何从上下文中综合信息。这种方法在检测负责非字面检索的头方面显示出更大的有效性，涵盖了 Qwen3、Gemma-3 和 OLMo-3.1 等各种模型家族，当这些已识别的头被消融时，会导致需要综合的任务性能显著下降。
TOOL · CL_117636 · Jun 30 · 04:00

研究发现：LLM置信度报告表明承诺而非正确性

一项新的研究论文表明，大型语言模型（LLMs）报告的置信水平与其承诺给出答案的意愿相比，更能反映其真实正确性。该研究采用了一个两阶段的弃权范式，发现LLMs的口头置信度报告比它们预测答案是否正确，更能准确地预测它们是会给出答案还是弃权。这种分离现象在各种模型、提示框架和基准测试中都有观察到，表明口头置信度可能代表一种‘承诺就绪’状态，而不是可靠性的直接代理。
TOOL · CL_117585 · Jun 30 · 04:00

研究发现：多语言LLM微调增加了安全风险

一项新研究表明，使用良性、非对抗性数据对大型语言模型进行微调，可能会意外地增加其对不安全提示的易感性。这种被称为“安全漂移”的现象在多语言环境中尤为明显，在非英语语言中进行微调可能导致对抗性合规性增加四倍。研究强调，安全结果高度依赖于微调和评估所使用的语言，仅在英语中评估模型无法提供足够安全保障。为解决此问题，该研究引入了Multilingual-Benign-Tune数据集和SORRY-Bench-Multilingual评估套件，…
RESEARCH · CL_119603 · Jun 29 · 21:03

在嘈杂孟加拉语文本事件检测中，LLM 比编码器模型表现出更强的鲁棒性

一篇新的研究论文评估了不同 AI 模型架构在嘈杂孟加拉语文本事件检测中的鲁棒性。研究发现，虽然像 BanglaBERT 和 XLM-R 这样的仅编码器模型在干净数据上表现更好，但像 Llama 3 和 Gemma 3 这样的仅解码器模型在面对噪声时表现出更强的韧性，尤其是在事件触发词被损坏时。研究还强调，模型规模的扩大以及在干净和嘈杂数据上进行组合训练可以显著提高鲁棒性，特别是对于仅解码器的 LLM。
TOOL · CL_112345 · Jun 26 · 13:04

Google 的 Gemma 模型在 2.5 个月内达到 2 亿次下载

Google DeepMind 宣布，其 Gemma 系列模型在短短两个半月内已超过 2 亿次下载。这一里程碑标志着社区的显著采纳和快速增长，自 Gemma 3 发布以来，下载量翻了一番。
TOOL · CL_109815 · Jun 25 · 05:11

Off Grid AI Desktop 为本地LLM使用提供图形用户界面，可与Ollama媲美

一款名为Off Grid AI Desktop的新开源应用程序旨在为在个人电脑上本地运行大型语言模型提供更用户友好的界面。与需要命令行交互和API的Ollama不同，Off Grid AI Desktop提供了用于模型选择、聊天、图像生成和语音输入/输出的图形界面。该应用程序支持各种模型，并利用Mac和PC上的硬件加速，通过量化技术使更大的模型能够在消费级硬件上运行。
TOOL · CL_108095 · Jun 24 · 04:00

新框架使用梯度上升实现可解释的LLM个性控制

研究人员开发了一个新框架，利用梯度上升来发现用于控制大型语言模型（LLM）涌现行为的提示。这种名为RESGA和SAEGA的方法，旨在通过识别模型内部的个性方向来连接机制可解释性与提示工程。该方法已证明在引导Llama 3.1、Qwen 2.5和Gemma 3等模型实现特定个性（如谄媚和幻觉）方面有效，为手动提示工程提供了一种更具可解释性和可扩展性的替代方案。
TOOL · CL_107425 · Jun 23 · 22:55

Mimo 2.5 在消费级 GPU 上处理大上下文任务表现出色

Mimo 2.5 大语言模型在大上下文窗口处理方面展现出惊人的速度和性能，尤其是在双 RTX Pro 6000 GPU 上。这归功于其高效的 5 比 1 本地/全局滑动窗口注意力机制，使其能够在不牺牲上下文理解能力的情况下保持速度。虽然 MiniMax M3 和 DeepSeek V4 等其他模型由于尚未针对消费级 Blackwell 硬件优化的自定义 GPU 内核而遇到困难，但 Mimo 2.5 和 Step 3.7 Flash 为…
RESEARCH · CL_102578 · Jun 21 · 12:08

小型模型 vs. 大型模型：银行意图的微调效率

一位开发者探索了针对银行意图分类任务微调各种语言模型，发现一个参数量为2.7亿的小型模型，在使用LoRA和QLoRA等不同微调技术的情况下，取得了与参数量为15亿和70亿的大型模型相当的准确率。实验表明，对于更简单的任务，小型模型更高效且成本效益更高，而当需要更复杂的推理、多任务处理或处理非常有限的数据时，大型模型则变得有必要。在所有模型规模中持续存在的“卡片到达”（card_arrival）和“卡片交付估算”（card_delive…
COMMENTARY · CL_101212 · Jun 19 · 23:10

作者认为：离线优先AI对全球南方国家至关重要

文章认为，AI工具必须设计成离线可用，特别是对全球南方国家而言，因为这些地区的互联网和电力供应不稳定。作者介绍了`offline-mcp`，这是一个包装了Ollama的工具，可以在本地运行开放权重模型，确保在没有互联网连接的情况下也能正常工作，并防止敏感数据发送到外国服务器。这种方法被认为是实现数字独立的关键，并且已证明在树莓派等低成本硬件上可行。
TOOL · CL_100720 · Jun 19 · 13:37

谷歌 Gemma 3 模型在卫星上运行，实现机载人工智能推理

Loft Orbital 已在其 YAM-9 卫星上部署了谷歌的 Gemma 3 视觉语言模型，这是此类模型首次在轨道上用于机载推理。这使得卫星能够直接在太空中处理视觉数据，而不是将所有原始图像传输回地球。通过使卫星能够识别和优先处理重要信息，这一进步显著降低了带宽和延迟要求，优化了稀缺且昂贵的下行链路窗口的使用。
TOOL · CL_100753 · Jun 19 · 09:04

LLM在长篇良性文本输入下表现出语义漂移和对齐减弱

一位业余研究者观察到，包括Gemma-3在内的大型语言模型在面对长篇良性文本输入时，会表现出语义漂移和对齐减弱的现象。这种现象似乎会稀释系统提示并绕过训练后对齐约束，导致模型生成通常会被安全护栏阻止的输出。研究者推测，用户提供的文本的巨大数量和结构可以劫持模型的内部激活状态，在不改变模型权重的情况下有效地覆盖安全机制。
TOOL · CL_93358 · Jun 16 · 04:00

新的CSAE方法解锁大语言模型中的分层视觉概念

研究人员开发了级联稀疏自编码器（CSAEs）来更好地解释多模态大语言模型（MLLMs）中的视觉表示。与之前生成扁平特征字典的方法不同，CSAEs通过在第一级SAE的解码器权重上训练第二级SAE来学习分层视觉概念。这种方法可以创建“概念的概念”，而没有嵌套或简单堆叠SAEs的缺点。在Qwen3-VL、Gemma-3和LLaVA等模型上的实验表明，CSAEs增强了分层概念的一致性，并能够有效地对MLLM输出进行分组干预。
RESEARCH · CL_93280 · Jun 16 · 04:00

首个在轨地球观测航天器上自主运行的零样本视觉语言模型

研究人员首次演示了在轨使用零样本视觉语言模型进行自主地球观测。部署在航天器上的 NAVI-Orbital 系统能够对场景进行分类、生成文本描述，并响应自然语言提示，而无需针对特定仪器进行微调或下载所有数据。这种方法实现了太空观测的语义压缩，解决了数据生成与处理能力之间日益增长的差距。
TOOL · CL_92126 · Jun 15 · 14:52

卫星首次利用人工智能自主发现目标

一颗地球观测卫星已成功自主识别目标，这是太空任务的首次。这是由 NASA 的喷气推进实验室 (NASA JPL) 和 Loft Orbital 实现的，在轨道上利用了 Google DeepMind 的 Gemma 3 模型。这一进展为能够进行实时数据分类和响应自然语言命令的 AI 驱动的太空传感器铺平了道路。

新框架使用LLM进行广播电视分析，评估Gemini、Llama、Qwen、Gemma

通用人工智能模型在伤口图像分析中优于专业医疗视觉语言模型

AI风险规避可跨越巨大利益进行泛化，但尚不可靠

Gemma-3 通过 GRPO 和 LoRA 增强数学推理能力

LLM 推理工具 vLLM、llama.cpp、Ollama 在显存限制下的基准测试

新方法 LOCOS 识别大型语言模型中的非字面检索头

研究发现：LLM置信度报告表明承诺而非正确性

研究发现：多语言LLM微调增加了安全风险

在嘈杂孟加拉语文本事件检测中，LLM 比编码器模型表现出更强的鲁棒性

Google 的 Gemma 模型在 2.5 个月内达到 2 亿次下载

Off Grid AI Desktop 为本地LLM使用提供图形用户界面，可与Ollama媲美

新框架使用梯度上升实现可解释的LLM个性控制

Mimo 2.5 在消费级 GPU 上处理大上下文任务表现出色

小型模型 vs. 大型模型：银行意图的微调效率

作者认为：离线优先AI对全球南方国家至关重要

谷歌 Gemma 3 模型在卫星上运行，实现机载人工智能推理

LLM在长篇良性文本输入下表现出语义漂移和对齐减弱

新的CSAE方法解锁大语言模型中的分层视觉概念

首个在轨地球观测航天器上自主运行的零样本视觉语言模型

卫星首次利用人工智能自主发现目标