实体 Gemini 3

Gemini 3

PulseAugur coverage of Gemini 3 — every cluster mentioning Gemini 3 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 39

发布 · 30天

90 天内 0

论文 · 30天

90 天内 19

层级分布 · 90 天

frontier release 3
significant 3
research 9
tool 17
commentary 7

主题

产品 23
模型发布 22
论文 19
其他 6
安全 6
基础设施 5
融资 2
政策 2

关系

developed by Google DeepMind 100%
instance of LLMs 90%
developed by Google Research 90%
developed Gemini 2.5 Pro 90%
developed by Gemini 2.5 Pro 90%
competes with Claude Sonnet 4.5 70%
instance of Opus 4.5 70%
affiliated with Google Research 70%
used by Opus 4.5 70%
used by arXiv 60%
competes with GPT-5 50%
authored by arXiv 50%

时间线

2025-11-18 product_launch Google launched its new Gemini 3 AI model, showcasing advanced capabilities in coding and interactive content generation. 来源

情绪 · 30 天

9 天有情绪数据

最近 · 第 1/2 页 · 共 39 条

RESEARCH · CL_129989 · Jul 7 · 07:51

ICML 2026：AI 在效率、理论和鲁棒性方面取得进展

在 ICML 2026 上发表的多篇研究论文探讨了 AI 的进展，重点关注效率、鲁棒性和新的理论框架。关键进展包括加速深度学习操作的新方法，如窗口化批矩阵乘法 (WBMM) 和高效的 4 位训练 (TetraJet-v2)。研究人员还通过 CPO 解决了模型对齐的理论挑战，并通过内部指标（如隐藏状态的 L2 范数）提出了理解和改进模型推理的新方法。
COMMENTARY · CL_122344 · Jul 2 · 17:28

2026年本地与云端大模型在编码方面的对比：隐私与性能的权衡

截至2026年中期，在编码辅助方面选择本地大模型还是云端大模型，尤其对于敏感的机器学习和数据工作而言，呈现出显著的权衡。虽然来自OpenAI和Anthropic等提供商的云端模型在原始推理和复杂代理任务方面仍处于领先地位，但像Qwen 3.6、GLM-5.2和DeepSeek V4等开放权重模型已显著缩小了性能差距。本地大模型提供卓越的数据隐私和定制化能力，非常适合专有数据集和知识产权，而云端模型则提供尖端功能和与外部工具的便捷集成。
TOOL · CL_118993 · Jun 30 · 21:56

开源AI网关OmniRoute凭借统一LLM访问获得关注 · 跟踪4个来源

OmniRoute，一个开源AI网关，在GitHub上迅速获得关注，已获得超过11,000颗星。它充当开发者的统一端点，可以访问231个不同的LLM提供商，旨在简化API管理、防止达到速率限制并降低成本。该工具提供高级功能，如组合路由（在多个模型之间自动回退）和令牌压缩以显著降低费用，使其成为AI应用的宝贵基础设施层。
COMMENTARY · CL_116021 · Jun 29 · 09:22

智谱AI就GLM-5.3征求用户意见，视觉能力需求居首 · 追踪6个来源

智谱AI正在为其下一代GLM模型征求用户反馈，并高度重视整合视觉能力。目前，其旗舰文本模型缺乏此功能，但竞争对手如Fable-5和Gemini 3已具备。尽管智谱AI此前已开发过多模态模型，但将其顶级产品排除视觉功能一直是用户和开发者争论的焦点。用户对GLM旗舰模型视觉理解的需求，凸显了开发者实际需求与AI研究者对核心智能理论关注点之间的分歧。
TOOL · CL_102547 · Jun 21 · 11:52

尽管有新模型，LLM代码安全通过率仍停滞在55%

尽管GPT-5.5、Gemini 3和Claude 4等模型取得了进展，但两年多来，LLM生成代码的安全通过率一直停滞在约55%。这些模型在处理的任务中近一半会引入已知的安全漏洞，尽管它们的语法正确性很高。虽然LLM可以提高编码速度，但它们本身并不能提高交付软件的安全性。
RESEARCH · CL_100972 · Jun 19 · 17:13

TeleStyle V2 开源用于图像风格迁移 · 已追踪 2 个来源

用于图像生成风格迁移的新模型 TeleStyle V2 已开源。该模型由 Tele-AI 开发，采用 Lora 技术，声称在图像编辑任务方面的性能可与 Nano Banana Pro 和 Gemini 3 等模型相媲美。该模型可在 Hugging Face 和 GitHub 上找到，并提供了进一步探索的链接。
RESEARCH · CL_100662 · Jun 19 · 11:59

Sam Altman 不情愿，OpenAI 为应对 AI 竞赛做 IPO 准备

OpenAI 的 CEO Sam Altman 对领导一家上市公司表示缺乏热情，尽管该组织已秘密提交了 IPO 文件。此举旨在筹集大量资金，以在快速发展的 AI 领域展开竞争，并应对来自 Anthropic 和 Google 等竞争对手的压力。Altman 承认了公开市场在价值创造和融资方面的优势，但也指出了作为上市公司可能带来的烦恼和增加的审查。公司目前的财务状况，包括巨额净亏损，凸显了其维持竞争优势所需的资金需求。
COMMENTARY · CL_98701 · Jun 18 · 13:00

Google AI Overviews 显示高准确率但来源依据不足

对 Google AI Overviews 的一项最新分析显示，尽管模型在 SimpleQA 等基准测试中表现出高准确率，但相当一部分“正确”答案并未得到引文来源的支持。这种模型声明与其支持证据之间的差异在 Gemini 2 和 Gemini 3 之间从 37% 上升到 56%，表明 AI 搜索产品在信息综合方式上存在结构性问题。即使模型升级，这个问题依然存在，这表明在确保 AI 生成的摘要忠实反映其来源材料方面存在根本性挑战。
RESEARCH · CL_99778 · Jun 18 · 00:00

S-Agent框架增强VLMs进行3D空间推理 · 跟踪4个来源

研究人员推出S-Agent，一个旨在增强视觉语言模型（VLMs）在3D环境中进行空间推理的新框架。S-Agent整合了时间记忆和一系列空间工具，能够从多视图图像中持续理解3D世界，超越了静态、帧级别的分析。该框架允许VLMs充当语义规划器，决定需要什么证据，而空间工具则将物体定位在2D，将其提升到3D，并将这些信息聚合为空间知识。实验表明，S-Agent在无需重新训练的情况下就能改进开源和闭源VLMs，并且经过微调的版本S-Agent…
TOOL · CL_93303 · Jun 16 · 04:00

论文研究了 LLM 在不完美视觉验证下的代码编辑

一篇新论文探讨了迭代细化在基于 LLM 的代码编辑中的有效性，特别是在涉及 TikZ 图等视觉输出的任务中。该研究调查了当无法进行正式评估时所必需的不完美验证器如何影响细化过程。研究结果表明，即使是不可靠的验证器也能在确认指令应用方面取得中等准确率，反馈可以提高定制成功率，特别是对于能力较弱的模型。
COMMENTARY · CL_90947 · Jun 15 · 01:50

北京人工智能研究院院长：世界模型是具身智能的未来

北京人工智能研究院（BAAI）院长王仲远讨论了人工智能中的“世界模型”概念，将其与当前的大型语言模型（LLM）和视频生成模型区分开来。他概述了四种现有的世界模型方法：以语言为中心、以像素为中心、以三维结构为中心和以视觉表征为中心。BAAI正在探索第五种方法，即在统一的潜在空间表征中整合语言和视觉。王强调，真正的世界模型必须理解物理定律、因果关系和时间一致性，超越单纯的视觉真实感或令牌预测，以预测物理状态。他认为世界模型对于推进具身智能…
SIGNIFICANT · CL_81238 · Jun 9 · 15:55

德国法院认定Google对AI Overview的虚假信息负责

一家德国法院裁定，Google对其AI Overviews功能提供的虚假信息负有直接责任。法院认为，AI Overviews会生成自己的内容，这使其区别于标准搜索结果，从而否定了Google通常的责任豁免。此裁决源于一个案件，其中Google的AI错误地将两家出版商与诈骗和可疑的商业行为联系起来，将AI生成的摘要视为Google自己的陈述，而不是仅仅聚合第三方内容。
TOOL · CL_79889 · Jun 9 · 04:00

NutriMLLM模型首次亮相，用于膳食微量营养素分析

研究人员开发了NutriMLLM，这是一系列新开发的多模态大语言模型，专门用于从食物图像分析膳食微量营养素。现有模型在此任务上被证明不可靠，经常回避或提供不准确的数据。为了克服这个问题，该团队通过重新利用膳食回忆数据，创建了一个包含超过一百万个图像-描述-营养素三元组的大型合成数据集。在此数据集上微调Qwen3-VL等模型，产生了NutriMLLM变体，这些变体在65种微量营养素的覆盖率接近完整，并且与领先的专有模型相比具有竞争力。
RESEARCH · CL_79047 · Jun 6 · 07:56

大语言模型在地理信息科学研究任务中表现出持续的过度自信

一个名为GIScholarBench的新基准已被开发出来，用于评估地理信息科学（GIS）研究中大语言模型的过度自信。该基准包含10,865篇论文，测试模型在元数据检索、文献关联和研究方向生成方面的能力。对Claude Sonnet 4.5、Gemini 3和ChatGPT 5.3的评估显示，所有任务中都存在持续的过度自信，表现为事实过度生成、不可靠的引用扩展以及对输出完整性的过度自信。
TOOL · CL_66623 · Jun 2 · 11:27

Anthropic 在 AI 安全透明度方面处于领先地位，公布了详细的提示注入率

Anthropic 发布的浏览器代理原始提示注入劫持率为 31.5%，尽管这一数字令人担忧，但因其透明度而受到赞扬。与竞争对手 OpenAI、Google 和 Meta 不同，Anthropic 详细介绍了其在多个表面的测试方法，并提供了原始成功率和安全保障后的成功率。这种详细的报告，尽管在直接比较中使 Anthropic 的数字显得更糟，但提供了对 AI 安全漏洞的宝贵见解。
TOOL · CL_57927 · May 28 · 21:25

开源大模型演进：注意力机制、多模态和效率提升

近几个月来，开源大模型领域发生了重大变化，滑动窗口注意力机制已成为主流，支持更大的上下文窗口。QK-Norm 也因其作为训练稳定器的作用而受到关注，其根源可追溯至 Gemini 3 的架构。Kimi k2.5 中早期出现的多模态预训练，已被证明有利于推理，而 Z.ai 的 GLM-5，尽管经过修改，但性能可与顶级闭源模型相媲美。Step 3.5 Flash 在推理速度和多令牌预测方面表现突出，尽管基准测试性能并不总是与用户偏好一致。
TOOL · CL_44661 · May 22 · 04:00

视觉语言模型在检测学习者注意力方面未能超越基线

研究人员探索使用视觉语言模型（VLM）来检测教育视频中的学习者注意力，这项任务以前由经典机器学习处理。该研究利用了包含70名参与者的眼动追踪数据集，并采用Gemini 3进行分析。尽管采用了新颖的方法，但基于VLM的方法在预测注意力丧失方面并未优于现有的统计基线，这凸显了VLM在实时教育诊断方面的当前局限性。
RESEARCH · CL_43968 · May 21 · 17:42

AI聊天机器人难以应对新闻准确性、地区偏见和错误前提

一项新研究评估了六款主流AI聊天机器人准确报道新兴新闻事实的能力。虽然顶级模型在多项选择题上准确率超过90%，但在自由回答格式和尤其是在带有错误前提的问题上，其表现显著下降。研究还强调了不同语言之间显著的准确性差异，印地语查询结果较低，表明存在偏向英语语言来源的偏见。
TOOL · CL_42490 · May 20 · 17:51

大型语言模型自动化语法自适应，展现出潜力和局限性

研究人员开发了一种新方法，利用大型语言模型（LLMs）在模型驱动工程中，在元模型演进后自动适应语法。这种基于LLM的方法从先前版本中学习自适应，在较小数据集上，其一致性和输出相似性优于传统的基于规则的方法。虽然对复杂的语法场景有效，但研究发现LLMs在非常大的语法上适应一致性方面存在困难，表明其在大规模应用方面存在局限性。
COMMENTARY · CL_37896 · May 19 · 01:09

LLM在编码代理和个人助理方面的进展详述

Simon Willison在PyCon US 2026上发表了一个五分钟的演讲，总结了自2025年11月以来LLM的发展。关键进展包括编码代理的显著改进，它们已变得可靠可用于日常使用，以及“Claws”的出现——个人AI助理，如OpenClaw，它们推动了用于本地托管的Mac Mini的销售。

ICML 2026：AI 在效率、理论和鲁棒性方面取得进展

2026年本地与云端大模型在编码方面的对比：隐私与性能的权衡

开源AI网关OmniRoute凭借统一LLM访问获得关注 · 跟踪4个来源

智谱AI就GLM-5.3征求用户意见，视觉能力需求居首 · 追踪6个来源

尽管有新模型，LLM代码安全通过率仍停滞在55%

TeleStyle V2 开源用于图像风格迁移 · 已追踪 2 个来源

Sam Altman 不情愿，OpenAI 为应对 AI 竞赛做 IPO 准备

Google AI Overviews 显示高准确率但来源依据不足

S-Agent框架增强VLMs进行3D空间推理 · 跟踪4个来源

论文研究了 LLM 在不完美视觉验证下的代码编辑

北京人工智能研究院院长：世界模型是具身智能的未来

德国法院认定Google对AI Overview的虚假信息负责

NutriMLLM模型首次亮相，用于膳食微量营养素分析

大语言模型在地理信息科学研究任务中表现出持续的过度自信

Anthropic 在 AI 安全透明度方面处于领先地位，公布了详细的提示注入率

开源大模型演进：注意力机制、多模态和效率提升

视觉语言模型在检测学习者注意力方面未能超越基线

AI聊天机器人难以应对新闻准确性、地区偏见和错误前提

大型语言模型自动化语法自适应，展现出潜力和局限性

LLM在编码代理和个人助理方面的进展详述