实体 Veo 3

Veo 3

PulseAugur coverage of Veo 3 — every cluster mentioning Veo 3 across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 10

发布 · 30天

90 天内 0

论文 · 30天

90 天内 4

层级分布 · 90 天

significant 2
research 3
tool 4
commentary 1

主题

时间线

2026-05-20 product_launch Google released its Veo 3 text-to-video generation model via API. 来源

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

RESEARCH · CL_109874 · Jun 24 · 00:00

新框架评估AI视频生成在物理上的合理性 · 跟踪3个来源

研究人员开发了一个名为Physics Question Scene Graph (PQSG) 的新评估框架，用于评估AI模型生成的视频在物理上的合理性。PQSG采用基于分层问题的方法，利用视觉语言模型识别生成内容中违反物理定律的地方。该框架使用包含人类标注的FinePhyEval数据集进行了验证，并证明与人类判断的相关性高于以往的方法。研究还发现，PQSG在物理真实性方面将Sora 2和Veo 3等闭源模型排在Wan 2.1之前。
SIGNIFICANT · CL_101648 · Jun 20 · 10:42

Catnip 发布 MaineCoon，速度提升 7 倍的音视频流 AI 模型

中国初创公司 Catnip 开发了 MaineCoon，这是一种新颖的音视频流社交模型，达到了最先进的性能。该模型可实时生成同步的音频和视频，并能保持长达 30 分钟的一致性，这在行业内尚属首次。MaineCoon 拥有出色的推理速度，在单个 NVIDIA H100 上运行速度为 47.5 FPS，并且与 Veo 3 等现有模型相比，成本显著降低。
TOOL · CL_101293 · Jun 20 · 02:02

Google 的 Gemini AI 为新款智能家居设备和摘要工具提供支持

Google 的 Gemini AI 正在被集成到各种产品和服务中，包括一款旨在实现更自然对话的新型 Google Home 智能音箱。此外，一款名为 ReFind 的 Chrome 扩展程序已发布，它利用 Gemini 2.5 Flash Lite 来总结在线内容。Google 还在重点介绍 Gemini Omni 的官方用途，并演示 Gemini 如何将 Google Keep 笔记转换为待办事项列表。YouTube 上提供了展示…
COMMENTARY · CL_57884 · May 28 · 21:04

用户批评 Google 的 Gemini 3.5 令牌使用量过高

用户对 Google 的 Gemini 3.5 模型表示不满，指出其令牌消耗过多，并且与 Gemini 3.1 相比性能有所下降。一位用户注意到该模型令牌使用量很高，而另一位用户则认为 Gemini 3.1 Flash Lite 版本不够智能。这些评论出现在 Google 最近发布公告的背景下，包括在 Google I/O 2025 上发布的 Veo 3。
TOOL · CL_55822 · May 28 · 04:39

Runway视频AI集成到ChatGPT和Claude

视频生成AI服务Runway推出了Runway MCP，这是一项新集成，允许在其功能在ChatGPT和Claude等其他AI聊天服务中使用。通过在聊天界面中输入提示、参考图像或创意，用户可以直接生成视频和编辑图像。该集成通过允许用户在不离开聊天环境的情况下配置视频设置并启动生成，从而简化了工作流程。
SIGNIFICANT · CL_41215 · May 20 · 18:01

Google Veo 3 文本到视频模型现已通过 API 提供

Google 的 Veo 3 是一款文本到视频生成模型，现已通过 API 访问。该模型可以生成长达 2 分钟的视频，并支持各种复杂度的提示词。Veo 3 旨在通过详细的文本描述为用户提供对视频生成的更大控制权。
RESEARCH · CL_20322 · May 6 · 07:11

开源图像编辑器展现出惊人的零样本视觉能力

研究人员评估了三个开源图像编辑模型——Qwen-Image-Edit、FireRed-Image-Edit 和 LongCat-Image-Edit——在没有任何微调的情况下进行零样本视觉学习的能力。研究发现，这些模型在深度估计、表面法线估计和语义分割等任务上表现出显著的视觉理解能力。值得注意的是，FireRed-Image-Edit 在表面法线估计任务上的表现与一个指令微调模型相当，而 Qwen-Image-Edit 和 LongC…
TOOL · CL_18614 · May 6 · 04:00

新基准评估AI音乐-舞蹈联合生成中的节奏对齐

研究人员推出了TMD-Bench，一个旨在评估联合生成音乐和舞蹈的AI系统质量的新评估框架。该基准超越了一般的视听一致性，专注于音乐节奏和编舞动作之间细粒度的时间对齐。TMD-Bench结合了计算指标和人类判断，利用精选的数据集和一个专门的音乐字幕生成器来分析Veo 3和Sora 2等系统，识别节奏连贯性方面的改进领域。
FRONTIER RELEASE · CL_01729 · Oct 24 · 02:54

Google DeepMind 的 Genie 3 为实时 AI 代理导航生成交互式世界

Google DeepMind 推出了 Genie 3，这是一种新颖的世界模型，能够根据文本提示生成多样化的交互式环境。该模型允许用户以每秒 24 帧的速度实时导航这些动态世界，在 720p 分辨率下保持数分钟的一致性。Genie 3 在模拟自然现象、复杂交互甚至奇幻场景方面取得了重大进展，拓展了 AI 驱动的环境模拟的边界。
FRONTIER RELEASE · CL_01741 · May 20 · 09:45

Google DeepMind 发布 Veo 3 视频、Imagen 4 图像和 Flow 电影制作 AI 工具

Google DeepMind 发布了新的生成式媒体模型和工具，包括用于生成带音频的视频的 Veo 3 和用于高质量图像创建的 Imagen 4。该公司还将扩展其音乐模型 Lyria 2 的访问权限，并推出 AI 电影制作工具 Flow。这些进步旨在通过为艺术家和创作者提供对其作品中视觉和听觉元素的精细控制来赋能他们。

新框架评估AI视频生成在物理上的合理性 · 跟踪3个来源

Catnip 发布 MaineCoon，速度提升 7 倍的音视频流 AI 模型

Google 的 Gemini AI 为新款智能家居设备和摘要工具提供支持

用户批评 Google 的 Gemini 3.5 令牌使用量过高

Runway视频AI集成到ChatGPT和Claude

Google Veo 3 文本到视频模型现已通过 API 提供

开源图像编辑器展现出惊人的零样本视觉能力

新基准评估AI音乐-舞蹈联合生成中的节奏对齐

Google DeepMind 的 Genie 3 为实时 AI 代理导航生成交互式世界

Google DeepMind 发布 Veo 3 视频、Imagen 4 图像和 Flow 电影制作 AI 工具