Google DeepMind 的研究人员开发了 Vision Banana,这是一个基于 Nano Banana Pro 构建的模型,通过将图像转换为其他图像来处理视觉任务。这种方法迫使模型生成像素,从而赋予其对 3D 几何和深度的理解。因此,与专用模型相比,Vision Banana 在零样本分割和深度估计方面表现出卓越的性能。 AI
影响 展示了一种新颖的视觉任务方法,可能提高 AI 模型中的几何理解能力。
排序理由 这是来自主要 AI 实验室(Google DeepMind)的研究发布,详细介绍了一个新模型及其功能。
在 Mastodon — mastodon.social 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →