DeepSeek 已开始限量发布其新的“Vision”多模态模型,该模型似乎与其 V4 文本模型是独立的实体。早期测试表明,虽然 Vision 模型在非思考模式下速度极快,但在复杂的推理任务中会遇到困难,经常出错。然而,它在 OCR 和甚至将网页重构为 HTML 等任务中显示出实际效用,尽管它偶尔在色盲评估等特定测试中会失误。 AI
影响 为 DeepSeek 的多模态能力提供了早期见解,可能影响其他视觉语言模型的发展轨迹。
排序理由 一家知名 AI 实验室发布了新多模态模型的早期访问版本,并进行了初步性能测试和功能探索。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →