Ideogram 已将其 4.0 文本到图像模型开源发布,该模型拥有 93 亿参数。这个新模型在生成准确文本和复杂布局方面表现出色,在 OCR 准确性方面得分很高,并在设计师偏好 ELO 排行中位列第二。它支持结构化 JSON 提示,可精确控制颜色、边界框和文本元素,并采用了独特的单流 DiT 架构,配备 Qwen3-VL-8B-Instruct 文本编码器。 AI
影响 加速了 AI 图像模型在复杂图形设计和文本生成方面的开源能力。
排序理由 发布了一个新的文本到图像模型,并提供了详细的技术规格和基准测试结果,且该模型已开源。
AI 生成摘要 · Google Gemini · 来自 5 个来源。 我们如何撰写摘要 →