PulseAugur
实时 12:32:43
实体 Ming-Flash-Omni-2.0

Ming-Flash-Omni-2.0

PulseAugur coverage of Ming-Flash-Omni-2.0 — every cluster mentioning Ming-Flash-Omni-2.0 across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_25784 ·

    新基准揭示AI视频推理能力的局限性

    研究人员推出了TraceAV-Bench,一个旨在评估处理长音频-视频时多跳推理能力的新基准。该基准包含578个视频中的2200多个问题,总时长超过339小时,平均推理链长度为3.68跳。包括Google的Gemini 3.1 Pro和名为Ming-Flash-Omni-2.0的开源模型在内的当前领先模型,准确率仅分别为68.29%和51.70%,显示出显著的局限性。该基准还强调,对多模态幻觉的鲁棒性与一般推理性能没有强相关性。