PulseAugur
实时 13:52:26
English(EN) CuriosAI Submission to the CASTLE Challenge at EgoVis 2026

CuriosAI 提交 CASTLE 挑战赛论文,采用 SVA 和 TMKG 方法

CuriosAI 提交了一篇论文,详细介绍了他们参加 CASTLE 挑战赛的方法,该挑战赛涉及根据大量的自我中心视频数据回答选择题。他们的主要方法 SVA(搜索-验证-回答)采用三阶段流程,使用视觉语言模型 (VLM) 和 LLM 裁判来优化潜在答案,准确率达到 0.50。第二种方法 TMKG(时间多模态知识图谱)从视频数据构建知识图谱,但准确率较低,为 0.35。 AI

影响 该研究探索了视频理解和问答的新方法,可能推动多模态人工智能能力的发展。

排序理由 该集群包含一项挑战赛的研究论文提交,详细介绍了新颖的方法。[lever_c_降级自研究:ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Yuto Kanda, Hayato Tanoue, Takayuki Hori ·

    CuriosAI Submission to the CASTLE Challenge at EgoVis 2026

    arXiv:2605.27800v1 Announce Type: new Abstract: CASTLE 2026 asks 185 multiple-choice questions over 600+ hours of synchronized multi-view egocentric video. We explore two approaches on top of a shared multimodal preprocessing layer, including per-person timelines, speaker-resolve…