研究人员开发了改进音频描述(AD)生成和评估的质量与可扩展性的方法。一项研究介绍了GenAD和RefineAD,这是一个利用AI生成的草稿来显著缩短AD创作时间的流程和界面,前提是草稿达到一定的质量阈值。另一篇论文提出了一种使用项目反应理论来评估人类和视觉语言模型(VLM)评分者在AD质量控制方面的熟练程度的工作流程,发现顶级的VLM可以接近人类评分水平,但缺乏类似人类的推理能力。第三项研究强调了零样本VLM安全分类器由于提示引起的得分差异而不可靠,建议将提示族评估与平均聚合作为标准基线。 AI
影响 这些论文探讨了改进AI辅助的内容创作和评估,可能带来更易于访问的数字媒体和更可靠的AI安全评估。
排序理由 该集群包含多篇详细介绍AI应用和评估方法新研究的学术论文。
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →