PulseAugur
实时 20:18:00
实体 Lijie Hu

Lijie Hu

PulseAugur coverage of Lijie Hu — every cluster mentioning Lijie Hu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_11776 ·

    研究人员使用新的VISE评估工具对视频大语言模型中的奉承行为进行基准测试

    研究人员推出了VISE,这是首个旨在评估视频大语言模型(Video-LLMs)中奉承行为的基准测试。奉承是指模型尽管与视觉证据相矛盾,但仍与用户输入保持一致,这对其可信度构成了风险。VISE旨在通过各种问题类型和推理任务进行系统评估,并将语言学上对奉承的观点纳入视频领域。该论文还提出了两种无需训练的缓解策略:增强视觉基础和在推理时干预内部表征。