实体 ParaPairAudioBench

ParaPairAudioBench

PulseAugur coverage of ParaPairAudioBench — every cluster mentioning ParaPairAudioBench across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_113484 · Jun 23 · 14:43

新基准显示 LALM 裁判在副语言评估方面落后于人类

研究人员开发了 ParaPairAudioBench，这是一个旨在评估大型音频语言模型 (LALM) 在区分语音中细微副语言特征能力的新基准。该基准包含 5,175 个音频对，涵盖五个维度：风格、语速、强调、年龄和性别。目前的 LALM 裁判表现明显不如人类评估，平均落后 32 个百分点，并且在校准方面存在困难，尤其是在正确判断应弃权时。
RESEARCH · CL_107789 · Jun 23 · 14:43

新基准评估 LALM 在细微语音特征上的表现 · 已追踪 2 个来源

研究人员推出了 ParaPairAudioBench，这是一个旨在评估大型音频语言模型 (LALM) 在区分语音中细粒度副语言特征能力的新基准。该基准包含 5,175 个音频对，涵盖五个维度：风格、语速、强调、年龄和性别。实验表明，当前的 LALM 裁判在平均 32 个百分点上未能达到人类判断水平，并且存在严重的校准问题，尤其是在需要弃权的情况下。

新基准显示 LALM 裁判在副语言评估方面落后于人类

新基准评估 LALM 在细微语音特征上的表现 · 已追踪 2 个来源