研究人员开发了一种多模态方法来分析政治演讲中的 pathos,其性能优于传统声学情感识别模型。该研究使用了 Gemini 2.5 Flash 和一个 LLM 主管集成,发现 Gemini 的效价得分与 TRUST-Pathos 得分高度相关。这种基于 LLM 的方法在捕捉语义定义的政治情感方面比单独的声学模型更有效,尽管声学特征仍然能提供关于唤醒水平的见解。 AI
影响 基于LLM的多模态分析比单独的声学方法提供了对政治演讲情感更细致的理解。
排序理由 该集群包含一篇学术论文,详细介绍了使用LLM和声学模型分析语音情感的新方法。
- Berlin Database of Emotional Speech (EMO-DB)
- emotion2vec_plus_large
- Felix Banaszak
- Gemini 2.5 Flash
- TRUST
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →