PulseAugur
实时 09:11:12

新基准SPLIT测试大型语言模型在英语和乌克兰语中的共情能力

开发了一个名为SPLIT的新基准,用于评估大型语言模型(LLMs)在危机相关情境下,特别是在英语和乌克兰语中的跨语言共情和文化基础。该基准包含跨越五个类别的500个提示:压力、恐慌、孤独、国内流离失所和紧张。对Gemini 2.5-Flash和Llama 3.3 70B Instruct的评估显示,在处理乌克兰语时性能有所下降,而DeepSeek-V3保持了稳定性。研究还指出,人类和AI评估者在共情和自然度方面的一致性较弱,但在文化基础方面存在分歧,这表明生成乌克兰语文本并不等同于提供文化上适当的情感支持。 AI

影响 该基准有望推动开发更具文化敏感性和共情能力的大型语言模型,以支持低资源语言的危机援助。

排序理由 该集群包含一篇介绍大型语言模型评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新基准SPLIT测试大型语言模型在英语和乌克兰语中的共情能力

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Anna Chorna ·

    SPLIT: Cross-Lingual Empathy and Cultural Grounding in English and Ukrainian LLM Responses

    arXiv:2607.02049v1 Announce Type: cross Abstract: Large Language Models are increasingly deployed in emotional-support contexts and crisis-related situations. Nevertheless, their cross-lingual abilities in these circumstances remain underexplored. Existing benchmarks emphasize mu…

  2. arXiv cs.AI TIER_1 English(EN) · Anna Chorna ·

    SPLIT: Cross-Lingual Empathy and Cultural Grounding in English and Ukrainian LLM Responses

    Large Language Models are increasingly deployed in emotional-support contexts and crisis-related situations. Nevertheless, their cross-lingual abilities in these circumstances remain underexplored. Existing benchmarks emphasize multilingual performance but rarely examine crisis-r…