PulseAugur
实时 09:42:17
实体 /r/AskReddit

/r/AskReddit

PulseAugur coverage of /r/AskReddit — every cluster mentioning /r/AskReddit across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_98102 ·

    新的RECOM数据集揭示了LLM评估中指标的权衡

    研究人员推出了RECOM,这是一个新的评估数据集,旨在评估开放式问答的自动指标,特别是针对LLM生成的文本。该数据集包含15,000个r/AskReddit问题及其真实的社区回复,突显了指标识别真实内容一致性(有效性)的能力与其对不同模型进行排名(区分能力)的能力之间的紧张关系。实验表明,虽然余弦相似度等指标在有效性方面表现出色,但在区分能力方面却表现不佳,而BERTScore精确率等指标在排名方面显示出潜力,但有效性较弱。研究表明,…