PulseAugur
实时 12:00:08
实体 deepseek/deepseek-v4-pro

deepseek/deepseek-v4-pro

PulseAugur coverage of deepseek/deepseek-v4-pro — every cluster mentioning deepseek/deepseek-v4-pro across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_115909 ·

    更大的模型和详细的评分标准提升了LLM裁判的性能

    一项研究探讨了LLM裁判在评估AI模型输出方面的有效性,发现使用更详细评分标准的大型模型,其性能显著优于使用基本评分标准的小型模型。通过OpenRouter使用DeepSeek-V4-Pro和Qwen3-32B访问的大型模型,与人类判断的一致性更高。研究强调,模型大小和评估评分标准的质量都是创建可靠LLM裁判的关键因素,明确定义的评分标准可以锚定评分尺度并要求推理,从而更有效。