研究人员开发了 PHBench,这是一个新的基准数据集,来源于 2019 年至 2025 年间超过 67,000 次 Product Hunt 发布,并与 Crunchbase 融资数据相关联。该基准旨在根据发布信号预测初创公司的 A 轮融资结果。他们表现最佳的集成模型达到了 0.097 的 F0.5 分数,优于逻辑回归基线。值得注意的是,谷歌测试的 Gemini 模型表现低于基线,其中能力最强的模型结果最差,这表明需要进一步研究 LLM 在该领域的表现。 AI
影响 评估了 LLM 在预测初创公司融资方面的表现,表明当前模型在此特定任务上可能无法优于传统的机器学习方法。
排序理由 这是一篇介绍新基准数据集和评估结果的研究论文。[lever_c_demoted from research: ic=1 ai=0.7]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →