研究人员推出了一项名为 BehaviorBench 的新基准测试,旨在评估基础模型在行为科学相关任务(如心理学和社会学)上的表现。该基准测试从个体和群体层面评估模型在行为预测、策略决策、特质推断和知识应用方面的能力。与 BehaviorBench 一同推出的还有 http URL-1.5,这是一个在行为数据上微调的行为基础模型系列,与通用专有模型相比,该系列展示了更优越的分布对齐能力。 AI
影响 为 AI 在行为科学领域的应用建立了一个新的评估框架,有望指导开发更符合行为学原理的 AI 系统。
排序理由 该集群描述了一篇介绍行为科学任务基准测试和微调模型的新学术论文。
- BehaviorBench
- economics
- foundation model
- Hugging Face
- Psychology
- Sociology
- this http URL
- this http URL-1.5
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →