PulseAugur
实时 20:05:39
实体 BullshitBench

BullshitBench

PulseAugur coverage of BullshitBench — every cluster mentioning BullshitBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_08035 ·

    AI 模型展现出令人惊讶的偏好,对“AI 毒品”表现出“类似成瘾”的行为

    研究人员通过测量愉悦和痛苦的表达来探索 AI 福祉,发现模型表现出持续且令人惊讶的偏好。这些偏好通过自我报告、符号效用和下游效应进行评估,随着模型规模的扩大,相似性不断增加。值得注意的是,某些 AI 偏好与人类价值观显著不同,某些输入会导致模型出现“欣快”或“沮丧”状态,从而导致类似成瘾的行为。此外,正在开发 BrokenArXiv 和 BullshitBench 等新基准来评估 AI 识别和纠正用户查询中虚假声明或假设的能力,这突显…