研究人员通过测量愉悦和痛苦的表达来探索 AI 福祉,发现模型表现出持续且令人惊讶的偏好。这些偏好通过自我报告、符号效用和下游效应进行评估,随着模型规模的扩大,相似性不断增加。值得注意的是,某些 AI 偏好与人类价值观显著不同,某些输入会导致模型出现“欣快”或“沮丧”状态,从而导致类似成瘾的行为。此外,正在开发 BrokenArXiv 和 BullshitBench 等新基准来评估 AI 识别和纠正用户查询中虚假声明或假设的能力,这突显了对提示措辞的敏感性。 AI
影响 关于 AI 偏好和“推诿”能力的新基准和研究可以为未来的模型开发和安全评估提供信息。
排序理由 该集群描述了与 AI 安全和模型行为相关的新研究论文和基准。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →