English(EN) CAREBench: A Child-Safety Risk Benchmark for Language Models

新基准CAREBench评估语言模型的儿童安全风险

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-30 04:00

研究人员开发了CAREBench，这是一个旨在评估语言模型中儿童安全风险的新基准。与以往侧重于明确的虐待材料的评估不同，CAREBench评估的是上游风险，如诱骗、欺骗、隐私侵犯和情感依赖。该基准包含十二个类别的500个提示，并由父母和临床医生进行了标注，旨在帮助AI开发者在潜在危害变得明显之前识别和解决它们。对七个前沿模型的初步评估显示，失败率从2%到58%不等，突显了当前儿童安全协议存在的重大差距。 AI

影响该基准可以通过提供一个工具来帮助开发者识别和减轻与儿童剥削和操纵相关的风险，从而推动AI安全方面的改进。

排序理由该集群包含一篇介绍用于评估AI安全的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Qiucheng Yu, Ruijie Xu, Mingang Chen Jianfeng Dong, Xin Tan · 2026-07-01 04:00

TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios

arXiv:2603.29759v2 Announce Type: replace-cross Abstract: Recent advances in vision-language models (VLMs) have accelerated their application to indoor safety hazards assessment. However, existing benchmarks suffer from three fundamental limitations: (1) heavy reliance on synthet…
arXiv cs.LG TIER_1 English(EN) · Kaavya Krishna-Kumar, Elaine Lau, Vaughn Robinson, Jay Caldwell, Sheriff Issaka, Skyler Wang, Francisco Guzm\'an, Steven Kelling, Jonas Mueller · 2026-06-30 04:00

CAREBench: A Child-Safety Risk Benchmark for Language Models

arXiv:2606.29685v1 Announce Type: new Abstract: How can we evaluate whether frontier AI systems recognize child-safety risks before they escalate into explicit harm? Existing child safety evaluations focus on child sexual abuse material, yet many child-safety failures begin earli…

报道来源 [2]

TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios

CAREBench: A Child-Safety Risk Benchmark for Language Models

相关实体

相关话题