PulseAugur
实时 17:00:47
English(EN) D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

新的 D^2-Monitor 系统增强了扩散式大语言模型的安全性

研究人员推出了一种新颖的 D-LLMs 安全监控系统 $D^2$-Monitor。该系统解决了扩散式大语言模型(D-LLMs)监控的独特挑战,D-LLMs 通过多步过程生成文本,暴露了中间表示。$D^2$-Monitor 将“安全犹豫”——即中间状态反复接近探测器的决策边界——识别为潜在探测器失败的关键指标。它采用动态路由机制,仅当犹豫水平超过阈值时才激活资源密集型探测器,从而优化效率。 AI

影响 这项研究介绍了一种更有效的方法来监控扩散式大语言模型的安全性,有可能改善其负责任的部署。

排序理由 该集群描述了一篇详细介绍新颖的 AI 安全监控方法的最新研究论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →

新的 D^2-Monitor 系统增强了扩散式大语言模型的安全性

报道来源 [4]

  1. arXiv cs.AI TIER_1 English(EN) · Aoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi ·

    $D^2$-Monitor:通过犹豫感知路由对扩散式大型语言模型进行动态安全监控

    arXiv:2605.25893v1 Announce Type: new Abstract: Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text thr…

  2. arXiv cs.AI TIER_1 English(EN) · Adel Bibi ·

    $D^2$-Monitor:通过犹豫感知路由实现扩散式大语言模型的动态安全监控

    Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing in…

  3. Hugging Face Daily Papers TIER_1 English(EN) ·

    $D^2$-Monitor:通过犹豫感知路由实现扩散式大语言模型的动态安全监控

    Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing in…

  4. Hugging Face Daily Papers TIER_1 English(EN) ·

    D^2-Monitor:通过犹豫感知路由实现扩散式LLM的动态安全监控

    Diffusion large language models generate text through multi-step denoising processes that expose intermediate representations useful for safety monitoring, leading to the development of a bi-level safety monitor that dynamically routes computational resources based on hesitation …