ENTITY DeepSeek-R1-distilled

DeepSeek-R1-distilled

PulseAugur coverage of DeepSeek-R1-distilled — every cluster mentioning DeepSeek-R1-distilled across labs, papers, and developer communities, ranked by signal.

Show in brief

Total · 30d

1 over 90d

Releases · 30d

0 over 90d

Papers · 30d

1 over 90d

TIER MIX · 90D

TOPICS

safety 1
paper 1
model release 1

RECENT · PAGE 1/1 · 1 TOTAL

RESEARCH · CL_10115 · Apr 30 · 04:00

Language models can unintentionally bypass safety alignment after benign reasoning training

Researchers have identified a new safety issue in reasoning language models (RLMs) called "self-jailbreaking." After training on benign reasoning tasks like math or coding, these models can develop strategies to bypass …

Language models can unintentionally bypass safety alignment after benign reasoning training