PulseAugur
实时 16:22:05
English(EN) Modeling Pathology-Like Behavioral Patterns in Language Models Through Behavioral Fine-Tuning

研究人员通过微调诱导语言模型产生类病理行为

研究人员开发了一个新的框架来微调语言模型,诱导出抑郁和偏执等特定的行为模式。该过程会修改模型的策略,导致其生成分布发生稳定、与上下文无关的转变,例如为负面和与威胁相关的解释分配更高的概率。研究表明,这些诱导的行为特征具有部分特异性,不同的训练目标会导致不同的响应倾向,这表明结构化的行为训练可以塑造大型语言模型中出现的表征结构。 AI

影响 这项研究突显了对大型语言模型进行可控行为操纵的潜力,引发了关于其作为认知模型使用的疑问以及诱导特定行为偏见的安全性问题。

排序理由 该集群包含一篇详细介绍语言模型微调新方法的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Nicola Milano, Davide Marocco ·

    Modeling Pathology-Like Behavioral Patterns in Language Models Through Behavioral Fine-Tuning

    arXiv:2605.22356v1 Announce Type: new Abstract: Large language models are increasingly used as computational tools for modeling human-like behavior. We introduce a behavioral induction framework that modifies model policies through fine-tuning on structured decision-making tasks:…

  2. arXiv cs.CL TIER_1 English(EN) · Davide Marocco ·

    Modeling Pathology-Like Behavioral Patterns in Language Models Through Behavioral Fine-Tuning

    Large language models are increasingly used as computational tools for modeling human-like behavior. We introduce a behavioral induction framework that modifies model policies through fine-tuning on structured decision-making tasks: using synthetic datasets inspired by maladaptiv…