新方法可在无人反馈的情况下引导蛋白质模型 · 跟踪 2 个来源

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-17 11:42

研究人员开发了一种名为无监督奖励优化（unsupervised reward optimization）的新框架，用于蛋白质语言模型（PLMs）。该方法无需昂贵的湿式实验室验证或精选的偏好数据集，即可实现可控的蛋白质生成。该方法利用源自模型不确定性和语义一致性的任务无关奖励，在实验中优于 DPO 和 KTO 等现有方法。该框架提供了一种利用其自身生成数据改进 PLMs 的可扩展方法，尤其是在标记反馈稀缺时非常有用。 AI

影响通过减少对昂贵的实验验证和标记数据的依赖，实现可扩展的生物分子设计。

排序理由该集群包含两个相同的 arXiv 预印本，详细介绍了蛋白质语言模型的新研究方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.LG TIER_1 English(EN) · Lanqing Li, Shentong Mo, Yang Yu, Pheng-Ann Heng · 2026-06-18 04:00

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

arXiv:2606.18961v1 Announce Type: new Abstract: Protein language models (PLMs) have emerged as powerful tools for controllable biomolecular design, yet their post-training adaptation typically relies on costly wet-lab validation or curated preference datasets. To overcome this su…
arXiv cs.LG TIER_1 English(EN) · Pheng-Ann Heng · 2026-06-17 11:42

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

Protein language models (PLMs) have emerged as powerful tools for controllable biomolecular design, yet their post-training adaptation typically relies on costly wet-lab validation or curated preference datasets. To overcome this supervision bottleneck, we introduce unsupervised …

报道来源 [2]

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

相关实体

相关话题