PulseAugur
实时 10:28:43

新方法可在无人反馈的情况下引导蛋白质模型 · 跟踪 2 个来源

研究人员开发了一种名为无监督奖励优化(unsupervised reward optimization)的新框架,用于蛋白质语言模型(PLMs)。该方法无需昂贵的湿式实验室验证或精选的偏好数据集,即可实现可控的蛋白质生成。该方法利用源自模型不确定性和语义一致性的任务无关奖励,在实验中优于 DPO 和 KTO 等现有方法。该框架提供了一种利用其自身生成数据改进 PLMs 的可扩展方法,尤其是在标记反馈稀缺时非常有用。 AI

影响 通过减少对昂贵的实验验证和标记数据的依赖,实现可扩展的生物分子设计。

排序理由 该集群包含两个相同的 arXiv 预印本,详细介绍了蛋白质语言模型的新研究方法。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Lanqing Li, Shentong Mo, Yang Yu, Pheng-Ann Heng ·

    Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

    arXiv:2606.18961v1 Announce Type: new Abstract: Protein language models (PLMs) have emerged as powerful tools for controllable biomolecular design, yet their post-training adaptation typically relies on costly wet-lab validation or curated preference datasets. To overcome this su…

  2. arXiv cs.LG TIER_1 English(EN) · Pheng-Ann Heng ·

    Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

    Protein language models (PLMs) have emerged as powerful tools for controllable biomolecular design, yet their post-training adaptation typically relies on costly wet-lab validation or curated preference datasets. To overcome this supervision bottleneck, we introduce unsupervised …