研究人员开发了一种名为无监督奖励优化(unsupervised reward optimization)的新框架,用于蛋白质语言模型(PLMs)。该方法无需昂贵的湿式实验室验证或精选的偏好数据集,即可实现可控的蛋白质生成。该方法利用源自模型不确定性和语义一致性的任务无关奖励,在实验中优于 DPO 和 KTO 等现有方法。该框架提供了一种利用其自身生成数据改进 PLMs 的可扩展方法,尤其是在标记反馈稀缺时非常有用。 AI
影响 通过减少对昂贵的实验验证和标记数据的依赖,实现可扩展的生物分子设计。
排序理由 该集群包含两个相同的 arXiv 预印本,详细介绍了蛋白质语言模型的新研究方法。
- arXiv
- Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization
- Binarized Reward Optimization
- Direct Preference Optimization
- Hugging Face
- KTO
- Protein Language Models
- reinforcement learning from human feedback
- Soft Reward Optimization
- Unsupervised Reward Optimization
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →