English(EN) We've published new research on how we post-train models for accurate search-augmented answers.

Perplexity 详细介绍用于准确、高效 AI 答案的 SFT+RL 流程的研究

作者 PulseAugur 编辑部 · [5 个来源] · 2026-04-22 18:15

Perplexity 详细介绍了其专有的后训练流程，该流程可增强基础模型以进行搜索增强的问答。此过程包括用于指令遵循和安全性的初始微调，然后进行策略内强化学习以提高搜索准确性和效率。该公司的奖励设计优先考虑正确性和用户偏好，防止模型生成看似合理但不正确的响应。Perplexity 声称，当此方法应用于阿里巴巴的 Qwen 模型时，其事实准确性可与 GPT 模型相媲美或更优，同时成本更低。 AI

影响 Perplexity 的研究详细介绍了一个流程，可提高模型在搜索增强答案方面的准确性和效率，从而可能降低运营成本。

排序理由 Perplexity 发布了关于其模型后训练流程的新研究。

在 X — Perplexity 阅读 →

AI 生成摘要 · Google Gemini · 来自 5 个来源。我们如何撰写摘要 →

Perplexity 详细介绍用于准确、高效 AI 答案的 SFT+RL 流程的研究

报道来源 [5]

X — Perplexity TIER_1 English(EN) · perplexity_ai · 2026-04-22 18:15

该流水线是为什么在 Perplexity 中，同一个基础模型能产生比开箱即用更准确、引用更好、效率更高的答案。

This pipeline is why the same base model produces more accurate, better-cited, and more efficient answers inside Perplexity than out of the box. Read our research: https://t.co/pYjUTnkPMW
X — Perplexity TIER_1 English(EN) · perplexity_ai · 2026-04-22 18:15

我们的奖励设计结合了正确性、偏好和效率。

Our reward design combines correctness, preference, and efficiency. Preference only counts when the answer is correct. This keeps the model from optimizing for better-sounding wrong answers. https://t.co/VbJ1M4o26w
X — Perplexity TIER_1 English(EN) · perplexity_ai · 2026-04-22 18:15

阿里巴巴Qwen：我们首先对模型进行微调，使其能够遵循指令、遵守安全限制并保持语言一致性。

@Alibaba_Qwen We first fine-tune the model to follow instructions, stay within guardrails, and keep language consistent. Then we run on‑policy RL to improve search accuracy and tool efficiency while preserving those behaviors. https://t.co/KaVs7h5Ixa
X — Perplexity TIER_1 English(EN) · perplexity_ai · 2026-04-22 18:15

我们发布了关于如何对模型进行后训练以获得准确的搜索增强答案的新研究。

We've published new research on how we post-train models for accurate search-augmented answers. Our SFT + RL pipeline improves search, citation quality, instruction following, and efficiency. With Qwen models, we match or beat GPT models on factuality at a lower cost. https://t…
X — Aravind Srinivas (Perplexity) TIER_1 English(EN) · Aravind Srinivas · 2026-04-22 18:15

RT Perplexity：我们发布了关于如何对模型进行后训练以获得准确的搜索增强答案的新研究。我们的 SFT + RL 流程改进了搜索，...

RT Perplexity We've published new research on how we post-train models for accurate search-augmented answers. Our SFT + RL pipeline improves search, citation quality, instruction following, and efficiency. With Qwen models, we match or beat GPT models o…

报道来源 [5]

该流水线是为什么在 Perplexity 中，同一个基础模型能产生比开箱即用更准确、引用更好、效率更高的答案。

我们的奖励设计结合了正确性、偏好和效率。

阿里巴巴Qwen：我们首先对模型进行微调，使其能够遵循指令、遵守安全限制并保持语言一致性。

我们发布了关于如何对模型进行后训练以获得准确的搜索增强答案的新研究。

RT Perplexity：我们发布了关于如何对模型进行后训练以获得准确的搜索增强答案的新研究。我们的 SFT + RL 流程改进了搜索，...

相关实体

相关话题