实体 Human-ranked paraphrase-type dataset

Human-ranked paraphrase-type dataset

PulseAugur coverage of Human-ranked paraphrase-type dataset — every cluster mentioning Human-ranked paraphrase-type dataset across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
模型发布 1

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_68433 · Jun 3 · 04:00

DPO在释义生成准确性方面比人类偏好提升7%

研究人员开发了一种新方法，通过直接使用直接偏好优化（DPO）将模型输出与人类偏好进行对齐，以改进释义生成。该方法比监督方法提高了3个百分点的准确性，并比人类偏好评分提高了7个百分点。此外，一种新的释义类型检测模型取得了高F1分数，展示了更可靠、语义更准确的释义的潜力，可用于增强摘要和问答等应用。

DPO在释义生成准确性方面比人类偏好提升7%