实体
Human Evaluation of Procedural Knowledge Graph Extraction from Text with Large Language Models
Human Evaluation of Procedural Knowledge Graph Extraction from Text with Large Language Models
PulseAugur coverage of Human Evaluation of Procedural Knowledge Graph Extraction from Text with Large Language Models — every cluster mentioning Human Evaluation of Procedural Knowledge Graph Extraction from Text with Large Language Models across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
新框架AURA精炼LLM-as-a-Judge审计
研究人员推出AURA,一个旨在改进大型语言模型(LLMs)在评估中被用作裁判时的审计的新框架。AURA解决了LLM裁判可能存在偏见以及大规模人工评估通常不切实际的挑战。该框架通过学习人类一致性信号并优先处理不确定的比较以供人工审查,从而自适应地精炼对裁判的信任,使审计过程更有效、更可靠。
-
新研究论文批评AI文本评估方法
两篇新研究论文指出了当前评估AI生成文本方法的重大问题。一篇论文揭示了NLP会议上普遍存在的人工评估协议报告不足的问题,阻碍了可复现性和清晰度。第二篇论文批评了非自回归模型常用生成式困惑度的方法,认为它可以被“破解”以生成不连贯的文本,同时表现良好。两项研究都呼吁采用更健壮和透明的评估指标及方法。