实体 LLM-based evaluators

LLM-based evaluators

PulseAugur coverage of LLM-based evaluators — every cluster mentioning LLM-based evaluators across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

论文 1
其他 1

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_82640 · Jun 10 · 04:00

新基准ITEM评估印度语言机器翻译指标

研究人员开发了一个名为ITEM的新基准，用于评估印度语言机器翻译和摘要的自动评估指标的可靠性。研究发现，基于LLM的评估器在与人类判断的一致性方面表现最佳，而异常值对指标一致性产生了显著影响。研究还强调了评估指标在翻译和摘要任务中捕捉流畅性与内容保真度的差异，并指出了评估指标对扰动的鲁棒性差异。

新基准ITEM评估印度语言机器翻译指标