PulseAugur
实时 13:18:29
实体 Triage

Triage

PulseAugur coverage of Triage — every cluster mentioning Triage across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条
  1. RESEARCH · CL_46376 ·

    新论文显示,大语言模型在规划和承认无知方面存在不足

    两篇新论文评估了大语言模型的元认知能力,特别是它们的规划和弃权能力。TRIAGE 论文发现,大多数前沿和开源大语言模型在没有反馈的情况下,在规划问题解决序列和分配 token 预算的任务上表现不佳,而经过推理训练的模型表现不如标准模型。AbstentionBench 显示,当前的大语言模型难以识别不可回答的问题,并且推理微调会损害它们弃权的能力,因为强化学习方法缺乏直接的“我不知道”梯度。

  2. RESEARCH · CL_27573 ·

    New research probes LLM metacognition and strategic task management

    Two new research papers introduce frameworks for evaluating the metacognitive abilities of large language models. The first, TRIAGE, assesses an LLM's capacity to strategically select and sequence tasks under resource c…