PulseAugur
实时 18:36:12
实体 FaithCoT-Bench

FaithCoT-Bench

PulseAugur coverage of FaithCoT-Bench — every cluster mentioning FaithCoT-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_50888 ·

    新框架检测大型语言模型中不忠实的思维链推理

    研究人员开发了一个名为 CIE-Scorer 的新框架,用于检测大型语言模型(LLM)的思维链(CoT)推理何时不能准确反映其内部决策过程。该方法结合了外部信号(如答案一致性)和通过追踪模型电路得出的内部计算证据。通过有效地构建句子级电路并比较内部和外部推理图,CIE-Scorer 能够识别差异,在 CoT 不忠实检测方面取得了最先进的性能,同时降低了计算成本。