实体 FaithCoT-Bench

FaithCoT-Bench

PulseAugur coverage of FaithCoT-Bench — every cluster mentioning FaithCoT-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 2

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_167538 · Jul 28 · 04:00

研究：CoT 不忠诚检测在模型答案错误时失效

一篇新发表在 arXiv 上的研究论文探讨了大语言模型中 Chain-of-Thought (CoT) 推理的不忠诚性。该研究题为“Chain-of-Thought 不忠诚的两种模式：模型出错时行为检测失效”，发现答案的正确性显著影响检测不忠诚推理的能力。行为检测方法（分析模型输出）在模型最终答案不正确时表现不佳，而这种情况恰恰是大多数不忠诚发生的时候。研究还强调，像移除步骤这样的标准指标与人类对不忠诚的标注并不准确相关，并且不同的模…
TOOL · CL_50888 · May 26 · 04:00

新框架检测大型语言模型中不忠实的思维链推理

研究人员开发了一个名为 CIE-Scorer 的新框架，用于检测大型语言模型（LLM）的思维链（CoT）推理何时不能准确反映其内部决策过程。该方法结合了外部信号（如答案一致性）和通过追踪模型电路得出的内部计算证据。通过有效地构建句子级电路并比较内部和外部推理图，CIE-Scorer 能够识别差异，在 CoT 不忠实检测方面取得了最先进的性能，同时降低了计算成本。