实体 Factual QA

Factual QA

PulseAugur coverage of Factual QA — every cluster mentioning Factual QA across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_115158 · May 7 · 00:00

新框架揭示LLM思维表征的结构性限制

一篇新研究论文介绍了一个公理化评估框架，用于评估大型语言模型（LLMs）的潜在思维表征。该框架独立于下游基准测试分数，形式化了四个功能性公理：因果性、最小性、可分离性和稳定性。对23个推理任务中的开放权重LLMs进行审计后发现，没有模型能同时满足所有四个公理，这表明LLMs在表征内部思维方面存在结构性限制。