Open Science Framework
PulseAugur coverage of Open Science Framework — every cluster mentioning Open Science Framework across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
研究:LLM 采用后,科学预印本中的破折号使用量激增
一项最新研究分析了 medRxiv 的预印本,发现在大型语言模型(LLMs)广泛采用后,破折号的使用显著增加。在 2022 年 11 月之前,讨论部分破折号的流行度为 4.23%,之后上升到 11.58%,这表明写作风格发生了转变。尽管该研究无法明确证明因果关系,但这一趋势的逐渐加速及其在各种分析中的一致性表明,科学文献的构成发生了显著变化,恰逢 2020 年代初期。
-
新方法增强了中文立法冲突分类
研究人员开发了TypedCSIP,这是一种新颖的反事实预训练方法,专为中文立法冲突分类而设计。该方法利用专家撰写的修订作为反事实监督来训练共享编码器,然后将其转移到分类头。与现有基线相比,该方法在LCR-CN基准测试上展示了改进的宏F1分数,在chinese-roberta-wwm-ext和SAILER跨骨干复制品上均取得了特定提升。由于编码器未能转移到相关的检索任务,因此该贡献仅限于冲突分类。
-
研究发现3-9B LLM在语言置信度测试中失败,影响不确定性估计
一项新研究检查了七个参数量在30亿到90亿之间的指令微调、开源大型语言模型(LLM)的语言置信度。研究人员发现,这些模型未能达到表达不确定性的最低有效性标准,所有模型在数值置信度引发方面均被判定为无效。使用分类引发来改进置信度报告的尝试扰乱了大多数模型的任务表现,导致准确率低于5%。研究表明,当前的语言置信度引发方法不足以捕捉此类规模模型内部的不确定性信号。