实体 Finqa

Finqa

PulseAugur coverage of Finqa — every cluster mentioning Finqa across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 9

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

RESEARCH · CL_141151 · Jul 13 · 11:22

新方法检测LLM在金融问答中的自信性幻觉

研究人员开发了一种方法来检测用于金融问答的大型语言模型（LLM）中的自信性幻觉。通过分析内部模型状态，特别是残差流上的线性探针，他们可以识别出LLM以高确定性呈现的不正确答案。该技术在FinQA基准测试上显示出比基线方法显著的优势，AUROC达到0.68-0.77，而基线方法为0.55-0.63。研究结果表明，这种探针方法可以作为高风险金融应用中人工审查的成本效益高的初步筛选系统。
TOOL · CL_119595 · Jul 1 · 04:00

新框架TaNOS提升AI表格数值推理能力

研究人员开发了TaNOS，一个旨在提高AI模型在处理复杂、领域特定表格时的数值推理能力的新框架。该框架使用表头匿名化、操作草图作为结构线索，以及自监督预训练来构建程序-问题对。这种方法有助于模型在不同领域更好地泛化，减少对表面捷径的依赖。当应用于一个8B指令调优模型时，TaNOS在FinQA数据集上取得了显著的准确性和鲁棒性提升，性能优于GPT-5和Gemini 2.5 Pro等专有模型。
TOOL · CL_115148 · Jun 26 · 11:30

新方法增强了密集嵌入排序器的可解释性

研究人员开发了一种名为ChunkGroupSHAP的新方法，以提高信息检索中使用的密集嵌入排序器的可解释性。该技术跨文档对语义相关的文本块进行聚类以创建共享特征，解决了词级别解释与密集表示之间的不匹配问题。在MS MARCO和FinQA等数据集上的实验表明，最佳解释粒度取决于排序器和语料库，这表明需要与表示粒度和语料库结构都保持一致的特征单元。
TOOL · CL_84828 · Jun 11 · 04:00

MoCA-Agent 利用交易来支持金融和数值AI推理

研究人员开发了MoCA-Agent，这是一种新颖的代码代理，专为强大的金融和数值推理而设计。该系统将问题分解为原子声明，使用专家代理交易这些声明，并从经验证的证据中合成可执行的Python程序。MoCA-Agent通过在原子声明级别聚合证据以提高准确性，在包括金融、表格和多模态图表推理在内的各种基准测试中表现出色。
RESEARCH · CL_58255 · May 28 · 07:33

DynaGraph框架通过动态重构降低LLM延迟和计算成本

研究人员开发了DynaGraph，一个旨在提高大型语言模型执行复杂推理任务效率的新型框架。该系统动态重构其拓扑结构，通过共享基础模型上的多路复用适配器来减少计算冗余，并支持在单个GPU上部署。DynaGraph的自愈能力通过触发细粒度修补或子图重构来解决错误和逻辑断裂。实验表明，使用DynaGraph的8B参数模型在推理能力上可与72B的单体模型相媲美，同时延迟和令牌消耗显著降低。
RESEARCH · CL_36569 · May 8 · 04:00

新的基准测试和智能体RAG提升LLM金融分析能力

研究人员开发了FINESSE-Bench，这是一个新的基准套件，旨在层次化地评估大型语言模型的金融领域知识和技术分析能力。该套件包括受专业金融认证和交易任务启发的专业基准测试，旨在评估不同难度级别和计算能力下的性能。同时，另一项独立研究引入了FinAgent-RAG，这是一个智能体检索增强生成框架，它使用迭代检索-推理循环和自我验证来进行金融文档问答。FinAgent-RAG包含一个专门的检索器、一个用于精确计算的思维程序推理模块以及…
TOOL · CL_15955 · May 5 · 04:00

Fin-PRM模型通过专门的奖励信号增强LLM的金融推理能力

研究人员开发了Fin-PRM，这是一种专门的过程奖励模型，旨在提高大型语言模型在金融推理方面的能力。与通用模型不同，Fin-PRM专注于金融任务的结构化和事实敏感性，评估中间推理步骤和整体轨迹的一致性。创建了一个包含3000个金融推理轨迹的新数据集来训练和验证Fin-PRM，该模型在金融推理基准测试上的表现优于现有方法。
RESEARCH · CL_11775 · May 1 · 04:00

新的基准显示大型语言模型在阿拉伯语和符号金融推理方面存在困难

研究人员推出了 SAHM，这是一个旨在评估大型语言模型阿拉伯语金融和符合伊斯兰教法（Shari'ah）的推理能力的新基准。该基准包含七个任务中超过 14,000 个专家验证的实例，填补了阿拉伯语金融自然语言处理领域的重大空白。对 20 个大型语言模型的评估显示，虽然模型在识别任务上表现良好，但它们的金融推理能力，特别是在事件-原因分析方面，则明显较弱。另外，FinChain 基准的开发旨在评估金融领域中可验证的思维链推理，使用参数化模…
RESEARCH · CL_02966 · Apr 23 · 09:55

TaNOS框架提升表格数值推理能力，超越GPT-5

研究人员开发了TaNOS，一个旨在提高AI模型处理表格数据时数值推理能力的新框架。该方法使用匿名化表头、用于结构线索的操作草图以及自监督预训练来创建可靠的程序-问题对。通过将领域语义与数值运算分离，TaNOS增强了推理能力的可迁移性，在FinQA等基准测试中，尤其是在领域迁移场景下，其表现显著优于标准的监督微调方法，甚至优于GPT-5和Gemini-2.5-Pro等专有模型。