English(EN) MortarBench: Evaluating Mortgage Loan Origination Agents

新的MortarBench基准测试揭示LLM在抵押贷款发放方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-19 04:00

一个名为MortarBench的新基准测试已被开发出来，用于评估AI代理在抵押贷款发放方面的性能。研究人员发现，目前最先进的大型语言模型在此任务中表现不佳，最高准确率仅为77.1%，并且在非英语姓名方面表现出偏见。为了解决这些局限性，引入了一个名为CRIT的置信度校准框架，该框架将准确率提高到80.5%，同时还改善了风险管理并减少了偏见。 AI

影响强调了当前LLM在专业金融任务中的局限性，并介绍了一种提高准确率和减少偏见的方法。

排序理由该集群描述了一篇介绍基准测试和AI代理评估的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Matthew Toles, Yunan Lu, Manav Munjal, Bojun Liu, Yuanhao Deng, Stephanie Selig, Derek Rindner, Cheng Li, Zhou Yu · 2026-06-19 04:00

MortarBench: Evaluating Mortgage Loan Origination Agents

arXiv:2606.19416v1 Announce Type: new Abstract: Loan origination is the process by which a lender creates a new loan, from application and underwriting through approval and funding. This process serves a critical role in evaluating the eligibility and level of risk posed by an ap…

报道来源 [1]

MortarBench: Evaluating Mortgage Loan Origination Agents

相关实体

相关话题