一个名为MortarBench的新基准测试已被开发出来,用于评估AI代理在抵押贷款发放方面的性能。研究人员发现,目前最先进的大型语言模型在此任务中表现不佳,最高准确率仅为77.1%,并且在非英语姓名方面表现出偏见。为了解决这些局限性,引入了一个名为CRIT的置信度校准框架,该框架将准确率提高到80.5%,同时还改善了风险管理并减少了偏见。 AI
影响 强调了当前LLM在专业金融任务中的局限性,并介绍了一种提高准确率和减少偏见的方法。
排序理由 该集群描述了一篇介绍基准测试和AI代理评估的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- large language models
- MortarBench
- ScienceCast
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →