一项名为TaxCalcBench的新基准测试显示,即使是前沿的大语言模型(LLMs)在税务计算方面也存在困难,表现最好的Gemini 2.5 Pro也只能正确处理32%的报税单。研究表明,由于其概率性和不一致的输出,LLMs不应成为税务、折扣或定价等财务决策的最终权威。因此,推荐的方法是分工合作:LLMs将自然语言规则转化为形式化规范,然后由确定性引擎执行,以确保准确性和可审计性。 AI
影响 强调了当前LLM在关键财务决策方面的局限性,并提出了一种混合方法以提高准确性和可审计性。
排序理由 该集群讨论了一个评估LLM在特定任务上表现的新基准测试,这属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →