研究人员开发了一种名为置换不变微调(PI-FT)的新微调方法,以提高结构化元数据的检索准确性。标准的微调方法对元数据记录中字段的顺序敏感,当顺序改变时会导致检索质量显著下降。PI-FT通过在训练期间随机化字段顺序来解决这个问题,确保模型学会将含义与字段标签而不是其位置相关联。这种方法在保持分布内准确性的同时,极大地降低了与顺序变化相关的惩罚。该方法在DevDataBench基准上进行了测试,DevDataBench是一个用于发现开发统计信息的大型、由LLM生成的***,一个微调的118M参数模型在包括text-embedding-3-large模型在内的强基线之上表现出色。 AI
影响 增强了AI代理对结构化数据的可发现性,改进了统计数据的接地和传播。
排序理由 该项目是一篇学术论文,详细介绍了一种用于结构化元数据检索的嵌入模型微调新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- DagsHub
- DevDataBench
- Gotit.pub
- Hugging Face
- PI-FT
- ScienceCast
- text-embedding-3-large
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →