MTEB · PulseAugur

ICML 2026：AI 在效率、理论和鲁棒性方面取得进展

在 ICML 2026 上发表的多篇研究论文探讨了 AI 的进展，重点关注效率、鲁棒性和新的理论框架。关键进展包括加速深度学习操作的新方法，如窗口化批矩阵乘法 (WBMM) 和高效的 4 位训练 (TetraJet-v2)。研究人员还通过 CPO 解决了模型对齐的理论挑战，并通过内部指标（如隐藏状态的 L2 范数）提出了理解和改进模型推理的新方法。

RESEARCH · CL_117093 · Jun 29 · 07:32

新的SABER-Math基准可自动评估AI数学检索

研究人员推出SABER-Math，这是一个新颖的基准，旨在自动评估专门用于数学任务的信息检索（IR）系统。该基准解决了现有IR评估的局限性，这些评估通常无法捕捉数学相关性的细微差别。SABER-Math利用LLM处理283,000个高中数学问题，生成摘要和主题，以创建重新排序任务。评估发现，虽然现代嵌入模型优于传统系统，但它们在代数和微积分等符号密集型领域仍然存在困难，并且像MTEB这样的通用基准无法准确预测数学IR性能。

RESEARCH · CL_115175 · Jun 26 · 11:50

新框架通过更小的数据集优化机器学习模型基准测试

研究人员开发了一个新框架，以应对为机器学习模型基准测试选择代表性数据集的挑战。该框架旨在通过识别更小、更有效的数据子集来降低评估成本，这些子集能够保持大型基准测试中发现的全局模型排名。该研究介绍了各种选择策略，包括引导聚合和贪婪最远优先方法，并评估了它们在时间序列分类和自然语言处理等不同领域的有效性。

COMMENTARY · CL_103119 · Jun 22 · 00:23

AI代理因搜索索引分布缺陷而失败，而非提示问题

AI代理中一个常见的问题是，由于底层搜索索引的问题，其搜索结果表面上看起来正确，但却导致事实性错误答案。这不是一个提示问题，而是一个分布问题，索引本身是一组冻结的过往相关性判断，而不是语义真相的体现。像BEIR和MTEB这样的标准检索基准可能会加剧这个问题，它们奖励检索与历史相关性匹配的文档，即使代理错误地解释了它们，导致基准测试得分高但实际查询表现不佳。

RESEARCH · CL_105011 · Jun 22 · 00:00

HAKARI-Bench 为检索模型提供轻量级评估 · 跟踪 2 个来源

研究人员推出了 HAKARI-Bench，这是一个轻量级基准，旨在简化检索增强生成和语义搜索的检索架构和效率设置的评估。这个新基准将现有的庞大检索套件重构为更小的数据集，能够对各种检索家族及其效率变体（如降维和量化）进行快速、与模型无关的比较。HAKARI-Bench 表现出高保真度，以高于 0.97 的 Spearman 相关性重现了大型基准的排名，使其成为开发过程中模型选择和回归检测的宝贵工具。

RESEARCH · CL_86605 · Jun 11 · 17:50

发布新的斯洛伐克文本嵌入基准和模型

研究人员推出了 SkMTEB，这是一个专为斯洛伐克语评估文本嵌入模型而设计的新基准。该基准包含 7 种任务类型的 31 个数据集，显著扩展了对这种低资源语言的覆盖范围。研究发现，大型多语言模型表现最佳，而现有的斯洛伐克语特定 NLU 模型在嵌入任务上的迁移效果不佳。为解决此问题，该团队开发了两个开源的斯洛伐克语嵌入模型：\texttt{e5-sk-small} 和 \texttt{e5-sk-large}，它们在本地可部署的情况下，提…

RESEARCH · CL_72548 · Jun 4 · 08:30

新方法利用文本反转增强LLM文本嵌入

研究人员推出ReverseEOL，一种无需额外训练即可增强由仅解码器大型语言模型（LLM）生成的文本嵌入的新方法。该技术通过整合从反向处理的输入文本派生的反向嵌入来增强标准嵌入。通过使词元接触到先前无法访问的未来上下文，反向嵌入提供了互补信息，从而产生更丰富的最终表示。在STS和MTEB基准上的实验表明，在各种LLM上性能均有显著提升。

TOOL · CL_65810 · Jun 2 · 04:00

新研究探索极端文本嵌入压缩

研究人员调查了降维和量化对压缩文本嵌入的组合影响。他们的实验使用了四个 MTEB 任务家族和四个预训练嵌入模型，结果表明，这种组合方法比单独使用任何一种方法都能实现显著更大的压缩。在某些情况下，嵌入可以减小到原始大小的 0.1%，而性能损失极小，尽管最佳策略因任务而异。

TOOL · CL_56190 · May 28 · 04:00

PromptEmbedder 通过双LLM提示实现高效、可迁移的文本嵌入

研究人员推出了一种名为PromptEmbedder的新型双LLM框架，旨在提高文本嵌入的效率和可迁移性。该方法通过使用一个提示LLM为冻结的嵌入LLM生成软提示，将嵌入知识与特定模型权重解耦。这种方法允许通过仅重新训练一个轻量级的线性对齐矩阵来适应新架构，与LoRA等方法相比，显著降低了计算成本和训练时间。在MTEB基准上的评估表明，PromptEmbedder在实现具有竞争力的性能的同时，使用的GPU内存更少，训练速度更快。

RESEARCH · CL_56316 · May 27 · 09:11

新的基准和研究探究多语言文本嵌入的鲁棒性

研究人员正在探索多语言文本嵌入在各种任务和语言中的鲁棒性。一项研究引入了新的指标来评估数据集构成和排名方法如何影响模型性能，发现大型语言模型总体上表现强劲，但并非普遍如此。另一篇论文提出了一个新的基准 HTEB，用于评估嵌入在词汇变化、长度和语言等多个维度上的鲁棒性，并指出当前的基准过于静态。第三篇论文主张将研究重点从表面意义转移到隐式语义，因为当前模型在更深层次的理解方面存在困难。

RESEARCH · CL_53958 · May 26 · 00:00

Google DeepMind 发布 Gemini Embedding 2 多模态模型

Google DeepMind 推出了 Gemini Embedding 2，一个新生的原生多模态嵌入模型。该模型能够为视频、音频、图像和文本数据生成统一的表示，在各种专业领域展现出强大的零样本能力。它在关键的嵌入基准测试中取得了最先进的性能，包括多模态检索任务，并可用于 RAG、推荐系统和搜索等下游应用。

RESEARCH · CL_43997 · May 21 · 09:05

研究发现：嵌入模型的结构可预测基准性能

研究人员证明，高性能模型中嵌入空间的组织方式与其基准性能密切相关。通过在五个MTEB任务上评估25个嵌入模型，他们发现独立成分分析中的最近邻重叠和幅度差异与任务成功率高度相关。该分析揭示了嵌入任务中不同程度的线性和局部信息保留，为未来的训练目标和条件嵌入优化提供了见解。

TOOL · CL_39077 · May 19 · 00:00

Hugging Face 发布 Ettin Reranker 模型以改进搜索

Hugging Face 发布了一个新的六个 Ettin Reranker 模型系列，这些模型构建在 Ettin ModernBERT 编码器之上。这些模型在其各自的尺寸下提供了最先进的性能，并专为信息检索系统中的检索后重排模式而设计。此次发布包括模型、它们的训练数据以及完整的训练配方，使用户能够集成它们，甚至训练自己的重排模型。

TOOL · CL_22216 · May 8 · 04:00

LMEB基准评估超越传统段落检索的长时记忆检索能力

研究人员推出了长时记忆嵌入基准（LMEB），这是一个新的评估框架，旨在评估嵌入模型在处理复杂、长时记忆检索任务方面的能力。与专注于传统段落检索的现有基准不同，LMEB包含22个数据集和193个零样本任务，涵盖了四种不同的记忆类型：情景记忆、对话记忆、语义记忆和程序记忆。对15个模型的初步评估表明，LMEB提出了一个合适的挑战，模型规模越大并不保证性能越好，并且LMEB衡量了与MTEB基准不同的能力。

TOOL · CL_15953 · May 5 · 04:00

Causal2Vec 在不改变架构的情况下增强了用于嵌入的仅解码器LLM

研究人员推出了一种新颖的方法 Causal2Vec，可以在不改变核心架构的情况下增强仅解码器的大型语言模型（LLM）以用于嵌入任务。该方法涉及将输入文本预编码为单个“上下文标记”，然后将其添加到 LLM 的输入序列中。Causal2Vec 还使用来自上下文标记和 EOS 标记的组合嵌入来减轻近期偏差，在 MTEB 检索数据集基准测试上取得了最先进的结果。

TOOL · CL_15862 · May 5 · 04:00

EPIC训练方法在MTEB基准上提升LLM文本编码器性能

研究人员开发了一种名为EPIC（Embedding-based In-Context Prompt Training，基于嵌入的上下文内提示训练）的新训练策略，以提高大型语言模型生成的文本嵌入质量。该方法通过用文本演示的对应嵌入替换文本演示来减少计算开销，从而在对比学习期间实现更好的语义对齐。通过EPIC训练的模型在MTEB基准上取得了最先进的性能，优于仅在检索数据上训练的模型。

RESEARCH · CL_01537 · Oct 19 · 00:00

Hugging Face 发布 MTEB 基准测试，用于评估波兰语文本嵌入

研究人员推出了波兰语大规模文本嵌入基准测试（PL-MTEB），这是一个专为评估波兰语文本嵌入模型而设计的新评估套件。该基准测试包含跨越五个类别（如分类、聚类和信息检索）的 30 个多样化 NLP 任务。该研究评估了 30 个公开可用的文本嵌入模型，分析了它们在不同任务类型和规模下的表现，所有数据集和代码均公开可用。

SIGNIFICANT · CL_01566 · Jan 24 · 08:00

OpenAI推出新的嵌入模型，降低价格并提升性能

OpenAI发布了新的嵌入模型text-embedding-3-small和text-embedding-3-large，与之前的模型（如text-embedding-ada-002）相比，在性能和效率上有了显著提升。这些新模型旨在更好地理解文本和代码中概念之间的关系，为语义搜索和检索增强生成等应用提供支持。OpenAI还在降低GPT-3.5 Turbo的价格，并更新其GPT-4 Turbo预览模型，同时还增强了开发者的API密钥管理…