实体 MMTEB: Massive Multilingual Text Embedding Benchmark

MMTEB: Massive Multilingual Text Embedding Benchmark

PulseAugur coverage of MMTEB: Massive Multilingual Text Embedding Benchmark — every cluster mentioning MMTEB: Massive Multilingual Text Embedding Benchmark across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

论文 3
基础设施 2
模型发布 1

关系

authored by Kenneth C. Enevoldsen 100%

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_109464 · Jun 24 · 10:37

BITEMBED 框架为大语言模型提供极低比特文本嵌入

研究人员开发了 BITEMBED，一个用于利用大语言模型创建高效文本嵌入的新颖框架。该方法将预训练的大语言模型骨干网络转换为具有三元权重和量化激活的嵌入编码器，显著降低了计算成本和向量存储开销。BITEMBED 通过持续对比预训练和微调进行适配，在 MMTEB 基准测试中，使用 Qwen3-0.6B 和 Gemma3-270M 等小型模型，表现与全精度模型相当。该框架还支持灵活的输出嵌入精度，可在性能和存储需求之间进行权衡。
RESEARCH · CL_105011 · Jun 22 · 00:00

HAKARI-Bench 为检索模型提供轻量级评估 · 跟踪 2 个来源

研究人员推出了 HAKARI-Bench，这是一个轻量级基准，旨在简化检索增强生成和语义搜索的检索架构和效率设置的评估。这个新基准将现有的庞大检索套件重构为更小的数据集，能够对各种检索家族及其效率变体（如降维和量化）进行快速、与模型无关的比较。HAKARI-Bench 表现出高保真度，以高于 0.97 的 Spearman 相关性重现了大型基准的排名，使其成为开发过程中模型选择和回归检测的宝贵工具。
TOOL · CL_79964 · Jun 9 · 04:00

新方法修正文本嵌入中的均值偏差

研究人员发现当前文本嵌入模型中存在一种持续的偏差，其中每个嵌入都可以分解为句子特定成分和跨所有句子的几乎相同的均值成分。他们提出了两种无需训练的修正方法 R1 和 R2，其中 R2 通过将嵌入投影到均值方向之外而表现出更优越的性能。在 Massive Multilingual Text Embedding Benchmark (MMTEB) 上的 38 个模型中，R2 持续提高了分类准确率，均值嵌入的范数与模型收益相关。

BITEMBED 框架为大语言模型提供极低比特文本嵌入

HAKARI-Bench 为检索模型提供轻量级评估 · 跟踪 2 个来源

新方法修正文本嵌入中的均值偏差