PulseAugur
实时 15:24:53
English(EN) Text-Preserving Lossy Text Compression: A Study of Strategic Deletion and LLM Reconstruction

大型语言模型通过策略性删除和重建实现有损文本压缩

研究人员开发了一种新颖的有损文本压缩方法,通过策略性地删除文本部分并使用大型语言模型(LLMs)重建原始内容。在BBC新闻数据集上的实验表明,在较低的保留率下,由词频指导的删除是一种具有竞争力且高效的基线方法。在适度的压缩级别下,语义和混合方法显示出更强的优势。研究还发现,QLoRA微调产生的本地解码器可与Gemini 2.0 Flash媲美,并且总体框架被证明可以跨不同语言和数据集转移,尽管最优删除规则因数据集而异。 AI

影响 这项研究引入了一种新的高效文本表示方法,可能影响LLM应用的數據存儲和傳輸。

排序理由 该集群包含一篇学术论文,详细介绍了使用大型语言模型进行文本压缩的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

大型语言模型通过策略性删除和重建实现有损文本压缩

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yuchun Zou, Junhong Tong, Jun Li ·

    文本保留的有损文本压缩:策略性删除与大语言模型重建研究

    arXiv:2605.29000v1 Announce Type: new Abstract: Traditional lossless text compression preserves every byte, but its gains on natural language are often modest in realistic operating regimes. We study \emph{lossy semantic text compression}, where the encoder strategically deletes …