PulseAugur
实时 17:04:20
English(EN) CANDLE: Character-level Arabic Noise Deduplication using Lightweight Encoder

新的阿拉伯语文本去重系统使用CTC提高LLM效率

研究人员开发了CANDLE,一种用于去重阿拉伯语文本中字符的新颖系统,特别解决了区分社交媒体上故意的字符拉长与非正式用法之间的挑战。该系统利用连接主义时间分类(CTC)将归一化视为序列对齐问题,在各种基准测试中实现了5.37%的低句子错误率。该模型的蒸馏版本在推理开销和分词器肥沃度方面提供了显著的降低,有可能降低阿拉伯语LLM的成本并提高上下文窗口利用率。 AI

影响 这种字符级去重技术可以提高大型语言模型处理阿拉伯语文本的效率并降低成本。

排序理由 该集群描述了一篇详细介绍文本处理新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的阿拉伯语文本去重系统使用CTC提高LLM效率

报道来源 [1]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    CANDLE: Character-level Arabic Noise Deduplication using Lightweight Encoder

    Handling repeated characters in text can be tricky, since they can represent either the correct spelling of a word or informal character elongation often seen in social media posts. We present CANDLE, a lightweight system for character-level Arabic noise deduplication that addres…