PulseAugur
实时 15:30:20
English(EN) CANDLE: Character-level Arabic Noise Deduplication using Lightweight Encoder

新系统CANDLE使用CTC进行阿拉伯语文本噪声去重

研究人员开发了CANDLE,一个用于字符级阿拉伯语噪声去重的创新系统。该系统利用连接主义时间分类(CTC)将归一化视为一个序列对齐问题,这种方法以前并未应用于字符去重。在各种基准测试中,CANDLE的句子错误率低至5.37%,并且显著优于基于分类的基线。该系统进一步被提炼成一个更小的、2层的模型,性能损失极小,提供了实际效益,例如降低了阿拉伯语LLM的分词器肥沃度,从而降低了推理成本并提高了上下文窗口利用率。 AI

影响 这项研究可能导致LLM中阿拉伯语文本处理更高效、更具成本效益。

排序理由 该集群包含一篇详细介绍文本处理新方法和系统的学术论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新系统CANDLE使用CTC进行阿拉伯语文本噪声去重

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Faris Alasmary, Taif Nono, Orjuwan Zaafarani, Kholood Al Tabash, Ahmad Ghannam, Anas Salamah, Shouq Sadah, Lahouari Ghouti ·

    CANDLE: Character-level Arabic Noise Deduplication using Lightweight Encoder

    arXiv:2606.24758v1 Announce Type: new Abstract: Handling repeated characters in text can be tricky, since they can represent either the correct spelling of a word or informal character elongation often seen in social media posts. We present CANDLE, a lightweight system for charac…

  2. arXiv cs.CL TIER_1 English(EN) · Lahouari Ghouti ·

    CANDLE: Character-level Arabic Noise Deduplication using Lightweight Encoder

    Handling repeated characters in text can be tricky, since they can represent either the correct spelling of a word or informal character elongation often seen in social media posts. We present CANDLE, a lightweight system for character-level Arabic noise deduplication that addres…