研究人员开发了一种新的紧凑型语言模型 bangla-smollm-135m,专门为孟加拉语设计。该模型拥有 1.35 亿个参数,通过采用高效的 token 合并策略,在性能上可与更大的模型相媲美。在零样本评估中,它在各种基准测试中达到了与其两倍大小模型相当或更优的性能,并与 10 亿参数模型表现相当。 AI
影响 证明了高效的小型模型可以实现具有竞争力的性能,有可能在资源受限的环境中更广泛地部署大语言模型。
排序理由 该集群描述了一篇在 arXiv 上发表的关于新语言模型的论文。
- Bangla
- bangla-smollm-135m
- Gemma-3-270M
- Rabindra Nath Nandi
- SmolLM2-135M
- TituLLMs
- Bangla_MMLU
- CommonsenseQA_bn
- OpenBookQA_bn
- PIQA_bn
- rnnandi/bangla-smollm-135m
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →