Transformer models for electromagnetic transient studies with particular reference to HVdc transmission.
PulseAugur coverage of Transformer models for electromagnetic transient studies with particular reference to HVdc transmission. — every cluster mentioning Transformer models for electromagnetic transient studies with particular reference to HVdc transmission. across labs, papers, and developer communities, ranked by signal.
1 天有情绪数据
-
《Attention Is All You Need》论文介绍了Transformer架构
开创性论文《Attention Is All You Need》介绍了Transformer架构,彻底改变了自然语言处理。该架构仅依赖注意力机制,在机器翻译和其他序列到序列任务中取得了重大进展。它对并行处理和捕捉长距离依赖关系的关注使其成为现代深度学习的基础要素。
-
Transformer模型预测德国政治文本的意识形态
研究人员开发了一种基于Transformer的模型,用于在连续的左右光谱上预测德国文本的政治意识形态。该研究使用四种不同的语料库(包括议会笔记、政治决策工具、报纸文章以及德国联邦议会议员的推文)评估了13种Transformer模型。DeBERTa-large在领域内表现中取得了最高的F1分数,而Gemma2-2B在报纸的领域外测试中表现出色,表明Transformer模型能够以与民意调查相当的准确性识别政治立场。
-
BRICKS模型使用神经马尔可夫核进行零样本辐射-物质模拟
研究人员开发了BRICKS,一种使用组合式神经马尔可夫核模拟辐射-物质相互作用的新方法。该方法采用混合离散-连续Transformer模型和黎曼流匹配来预测粒子行为和辐射副作用。该系统能够以零样本方式模拟未见的材料分布,并且设计为可微分的,为未来的应用提供了潜力。此外,还发布了一个包含2000万个辐射-物质相互作用事件的新数据集,以支持进一步的研究。
-
Zyphra的TSP策略将LLM训练吞吐量提升2.6倍
Zyphra开发了一种名为张量与序列并行(TSP)的新技术,旨在优化大型Transformer模型的训练与推理。这种硬件感知的策略结合了张量并行和序列并行的方面,能够更有效地在GPU之间分配模型权重和输入序列。基准测试表明,TSP的吞吐量最高可达现有方法的2.6倍,同时还能减少每GPU的内存使用量。
-
多语言模型显示显著情感失准,尤其对孟加拉语
一篇新研究论文强调了多语言语言模型中显著的跨语言情感失准问题,尤其影响孟加拉语等低资源语言。研究发现,一个压缩模型架构表现出28.7%的情感反转率,错误解读了正面和负面含义。研究人员还发现了一个“不对称共情”问题,即模型在处理孟加拉语文本时,其情感权重会与其英文翻译发生改变,以及一个“现代偏见”,导致在处理正式孟加拉语时对齐错误增加。
-
深度Transformer模型在新研究中显示出噪声同步
研究人员发表了一篇论文,详细介绍了深度Transformer模型的数学行为。该研究证明了这些模型中token的层级演化收敛于一个连续时间随机粒子相互作用系统。它还确定了控制token分布的特定随机偏微分方程,并证明了在某些条件下存在噪声同步。