实体 logarithmic loss

logarithmic loss

PulseAugur coverage of logarithmic loss — every cluster mentioning logarithmic loss across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

TOOL · CL_129068 · Jul 7 · 04:00

新方法通过概率不确定性量化增强交通预测

研究人员开发了一种新颖的方法，可以将现有的确定性交通预测模型转换为概率性模型。该方法仅需将最终输出层替换为高斯混合模型（GMM）层，即可使模型在进行不确定性量化的同时预测交通动态。修改后的模型可以使用负对数似然（NLL）损失进行训练，而无需更改现有的训练流程。在各种数据集上的实验表明，该技术在保持确定性性能的同时，与单峰或确定性基线相比，即使在数据不完美的情况下也能提供更准确和信息量更大的概率预测。
TOOL · CL_74964 · Jun 6 · 13:01

Karpathy 重访 1989 年神经网络，用现代 AI 技术降低错误率

Andrej Karpathy 重建了一个 1989 年的神经网络，通过应用现代深度学习技术，错误率降低了 60%。他展示了使用交叉熵损失（而非均方误差）、AdamW 优化器以及数据增强（特别是图像移位）等创新方法，显著提高了模型的性能。Karpathy 还表明，即使使用原始的 1989 年方法，仅将数据集大小从 7,291 张图像增加到 50,000 张，也能大幅降低错误率。
TOOL · CL_48874 · May 25 · 04:00

新的SFT目标在有能力的LLM上优于NLL

研究人员探索了大型语言模型监督微调（SFT）的替代目标，超越了标准的负对数似然（NLL）。他们的研究通过在各种模型和基准上进行大量实验，揭示了不同的目标根据模型的性能表现更好。对于能力更强的模型，降低低概率token权重的目标更有效，而对于能力较弱的模型，NLL表现最佳。
RESEARCH · CL_03769 · Apr 26 · 04:31

DeepSeek-V4、LoRA 及其他 LLM 技术在新博客中详述

Outcome School 上线了一系列六篇博客文章，详细介绍了当代大型语言模型的基本组成部分。这些文章涵盖了 RMSNorm、DeepSeek-V4、LoRA、RoPE、GQA 和交叉熵损失等技术概念。这些解释旨在解读支撑现代人工智能系统的核心构建模块。
RESEARCH · CL_06766 · Apr 25 · 09:33

新框架通过分离层优化深度学习训练

研究人员引入了一个名为层分离优化（Layer Separation Optimization）的新颖框架，以解决深度学习模型使用交叉熵损失进行训练时面临的挑战。该方法旨在缓解深度网络训练过程中出现的强非凸性问题。通过使用辅助变量将复杂的优化问题分解为更小、更易于管理子问题，该框架在理论上为原始交叉熵损失提供了上限，并在数值实验中展示了改进的优化行为。

新方法通过概率不确定性量化增强交通预测

Karpathy 重访 1989 年神经网络，用现代 AI 技术降低错误率

新的SFT目标在有能力的LLM上优于NLL

DeepSeek-V4、LoRA 及其他 LLM 技术在新博客中详述

新框架通过分离层优化深度学习训练