Attention Is All You Need

LLM 详解：Transformer 和 Token 如何驱动人工智能语言模型

本文是一篇关于大型语言模型（LLM）的入门指南，解释了它们作为复杂的预测机器，通过猜测序列中的下一个词来发挥基本功能。文章详细介绍了像 ChatGPT、Claude 和 Gemini 这样的 LLM 如何构建在 Transformer 架构之上，该架构利用自注意力机制，通过同时权衡句子中所有词的重要性来理解上下文。将文本转换为计算机可理解的格式的过程包括分词（将词分解成更小的单元）和创建向量嵌入（以数值形式表示这些词的含义）。

COMMENTARY · CL_125340 · Jul 4 · 14:45

AI社区分享

Reddit上的一个讨论探讨了重要的

TOOL · CL_120388 · Jul 1 · 14:42

Genesis Molecular AI 开发 PEARL 模型用于药物发现

Genesis Molecular AI 是一家专注于药物发现人工智能的公司，开发了一个名为 PEARL 的新模型，该模型可以高精度地预测蛋白质的三维结构。这一突破解决了长期存在的蛋白质柔性建模的挑战，这是识别可行药物候选物的关键步骤。公司首席技术官 Sergey Edunov 曾领导 Meta 的 LLM 训练，联合创始人 Evan Feinberg 强调，现在这一领域正在进行创新的扩散研究，超越了传统的 LLM 架构。

COMMENTARY · CL_120183 · Jul 1 · 12:26

理解大型语言模型：GPT、ChatGPT 和 Transformer 架构

本文解释了像 GPT 这样的大型语言模型（LLMs）的基本概念，详细说明了它们如何通过模式预测而非事实回忆来生成文本。它澄清了 GPT 是底层模型架构，而 ChatGPT 是面向用户的应用程序。文章强调了 OpenAI 的使命是确保人工智能造福人类，并将大型语言模型的发展追溯到 2017 年的开创性论文《Attention Is All You Need》，该论文介绍了彻底改变了顺序词处理的 Transformer 架构。

COMMENTARY · CL_114957 · Jun 28 · 21:45

RAG 基准测试缺陷揭露：分块策略而非 LLM 驱动结果

一位开发检索增强生成（RAG）系统的开发者遇到了其基准测试的问题，发现分块策略和问题难度的变化同时改变了模型排名。该开发者发现，基准测试并未准确衡量 LLM 能力，而是衡量了分块配置的有效性。在对 Transformer 论文的一个特定问题进行检索失败导致模型回答错误后，尽管答案存在于原始文档中，开发者才意识到这一点。

RESEARCH · CL_111182 · Jun 25 · 22:00

Sakana AI 倡导以人为本的“日式AI”

Sakana AI 是一家总部位于东京的初创公司，其“日式AI”方法侧重于支持人类决策，而非取代人类。CEO David Ha 解释说，该公司与日本大型企业合作，将AI工作流程整合到核心业务流程中，例如贷款申请审查和提案文件创建。该策略涉及使用多个AI代理和一个“路由”系统，将任务高效地分配给最合适的模型，包括他们自己的“Namazu”系列，以避免过度依赖外国前沿模型并确保AI主权。Sakana AI 还致力于使AI适应日本的文化和价…

RESEARCH · CL_108448 · Jun 24 · 09:02

Google loses Transformer co-author Shazeer to OpenAI, AlphaFold researcher Jumper to Anthropic

两位杰出的AI研究员Noam Shazeer和John Jumper已离开Google加入竞争对手公司，标志着AI人才格局的重大转变。Shazeer是Transformer论文的合著者，曾任Google工程副总裁，现已加入OpenAI领导架构研究。Jumper因其在AlphaFold上的工作而闻名，现已加入Anthropic，这表明该公司专注于科学AI应用。这两人的离职发生在同一周内，凸显了对顶尖AI人才的激烈竞争，并暗示了OpenA…

RESEARCH · CL_101269 · Jun 20 · 01:14

Google DeepMind关键研究员离职；新基准显示AI在知识工作中挣扎；OpenAI收购Astral

Google DeepMind正经历一次重大的人才流失，Noam Shazeer已加入OpenAI，John Jumper已加入Anthropic，这标志着AI人才正向小型竞争对手转移。一项名为AA-Briefcase的新基准测试显示，即使是Claude Fable 5等先进模型，也只能解决3%的实际知识工作任务，这凸显了当前AI能力与生产价值之间的差距。为了增强其编码工具，OpenAI收购了Astral，即快速Python工具uv和…

RESEARCH · CL_100333 · Jun 19 · 07:06

OpenAI 从 Google 的 Gemini 团队挖来 AI 先驱 Noam Shazeer

据报道，OpenAI 已聘请了 AI 发展的关键人物、Google Gemini 项目的联合负责人 Noam Shazeer。Shazeer 是介绍 Transformer 架构的开创性论文“Attention Is All You Need”的合著者。他在此前 OpenAI 预期 IPO 之前转投 OpenAI，被视为 OpenAI 的一项重大战略收获，也是对 Google AI 野心的重大打击。此次人才引进凸显了顶尖 AI 人才争…

TOOL · CL_99261 · Jun 18 · 19:59

OpenAI 在 IPO 前聘请 AI 传奇人物 Shazeer 和政策专家 Ball

OpenAI 正在引入两位知名人士，以加强其团队，为潜在的 IPO 做准备。Noam Shazeer，Transformer 架构的关键设计者和前 Google DeepMind AI 负责人，将加入该公司。此外，Dean Ball，曾在美国白宫和一家技术自由主义智库从事 AI 政策工作，将领导一个专注于前沿 AI 政策和治理的新战略未来团队。

SIGNIFICANT · CL_97580 · Jun 18 · 00:15

Google Gemini 联合负责人 Noam Shazeer 加入 OpenAI · 追踪 8 个来源

作为 Google Gemini 模型开发的关键人物以及“Attention Is All You Need”论文的合著者，Noam Shazeer 将离开 Google 加入 OpenAI。Shazeer 此前在 Character.AI 工作一段时间后于 2024 年重返 Google。他加入 OpenAI 被视为该公司一次重要的人才引进。

COMMENTARY · CL_97347 · Jun 17 · 19:26

基础人工智能研究：没有HPC是否可行？

Reddit 的 r/MachineLearning 子版块上的一场讨论，探讨了在没有高性能计算（HPC）的情况下是否仍能进行基础人工智能研究。一位用户引用了“Attention Is All You Need”这篇论文，作为当时使用易于获取的硬件完成的研究的例子，并质疑如今是否还能在没有大规模基础设施的情况下做出类似的贡献。

COMMENTARY · CL_94711 · Jun 16 · 12:58

LLM 安全风险：社会工程、非确定性与供应链攻击

安全专家 Dan Tentler 在 Security Fest 2026 上强调了重大的 LLM 安全风险，重点关注这些模型如何被武器化用于社会工程并构成内部威胁。他解释说，与传统的确定性安全工具不同，LLM 是非确定性的，其输出受硬件因素影响，这使得它们难以审计并容易被利用。Tentler 还详细介绍了新兴的内存和上下文工程威胁，攻击者可以毒化为 LLM 代理提供信息的持久化内存存储，从而导致半永久性泄露而模型或用户并未意识到。引…

COMMENTARY · CL_89751 · Jun 14 · 04:05

AI领导者被特朗普政府假定禁止使用高级模型

r/singularity上的一个Reddit帖子列出了根据假定的特朗普政府政策，不应被允许访问Mythos或Fable等高级AI模型的知名AI研究人员和人物。名单包括Andrej Karpathy、Ilya Sutskever、Demis Hassabis、Geoffrey Hinton和Yoshua Bengio等知名人士，以及“Attention is All You Need”论文的合著者。

TOOL · CL_88623 · Jun 12 · 17:56

里程碑式论文“Attention Is All You Need”发布九周年，推动AI进步

极具影响力的研究论文《Attention Is All You Need》近日迎来九周年纪念。这篇由Google Brain研究人员发表的开创性著作引入了Transformer架构，该架构此后成为自然语言处理和深度学习进步的基础。这一周年纪念恰逢GPT-1发布八周年，凸显了这些AI技术的快速发展和影响。

COMMENTARY · CL_87999 · Jun 12 · 17:01

LangChain 详解 LLM 应用的动态提示词

本文深入探讨了 LangChain 框架内提示词工程的复杂性，区分了静态提示词和动态提示词。文章强调，与静态硬编码指令相比，使用占位符的动态提示词提供了更大的灵活性和可重用性。文章重点介绍了 LangChain 的 PromptTemplate 在创建动态提示词方面的优势，包括可重用性、变量验证以及与 LangChain 生态系统的无缝集成。

RESEARCH · CL_85074 · Jun 11 · 04:58

学生提出 Silia Transformer 以实现参数高效的小型模型

一名学生研究员推出了一种名为“Silia”的新型 Transformer 架构，专为参数量低于 1000 万的模型设计，以实现参数效率。该架构旨在将注意力机制的动态混合与前馈网络的强非线性结合到单个操作中。尽管由于硬件限制实验受限，但实验表明 Silia 在参数量显著减少的情况下达到了与 GPT-2 相当的性能。

TOOL · CL_77181 · Jun 8 · 04:30

开发者发布受“Attention Is All You Need”启发的“元 Transformer”

一位开发者引入了一个名为“元 Transformer”（meta-transformers）的新概念，该概念的灵感来源于基础性的“Attention Is All You Need”论文。该项目是利用业余时间开发的，旨在探索新颖的 Transformer 架构。作者已在 Hugging Face 和 Codeberg 上发布了模型权重、源代码和文档，并寻求专家反馈以验证研究结果。

RESEARCH · CL_76045 · Jun 7 · 00:53

LLM 详解：从数据到文本生成

本文详细解释了大型语言模型 (LLM) 的运作方式，分解了其操作所涉及的复杂流程。它涵盖了从数据准备和分词到嵌入、Transformer 架构中的自注意力机制以及最终预测下一个词元（token）的关键阶段。该解释旨在为普通读者揭开这一过程的神秘面纱，强调了诸如字节对编码 (Byte Pair Encoding) 和词元向量表示在赋予词元含义方面的作用等关键概念。

TOOL · CL_70600 · Jun 4 · 06:19

Google 2017年的Transformer论文催生了现代LLM

开创性的2017年论文《Attention Is All You Need》引入了Transformer架构，这是现代大型语言模型（如ChatGPT）的基础。该架构通过使模型能够一次性处理整个文本并理解上下文，克服了逐字处理的局限性，从而彻底改变了AI。该论文的作者，八位Google研究人员，此后离开了公司创办了成功的AI初创公司，凸显了他们突破性研究的深远影响。