reflection · PulseAugur

Anthropic推出Claude AI的Reflection测试版以分析用户习惯

Anthropic为其Claude AI推出了一项名为Reflection的新测试版功能，旨在帮助用户分析其互动模式并识别可能影响工作质量的习惯。该功能对Free、Pro和Max用户可用，需要启用Memory功能，并提供四个维度的洞察：委托（Delegation）、描述（Description）、辨别（Discernment）和勤奋（Diligence）。然而，Reflection目前仅限于Claude主界面内的对话，不包括在Cowo…

TOOL · CL_174088 · Jul 31 · 04:00

研究发现：大语言模型中的自我反思方法不敌简单的重复采样

一篇新发布的 arXiv 研究论文对大型语言模型中复杂的自我反思和精炼方法的有效性提出了质疑。研究人员发现，在 token 成本相同的情况下，诸如重复采样答案并选择最常见答案等更简单的技术，其表现与更复杂的精炼方法相当甚至更好。这一发现适用于从 1.5B 到 7B 参数的模型，并在数学基准测试中得到验证，表明自我检查的额外复杂性并不能可靠地提高准确性。

TOOL · CL_154386 · Jul 21 · 04:00

新的“显著性诱导”攻击针对多跳AI代理

研究人员发现了一种针对多跳检索增强生成（RAG）代理的新攻击向量，称为显著性诱导。该方法通过操纵真实信息的位置、强调或框架来重定向代理推理，即使没有明确的指令或内容投毒。该攻击已在GPT、Claude、Gemini、DeepSeek和Qwen等多种前沿模型以及ReAct和Reflexion等代理架构上得到验证。提出的防御方法“显著性归一化”显著降低了攻击的成功率。

RESEARCH · CL_142648 · Jul 14 · 14:37

Reflection 获得 Nebius 价值 10 亿美元的计算协议，用于 AI 开发

AI 公司 Reflection 已与 Nebius 达成一项价值 10 亿美元的重要计算资源协议。该协议预计将推动 Reflection 的 AI 开发和运营，凸显了先进 AI 基础设施所需的大量投资。

TOOL · CL_131505 · Jul 8 · 04:00

AI原型通过讲故事辅助情感自我反思

研究人员开发了一个名为Reflexion的早期原型，这是一个旨在帮助用户进行结构化情感自我反思的AI系统。该系统集成了情绪检测、分层反思提示和隐喻式讲故事，引导用户从识别情绪到规划符合价值观的行动。虽然尚未对有效性进行实证测试，但非正式反馈表明，该交互模型对于情感计算来说是可理解且有潜在用途的。

RESEARCH · CL_104359 · Jun 22 · 21:46

SpaceX 与 AI 供应商 Reflection 签署价值 63 亿美元的计算协议

SpaceX 已与生成式 AI 供应商 Reflection 达成一项价值 63 亿美元的重要协议，Reflection 将获得 SpaceX 的 Colossus 2 数据中心内 Nvidia GB300 芯片的访问权限。该协议将于 7 月 1 日开始，一直持续到 2029 年底，凸显了 SpaceX 在人工智能基础设施和计算租赁方面的战略举措。此前，SpaceX 已与 Anthropic 和 Alphabet 达成类似的超大规模计…

RESEARCH · CL_106657 · Jun 22 · 18:00

SpaceX与AI初创公司Reflection达成算力资源合作

SpaceX已与开源AI初创公司Reflection达成一项算力协议。据报道，该协议与埃隆·马斯克雄心勃勃的“Project Colossus”有关，他将其描述为“巨型计算工厂”。该超级计算机位于田纳西州孟菲斯。

SIGNIFICANT · CL_101155 · Jun 19 · 21:00

中国启动天基人工智能计算计划，挑战埃隆·马斯克

中国已启动天基人工智能计算计划，包括太空计算产业创新中心，旨在开发专用芯片和大型语言模型。北京的这一举措涉及统一的科技界，发生在中国公司和机构的联盟宣布其天基数据中心计划后不久，而埃隆·马斯克也公布了他的AI1卫星。虽然马斯克已讨论太空计算一段时间，并计划建立大型卫星星座，但中国的做法强调多家公司和机构之间的合作来建设其天基数据中心。

RESEARCH · CL_100313 · Jun 19 · 07:00

五角大楼人工智能使用量激增至 150 万人，但采用挑战依然存在

美国国防部报告称人工智能使用量显著增加，目前有 150 万人员在使用该技术，高于 2025 年底的 80,000 人。尽管使用量激增，但该机构 350 万员工中仍有不到一半的人员积极部署人工智能工具，并且生成工作的有效性仍有待审查。此次扩张是在成立了政府效率部门 (DOGE) 并与 Google 和 OpenAI 等主要科技公司建立合作伙伴关系之后进行的，旨在简化报告生成等官僚任务，官员声称这些任务所花费的时间已大大减少。

TOOL · CL_95599 · Jun 17 · 02:18

编码基准比较测试时优化与Reflexion

一项新的分析在编码基准中将测试时实例优化技术与Reflexion进行了比较。该研究侧重于使用概念图对患者出院摘要进行自动化编码，并通过严格的基准分析来评估性能。

RESEARCH · CL_84467 · Jun 10 · 06:01

新的Autopilot防火墙可大幅减少LLM代理的虚报

研究人员开发了一种名为Autopilot的新执行模型，旨在防止大型语言模型代理在无人监督的情况下虚报成功。该系统通过将代理状态外部化为有限状态机来充当防火墙，确保任何完成声明都与特定网关的已验证执行相关联。在测试中，与Reflexion和StateFlow等现有方法相比，Autopilot显著降低了虚报率，尤其是在具有挑战性的软件开发任务上。

RESEARCH · CL_80617 · Jun 9 · 09:50

五角大楼采纳“最佳组合”人工智能战略，实现供应商多元化

五角大楼正在将其技术采购策略转变为“最佳组合”方法，整合多个商业人工智能提供商，而不是依赖单一供应商。此举旨在加速其“人工智能优先”的作战愿景，同时防止任何一家公司主导关键国防技术。新模式强调模块化和互操作性，借鉴了OpenAI和Google的前沿情报能力、Nvidia的计算能力以及Reflection等公司的开源模型。该战略旨在加强政府对战争中使用的人工智能系统的控制和问责，确保它们能够受到审查并符合美国法律和国际规范。

TOOL · CL_74419 · Jun 6 · 04:00

新型智能体框架统一遥感数据处理

研究人员开发了CangLing-KnowFlow，一个旨在统一和自动化处理海量遥感数据集的新型智能体框架。该系统集成了包含1000多个工作流案例的程序化知识库、用于错误恢复的动态工作流调整模块以及用于持续学习的进化记忆模块。在KnowFlow-Bench基准测试中，CangLing-KnowFlow在各种LLM骨干网络上均显示出比Reflexion基线更高的任务成功率，为复杂的地球观测挑战提供了强大的解决方案。

TOOL · CL_79446 · May 31 · 00:00

AI智能体出现记忆虚构问题，引入新指标RRR

研究人员发现反思性AI智能体存在一个重大问题，它们会形成并保留对任务的错误解释，这种现象被称为“记忆虚构”。即使在环境重置后，这种错误也会持续存在。为了解决这个问题，开发了一个名为反思重复率（RRR）的新指标来检测对错误反思内容的依赖，并提出了一种缓解策略，该策略提高了性能并减少了虚构。

TOOL · CL_58719 · May 29 · 04:00

新论文揭示：AI智能体出现“记忆虚构”

一篇题为《诚实的谎言：理解反思性智能体的记忆虚构》的新研究论文，探讨了使用自我反思作为记忆的AI智能体中的一种关键故障模式。研究表明，即使在环境重置的情况下，这些智能体也能系统地存储并基于对任务的错误解释采取行动。研究人员引入了一个名为“反思重复率”（RRR）的指标来检测此问题，并在ALFWorld和HumanEval基准测试中发现了显著的记忆虚构实例。他们提出了一种缓解策略，用程序化提取故障信号来替代开放式自我诊断，这大大提高了智能…

TOOL · CL_42591 · May 21 · 12:05

独立开发者为单代理、低成本用途调整 LLM 自我批评

一位独立开发者将现有的用于大型语言模型的自我批评方法调整为适合单人操作的单代理、单会话框架。新的 MINDCHANGE 模式包括三个阶段：负面自我、自我审计和思维改变，旨在区分真正的弱点和肤浅的批评。该方法已在包括 Claude Opus 4.7 和 Gemini 3.5 Flash 在内的五种不同模型上进行了测试，旨在实现频繁、自动使用的成本效益。

TOOL · CL_18623 · May 6 · 04:00

DocSync 代理利用代码结构和 LLM 来维护软件文档

研究人员开发了 DocSync，一个代理式系统，旨在通过确保软件文档与不断发展的代码保持一致来自动维护软件文档。该系统使用抽象语法树和检索增强生成来理解代码结构和上下文。受 Reflexion 范式启发的批评者指导的精炼循环，使代理能够根据源代码自行纠正文档更新，从而提高语义一致性和忠实度。

RESEARCH · CL_21441 · Apr 30 · 21:59

LLM 在没有外部反馈的情况下难以实现可靠的自我纠正

近期研究表明，大型语言模型在可靠的自我纠正方面存在困难，尤其是在没有外部反馈的情况下试图修改自己的推理时。对 Self-Refine 和 Cannot-Self-Correct 等方法的研究表明，模型最初的置信度经常会延续到修改中，从而可能降低性能。虽然 Reflexion 等方法通过外部成功/失败信号来控制自我纠正，提供了一种部分解决方案，但它们并非万无一失，如果信号不可靠，仍可能导致错误。自我纠正的有效性在一两次迭代后也会迅速下降…

RESEARCH · CL_02960 · Apr 23 · 12:36

通过口头批评进行过程监督可提高大型语言模型的推理能力

研究人员开发了一种名为口头过程监督（VPS）的新框架，该框架无需梯度更新即可增强大型语言模型的推理能力。该方法利用更强大的AI生成的结构化自然语言批评来指导迭代的生成-批评-精炼过程。在GPQA Diamond和AIME 2025等基准测试上的实验表明，VPS取得了显著的改进，超越了现有的最先进结果，并优于Reflexion和Self-Consistency等其他方法。