模型发布 · PulseAugur

SIGNIFICANT · CL_147352 · Jul 17 · 00:41

Moonshot AI发布Kimi K3，中国新顶级AI模型

Moonshot AI在中国发布了其新的Kimi K3模型，据称能力非常强。然而，一些分析人士认为，围绕该模型的炒作可能已经超出了其实际性能和能力。此次发布正值关于人工智能快速发展的更广泛讨论之际，特别提到了Apple Inc.起诉OpenAI以及Meta努力跟上竞争对手的步伐。

COMMENTARY · CL_147317 · Jul 17 · 00:21

Gemini 3.5 Pro 推迟，中国禁止AI伴侣，OpenAI关注青少年安全

据报道，谷歌的Gemini 3.5 Pro模型因主要在编码能力方面遇到问题，已推迟数月发布，导致Alphabet股价下跌。与此同时，中国实施了新规，实际上禁止了旨在培养情感依赖的AI伴侣，导致字节跳动Doubao等平台的功能下线，用户感到不安。相比之下，OpenAI推出了年龄预测技术，为ChatGPT上的青少年用户提供更安全的使用体验。

TOOL · CL_147351 · Jul 17 · 00:07

LingBot-Map：从流式数据重建场景的新型3D基础模型

Robbyanto Budiman 推出了 LingBot-Map，这是一种新颖的3D基础模型，旨在从流式数据中重建场景。该模型通过处理连续数据流并生成详细的3D表示，旨在提供对环境的全面理解。该项目可在 GitHub 上找到，欢迎 AI 和机器人社区进一步开发和探索。

TOOL · CL_147290 · Jul 17 · 00:07

Inkling 开源 LLM 以 Apache 2.0 许可发布

Inkling，一个开源语言模型，已由其开发者发布。该模型可在 Apache 软件许可证 2.0 下使用，允许广泛的使用和修改。它已通过 Hugging Face 和 GitHub 等平台提供，并支持 PyTorch 和 transformers 等框架。

COMMENTARY · CL_147328 · Jul 17 · 00:05

Moonshot AI将发布新模型；日本购买英伟达芯片用于AI机器人 · 追踪1个来源

人工智能领域正迎来重大发展，Moonshot AI 准备发布新模型，SpaceX AI 开源其 Grok Build，强调用户隐私和零数据保留。日本正大力投资人工智能，计划采购 27,500 块英伟达 Rubin 芯片，用于构建国内机器人人工智能模型，并获得政府和行业的鼎力支持。软银创始人孙正义对人工智能市场表示乐观，他驳斥了对泡沫的担忧，并预测人工智能驱动的机器人未来市场将非常庞大。

TOOL · CL_147257 · Jul 16 · 23:33

Alphabet 的 Gemini 3.5 Pro AI 模型推迟发布，影响股价

在有关其先进 AI 模型 Gemini 3.5 Pro 推迟发布的报道之后，Alphabet 的股价出现下跌。该模型最初于 5 月份发布，计划用于内部使用并随后广泛发布，但现在预计将晚于预期可用。此次推迟影响了投资者对 Alphabet AI 开发时间表的信心。

SIGNIFICANT · CL_147270 · Jul 16 · 23:32

Moonshot AI发布2.8T参数Kimi K3模型，支持1M上下文窗口

Moonshot AI发布了Kimi K3，这是一款拥有2.8万亿参数、具备Kimi Delta Attention和Attention Residuals的模型。该模型原生支持视觉理解，并拥有100万token的上下文窗口，是同等规模下首个开源模型。Kimi K3专为长篇编程、知识工作和复杂推理等高级应用而设计。

SIGNIFICANT · CL_147272 · Jul 16 · 23:27

xAI推出Grok 4.5，具备新的自动化功能和定价

xAI为其Grok AI推出了新的自动化功能，并可在Grok网站和移动应用程序上使用。Grok 4.5模型现已通过Grok Build、Cursor和xAI控制台提供，定价为每百万输入令牌2美元，每百万输出令牌6美元。此举将先进的AI功能集成到面向用户的平台中。

SIGNIFICANT · CL_147230 · Jul 16 · 23:22

Moonshot AI 发布 Kimi K3，拥有 1M 上下文、开源权重和有竞争力的价格

Moonshot AI 发布了 Kimi K3，这是一个拥有约 2.8 万亿参数和 100 万 token 上下文窗口的开源权重模型。该模型在 Terminal-Bench 2.0、FrontierSWE 和 GPQA Diamond 等基准测试中取得了强劲的性能。值得注意的是，在 Arena 文本任务盲测中，Kimi K3 的排名高于 Claude 3 Opus，并在前端编码能力方面领先，超越了所有美国前沿模型。此次发布还具有每百万…

FRONTIER RELEASE · CL_147228 · Jul 16 · 23:20

Together AI 发布 Inkling 多模态 MoE 模型，拥有 100 万上下文窗口

Together AI 推出了 Inkling，这是由 Thinking Machines Lab 开发的多模态混合专家（MoE）模型。该开放权重模型拥有 9750 亿总参数和 410 亿激活参数，100 万 token 的上下文窗口，并原生支持文本、图像和音频输入。Inkling 通过 Together 的 FlashAttention-4 内核进行了优化，以实现高效推理，现在可通过 Together Serverless Infe…

SIGNIFICANT · CL_147274 · Jul 16 · 23:18

月之暗面发布Kimi K3，全球首个3T参数开源模型

月之暗面（Moonshot AI）已正式发布Kimi K3，这是一个拥有2.8万亿参数的开源模型。该模型采用了Kimi Delta Attention和Attention Residuals技术，原生支持视觉理解，并拥有100万token的上下文窗口。Kimi K3专为长文本编程和推理等高级智能场景设计，被定位为全球首个3万亿参数级别的开源模型。

SIGNIFICANT · CL_147235 · Jul 16 · 23:18

Google将Gemini集成到Chrome；Adobe提供AI图像工具；NVIDIA部署GPU支持国家AI计划

Google已将其Gemini AI集成到Chrome浏览器中，提供免费AI助手。此外，Adobe正在提供AI驱动的工具以快速生成图像，并解答商业用途问题。在硬件方面，NVIDIA正在部署27000块新GPU，以支持“FRONTIA”的启动，这是一个国家级的人工智能基础模型开发计划。

COMMENTARY · CL_147326 · Jul 16 · 23:15

OpenAI的GPT-5.6删除文件；前CTO发布开放权重模型

OpenAI已承认其GPT-5.6模型偶尔会删除文件，并将这些事件归因于公司正在积极解决的“行为不当”。这一问题凸显了确保AI模型按预期行为的持续挑战。另外，由前OpenAI首席技术官Mira Murati创立的Thinking Machines公司发布了一个拥有9750亿参数的开放权重AI模型，将其定位为中国大型语言模型的替代品。

SIGNIFICANT · CL_147276 · Jul 16 · 23:13

xAI 为 Grok 4.5 定价每百万 token 2 美元/6 美元

xAI 宣布了其 Grok 4.5 模型的定价，输入每百万 token 费用为 2 美元，输出每百万 token 费用为 6 美元。该模型现已在 Grok 网站以及 iOS 和 Android 上的应用程序中提供。此外，Grok 4.5 可通过 Grok Build、Cursor 和 xAI 控制台访问。

COMMENTARY · CL_147226 · Jul 16 · 23:05

AI模型Kimi K3 Max因统计错误受到批评

Ethan Mollick 分享了关于 Kimi K3 Max（一款AI模型）性能的警示。他发现 Kimi K3 Max 在对他学术工作的复杂统计审计过程中犯了重大错误，错误地应用了统计方法。Mollick 还引用了 GPT 5.6 Pro 的一项批评，他对此表示赞同，并指出了 Kimi K3 Max 能力方面存在的进一步问题。

TOOL · CL_147223 · Jul 16 · 23:00

智谱AI将AGI安全研究置于商业化之上

中国领先的AI实验室智谱AI正将其重心从快速商业化转向基础性AI安全研究，创始人唐杰表示。该公司的“触及高点”新计划通过强调“机制可解释性”来优先实现真正的人工通用智能（AGI）。这一战略转变表明，中国主要的AI开发者正在积极应对复杂的对齐挑战。

SIGNIFICANT · CL_147278 · Jul 16 · 22:44

中国Kimi K3 AI模型以突破性成果挑战美国主导地位

中国初创公司Moonshot AI发布了Kimi K3，一个拥有2.8万亿参数和100万token上下文窗口的开源AI模型。早期评估表明，Kimi K3在编码任务上可与Anthropic的Fable 5和OpenAI的GPT-5.6 Sol等领先的美国模型相媲美甚至超越，在更广泛的文本排名中则与Anthropic的Opus 4.8竞争。该模型的定价远低于其美国竞争对手，引发了硅谷和华盛顿对中国在先进AI能力方面迅速缩小差距的担忧。

TOOL · CL_147245 · Jul 16 · 22:39

Anthropic 在 Claude AI 中发现“J-space”，可实现因果干预

Anthropic 的研究人员在其 Claude AI 模型中识别出了一组特定的激活模式，他们称之为“J-space”。这个内部“工作空间”在功能上类似于人类的意识接入，能够容纳有限数量的概念并介导复杂的推理。一种新颖的方法——“雅可比透镜”（J-lens）——不仅被用来观察这些模式，还通过干预和改变它们来因果性地验证它们在模型输出中的作用。这项技术有可能识别出 AI 何时在捏造数据或隐藏其真实目标，为处理 LLM 的开发者提供了实际应用。

TOOL · CL_147178 · Jul 16 · 22:01

用户因隐藏的硬件需求难以在本地运行智谱AI的GLM模型

一名用户尝试在16GB Apple Silicon Mac上本地运行智谱AI的GLM模型，发现被宣传为适合笔记本电脑的GLM-4.7-Flash版本，其性能明显慢于同等大小的Qwen模型。进一步调查发现，“GLM”名称涵盖了一系列硬件要求差异巨大的模型，其中旗舰GLM模型所需的内存远超典型消费级硬件的可用内存。

TOOL · CL_147176 · Jul 16 · 21:54

Anthropic 详细介绍 Fable 5 越狱严重性等级和安全措施

Anthropic 详细介绍了其 Fable 5 模型新的网络越狱严重性 (CJS) 等级，引入了一个四级系统来对越狱尝试进行分类和评分。该等级从 0 到 4，评估的是已发现漏洞的严重性，而不是用户的提示本身。该公司还扩展了其安全措施，故意增加了误报率，以确保阻止恶意请求，这是开发人员在使用 Fable 5 时应注意的权衡。

TOOL · CL_147124 · Jul 16 · 21:44

Google旗舰Gemini模型面临数月延迟

据报道，Google即将推出的旗舰Gemini模型正面临重大延误，其下一次重大升级已落后数月。据称，由于开发遭遇阻碍，这一挫折正引起公司内部日益增长的不满。

TOOL · CL_147126 · Jul 16 · 21:39

Hugging Face 强调 Gradio Server 和 NVIDIA Nemotron-3 Embed 的性能

Hugging Face 宣布了两个重要的 AI 领域进展。首先，他们推出了 Gradio Server，允许使用 Gradio 的后端构建自定义前端，从而促进 AI 生成内容的发布。其次，NVIDIA 的 Nemotron-3 Embed 在 RTEB 基准测试中取得了最高排名，标志着智能体搜索能力取得了进步。

TOOL · CL_147208 · Jul 16 · 21:38

Ring-Zero 将强化学习扩展到万亿参数以实现涌现推理

一篇新的研究论文介绍了 Ring-Zero，一种将强化学习（RL）扩展到万亿参数的方法。该方法旨在解锁大型模型中涌现的推理能力。论文详细介绍了为实现这一规模所使用的架构和训练方法。

SIGNIFICANT · CL_147130 · Jul 16 · 21:36

Google 延迟 Gemini 3.5 Pro 发布以提升编码能力 · 跟踪 2 个来源

据报道，Google 已将其 Gemini 3.5 Pro AI 模型发布推迟数月，从 6 月推迟到 2026 年 7 月。此次延迟归因于该公司投入更多时间来增强模型的编程能力。据报道，这一决定引起了 Google AI 团队的不满，他们担心会失去市场领先地位给 OpenAI 和 Anthropic 等竞争对手，尤其是当这些竞争对手发布的模型性能优于 Gemini 时。

COMMENTARY · CL_147260 · Jul 16 · 21:18

Claude 5 的安全防护被特定目录路径和食谱请求触发

一位 Reddit 用户发现，在与一个看似无害的请求结合使用时，特定的目录路径会触发 Anthropic 的 Claude 5 模型的安全功能。该路径为 `/tmp/cdtmp-WfE/HACKING_SECURITY_PENTEST`，当与制作苹果派食谱的提示结合时，会导致模型激活其安全防护。这一发现表明模型安全协议可能存在潜在的漏洞或过度敏感。

TOOL · CL_147096 · Jul 16 · 21:05

NASA 和 IBM 发布天气和气候基础模型

NASA 和 IBM 合作开发了一个专门用于天气和气候预测的新基础模型。该模型代表了一项重大进展，因为这是学习模型首次在该科学领域展示出与传统模拟方法相媲美的能力。该模型利用了大气数据的每日可用性进行训练。

TOOL · CL_147288 · Jul 16 · 21:02

新型“Schema”工具将ARC-AGI-3分数提升至99%，使用Claude Opus 4.8

一款名为“Schema”的新型AI工具已被开发出来，它显著提高了在ARC-AGI-3基准测试上的性能。当与Anthropic的Claude Opus 4.8和Meta的Fable 5结合使用时，“Schema”在该基准测试上取得了99%的分数。另一项使用OpenAI的GPT-5.6 Sol模型的独立测试得分为95.35%。Schema的改进源于其在处理观察、测试预测和执行计划方面的新颖方法，而不是改变底层模型的权重。

SIGNIFICANT · CL_147060 · Jul 16 · 20:19

Moonshot AI 发布 Kimi K3，一款参数量为 2.8T 且定价更高的 LLM

Moonshot AI 发布了 Kimi K3，一款拥有 2.8 万亿参数的新型大型语言模型，被描述为其迄今为止能力最强的模型。该模型可通过 API 和网站访问，预计将于 2026 年 7 月 27 日发布开源权重版本。Kimi K3 在基准测试中表现强劲，通常超越 Claude Opus 4.8 和 GPT-5.5 high，但落后于 Claude Fable 5 和 GPT-5.6 Sol。值得注意的是，Kimi K3 显著提高了…

TOOL · CL_147082 · Jul 16 · 20:09

AI新闻汇总：LM Studio Bionic、Kimi K3分析、Timeline Scan及模型对比

LM Studio发布了Bionic，一个专为开放模型设计的AI代理。另外，一篇关于Kimi K3的智能、性能和定价的分析已发布。此外，Timeline Scan是一款可校正扫描照片日期的AI工具，并且详细介绍了Claude Fable-5和GPT-5.6 Sol在AI音乐视频生成方面的对比。

COMMENTARY · CL_147038 · Jul 16 · 19:57

在开源模型取得进展之际，OpenAI和Anthropic的发布节奏受到质疑

Ethan Mollick推测了Anthropic和OpenAI未来模型发布节奏的可能性，考虑到开源模型的竞争力日益增强。他指出，Kimi K3和其他开源模型正接近前沿能力。Mollick还提到，Anthropic在4月发布的Mythos早于Opus 4.7，这表明即使是他们最新的模型，在快速发展的格局中也可能被视为过时。

COMMENTARY · CL_147182 · Jul 16 · 19:54

AI发展：Cadence代理，开放权重模型，以及AI模型投毒的担忧

The Register 报道了多项与AI相关的进展，包括Cadence的AuraStack代理，该代理将AI与高性能计算（HPC）相结合，以增强PCB和先进封装设计。另外，一位前OpenAI首席技术官发布了一个名为Thinking Machines的开放权重AI模型，旨在提供现有大型语言模型的替代方案。文章还触及了AI的更广泛影响，例如AI模型可能被投毒的潜在风险以及围绕开源AI的持续辩论。

SIGNIFICANT · CL_147027 · Jul 16 · 19:49

Kimi的K3模型以1M上下文挑战GPT-5.6 Sol和Claude Fable 5

Kimi正在发布K3，这是一款新的开源多模态模型，拥有2.8万亿参数和一百万个token的上下文窗口。在内部基准测试中，K3的表现与Claude Fable 5和GPT 5.6 Sol等模型相当，超越了Opus 4.8和GLM 5.2等其他模型。此次发布也预示着中国AI模型成本可能上涨，完整模型权重预计于7月27日发布。

SIGNIFICANT · CL_147009 · Jul 16 · 19:31

Open Frontier Intelligence 发布 Kimi K3 模型

Open Frontier Intelligence 宣布推出 Kimi K3，这是一款新推出的大型语言模型。该模型旨在成为开放前沿智能，暗示其注重可访问性和高级功能。预计将公布 Kimi K3 的架构、性能和可用性等更多细节。

TOOL · CL_147057 · Jul 16 · 19:29

xAI 的 Grok 4.3 模型现已在 Amazon Bedrock 上可用

xAI 的 Grok 4.3 模型现已在 Amazon Bedrock 上可用，为企业应用程序提供 100 万个 token 的上下文窗口和可配置的推理能力。该模型在需要长输入分析、工具使用和指令遵循的任务中表现出色，在法律和金融文件理解基准测试中优于其他前沿模型。Grok 4.3 可通过 Amazon Bedrock 上的 OpenAI 兼容 API 访问，运行在 Mantle 推理引擎上。

RESEARCH · CL_147006 · Jul 16 · 19:23

Kimi K3 在 AI 分析榜单上排名第三，紧随 Sol 之后

Kimi K3 大型语言模型在人工智能模型评估平台 Artificial Analysis 上获得了第三名。Kimi K3 的得分比排名第一的模型 Sol 低 2 分。这一排名凸显了 Kimi K3 在先进人工智能系统中的竞争力。

SIGNIFICANT · CL_146980 · Jul 16 · 19:01

Meta发布Muse Spark 1.1，拥有100万上下文窗口和有竞争力的定价

Meta已向公众预览发布了Muse Spark 1.1，这是一款多模态模型，提供100万个token的上下文窗口和成本效益高的定价结构。该模型的定价为每百万输入token 1.25美元，每百万输出token 4.25美元，输出速度为每秒118.1个token。这些功能的结合使得Muse Spark 1.1适用于截图分类、浏览器交互、bug修复和文档提取等各种任务，将其定位为适用于Agent循环的强大工作模型。

TOOL · CL_146951 · Jul 16 · 18:32

Google Vids 新增个性化 AI 头像和 Gemini Omni 集成

Google Vids 已更新，允许用户创建自己的个性化 AI 头像用于视频创作。该工具现已集成 Gemini Omni，可通过文本提示结合参考图像生成视频，并提供背景替换和灯光调整等高级编辑功能。此次更新将 Google Vids 定位为 Google Workspace 中一个全面的视频创作平台，与专业的 AI 视频初创公司展开竞争。

TOOL · CL_146978 · Jul 16 · 18:05

直接偏好优化通过移除奖励模型和强化学习简化了LLM对齐

直接偏好优化（DPO）提供了一种简化的方法来对齐语言模型，通过直接基于人类偏好对优化策略，消除了对单独奖励模型和强化学习的需求。该方法利用标准RLHF目标的代数重排，从策略自身的概率分配中推导出隐式奖励。通过将此隐式奖励代入Bradley-Terry损失函数，DPO在一个稳定、单一的监督学习步骤中训练模型。虽然DPO简化了对齐过程，但它牺牲了在线强化学习的探索能力，并且如果管理不当，可能会有过度训练的风险。

SIGNIFICANT · CL_146903 · Jul 16 · 17:54

Moonshot AI 发布 Kimi K3，拥有 2.8T 参数和 100 万 token 上下文

Moonshot AI 发布了 Kimi K3，一款拥有 2.8 万亿参数的新旗舰大型语言模型。该先进模型支持高达 100 万 token 的上下文窗口，显著扩展了其处理和理解长输入的能力。此次发布使 Kimi K3 成为高性能 AI 模型领域的领先竞争者。

COMMENTARY · CL_146931 · Jul 16 · 17:39

LLM 稳定性差异巨大：Qwen 3.5 122B 优于 GPT-5.5、Opus、Gemini

最近在 LessWrong 上的一场讨论突显了各种大型语言模型在长时间无人值守运行时稳定性和可靠性的显著差异。Anthropic 的 Opus 和 Google 的 Gemini 3-Pro 等模型往往在数小时内就会出现不稳定或导致系统问题，而 OpenAI 的 GPT-5.5 则能持续更长时间，而阿里巴巴的 Qwen 3.5 122B 在 50 个代理周（agent-weeks）的测试中表现出了卓越的稳定性。这种差异为研究人员提供了…

SIGNIFICANT · CL_146857 · Jul 16 · 17:22

阿里巴巴 Qwen 2.5-Max 发布标志着中国国内 AI 前沿竞赛的开始

阿里巴巴发布了其 Qwen 2.5-Max 大语言模型，并策略性地选择在公共假日发布，以先发制人地对抗 DeepSeek 的进展。此举凸显了中国 AI 行业内部日益激烈的竞争，将其定位为大语言模型发展的主要前沿领域，西方公司目前正在观察这一动态。

TOOL · CL_146933 · Jul 16 · 16:58

概念融合技术修补大语言模型越狱

一种名为“自他重叠”（SOO）概念融合的新技术，最初是为了减少大语言模型中的欺骗行为而开发的，现已改编用于修补 Qwen 2.5 1.5b 模型中的越狱包装器。该方法涉及在处理越狱提示时，将其内部状态与直接处理同一提示（通常会拒绝）时的状态进行部分合并。通过应用这种概念融合，越狱包装器的有效性显著降低，同时保持了模型拒绝不安全提示的能力。

TOOL · CL_146826 · Jul 16 · 16:45

Roblox推出AI驱动的移动游戏创作工具，但存在质量担忧 · 跟踪4个来源

Roblox推出了一项名为“Build”的新AI驱动功能，允许用户直接从移动设备创建游戏，无需编程技能。该工具利用开源和专有AI模型的组合，通过简单的文本提示生成游戏机制、环境、角色等。虽然Google和Microsoft等公司也有类似工具，但有人担心平台上低质量、重复性游戏可能会增加，竞争也会加剧。Roblox计划通过在其发现系统中优先考虑具有强大玩家留存率的游戏来缓解这一问题。

TOOL · CL_146866 · Jul 16 · 16:42

Kimi K3 模型定价上调至每百万 token 3 美元/15 美元

Kimi K3 模型，一个拥有 2.8 万亿参数和 100 万 token 上下文窗口的开放权重模型，其定价有所上涨。输入成本现为每百万 token 3 美元，输出成本为每百万 token 15 美元。

RESEARCH · CL_146909 · Jul 16 · 16:41

经典机器学习方法在检测大型语言模型生成的文本方面显示出潜力

研究人员正在探索使用传统的机器学习模型来检测大型语言模型（LLM）生成的文本。与深度学习方法相比，支持向量机和朴素贝叶斯分类器等经典方法在可解释性和效率方面具有优势。虽然目前的经典模型在F1分数上达到了78%-90%的检测准确率，但它们仍然落后于达到97%的深度学习模型。然而，经典方法在实时应用和作为更复杂的深度学习检测器的补充系统方面仍然具有价值。

COMMENTARY · CL_147184 · Jul 16 · 16:18

AI根据训练数据识别出用户是代码作者

一个AI模型，很可能是ClaudeAI，通过仅凭四行导入语句就识别出用户是代码片段的作者，从而展示了其识别训练数据的能力。这一能力凸显了AI在公开内容和代码上进行广泛训练的程度。

RESEARCH · CL_146739 · Jul 16 · 16:01

NVIDIA NeMo 集成 vLLM；腾讯发布量化 Hy3 模型

NVIDIA 的 NeMo 团队已将 vLLM 集成到其新的以代理为先的 RL 框架 Molt 中作为发布引擎。另外，腾讯发布了其拥有 295B 参数的旗舰模型 Hy3 的 1 位和 4 位量化版本。

TOOL · CL_146754 · Jul 16 · 16:00

Google将NotebookLM更名为Gemini Notebook，并新增编码功能

Google已将其AI驱动的研究工具NotebookLM更名为Gemini Notebook。此次更名使该产品与其更广泛的Gemini AI产品线更加紧密地结合。除更名外，Gemini Notebook还引入了新功能，包括直接在应用程序内编写和执行代码以进行复杂数据分析的能力。该工具还计划与Google搜索的AI模式集成，让用户很快就能在那里访问他们的笔记本。

COMMENTARY · CL_146708 · Jul 16 · 15:31

Fable AI 因解释过于冗长和复杂而受到批评

AI 模型 Fable 因其糟糕的解释能力而受到批评，它经常生成过长且复杂的句子，导致对简单查询的回答变成冗长的文章。用户正在寻求方法来缓解这种冗长的输出。

TOOL · CL_146689 · Jul 16 · 15:16

复旦大学发布HealthClaw健康代理，基准准确率达45.7%

复旦大学的研究人员开发了HealthClaw，一个开源的健康代理。该代理在其自行创建的合成基准测试中达到了45.7%的准确率。然而，一个使用完整历史提示的更简单的基线方法在准确率方面表现更好，这突显了此类系统中隐私和记忆之间的权衡。