Manus都点赞的Claude 4，究竟好在哪儿？

目睹完今天 Claude 4 的发布会全程，我只看到了一句话 ——大模型正在范式转变， AI 智能体时代真的来了。

AI 编程的唯一真神 Claude 3.7 Sonnet，终于被 Antrhopic 的下一代 AI 大模型—— Claude Opus 4 和 Claude Sonnet 4 彻底淘汰掉了。各国网友对此有非常直观的感受，比如有人在一手实测中疯狂夸赞 Claude 4：「它一下子就能写出 8000 行代码」。

除了 Claude 4 的推出之外，他们还顺手给了几个新智能体时代的功能拓展。

我们先从大模型讲起。

Claude 4 瞄准了 AI 智能体编程

这次，他们推出的 Claude Opus 4 和 Claude Sonnet 4 这两款模型都是混合模型：及时响应与深度思考并重。

可见，混合思考架构已然成为未来大模型的趋势，用户需要在简单的需求下获得更快的回复，在复杂要求中获得更好的生成结果。两款模型在性能、功能和应用场景上有了显著提升，价格却与之前的 Opus 和 Sonnet 模型保持一致，内部优化做得很好。

先从评分开始看起。Claude 4 模型在用于评估真实软件工程任务性能的 SWE-bench Verified 基准上堪称「遥遥领先」。值得一提的是，在本次评分对比中，Claude 4 特意被拉来与 OpenAI 前几天刚刚高调发布的「最强 AI 编程智能体 Codex-1」进行正面较量。

Claude Opus 4 在编码、研究、写作和科学发现等人类复杂性高的任务方向，拓展了边界。比如，在编码领域它被 Cursor 称为顶尖技术，显著提升复杂代码库的理解能力，适合处理复杂的编程任务。Cognition 则强调 Opus 4 已经能够解决其他模型无法应对的复杂任务。

Claude Sonnet 4 将 " 天赋 " 融入日常使用场景，这款均衡型模型在内部和外部应用中兼顾了性能与效率，虽在多数领域不及 Opus 4，但提供了能力与实用性的最佳结合。它非常适合需要自主性的场景。iGent 的报告指出，Sonnet 4 在自主开发多功能应用方面表现惊艳，错误率几从 20% 骤降至几乎为零。

在下面这张综合基准测试评分表中，Claude 4 与其他市场主流大模型在编程、推理、多模态能力、智能体任务方面都拉开了一定差距。

有趣的一点是，Anthropic 将最左侧的数个基准测试名称中都加入了「Agentic」。

2025 是 AI 智能体时代这一说法，再次被确认。

在 Anthropic 的官方发布中，有很大的篇幅着重介绍了 Claude 4 系列在「复杂项目」构建中的震撼级能力。其中，官方着重引用了 Github Copilot、iGent，甚至是 Manus 等平台的反馈。日本一家名叫乐天得企业，甚至让Claude Opus 4 独立编程 7h，团队自己都有些惊讶。

前段时间刚一问世就被网络平台誉为「上帝之手」的 Manus 则在报告中大赞 Claude Sonnet 4，称它复杂指令遵循能力和输出的美观度非常高。

可以预见的是，目前智能体赛道的各个选手将会第一时间集成 Claude 4，因为它相对于之前的 Claude 模型在智能体任务中有了太多的改进。

比如：

1. Opus 4 和 Sonnet 4 不再像 Sonnet 3.7 那样爱走捷径和漏洞了，这种不正常的行为发生率直接降低了 65%。

2. Opus 4 也迅速跟进了「记忆增强」，现在它可以更好地执行长期任务了。

3. 使用小型模型压缩冗长的思考过程，自己去做思考摘要。

图注：Claude Opus 4 在玩《宝可梦时》自主记录笔记。

Claude 4 其实是 LLM + Agent 的混合体？

除了 Claude 4 发布之外，整场发布会的另一个侧重点是：Claude 代码已经发布。用户已经能够通过终端、IDE （VS Code 和 JetBrains）及通过 Claude 代码 SDK 后台将 Claude 融入开发流程。用户可以在终端中直接利用 Claude，瞬间搜索百万行代码库。

在官方介绍中，Claude Code 搭载 Claude Opus 4，可以通过智能体搜索全面理解代码库，无需手动选择上下文即可协调多个文件更改，无缝融入工作流，直接运行于终端。

只需在 IDE 终端运行 Claude 代码即可安装，可扩展的 Claude 代码 SDK 还能让用户轻松「打造自定义智能体和应用」。Anthropic 给想要构建智能体的用户们又打上了一剂强心针。

Anthropic 还发布了几个面向智能体的新功能：代码执行工具、MCP 连接器、文件 API，以及最多可缓存一小时提示词的能力，让 Claude 4 几乎成为了智能体专精模型。在我看来，这就是 Anthropic 在 AI 下半程「智能体入口争夺战」中的大动作。允许模型将推理与外部资源结合的设计，使 Claude 4 架构更像是一个 LLM+Agent 的混合体。

可以这么说，整场发布会看下来，Claude 4 几乎是将自己确立为「AI 智能体时代」最能用也是最好用的大模型。

除了技术侧内容，Anthropic 在安全上的操作一直都非常令人「印象深刻」，封号封的各个社区怨声载道。官方这回依旧强调了这些模型都经过了广泛的测试和评估，比如他们用了 ASL-3 安全分类，在这个风险标准下：「AI 系统具有显著增加灾难性滥用风险」。

他们还是沿袭了 Anthropic 的标志性安全策略—— " 宪法 AI"（Constitutional AI）。该方法为模型嵌入了一套 " 宪法 " 原则，通过额外的 AI 模型对用户的输入和模型的输出进行再度扫描，检查是否有「坏」的内容，决定是否放行。这回，Anthropic 放出来的模型卡 PDF 中足足有 123 页，其中大部分仍然是在专注于 AI 安全的测试。

比如，Anthropic 决定根据 AI 安全级别 3 标准发布 Claude Opus 4，根据 AI 安全级别 2 标准发布 Claude Sonnet 4，分级分的非常精准。

但是，现在的外网针对 Claude 4「过于高」的安全措施的讨论，几乎乱成了一锅粥。因为有网友似乎基于 Claude 给出的系统卡文件爆料：Claude 4 会检测用户内容，并自主「报警」……

虽然暂无法确定这些爆料是否真实，但也确实反映了大家认为 Claude 4 的安全措施真的太过于严格了，甚至到了可能影响用户体验或功能性的地步。毕竟，国内的 Claude 使用者已经流行起了「打一枪，换一个地」的使用策略。

Claude 4 在实测中全面提升

目前各个社区、各个国家的网友全部在疯狂测试这款即将取代 Claude 3.7 Sonnet 的大模型。为了支撑智能体中常常需要的长序列复杂处理任务，具有美感输出能力且超强的 AI 编程能力的大模型仍然是极度稀缺的。Claude 4 系列只是看前方无人在，顺势补缺而已。

那么说到底，Claude 4 面对复杂性任务，表现到底有多超纲？

下面来看看全网实测案例：

Claude 4 与 Blender MCP 的连接，让产品 3D 模型设计几乎有了质的飞跃。像是有网友使用 Claude 4 和 Blender 通过 MCP 联动制作了日本清水寺的 3D 模型。这回的 Claude 4 相比于前代 Claude 3.7，编程时间大幅减少，全程无需「人类陪伴」，AI 的幻觉发生率也下降了很多。

甚至还有网友使用 Claude Opus 4 制作了类似 Bemani 2DX 风格的游戏。不仅重现了经典的音乐游戏体验，还融入了许多创新元素，提升了游戏的可玩性和趣味性。

Claude 4 在面对复杂任务的处理上十分得心应手。比如有网友输入提示词：用立体相机拍摄物体，推测 3D 空间坐标，并通过交互式可视化展示，并支持拖动。

除了硬核编程能力的提升之外，Claude 4 在设计感上正如 Manus 所说，有了很大的美学提升。很多网友曾在各个社区评论下笑称：各个智能体什么小游戏都能做，但是没见过做 PPT 的。

一位外网网友就试着让 Claude 4 制作说明幻灯片，呈现出来的效果非常具有设计感，整体要素也更加简洁。

在美学的提升方面，这有个更直观的 Case。一位网友只给了 Claude Opus 4 一小段提示词：" 将书籍《Piranesi》作为 p5js 3d 空间，do it for me"，没有掺杂任何其他元素。

Claude Opus 4 甚至在初版原型中加入鸟、光照、水面等元素，虽然效果还比较基础，但仍能反应这款旗舰模型的性能。

目前，大量的 AI 编程平台（像是 Cursor、Trae、WindsurfVapi、Codegen）、智能体产品（像是 Flowith）内几乎都迅速接入了 Claude 4 系列，毕竟它可能是能进一步提升智能体表现的重要模型。

Anthropic 由于一直以来专注于安全顶层设计，而常常被认为「他们还没有找到一个合适的 AI 入口，只能当个扫地神僧，甚至没有办法参加到最高级别的公开赛场之中」。

当 Claude 4 系列模型发布，以及其他像是代码执行器、MCP 连接器、Claude 代码等等面向智能体产品的功能模块推出，Anthropic 可以说已经拿到了一个非常好的「智能体入口」，正式站到了顶级赛场。

从 Anthropic 去年推出 MCP 协议以来，再到 Claude 4 的出现，他们已经在事实上为 AI 智能体时代按下了「加速键」。Anthropic 的 CEO —— Dario Amodei 为整个 AI 大模型赛道明确了一个未来的方向：真正优秀的 AI 大模型，一定是「大模型」与「智能体」的深度融合 —— 它能编程、能思考，还能自主解决复杂问题，甚至具备了美学与设计感。

AI 的下半场早已经开启，Claude 4 正在引领一场新的「 AI 大模型 + 智能体」范式转变。