GPT-5：我从“就这？”到“卧槽牛逼”，一个小时颠覆我的AI世界观

jieagi_Pan

分类：📝AI资讯

字数: (5081)

阅读: (238)

0

核心摘要：

GPT-5 实现了质的飞跃，但你需要一点“压榨”，才能领略其真正的威力。
凭“感觉”编程（Vibe-coding）的天花板被彻底拉高了。
超越 o3 的智慧，加上风驰电掣的速度……我的生产力达到了前所未有的高度。
惊人的长文本处理能力，编码任务精准得令人难以置信。
对细节的把控堪称苛刻，很少犯那些其他模型常见的“低级错误”。
模式：自动（默认）、思考（推荐用于复杂工作）、专业版（本文未评测）。
短板：在明确的资料搜集上，o3 更胜一筹；创意写作方面，GPT-4.5 仍是王者；指令敏感度稍显不足。
一言以蔽之：当下最强全能模型，行业标杆已被刷新。

最初的印象：不过如此？

7月21日，我拿到了 GPT-5 的内测资格。

老实说，刚上手那会儿，我并没感到任何惊艳。甚至可以说，有点小失望，特别是考虑到之前那铺天盖地的宣传和我的高期待。

感觉上，它最多就是个 GPT-4.2 的水平……速度是快了，也确实比 4.1 更敏锐，但远谈不上什么颠覆性的飞跃。我试着用它来处理日常工作（在我看来，这是检验新模型的最佳方式），虽然它完成得不错，但我并未发现它比 GPT-4.1、Claude 4 Opus 或我手头任何其他模型有何“翻天覆地”的改进。

我甚至一度扪心自问：“就这？”

在接下来的一周里，我几乎把它当作了所有大模型的平替，按部就班地使用着。它比我之前的首选 Claude 4 Opus 更好用吗？当然，但优势微乎其微，感觉更像是一次小修小补的迭代。

转折点：那一夜，它颠覆了我的认知

然而，事情在不经意间迎来了转折。

那天下午，我和我的首席工程师 Josh 聊了一个异常复杂的新产品构想。这个想法盘根错节，涉及一个与组件紧密集成的高级前端，以及一个用于管理 GPU、资源自动伸缩和生命周期维护的复杂后端。我们当时估计，光是做出一个概念验证（Proof-of-Concept），就需要数周甚至数月的专职开发。这可不是那种凭感觉就能敲出来的东西；即便有 AI 辅助，每一步也都需要人类的精细把控——至少，我们当时是这么认为的。

我和 Josh 已经达成共识：至少需要一个月的时间进行前期探索，才能决定这个项目是否值得投入。

那天晚上，我纯粹是出于好奇，把一份产品规格书丢给了 GPT-5，心里想着它肯定会马上碰壁。

一个小时后，我给 Josh 发去了一个功能完整的可运行原型。

他秒回的信息言简意赅，却足以说明一切：“我靠。”

那一刻，我看待 GPT-5 的眼光彻底变了。我们直接跳过了一个月的需求探索和规划阶段，马上就能找真实用户进行测试了。（顺便说一句，如果你正在从事模型训练，欢迎联系我——我很乐意向你展示这个产品，并确保我们做的东西是你们真正需要的。）

从那一刻起，事情变得越来越有趣。我开始更深入地挖掘它的潜力，尝试那些我以前想都不敢想的、更具野心的任务。我越是探索，就越清晰地认识到：GPT-5 绝非一次简单的“迭代”。

编码能力：近乎“无懈可击”

GPT-5 首先彻底征服我的，是它在前端开发上的表现。如果你用过 AI 写前端，你大概能明白我说的“一股AI味儿”是什么意思——设计笨拙、千篇一律，一看就是机器生成的。但 GPT-5 生成的界面却非常接近人类设计师的手笔，粗看之下，80% 的成品都难辨真假。它甚至能根据一张 Figma 截图，极速克隆出相应的界面……虽然细节处尚有瑕疵，但作为第一稿，它已经远超我见过的任何模型。偶尔我需要再提示一句来进行响应式布局的微调，但这些都只是举手之劳，几秒钟就能搞定。可以说，前端开发这个难题，正在被它逐步“解决”。

它对细节的关注度惊人，常常一次性就能搞定微交互、间距和各种状态。

举个例子：让各大模型克隆 ChatGPT 自己的 UI 界面。

GPT-4o
GPT-4.5
o3
GPT-5

它们各自生成的克隆界面，你会发现 GPT-5 的还原度遥遥领先。

在后端和基础设施层面，GPT-5 的表现同样出色，甚至更令人震撼。再拿前面提到的 GPU 基础设施任务来说：仅仅经过三轮简短的提示，GPT-5 就自主完成了 GPU 的自动化配置、扩缩容和资源回收的全套设置。这感觉就像是真正的自主工作，模型从头到尾构建了一套稳定可用的系统。

深入底层：它拓展了我的能力边界

我越是深入，就越能看清 GPT-5 的与众不同。在一些小众的机器学习任务上，尤其是在处理像 TRL 这样棘手的库时，GPT-5 的表现总能给我惊喜。有一次，它显然从训练数据里学不到最新的 TRL 使用模式，但它没有胡乱猜测或“幻觉”出一段代码，而是自主地去查阅了官方文档，找到了正确的方法，并完美地实现了出来。全程无需我手动引导或粘贴文档。虽然其他模型偶尔也能做到类似的事，但 GPT-5 的稳定性和可靠性，让我第一次敢于放心地将微调和强化学习的代码交给它，这是前所未有的。

我也因此开始触及比以往更深的技术栈。我不再仅仅依赖它编写高层级的训练脚本，而是开始修改那些我以前不敢轻易触碰的代码。如果说我过去最深只到“训练循环和配置”这一层，那么现在，我能放心地编辑下一层的代码——比如自定义损失函数、数据管道等。因为我知道它足够可靠。以前的模型在这些任务上常常出错，我无法“放手”，只能让它们做些高层级的辅助工作。现在不同了。效果很简单：无论你之前用 Claude 4 Opus 或 o3 的能力天花板在哪里，GPT-5 都能让你再往下深入一层。

GPT-5 也成了我进行实际模型训练时的得力搭档。它会指导我如何调整超参数、调试诡异的故障、规避奖励 hacking 等问题。根据我的经验，它的建议每次都切中要害！几周前，当我和 OpenPipe 团队发布 AutoRL 时，GPT-5 仅根据我的口头描述，就一次性写出了整个训练循环。我把它用在我们 HyperWrite 的主代码库上，它同样表现出色（这一点尤其难得，因为我们的代码库已经迭代多年，充斥着大量废弃和混乱的代码，对模型理解上下文是极大的考验）。

速度：改变游戏规则的“催化剂”

GPT-5 给我带来颠覆性体验的另一个主要原因，不仅仅是能力的提升，更是速度。快得惊人。即使它的智能水平只和 o3 相当，光是这个速度就足以改变一切。更何况，它在大多数任务上既更聪明，又快如闪电，这让它完全进入了另一个次元。大部分任务秒速返回结果，最长的提示也极少超过一分钟。这种速度让我能始终保持在“心流”状态——更少的等待、更少的打断、更少的思维切换。这种流畅感，彻底改变了我的工作流。

一些瑕疵与怪癖

当然，它并非完美无瑕。比如，GPT-5 对提示词的结构异常敏感，尤其是在用 RepoPrompt 这类工具构建复杂提示时。早期，它偶尔会“脱轨”，无视我的指令，进行一些不相干的修改。后来我找到了一个简单的解决方法：在提示词的开头明确地重复关键指令，问题就迎刃而解了。虽然只是个小技巧，但也值得注意。希望 OpenAI 团队能尽快通过新的快照版本修复这个问题。

另一个小烦恼是：GPT-5 在对话结束时显得有些“过分热情”。我可能只是问个天气，它却会追加一句：“需要我为您制定一个详尽的日程计划吗？” 虽然无伤大雅，但对于重度用户来说，还是有点烦人。

三种模式：自动、思考与专业版

GPT-5 提供了三种主要模式：

自动（Auto）：这是默认模式，也是大多数用户应该使用的。它背后其实是两个模型：一个快速响应，另一个则会“思考”后作答。系统会通过一个分类器来判断你的提示应该由哪个模型处理。
思考（Thinking）：这是我现在几乎专用的模式。它会绕过分类器，让所有提示都由“思考版”模型来处理。这个模式速度稍慢（但仍比竞争对手快得多），可当你要处理复杂或创造性工作时，真正的魔法就发生在这里。
专业版（Pro）：这是最顶级的模式。我还没拿到权限，所以只能猜测它的能力。它可能和 o3 专业版的理念类似，即（推测）并行运行多个实例，通过某种集成方法将它们的输出整合成一个最佳答案。鉴于 o3 专业版比标准版强出太多，如果 GPT-5 专业版也有类似的飞跃，我一点也不会惊讶。说实话，以我目前对 GPT-5 的体验来看，我甚至难以想象专业版会解锁何等恐怖的能力和可靠性。

API 定价

对于开发者来说，GPT-5 的定价如下：

输入：$1.25 / 百万 tokens（并且有 90% 的缓存折扣，这对长文本应用是巨大的利好）
输出：$10 / 百万 tokens

这比 GPT-4o 还要便宜，简直太棒了。每一美元能换来的智能，仍在持续增加。
注意：OpenAI 还提供了更小、更便宜的 Mini 和 Nano 版本，我没有测试过，在此不作评论。

GPT-5 的短板在哪？

资料搜集：对于明确的搜索任务，我仍然偏爱 o3。为什么？因为 GPT-5 挖得不够深。比如，我让它查找一位公众人物的家乡，它只找到了城市就停了，我得反复追问才能找到具体的小镇。而 o3 则会一直深挖，直到找到你需要的信息。这对我来说不是致命问题，但如果你非常依赖模型做研究，需要留意这一点。不过，在隐式研究（例如在编码过程中快速查阅文档或库）方面，GPT-5 则明显优于 o3。
情感与创意写作：在处理需要同理心或情商的任务时，比如撰写棘手的邮件或构思谈话策略，我依然坚定地选择 GPT-4.5。它在文笔的细腻、人情味、幽默感和说服力上，仍然遥遥领先。
指令遵循：我也注意到 GPT-5 在遵循指令方面有些吃力。不算糟糕，但如果你想获得最佳结果，仍然需要非常小心地措辞和组织你的提示。

我可能错了，但我总感觉，GPT-5 虽有大模型的能力，却散发着一种“小模型的体质”。它那疯狂的速度、在创意写作和情感任务上的弱点、对提示词的敏感度以及一些奇怪的失败模式，都让我觉得它的实际模型尺寸可能比人们预想的要小得多。如果真是这样，那它所展现出的强大能力就更令人印象深刻了。这不应成为你不用它的理由，只是我贯穿整个测试过程中的一种直觉。

长文本处理：意料之外的惊喜

这一点尤其让我意外，特别是考虑到我前面关于它“小模型体质”的猜测：GPT-5 在处理超长编码会话时，保持一致性的能力简直不可思议。 我曾处理过可能长达数十万 tokens 的提示，它始终能惊人地维持上下文的连贯性。这感觉比 Gemini 2.5 Pro 的长文本处理能力要强得多（当然，我是通过 ChatGPT 界面访问的，所以 OpenAI 可能在模型之上做了一些优化）。直到亲身体验，我才意识到这种能力有多么宝贵。对于深度、长期的编码项目来说，这是一个真正的飞跃。

这种上下文保持能力，体现在了它在漫长会话中对微小细节的精准把控上。

即便被扔进庞大而混乱的代码库，GPT-5 也能清晰地理解项目架构、文件组织和上下文，而这正是以前的模型在没有持续提醒的情况下常常会迷失的地方。它似乎并不会因为上下文窗口变长而“变笨”，反而好像对项目的整体结构感知更清晰了。

这，就是新的行业标准。我绝不可能再回到过去了。