loading

Loading

首页 📝AI资讯

GPT-5:我从“就这?”到“卧槽牛逼”,一个小时颠覆我的AI世界观

分类:📝AI资讯
字数: (5081)
阅读: (3)
0

核心摘要:

  • GPT-5 实现了质的飞跃,但你需要一点“压榨”,才能领略其真正的威力。
  • 凭“感觉”编程(Vibe-coding)的天花板被彻底拉高了。
  • 超越 o3 的智慧,加上风驰电掣的速度……我的生产力达到了前所未有的高度。
  • 惊人的长文本处理能力,编码任务精准得令人难以置信。
  • 对细节的把控堪称苛刻,很少犯那些其他模型常见的“低级错误”。
  • 模式:自动(默认)、思考(推荐用于复杂工作)、专业版(本文未评测)。
  • 短板:在明确的资料搜集上,o3 更胜一筹;创意写作方面,GPT-4.5 仍是王者;指令敏感度稍显不足。
  • 一言以蔽之:当下最强全能模型,行业标杆已被刷新。


最初的印象:不过如此?

7月21日,我拿到了 GPT-5 的内测资格。

老实说,刚上手那会儿,我并没感到任何惊艳。甚至可以说,有点小失望,特别是考虑到之前那铺天盖地的宣传和我的高期待。

感觉上,它最多就是个 GPT-4.2 的水平……速度是快了,也确实比 4.1 更敏锐,但远谈不上什么颠覆性的飞跃。我试着用它来处理日常工作(在我看来,这是检验新模型的最佳方式),虽然它完成得不错,但我并未发现它比 GPT-4.1、Claude 4 Opus 或我手头任何其他模型有何“翻天覆地”的改进。

我甚至一度扪心自问:“就这?”

在接下来的一周里,我几乎把它当作了所有大模型的平替,按部就班地使用着。它比我之前的首选 Claude 4 Opus 更好用吗?当然,但优势微乎其微,感觉更像是一次小修小补的迭代。

转折点:那一夜,它颠覆了我的认知

然而,事情在不经意间迎来了转折。

那天下午,我和我的首席工程师 Josh 聊了一个异常复杂的新产品构想。这个想法盘根错节,涉及一个与组件紧密集成的高级前端,以及一个用于管理 GPU、资源自动伸缩和生命周期维护的复杂后端。我们当时估计,光是做出一个概念验证(Proof-of-Concept),就需要数周甚至数月的专职开发。这可不是那种凭感觉就能敲出来的东西;即便有 AI 辅助,每一步也都需要人类的精细把控——至少,我们当时是这么认为的。

我和 Josh 已经达成共识:至少需要一个月的时间进行前期探索,才能决定这个项目是否值得投入。

那天晚上,我纯粹是出于好奇,把一份产品规格书丢给了 GPT-5,心里想着它肯定会马上碰壁。

一个小时后,我给 Josh 发去了一个功能完整的可运行原型。

他秒回的信息言简意赅,却足以说明一切:“我靠。”

那一刻,我看待 GPT-5 的眼光彻底变了。我们直接跳过了一个月的需求探索和规划阶段,马上就能找真实用户进行测试了。(顺便说一句,如果你正在从事模型训练,欢迎联系我——我很乐意向你展示这个产品,并确保我们做的东西是你们真正需要的。)

从那一刻起,事情变得越来越有趣。我开始更深入地挖掘它的潜力,尝试那些我以前想都不敢想的、更具野心的任务。我越是探索,就越清晰地认识到:GPT-5 绝非一次简单的“迭代”。

编码能力:近乎“无懈可击”

GPT-5 首先彻底征服我的,是它在前端开发上的表现。如果你用过 AI 写前端,你大概能明白我说的“一股AI味儿”是什么意思——设计笨拙、千篇一律,一看就是机器生成的。但 GPT-5 生成的界面却非常接近人类设计师的手笔,粗看之下,80% 的成品都难辨真假。它甚至能根据一张 Figma 截图,极速克隆出相应的界面……虽然细节处尚有瑕疵,但作为第一稿,它已经远超我见过的任何模型。偶尔我需要再提示一句来进行响应式布局的微调,但这些都只是举手之劳,几秒钟就能搞定。可以说,前端开发这个难题,正在被它逐步“解决”。

它对细节的关注度惊人,常常一次性就能搞定微交互、间距和各种状态。

举个例子:让各大模型克隆 ChatGPT 自己的 UI 界面。

  • GPT-4o

  • GPT-4.5

  • o3

  • GPT-5

它们各自生成的克隆界面,你会发现 GPT-5 的还原度遥遥领先。

后端和基础设施层面,GPT-5 的表现同样出色,甚至更令人震撼。再拿前面提到的 GPU 基础设施任务来说:仅仅经过三轮简短的提示,GPT-5 就自主完成了 GPU 的自动化配置、扩缩容和资源回收的全套设置。这感觉就像是真正的自主工作,模型从头到尾构建了一套稳定可用的系统。

深入底层:它拓展了我的能力边界

我越是深入,就越能看清 GPT-5 的与众不同。在一些小众的机器学习任务上,尤其是在处理像 TRL 这样棘手的库时,GPT-5 的表现总能给我惊喜。有一次,它显然从训练数据里学不到最新的 TRL 使用模式,但它没有胡乱猜测或“幻觉”出一段代码,而是自主地去查阅了官方文档,找到了正确的方法,并完美地实现了出来。全程无需我手动引导或粘贴文档。虽然其他模型偶尔也能做到类似的事,但 GPT-5 的稳定性和可靠性,让我第一次敢于放心地将微调和强化学习的代码交给它,这是前所未有的。

我也因此开始触及比以往更深的技术栈。我不再仅仅依赖它编写高层级的训练脚本,而是开始修改那些我以前不敢轻易触碰的代码。如果说我过去最深只到“训练循环和配置”这一层,那么现在,我能放心地编辑下一层的代码——比如自定义损失函数、数据管道等。因为我知道它足够可靠。以前的模型在这些任务上常常出错,我无法“放手”,只能让它们做些高层级的辅助工作。现在不同了。效果很简单:无论你之前用 Claude 4 Opus 或 o3 的能力天花板在哪里,GPT-5 都能让你再往下深入一层。

GPT-5 也成了我进行实际模型训练时的得力搭档。它会指导我如何调整超参数、调试诡异的故障、规避奖励 hacking 等问题。根据我的经验,它的建议每次都切中要害!几周前,当我和 OpenPipe 团队发布 AutoRL 时,GPT-5 仅根据我的口头描述,就一次性写出了整个训练循环。我把它用在我们 HyperWrite 的主代码库上,它同样表现出色(这一点尤其难得,因为我们的代码库已经迭代多年,充斥着大量废弃和混乱的代码,对模型理解上下文是极大的考验)。

速度:改变游戏规则的“催化剂”

GPT-5 给我带来颠覆性体验的另一个主要原因,不仅仅是能力的提升,更是速度。快得惊人。即使它的智能水平只和 o3 相当,光是这个速度就足以改变一切。更何况,它在大多数任务上既更聪明,又快如闪电,这让它完全进入了另一个次元。大部分任务秒速返回结果,最长的提示也极少超过一分钟。这种速度让我能始终保持在“心流”状态——更少的等待、更少的打断、更少的思维切换。这种流畅感,彻底改变了我的工作流。

一些瑕疵与怪癖

当然,它并非完美无瑕。比如,GPT-5 对提示词的结构异常敏感,尤其是在用 RepoPrompt 这类工具构建复杂提示时。早期,它偶尔会“脱轨”,无视我的指令,进行一些不相干的修改。后来我找到了一个简单的解决方法:在提示词的开头明确地重复关键指令,问题就迎刃而解了。虽然只是个小技巧,但也值得注意。希望 OpenAI 团队能尽快通过新的快照版本修复这个问题。

另一个小烦恼是:GPT-5 在对话结束时显得有些“过分热情”。我可能只是问个天气,它却会追加一句:“需要我为您制定一个详尽的日程计划吗?” 虽然无伤大雅,但对于重度用户来说,还是有点烦人。

三种模式:自动、思考与专业版

GPT-5 提供了三种主要模式:

  • 自动(Auto):这是默认模式,也是大多数用户应该使用的。它背后其实是两个模型:一个快速响应,另一个则会“思考”后作答。系统会通过一个分类器来判断你的提示应该由哪个模型处理。
  • 思考(Thinking):这是我现在几乎专用的模式。它会绕过分类器,让所有提示都由“思考版”模型来处理。这个模式速度稍慢(但仍比竞争对手快得多),可当你要处理复杂或创造性工作时,真正的魔法就发生在这里。
  • 专业版(Pro):这是最顶级的模式。我还没拿到权限,所以只能猜测它的能力。它可能和 o3 专业版的理念类似,即(推测)并行运行多个实例,通过某种集成方法将它们的输出整合成一个最佳答案。鉴于 o3 专业版比标准版强出太多,如果 GPT-5 专业版也有类似的飞跃,我一点也不会惊讶。说实话,以我目前对 GPT-5 的体验来看,我甚至难以想象专业版会解锁何等恐怖的能力和可靠性。

API 定价

对于开发者来说,GPT-5 的定价如下:

  • 输入:$1.25 / 百万 tokens(并且有 90% 的缓存折扣,这对长文本应用是巨大的利好)
  • 输出:$10 / 百万 tokens

这比 GPT-4o 还要便宜,简直太棒了。每一美元能换来的智能,仍在持续增加。
注意:OpenAI 还提供了更小、更便宜的 Mini 和 Nano 版本,我没有测试过,在此不作评论。

GPT-5 的短板在哪?

  • 资料搜集:对于明确的搜索任务,我仍然偏爱 o3。为什么?因为 GPT-5 挖得不够深。比如,我让它查找一位公众人物的家乡,它只找到了城市就停了,我得反复追问才能找到具体的小镇。而 o3 则会一直深挖,直到找到你需要的信息。这对我来说不是致命问题,但如果你非常依赖模型做研究,需要留意这一点。不过,在隐式研究(例如在编码过程中快速查阅文档或库)方面,GPT-5 则明显优于 o3。

  • 情感与创意写作:在处理需要同理心或情商的任务时,比如撰写棘手的邮件或构思谈话策略,我依然坚定地选择 GPT-4.5。它在文笔的细腻、人情味、幽默感和说服力上,仍然遥遥领先。

  • 指令遵循:我也注意到 GPT-5 在遵循指令方面有些吃力。不算糟糕,但如果你想获得最佳结果,仍然需要非常小心地措辞和组织你的提示。

我可能错了,但我总感觉,GPT-5 虽有大模型的能力,却散发着一种“小模型的体质”。它那疯狂的速度、在创意写作和情感任务上的弱点、对提示词的敏感度以及一些奇怪的失败模式,都让我觉得它的实际模型尺寸可能比人们预想的要小得多。如果真是这样,那它所展现出的强大能力就更令人印象深刻了。这不应成为你不用它的理由,只是我贯穿整个测试过程中的一种直觉。

长文本处理:意料之外的惊喜

这一点尤其让我意外,特别是考虑到我前面关于它“小模型体质”的猜测:GPT-5 在处理超长编码会话时,保持一致性的能力简直不可思议。 我曾处理过可能长达数十万 tokens 的提示,它始终能惊人地维持上下文的连贯性。这感觉比 Gemini 2.5 Pro 的长文本处理能力要强得多(当然,我是通过 ChatGPT 界面访问的,所以 OpenAI 可能在模型之上做了一些优化)。直到亲身体验,我才意识到这种能力有多么宝贵。对于深度、长期的编码项目来说,这是一个真正的飞跃。

这种上下文保持能力,体现在了它在漫长会话中对微小细节的精准把控上。

即便被扔进庞大而混乱的代码库,GPT-5 也能清晰地理解项目架构、文件组织和上下文,而这正是以前的模型在没有持续提醒的情况下常常会迷失的地方。它似乎并不会因为上下文窗口变长而“变笨”,反而好像对项目的整体结构感知更清晰了。

这,就是新的行业标准。我绝不可能再回到过去了。

我错了,但我错得心服口服

所有这些体验,都指向一个更宏大的结论:GPT-5 是一次真正的飞跃。 我敢说,整个行业现在都得奋起直追了。那些发布其他模型或编码平台的实验室需要注意了:开发者将很快转向 GPT-5。这种自主性与速度的结合,是一次巨大的解放。使用 GPT-5 的团队,其产品迭代速度将远超其他团队。

如果你是围绕这些模型构建应用的创业者,这是将你的产品提升10倍的机会。如果你是风险投资人,请密切关注那些使用 GPT-5 的团队吧,他们的产品开发和交付速度将出现肉眼可见的陡峭曲线,市场格局将迎来清晰可见的转变。

最重要的是,如同每一次模型智能的跃升一样,新的应用场景将变为可能,新的公司将应运而生。可以肯定的是,我已经发现了一些这样的新机会,并准备将它们作为秘密武器,去打造一些全新的东西。这无疑是激动人心的。

归根结底,GPT-5 不仅仅是改进了“凭感觉编程”,它从根本上改变了我对“哪些项目可以无需大量人力干预就能完成”的判断。就在过去这一周,它将一个我曾笃定需要耗费数月工程的挑战,变成了一次一小时内搞定的轻松冲刺

这,就是实打实的、自主的软件工程。

版权信息: 本文由界智通(jieagi)团队编写,保留所有权利。未经授权,不得转载或用于商业用途。

转载请注明出处: 界智通

本文的链接地址: https://www.jieagi.com/aizixun/35.html

您可能对以下文章感兴趣
评论列表:
empty

暂无评论

技术博客底部