标签

GPT Image 2会“思考”?五项能力实测

发布时间:2026-04-28 15:14来源:微信阅读:6

大家好,我是宇哥,长期专注 AI 编程和智能体,帮小白把 AI 编程里常见的问题都解决掉。

前几天我刷推特时,发现很多人都在晒 OpenAI 新发布的 ChatGPT Images 2.0 生成效果:杂志封面、信息图、漫画分镜,甚至连中文菜单都做得很清楚,观感上几乎让人觉得不可思议。

我也第一时间上手体验了一下。说实话,这回不是原地微调,而是底层换了引擎。

今天就把 GPT Image 2 的核心优势讲清楚:它到底强在哪里?和上一代、以及同类竞品相比差距有多明显?另外也会同步说明开发者如何通过 API 直接接入。

4月21日,OpenAI 正式发布 GPT Image 2(产品名为 ChatGPT Images 2.0),对应的 API 模型 ID 是 gpt-image-2。

上一代 GPT-Image-1.5 则在 2025 年 12 月才推出。换句话说,前后不到 5 个月,OpenAI 就给出了“完全重构”的新模型。

为什么要说是换代?

过去几乎所有 AI 生图模型(包括 DALL-E、Midjourney、Stable Diffusion)做事的方式都比较类似:你给一句文字,它就“盲画”出一张图。模型其实并不真正理解你的意思,更像是在复现训练集中与之相似的视觉规律。

而 GPT Image 2 做了一个关键动作——让图像生成真正学会“思考”。

当开启 Thinking 模式后,模型会先拆解你的意图,再去抓取网页里的参考信息,接着规划画面结构与文字排版,最后才开始实际生成。官方还声称其中文字渲染准确率最高可到 99%。

这也是用户最直观的体感变化。

以前大家在让 AI 生图时最头疼的往往就是文字:英文字母常常写错,中文更是容易翻车。如果想让 AI 直接做出一张带标题的海报,几乎就很难实现。

GPT Image 2 在文字渲染上的提升,用 VentureBeat 的描述是:step change(质变)。

举个例子,如果让它生成一张科幻杂志封面,封面每一行标题、条码旁的“Display until”日期、卷号等信息,都能对齐得非常严密。

这并不是靠“拼贴”堆出来的——模型确实理解了文字在画面里的位置以及它所表达的含义。

因此,GPT Image 2 最具颠覆性的能力就体现在这里。

传统图像生成更像“单次变换”:prompt → image。但 Thinking 模式会额外引入一个预推理阶段。

在发布会上,OpenAI 的产品负责人直接上传了一份结构很复杂的 PPT 文件,模型就能生成一张专业海报:识别到合适的 logo、提取出关键数据,并且尽量保持原始风格。

需要注意的是:Thinking 模式目前只开放给 Plus($20/月)、Pro 和 Business 用户;免费用户只能使用基础模型。

对内容创作者来说,这确实是个大招。

以往如果要做一组风格统一的素材(比如漫画分镜、产品多角度展示、系列海报),通常得一张张生成,自己调参数,再最后拼起来。

现在 GPT Image 2 可以在一次 prompt 下同时生成最多 8 张图,而且……

这对下面这些场景简直是“降维打击”。

GPT Image 2 支持原生 4096×4096 的 4K 画质;到了 API 侧则开放 2K 规格。

更实用的地方还在于它对宽高比的连续覆盖:从 3:1 的超宽到 1:3 的超高,常见尺寸基本都能覆盖。

这样就不用为了某一个尺寸反复裁剪来适配。

说到 API 价格,GPT Image 2 相比上一代大约便宜了 20-30%。

按单张图的成本来对比:

对比上代 GPT-Image-1.5 的输出价格是“百万级”,现在降到了 30,整体便宜约 25%。

API 调用本身也很省事,整体操作方式和之前用 DALL-E 接入的流程基本一致。

关键变化是:

目前 AI 生图赛道的主要玩家里:

在 LM Arena 的最新榜单上,GPT Image 2 以 1512 分排在第一名,并且领先第二名超过 240 分。

简单说:

体验了几天,我就说说我个人的一些看法。

做得比较好的方面:

另外也要注意的地方:

GPT Image 2 最大的意义在于:让 AI 生图从“玩具”真正走向“生产力工具”。

99% 的文字准确率、原生推理能力、一次出 8 张且风格一致、再加上 4K 分辨率——这些叠加起来,意味着设计师、市场团队、电商运营的工作流都有机会被重新改造。

它的目标不是取代设计师,而是让会用 AI 的设计师把产出效率再提升一个量级。

如果你是开发者,建议直接用 API 试试 gpt-image-2;如果你是普通用户,ChatGPT 免费版就能先体验基础能力;Plus 用户则能解锁 Thinking 模式的完整体验。