OpenAI图像2.0震撼发布!首个具备思考能力的视觉模型
今日凌晨,OpenAI正式推出了其首个具备思考能力的文本到图像生成模型ChatGPTImages2.0。
熟悉AI绘画的朋友们可能都经历过这样的困扰:为了绘制一张细节丰富的图片,需要输入大量的提示词,但最终生成的图像往往文字扭曲、物体比例失调,在多语言设计方面更是表现不佳。即便勉强可用,也常常需要花费大量时间进行后期修正。
此次的2.0版本针对这些长期存在的问题逐一进行了改进,尤其在连续图像生成和中文理解能力方面表现突出。
内置思考模式,一键生成8张连贯图像
这是2.0版本最为核心的重大升级。开启思考模式后,用户可以明显感觉到,该AI不再仅仅是机械执行指令的绘图工具,而是能够主动理解需求、协助实现创意的视觉伙伴。
启用此模式后,模型会投入更多时间深入分析用户需求,并能够联网获取实时信息。例如,若用户希望制作当下热门的营销海报,它会自主搜寻最新的潮流元素,并将其融入设计之中。
举例来说,当您需要设计服装周边产品时,2.0版本会自动搜索最新的服装潮流趋势、流行配色等,如同人类设计师一般,借鉴优秀的设计成果并融合到生成的产品中。
用户上传一张素材图片,模型还能自行分析内容,将素材转化为清晰的视觉解说图。甚至在开始绘图前,它会自行推理画面结构,规划元素的布局,无需用户事无巨细地编写提示词。
更令人惊叹的是,它能够一次性生成最多8张内容连贯的图像,确保角色与物体的风格、比例保持一致,内容还能层层递进,自动完成分镜制作等工作。
例如,我们仅使用了一句提示词“一页日式青年漫画风格的漫画书”,便一次性获得了8张风格统一的连贯画面,并且模型自动完成了分镜设计。
估计漫画设计师们看到后也会感到压力倍增。
无论是创作漫画系列、制定全屋改造方案,还是制作多比例的社交媒体配图,现在都能一次性完成,无需逐一生成再手动拼接,极大地简化了繁琐的工作流程。
图像生成更贴近真实世界
许多用户在使用AI绘制解说图或教育图表时,最头疼的问题莫过于AI缺乏现实世界的常识,导致生成的图像违背基本逻辑,例如画错物理原理或颠倒数据图表的逻辑关系,使得最终图像虽然美观却毫无用处。
此次2.0版本直接将世界知识库更新至2025年12月,融入了更前沿的现实知识,生成的内容将更加贴合现实,语境也更为准确,有效避免了科普图表出现常识性错误的情况。
此外,它能够端到端地完成整个视觉创作流程,从信息整合、故事创作,到结构排版、留白设计,再到优化视觉流,一步到位,无需用户分步骤指挥。
例如,当您要求它绘制一张关于康托尔对角线证明的信息图时,它会自行梳理相关知识点,将复杂的逻辑通过清晰的视觉形式呈现出来,既美观又准确。这对于从事教育内容或科普创作的人来说,无疑是一大福音。
再比如,根据这幅肖像,先绘制图表,再进行个人色彩分析。通过视觉对比,展示哪些服装颜色适合这位人物。文字尽量简洁,避免使用段落。
多语言支持终于不再出错
这或许是许多国内用户最为关注的一点。以往的AI绘图模型,通常只在处理英语和拉丁字母时表现尚可。若想绘制包含中文的海报或带有日文的漫画,生成的文字往往残缺不全或语序混乱,几乎无法使用,可以说是一个严重偏科的“学生”。
但2.0版本彻底补强了多语言能力。对于中文、日语、韩语、印地语等非拉丁文字,不仅能够精准渲染,连语句表达也变得自然流畅,不再有生硬的翻译痕迹。
更重要的是,它并非简单地将文字粘贴到图像上,而是能够让语言自然地融入整体设计之中。
例如,我们使用一段超长的文本提示词来生成一张连续的中文图片。
效果令人震撼,文字的排版、字体的风格能够与漫画的分镜、画风完美契合,如同专业设计师的作品一般。
从此,无论是制作本土化的海报、解说图,还是多语言的漫画、图表,都无需再为文字问题而烦恼,真正实现了使用母语进行视觉设计。
风格还原极其精准,比例支持更加灵活
过去,AI在模仿特定绘画风格时,总给人一种隔靴搔痒的感觉。例如,您想要胶片风格的照片,它可能生成一张过度磨皮的网红图;您想要电影剧照的质感,它可能画得平淡无奇。核心问题在于无法抓住每种风格的精髓。
但2.0版本在风格还原方面实现了重大升级。无论是照片写实、胶片随拍这类写实风格,还是像素艺术、漫画、电影剧照这类特色风格,它都能精准捕捉其核心特征。
甚至连胶片的颗粒感、直闪照片的深邃阴影、电影画面的光影层次等细节都不会遗漏。
而且它对风格的还原是忠实复刻,而非粗略模仿。例如,当您要求绘制一张35mm胶片拍摄的海岸随拍时,它会呈现自然的构图、低饱和度的色彩,连发丝和衣物随风飘动的动态都能还原,充满生活纪实感。
一张逼真的iPhone照片,描绘了两个外星人在傍晚时分坐在露天咖啡馆里,照片由同桌的人随意拍摄。饮料喝了一半,阳光不均匀,姿势放松,构图略有瑕疵,呈现出一种日常手机快照的自然真实感。
一张macOS系统中浏览器中ChatGPT的屏幕截图。用户输入“给我画只狗”,ChatGPT会画出一只ASCII狗。
最前面的窗口是ChatGPT,但桌面很乱,打开了很多乱七八糟的窗口(例如终端)。它们都在后台运行。
这种精准的风格把控能力,使得无论是进行游戏原型设计、影视分镜制作,还是营销创意、特色素材生成,都可以直接使用,无需反复调整提示词来寻找感觉。
以往生成AI图像时,大多局限于固定的正方形比例。若想制作超宽的横幅海报或竖版的手机配图,要么需要裁剪变形,要么画面留白显得奇怪,限制颇多。
这次2.0版本直接放开了比例限制,最宽支持3:1,最高支持1:3的比例。超宽横幅、演示幻灯片、手机屏幕、书签、社交媒体平台配图等常见场景,都能完美适配。
用户只需在提示词中设定好比例,或直接选择预设选项,即可生成对应尺寸的图像,并且画面的构图和内容不会因比例变化而失衡。
例如,当您希望绘制一幅篮球扣篮的延时漫画时,使用3:1的超宽比例,它能够将扣篮的每个动作拆解得清晰明了,用视觉语言讲述故事,无需额外添加文字说明。这种灵活的比例支持,使得AI绘图的应用场景直接翻倍。
用iPhone拍摄一张逼真的繁忙城市全景照片。照片要略带锯齿感,就像我拍摄时手抖一样;画面中应该出现断层线,那是由于手抖或拍摄时没有保持直线造成的。
传统国风长山水画。纵横比:风景3:1
如何使用,费用多少
最后谈谈大家最关心的可用性和定价问题。2.0版本目前已向所有ChatGPT和Codex用户开放,基础的图像生成功能可以直接使用,无需额外申请。
而具备思考能力的高级功能,目前仅向ChatGPTPlus、Pro和Business用户开放。这部分功能确实更为实用,适合专业从事视觉创作的用户。
在API方面,GPT-Image-2模型已经上线。定价根据图像质量和分辨率而定,不同需求对应不同价格,开发者可根据自身产品需求进行选择。
此外,OpenAI也表示会实施全流程的安全防护措施,防范有害内容输出,后续也将根据模型能力和潜在风险持续优化,用户可以放心使用。
看完2.0版本的整体性能演示,确实令人震撼。此次更新从根本上改变了AI绘图的工作逻辑,使其从一个仅能生成灵感的工具,转变为能够协助用户完成从创意构思到最终成品全流程的视觉伙伴。
OpenAI的这波操作,再次大幅提升了AI绘图领域的天花板。接下来,且看其他厂商如何跟进。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派