OpenAI推出的GPT Image 1.5是一次从技术展示转向生产工具的升级,核心在于提升可控性、速度和成本效益。它在指令遵循、局部编辑和多图并行生成上表现优异,尤其适合需要快速迭代和精准修改的工作流。但据评测,其在处理多步骤编辑、密集指令和风格一致性等复杂任务时,表现不如谷歌同期发布的Nano Banana Pro。后者在高分辨率输出、图像融合和复杂构图上能力更强,生成的图像更具真实感。两款模型各有侧重,前者是高效的“编辑工具”,后者则是强力的“创作引擎”。
一. 什么是 GPT Image 1.5?
OpenAI于2025年12月16日,正式发布最新的旗舰级AI图像生成模型GPT Image 1.5。作为GPT-4o图像生成能力的重大升级,GPT Image 1.5在生成速度上提升了4倍,同时在文本渲染、指令遵循和图像编辑方面都有显著改进。

ChatGPT Images 1.5的核心特征
- 指令理解精度提升:更严格遵循指令,“指哪改哪”,支持添加、删减、组合等多种编辑,解决了以往修改局部会导致整张图“大变样”的问题,尤其在人物面部特征、光线一致性上表现更稳
- 生图速度提升:图像生成速度提升最高4倍,支持多图并行生成,大幅缩短创作等待时间
- 使用成本下降:API成本降低:图像输入与输出费用较前代降低约20%
- 渲染能力提升:能更好地处理和生成图片中密集、细小的文字
根据 OpenAI 的官方文档,新的图像生成模型已向所有用户推出,API 版本正式命名为 GPT Image 1.5。同时,OpenAI 推出了焕然一新的 ChatGPT Images 体验,现在大多数 ChatGPT 用户都可以使用。企业计划和商业计划用户预计很快将获得完全访问权限。
二. 什么是Nano Banana Pro?
Nano Banana Pro是由Google开发的图像生成模型,属于Gemini 3 Pro系列。它是Nano Banana的升级版本,具备更强大的图像生成、编辑和处理能力。该模型支持4K分辨率输出,能够生成高质量的图像,适用于专业印刷材料和数字出版。

Nano Banana Pro的核心特征:
- 4K超高清分辨率输出:突破了传统1024×1024的限制,适合印刷和大尺寸展示需求
- 8图融合能力:先进的多图像融合算法,支持最多8张参考图像融合
三. 图像生成测评案例
这些图像生成模型本身就很先进。测试它们生成徽标和毛绒玩具的效果对它们来说简直是小菜一碟,根本无法真正检验它们增强后的能力。
因此,我将在以下复杂任务中测试这些方法:
任务 1:具有状态保持功能的多步骤图像编辑
这项测试的内容是:模型能否在多次编辑后保持场景特征、光照一致性和物体位置。大多数模型在多次编辑叠加后都会降低图像质量或使其“重置”。
我使用了以下图片作为输入:

现在我会逐步对其进行修改,并判断该模型在多大程度上保留了图像的完整性。
“将时间从夜晚改为白天”

“把沙发换成木制沙发”

“调整相机角度,从室外空旷的空间视角,也就是从图中可见的玻璃门向房间内部看去的视角。”

观察:
与 ChatGPT Image 1.5 相比,Nano Banana Pro 的输出结果更好。ChatGPT 响应图像中的以下错误突显了这一点:
- 从夜晚到白天,建筑物的背景与原先有所不同。
- 当把沙发换成木制沙发时,茶几的结构也发生了变化。
在最后一项任务中,这两个模型都没能生成勉强令人信服的图像。
有趣的是:输入图像是由 ChatGPT Image 自行生成的!但它在任务中的表现仍然不尽如人意。
任务二:理解单个提示中的密集指令
这项测试的内容包括:在约束条件下迅速服从指令、文本渲染准确性以及构图规划。模特通常只能做对一两个细节,而忽略其他部分。
为一场科技会议设计一张海报,要求:
1. 三位演讲者,每位演讲者的着装、年龄和种族各不相同;
2. 每位演讲者下方准确标注姓名;
3. 使用不超过四种颜色的特定配色方案;
4. 背景设计巧妙地融入人工智能元素,但避免使用机器人或大脑等明显的符号。

观察:
Nano Banana Pro 制作的海报可以用于宣传科技会议,而 ChatGPT Image 的输出看起来更像是 Photoshop 初学者的作品。
任务3:绘制符合实际应用需求的技术图
这项测试考察的是:世界知识、图表逻辑、空间推理能力和文本可读性。如果模型本身并不理解结构,那么即使“漂亮”的模型也会在这方面彻底失败。
创建一个带标签的信息图,解释基于 Transformer 的语言模型如何处理文本,包括:
1. 分词
2. 注意力层
3. 嵌入
4. 输出概率
所有标签必须清晰易读且位置正确。

观察:
两张信息图都存在一些缺陷。Nano Banana Pro 相对而言更好一些。它的错误很少,视觉效果也恰到好处,文字搭配也比较合理,因此更容易理解。ChatGPT Image 1.5 则完全采用了视觉呈现的方式。但考虑到其中多余的步骤(第四步)以及缺乏解释的视觉元素,读者很难理解其所传达的信息。
任务 4:多张图片风格一致性
这项测试旨在验证角色身份的持久性和风格的连贯性。这是目前图像生成领域最棘手的问题之一。
为一部短片生成一个三帧故事板:
帧 1:开场场景;
帧 2:冲突;
帧 3:解决。
同一角色必须出现在所有三帧中,面部特征、服装和比例保持一致,同时灯光和拍摄角度会发生变化。

观察:
以下是故事板的含义:
- 一系列图画,通常包含一些说明和对话,代表电影或电视制作中计划的镜头。
当我要求提供故事板时,我希望图片中能隐含一些方向性信息,或者辅以其他方式进行补充说明。ChatGPT Image 1.5 的回复将所有内容都塞进了一张图中,这本身就显得平淡无奇。
Nano Banana Pro不仅提供了多张指示方向的图片,还添加了文字说明,使图片之间的过渡更加自然流畅。回复非常出色。

任务五:照片写实主义与艺术指导的权衡
测试内容:精细细节渲染、文本清晰度、材质真实感,以及在艺术光照和商业准确性之间取得平衡的能力。
拍摄一张智能手表产品图,要求:
1. 画面逼真,足以用于电商网站;
2. 使用专业影棚灯光,营造戏剧效果;
3. 表盘上的刻字清晰易读;
4. 保持正确的反射效果和材质属性

观察:
Nano Banana Pro制作了一张类似智能手表发布会的图片。ChatGPT Image则制作了一款外观类似模拟手表的智能手表,但它并没有在设计上体现智能元素,而是在表盘边缘直白地印上了“智能手表”字样。
四. 模型核心对比图

五. 适用场景分析
选择GPT Image 1.5的场景:
- 快速迭代需求:需要频繁生成和修改图像的工作流
- 文字设计:信息图表、UI界面、包含文本的海报
- 精确编辑:需要保持原图特征的局部修改
- 大规模生产:API批量调用,成本敏感场景
- ChatGPT用户:已深度使用OpenAI生态的用户
选择Nano Banana Pro的场景:
- 高分辨率需求:印刷品、大幅海报、专业摄影
- 自然真实感:人像摄影、产品展示、风景图
- 多图合成:需要融合多个参考图的复杂场景
- 专业控制:需要精确控制相机参数和光照效果
- Google生态用户:使用Gemini和Google服务的用户
参考:
https://cursor.zone/faq/gpt-image-1-5-vs-nano-banana-pro.html
https://aipure.ai/cn/articles/chatgpt-image-1-5-is-here-inside-openai-s-new-ai-image-generation-model
https://www.wbolt.com/chatgpt-image-vs-nano-banana-pro.html
https://www.snaplama.com/blog/how-to-use-chatgpt-image-1-5-complete-2025-guide