谷歌最近以惊人的速度发布了人工智能软件。仅在过去一周,我们就见证了Gemini 3.1、Lyria和Pali,这些软件新增的摄影功能真正受到了大众的喜爱。现在,可以说是去年的最大图像生成热门的后续版本已经发布。
Nano Banana 2于周四推出,“将Gemini Flash的高速智能引入视觉生成,使快速编辑和迭代成为可能,”谷歌在一篇官方的博客文章中表示,并补充说“它使曾经独占的专业功能向更广泛的受众开放。”
以下是简要概述。原始的Nano Banana实际上名为Gemini 2.5 Flash Image,基本上就是这样:一个基于Gemini 2.5 Flash的图像生成器。然后Nano Banana Pro来了,它是Gemini 3 Pro Image,并在去年11月发布时成为AI图像编辑的黄金标准。
Nano Banana 2在技术上是Gemini 3.1 Flash Image——所以它并不是Pro的直接续集,而更像是原版本的显著升级版,现在运行在更新的Gemini 3 Flash基础上。困惑吗?是的。
这里的逻辑很简单:将Nano Banana Pro的所有特殊之处带走,并使其以Flash速度运行。
新的Nano Banana 2今天在谷歌的生态系统中推出。在Gemini应用中,它取代Nano Banana Pro,成为快速、思考和专业模型中的默认选项。谷歌的AI Pro和Ultra订阅者仍然可以通过三点菜单重新生成以访问Nano Banana Pro以进行专门任务。
它也已经在谷歌搜索的AI模式和Lens中上线,可以通过Gemini API在AI Studio和Vertex AI预览中使用,且是Flow中新的默认图像生成模型,所有用户的生成无须花费积分。谷歌还在扩大SynthID水印功能,并添加C2PA内容凭证支持,为平台提供更好的工具来识别AI生成的媒体。自11月以来,SynthID验证功能已被使用超过2000万次。
Nano Banana 2的新特性
最大的亮点是世界知识。Nano Banana 2可以在图像生成过程中实时从网络搜索中提取信息,这意味着它可以准确地呈现特定主题。标志、地标、最近的事件、品牌形象——它知道事物的样子,因为它可以查找,而不仅仅是从训练数据中猜测。
文本呈现也得到了重大升级。您现在可以在图像中生成准确、清晰的文本,无论是通过提示拼写出来,还是让模型根据上下文决定写什么。它也能处理图像内翻译,因此您可以在多个语言中本地化广告活动,而不必从头重建视觉效果。
主题的一致性也在向新的领域推进。据谷歌称,该模型可以在多达五个主题之间保持角色相似性,并在单个工作流程中保持多达14个对象的视觉保真度。这对任何构建叙事、故事板或一致品牌资产的人来说都是一个重要事项。
在生产方面,您可以从512px到4K,支持多种宽高比。遵循指令的准确性也比以前的Flash模型更紧密,实际上意味着生成的提示更能够精确地符合您的要求,而不是模糊地做到您所请求的。
推理也现在是可配置的。开发人员可以将思维水平设置从最小(默认)一直到高或动态,让模型在提交渲染之前通过复杂的提示进行推理。这种速度和可选的深思熟虑的结合是质量提升的主要来源。
测试模型
关于速度的声明是真实的。我们要求Nano Banana 2生成一个完整的比特币生态系统时间线,包括研究和最终的艺术作品。整个过程大约花费时间与Nano Banana Pro仅仅完成比特币时间线所需的时间相同。当我们接着用以太坊时间线提示时,几乎没有额外的时间消耗。对于任何运行迭代管道或大规模构建的人来说,这是一个重要差距。
世界知识的能力确实改变了输出的感觉。当我们提示生成历史加密货币时间线时,模型搜索了多个来源,选择了最相关的事件,并围绕它们结构艺术。它并不是泛泛而谈。模型做出了编辑决策。我们发现的唯一真正缺陷是一个部分的末尾和另一个部分的开头之间缺少视觉链接。其他的一切都保持一致。相比之下,Nano Banana Pro产生的内容更为通用艺术,并没有明显努力去寻找或优先确定事件。
例如,当我们提示“创建一个比特币历史时间线,突出其从创建到今天最重要的事件。宽屏,小孩画风格”时,Nano Banana 2生成了如下内容。
作为对比,这是使用Nano Banana Pro生成的相同内容:
角色一致性和文本处理是我们测试结果中最令人印象深刻的部分。我们要求模型生成一个杂志封面,所有文本行都准确且清晰。没有杂乱的字符,没有漂移的排版。
Nano Banana Pro在这方面也很强大,但它会产生更多的故障,其杂志封面输出有种3D效果的质量,显得很不自然。
Nano Banana 2的结果看起来具有照片真实感。在利用自身推理生成文本时,它总体上也显示出更少的杂乱字符,而不仅仅是在明确要求时。
话虽如此,该模型确实有明显的内容限制。我们要求Nano Banana 2编辑一张真实照片并将服装换为内衣。经过长时间的推理周期,它拒绝了。这是可以预期的,如果不是因为它拒绝在一张女性的照片上生成这一编辑,而在一张男性的照片上却没有拒绝。
要求更换泳衣的请求表现良好。审查水平似乎大致相当于Nano Banana Pro,这意味着任何推动至明确领域或在暗示上下文中操控真实人的请求都会被阻止。这比听起来要重要得多,稍后我们会讨论原因。
Seedream 5:Nano Banana 2有竞争对手
关于在2026年2月底推出一款旗舰图像模型的问题是:字节跳动在同一周推出了Seedream 5。
Seedream在过去一年中已经成为社区的宠儿,理由充分。它灵活,成本效益高——使用API每张图片约需$0.035,约为谷歌价格的三分之一——而且其内容审核远比谷歌宽松。这最后一点使它在需要与真实人合作或推动视觉界限的创作者中建立了忠实的追随者。
Seedream 5将实时网络搜索引入了其生成管道,改进了推理,增强了参考一致性,并支持在单个多轮编辑工作流程中使用多达14个参考图像。它可以在几秒钟内生成2K和4K图像。它还可以本地运行,这是谷歌不允许的,并且在字节跳动的CapCut和剪映中可用,及通过标准API提供。
简而言之,谷歌和字节跳动在同一周推出了基于网络搜索的、增强推理的图像模型。这说明了整个类别的未来走向。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。