谷歌在最新一轮与ChatGPT的竞争中提升了Gemini AI的图像能力

谷歌于周二推出了Gemini 2.5 Flash Image，发布了一种新的AI模型，该模型生成和编辑图像的精确度和角色一致性超过了之前的工具——试图缩小与OpenAI的ChatGPT之间的差距。

这家科技巨头推动将先进的图像编辑集成到Gemini中，反映了AI平台在图像生成方面的广泛推动，成为一项必备功能。这个新工具现在在Gemini应用和平台上可用，允许用户使用自然语言编辑视觉内容——处理诸如姿势变化或多图像融合等复杂任务，而不会扭曲面孔或场景。

在一篇博文中，谷歌表示，该模型允许用户“将同一角色放入不同环境中，[并且]从多个角度展示单一产品……同时保持主题的完整性。”

该模型首次以“nano-banana”的化名出现在众包测试网站LMArena上，因其无缝编辑而引起关注。谷歌周二确认这是该工具的开发者。

谷歌表示，该系统可以融合多张图像，保持角色一致性以便于叙事或品牌推广，并整合“世界知识”来解释图表或结合参考材料——所有这些都在一个提示中完成。

该模型在谷歌云上的费用为每百万输出令牌30美元——每张图像约四美分。它还通过OpenRouter和fal.ai进行分发。

OpenAI在2024年5月推出了GPT-4o模型，并在2025年3月中增加了图像生成，这帮助ChatGPT的使用量超过了每周7亿活跃用户。谷歌在2025年8月报告了4亿月活跃Gemini用户，这表明其每周使用量远远落后于OpenAI。

谷歌表示，所有输出将包括一个不可见的SynthID水印和元数据标签，以标记它们为AI生成的，以应对对滥用和真实性的担忧。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精選文章