谷歌在最新一轮与ChatGPT的竞争中提升了Gemini AI的图像能力

CN
Decrypt
關注
4 小時前

谷歌于周二推出了Gemini 2.5 Flash Image,发布了一种新的AI模型,该模型生成和编辑图像的精确度和角色一致性超过了之前的工具——试图缩小与OpenAI的ChatGPT之间的差距。

这家科技巨头推动将先进的图像编辑集成到Gemini中,反映了AI平台在图像生成方面的广泛推动,成为一项必备功能。这个新工具现在在Gemini应用和平台上可用,允许用户使用自然语言编辑视觉内容——处理诸如姿势变化或多图像融合等复杂任务,而不会扭曲面孔或场景。

在一篇博文中,谷歌表示,该模型允许用户“将同一角色放入不同环境中,[并且]从多个角度展示单一产品……同时保持主题的完整性。”

该模型首次以“nano-banana”的化名出现在众包测试网站LMArena上,因其无缝编辑而引起关注。谷歌周二确认这是该工具的开发者。

谷歌表示,该系统可以融合多张图像,保持角色一致性以便于叙事或品牌推广,并整合“世界知识”来解释图表或结合参考材料——所有这些都在一个提示中完成。

该模型在谷歌云上的费用为每百万输出令牌30美元——每张图像约四美分。它还通过OpenRouter和fal.ai进行分发。

OpenAI在2024年5月推出了GPT-4o模型,并在2025年3月中增加了图像生成,这帮助ChatGPT的使用量超过了每周7亿活跃用户。谷歌在2025年8月报告了4亿月活跃Gemini用户,这表明其每周使用量远远落后于OpenAI。

谷歌表示,所有输出将包括一个不可见的SynthID水印和元数据标签,以标记它们为AI生成的,以应对对滥用和真实性的担忧。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

用 AiCoin K 线分析,组队开战WSOT,争夺 1000 万 USDT 奖池
廣告
分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接