
加密小师妹|Monica|2026年04月25日 10:50
先回答我一个问题,这两张图片哪张是 AI 生成的?
想好答案再继续,不过在那之前,我们可能不知不觉间,又站在了一个 AI 发展的拐点上。
这两周,几乎每天都有重磅更新:OpenAI 发布了 GPT-5.5,主推「数字打工人」概念,能自主完成多步骤工程任务;Anthropic 紧接着推出 Claude Opus 4.7,SWE-bench Pro 编程评测拿下 64.3%,比上一代提升近 11 个百分点;Cursor 实测任务解决率提升 13%,乐天的真实生产 bug 解决量直接翻了 3 倍;Google 的 Gemini 3.1 Flash 把响应速度提到原来的 2.5 倍,价格砍了一半。
竞争激烈到每个月不跟进,就像错过了一整个时代。
但这其中,我最感兴趣的,也是最能直接影响日常生活的,是 GPT Image 2。
它不是又一次「画得更好看了」的更新,而是把整个生成方式换了一遍:在生成第一个像素之前,模型就已经完成了对布局、语义和意图的规划。就像 GPT 之于文字,它想成为「图像领域的 GPT」。
最直观的变化有几个:
中文字再也不乱了。文字渲染准确率从 90% 升到约 99%,中文、日文、韩语都可以。之前 AI 生图里的文字基本等于鬼画符,这个问题现在接近被解决了。
说人话就能改图。多轮自然语言编辑,你可以说「把左边的建筑改成红色,加霓虹灯」,然后再说「天空加一轮满月」,不需要重新写一大段提示词。
分辨率到 4K,还更快了。最高 4096×4096,比前代生成速度还提升了约 2 倍。
生成 UI 和 App 截图的效果直线上升,足够以假乱真了。
我一直觉得,文字是人类最高效的信息载体,但图像才是最本能的沟通方式。当 AI 生图从「玩具」变成「生产力工具」,真正门槛打下来的时候,每个有想法、却苦于不会做图的人,终于可以把脑子里的东西,完整地表达出来了。
但同样的能力,也意味着:再过不久,朋友圈里那张「现场照片」、新闻里那张「证据图」、聊天框里那张「截图」,你都不一定能再相信了。
眼见为实的时代结束了。(加密小师妹|Monica)
脈絡