谷歌最新应用让你的手机在口袋里运行人工智能——完全离线

谷歌发布了一款没有人要求但每个人都想尝试的新应用。

AI Edge Gallery于5月31日悄然上线，将人工智能直接放在你的智能手机上——无需云端、无需互联网，也无需与大型科技公司的服务器共享你的数据。

这款实验性应用在Apache 2.0许可证下发布，允许任何人几乎可以用于任何目的，现已在GitHub上提供，首先支持Android平台。iOS版本即将推出。

它完全离线运行像谷歌的Gemma 3n这样的模型，处理从图像分析到代码编写的所有任务，仅使用你手机的硬件。

而且效果出乎意料的好。

这款应用目前似乎主要面向开发者，包含三个主要功能：AI Chat用于对话，Ask Image用于视觉分析，以及Prompt Lab用于单轮任务，如重写文本。

用户可以从Hugging Face等平台下载模型，尽管选择仍然限于Gemma-3n-E2B和Qwen2.5-1.5 B等格式。

Reddit用户立即质疑该应用的新颖性，将其与现有解决方案如PocketPal进行比较。

一些人提出了安全隐患，尽管该应用托管在谷歌的官方GitHub上反驳了冒充的说法。目前尚未出现恶意软件的证据。

我们在三星Galaxy S24 Ultra上测试了该应用，下载了可用的最大和最小Gemma 3模型。

每个AI模型都是一个自包含的文件，包含其所有“知识”——可以将其视为下载了模型在训练期间学习的所有内容的压缩快照，而不是像本地维基百科应用那样的庞大事实数据库。应用内可用的最大Gemma 3模型约为4.4 GB，而最小的约为554 MB。

下载后，不再需要进一步的数据——模型完全在你的设备上运行，仅使用发布前所学的内容回答问题和执行任务。

即使在低速CPU推理下，体验也与GPT-3.5发布时的表现相当：虽然较大模型的速度并不快，但绝对可用。

较小的Gemma 3 1B模型的速度超过每秒20个标记，在监督下提供了流畅的体验和可靠的准确性。

这在你离线或处理敏感数据时尤为重要，因为你可能不想与谷歌或OpenAI的训练算法共享这些数据，除非你选择退出。

在最小的Gemma模型上，GPU推理提供了超过每秒105个标记的令人印象深刻的预填速度，而CPU推理则达到了每秒39个标记。标记输出——模型在思考后生成响应的速度——在GPU上平均达到每秒约10个标记，在CPU上为7个标记。

多模态能力在测试中表现良好。

此外，似乎较小模型的CPU推理效果优于GPU推理，尽管这可能是个别现象；然而，在各种测试中确实观察到了这一点。

例如，在一次视觉任务中，CPU推理的模型准确猜测了我和我妻子在测试照片中的年龄：我接近30岁，她接近20岁。

而所谓更好的GPU推理则错误地猜测了我的年龄，认为我在20岁（不过我宁愿相信这个“信息”而不是事实）。

谷歌的模型带有严格的审查，但基本的越狱可以通过最小的努力实现。

与因规避尝试而禁止用户的集中服务不同，本地模型不会报告你的提示，因此使用越狱技术而不冒着订阅风险或向模型询问审查版本不会提供的信息是一个不错的选择。

支持第三方模型，但有些限制。

该应用仅接受.task文件，而不支持竞争对手如Ollama所广泛采用的.safetensor格式。

这大大限制了可用模型，尽管有方法可以将.safetensor文件转换为.task，但并不适合所有人。

代码处理效果良好，尽管像Codestral这样的专业模型在编程任务上比Gemma 3更有效。再次强调，必须有一个.task版本，但这可以是一个非常有效的替代方案。

对于基本任务，如改写、总结和解释概念，模型表现出色，而无需将数据发送到三星或谷歌的服务器。

因此，用户无需授予大型科技公司访问他们的输入、键盘或剪贴板的权限，因为他们自己的硬件处理所有必要的工作。

4096个标记的上下文窗口在2025年的标准下显得有限，但与两年前的标准相符。

在这些限制内，谈话自然流畅。这可能是定义体验的最佳方式。

考虑到你在智能手机上运行AI模型，这款应用将为你提供类似于早期ChatGPT在速度和文本准确性方面的体验——并且具有多模态和代码处理等一些优势。

但你为什么要在手机上运行一个速度较慢、性能较差的AI版本，占用大量存储空间，并使事情变得比简单地输入ChatGPT.com更复杂呢？

隐私仍然是杀手级特性。例如，处理患者数据的医疗工作者、在现场的记者或任何处理机密信息的人现在可以在不让数据离开设备的情况下访问AI功能。

“无需互联网”意味着该技术可以在偏远地区或旅行时工作，所有响应仅基于模型在训练时的现有知识生成。

节省成本迅速累积。云AI服务按使用收费，而本地模型只需你的手机处理能力。小型企业和爱好者可以在没有持续费用的情况下进行实验。如果你在本地运行模型，你可以随意与其互动，而无需消耗配额、积分或订阅，也无需支付任何费用。

延迟改善显而易见。没有服务器往返意味着实时应用（如聊天机器人或图像分析）的响应更快。这也意味着你的聊天机器人不会宕机。

总体而言，对于基本任务，这对任何用户来说可能绰绰有余，ChatGPT、Claude、Gemini、Meta、Reka和Mistral的免费版本在需要更重计算时提供了良好的备份。

当然，这不会很快成为你最喜欢的互联网连接聊天机器人的替代品。早期采用面临一些挑战。

电池消耗问题依然存在，尤其是对于较大的模型；设置复杂性可能会让非技术用户却步；模型种类与云服务相比显得微不足道，而谷歌决定不支持.safetensor模型（几乎占据了互联网上所有LLM的100%）令人失望。

然而，谷歌的实验性发布标志着AI部署理念的转变。公司并没有强迫用户在强大的AI和隐私之间做出选择，而是同时提供这两者，即使体验尚未完全成熟。

AI Edge Gallery为一个alpha版本提供了令人惊讶的精致体验。谷歌的优化展示了可能是本地运行AI模型的最佳用户界面。

添加.safetensor支持将解锁现有模型的庞大生态系统，将一个好的应用转变为隐私意识强烈的AI用户的必备工具。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Decrypt的精选文章