谷歌放大招！Gemma 4 强势发布：让手机也能离线跑 AI Agent

4月3日，谷歌正式发布 Gemma 4，称“这是其迄今为止最智能的开放模型系列”。该系列面向复杂推理与智能体工作流设计，采用商业许可的 Apache 2.0 许可证开源。包括四种规格的Gemma 4通用模型：高效20亿参数版（E2B）、高效40亿参数版（E4B）、260亿混合专家模型（MoE）与310亿稠密模型（31B）。

在端侧，E2B 和 E4B 模型针对移动和物联网设备优化，推理时分别激活约 20 亿和 40 亿参数，以降低内存和电量消耗。据介绍，这两个模型已与谷歌 Pixel 团队、高通和联发科等硬件厂商合作，可在手机、Raspberry Pi、NVIDIA Jetson Nano 等设备上离线运行，延迟接近零。

与此同时，研究人员表示，26B MoE 模型有一个巧妙之处：在推理任务中，它只会激活 38 亿参数，因此既能保持较高运行速度，又不会牺牲大模型所具备的深厚知识储备。

26B 和 31B 模型提供面向 IDE、编程助手和 Agent 工作流的高级推理能力。模型针对消费级 GPU 进行了优化，让学生、研究人员和开发者能够把自己的工作站变成以本地优先为核心的 AI 服务器。

谷歌 DeepMind 研究人员 Clement Farabet 和 Olivier Lacombe 表示，在 Gemma 4 上，他们设法进一步压榨出了更多“单位参数智能”，让这些模型能够显著实现“越级发挥”。例如，31B Dense 版本目前在行业标准榜单的开源模型中排名第三。

Farabet 和 Lacombe 解释称，每个 Gemma 4 模型都更适合用于运行 AI Agent。此前几代 Gemma 模型往往需要开发者额外调整设计，才能与其他软件工具交互；而 Gemma 4 已原生支持函数调用和结构化 JSON 输出、原生系统指令以及超过 140 种语言。这意味着，开发者可以用它们来驱动自主 Agent，与第三方工具交互，并执行多步骤任务规划。