热闻岛
谷歌推出全新 Gemma 4 12B 模型:轻松处理视觉与音频,无需编码器
AI新闻

谷歌推出全新 Gemma 4 12B 模型:轻松处理视觉与音频,无需编码器

2026年6月4日 11:384 阅读
近日,谷歌正式发布了其 最新 的统一多模态模型 ——Gemma 4 12B。这款模型具有 12 亿个参数, 最大 的亮点在于它不需要传统的多模态编码器,能够直接处理视觉和音频数据。为了适应消费级硬件的使用需求,Gemma 4 12B 仅需 16GB 的显存或统一内存,用户可以在高端笔记本电脑上本地运行,而不必依赖于云端计算资源。 Gemma 4 12B 的设

近日,谷歌正式发布了其 最新 的统一多模态模型 ——Gemma 4 12B。这款模型具有 12 亿个参数, 最大 的亮点在于它不需要传统的多模态编码器,能够直接处理视觉和音频数据。为了适应消费级硬件的使用需求,Gemma 4 12B 仅需 16GB 的显存或统一内存,用户可以在高端笔记本电脑上本地运行,而不必依赖于云端计算资源。

Gemma 4 12B 的设计创新在于取消了传统多模态模型中的编码器组件。以往的多模态模型需要将图像和声音通过独立的视觉和音频编码器进行转换,而 Gemma 4 12B 采用了一种轻量级的嵌入层,简化了视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作,显著降低了计算复杂度。与此同时,音频信号则被直接投影到文本 token 的维度空间,省去了音频编码器的需求。这种无编码器的设计使得 Gemma 4 12B 在推理时的计算步骤减少,体积更为精简。

在性能表现方面,Gemma 4 12B 接近谷歌更大 26B MoE 模型的水平,在多项基准测试中展现出了卓越的多步推理能力和代理工作流能力。此外,该模型还配备了 Multi-Token Prediction(MTP)drafters,能同时预测多个 token,从而加快推理速度。截至目前,Gemma 4 系列的累计下载量已经突破了 1.5 亿次,显示出开发者社区对该开源模型的热烈反响。

Gemma 4 12B 采用 Apache 2.0 许可证进行开源,权重文件已在 Hugging Face 和 Kaggle 等平台上线,支持多种推理框架,包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。此外,谷歌自家的 AI Edge Gallery 也为端侧部署提供了支持,开发者可以通过 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模的生产环境部署。

划重点:

🌟 Gemma 4 12B 模型无需传统编码器,可直接处理视觉与音频数据,运行需求低。

⚡ 采用轻量级嵌入层,显著降低计算复杂度,性能接近谷歌更大的 26B MoE 模型。

📈 累计下载量突破 1.5 亿次,支持多种推理框架及端侧部署,广受开发者欢迎。

声明:本文仅代表作者观点,不代表本平台立场

评论 (0)

登录后即可发表评论

去登录
暂无评论,快来抢沙发

相关推荐

AI日报:微信开放平台发布AI生态接入指引;月之暗面再融资20亿美元;ChatGPT紧急上线封锁模式
AI新闻

AI日报:微信开放平台发布AI生态接入指引;月之暗面再融资20亿美元;ChatGPT紧急上线封锁模式

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 1、微信开放平台发布AI生态接入指引,小程序可支持微信AI直接调用 微信开放平台发布《关于开发者接入微信AI生态的指引》,为小程序开发者提供便捷接入微信AI生态的能力,标志着微信加速构建智能交互生态。 2、高

1017 小时前
披着便利外衣的陷阱!国安部鸣枪警告:警惕“AI中转站”四大致命风险
AI新闻

披着便利外衣的陷阱!国安部鸣枪警告:警惕“AI中转站”四大致命风险

随着人工智能应用需求的爆发式增长,批量提供海内外大模型访问服务的“AI中转站”在网络上迅速走红。这类平台通过统一整合各大厂商的应用程序接口(API),充当起用户与大模型之间的“中介”。 它们凭借着无需切换模型、使用价格低廉以及支付方式便捷等特点吸引了大量用户,甚至还能帮助部分人绕过合规限制。然而,国家安全部近日发文特别提醒,当前该市场鱼龙混杂,其中暗藏的数据

817 小时前
月之暗面再度融资 20 亿美元,估值飙升至 300 亿
AI新闻

月之暗面再度融资 20 亿美元,估值飙升至 300 亿

在人工智能领域的竞争愈发激烈之际,知名初创公司 “月之暗面”(Moonshot AI)正在积极寻求新一轮融资,目标金额高达 20 亿美元。这一融资计划若成功实施,将使其估值达到 300 亿美元,相较于去年 12 月的估值暴涨七倍之多,令人瞩目。 根据彭博社的报道,这家开发了知名聊天机器人 Kimi 的公司,正在与多家潜在投资者进行初步接洽,预计至少将募集到

817 小时前
​谷歌澄清 Chrome 搜索重定向至 AI 模式并非新计划
AI新闻

​谷歌澄清 Chrome 搜索重定向至 AI 模式并非新计划

近日,有关谷歌 Chrome 浏览器在 最新 金丝雀版本中测试一项新功能的消息引发广泛关注。该功能允许用户在地址栏中输入搜索词时,直接进入 AI 模式,而不是跳转到传统的 Google 搜索页面。此消息最初由 Windows Report 报道,随后谷歌对此进行了回应。 谷歌确认,此项功能的测试实际上是一个错误,并且没有计划将其设为默认行为。根据谷歌的说明,

917 小时前