中国数智化转型网 人工智能资讯 每日人工智能资讯|谷歌推出全新 Gemma 4 12B 模型:轻松处理视觉与音频,无需编码器

每日人工智能资讯|谷歌推出全新 Gemma 4 12B 模型:轻松处理视觉与音频,无需编码器

近日,谷歌正式发布了其最新的统一多模态模型 ——Gemma 4 12B。这款模型具有 12 亿个参数,最大的亮点在于它不需要传统的多模态编码器,能够直接处理视觉和音频数据。为了适应消费级硬件的使用需求,Gemma 4 12B 仅需 16GB 的显存或统一内存,用户可以在高端笔记本电脑上本地运行,而不必依赖于云端计算资源。数智化转型网www.szhzxw.cn

Gemma 4 12B 的设计创新在于取消了传统多模态模型中的编码器组件。以往的多模态模型需要将图像和声音通过独立的视觉和音频编码器进行转换,而 Gemma 4 12B 采用了一种轻量级的嵌入层,简化了视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作,显著降低了计算复杂度。与此同时,音频信号则被直接投影到文本 token 的维度空间,省去了音频编码器的需求。这种无编码器的设计使得 Gemma 4 12B 在推理时的计算步骤减少,体积更为精简。数智化转型网www.szhzxw.cn

在性能表现方面,Gemma 4 12B 接近谷歌更大 26B MoE 模型的水平,在多项基准测试中展现出了卓越的多步推理能力和代理工作流能力。此外,该模型还配备了 Multi-Token Prediction(MTP)drafters,能同时预测多个 token,从而加快推理速度。截至目前,Gemma 4 系列的累计下载量已经突破了 1.5 亿次,显示出开发者社区对该开源模型的热烈反响。数智化转型网www.szhzxw.cn

Gemma 4 12B 采用 Apache 2.0 许可证进行开源,权重文件已在 Hugging Face 和 Kaggle 等平台上线,支持多种推理框架,包括 LM Studio、Ollama、MLX、SGLang 和 vLLM 等。此外,谷歌自家的 AI Edge Gallery 也为端侧部署提供了支持,开发者可以通过 Google Cloud 的 Model Garden、Cloud Run 和 GKE 等服务进行大规模的生产环境部署。数智化转型网www.szhzxw.cn

划重点:

🌟 Gemma 4 12B 模型无需传统编码器,可直接处理视觉与音频数据,运行需求低。  

⚡ 采用轻量级嵌入层,显著降低计算复杂度,性能接近谷歌更大的 26B MoE 模型。  

📈 累计下载量突破 1.5 亿次,支持多种推理框架及端侧部署,广受开发者欢迎。数智化转型网www.szhzxw.cn




若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

思思微信二维码

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

Nora微信二维码

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

Carina微信二维码

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

底部图片
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/122069.html
0
标签:
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部