英伟达H200“解禁”[次日,智谱联手华为发布全国产开源多模态模型!

  更新时间:2026-01-15 06:35   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

GLM-Image是其面向以Nano Banana Pro为代表的新一部分指标甚至超越了Nano Banana ProGLM-Image 在英文任务中取得 0.

<p style="text-align:center;"> </p> <p> (文/陈]济深 编辑/张广凯) </p> <p> 就(在美国宣布解禁英伟达H200、试图重新抢占中国市场的微妙时刻,上市不到一周的智谱,反手给国产开源界抛下了一颗重磅炸弹。 </p> <p> 今日,智谱宣布联合华为开源最新图像生成模型GLM-Image。 </p> <p> 这不仅是行业内首个在国产芯片上完成全流程训练的SOTA多模态模型,也用实际案例向行业展示了一个客观现实:对于顶级模型而言,高端算力已不再是必须依赖进口的“卡脖子”命门。 </p> <p> GLM-Image模型采用自主创新的「自回归+扩散解码器」混合架构,实现了图像生成与语言模型的联合,并基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,验证了在国产全栈算力底座上训练前沿模型的可行性。 </p> <p> 智谱官方介绍称,GLM-Image是其面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。 </p> <p> 观察者网实测后发现,作为一款由纯国产芯片完成全流程的多模态模型,GLM-Image不仅更加擅长中文的生成,在各类图片类型上均有着行业头部的表现,能够驾驭各种不同的画风和尺寸需求。这意味着国产算力不再只是“可用”的替代方案,而是真正进入了可规模训练、可持续迭代、并能支撑前沿模型能力演进的阶段。 </p> <p style="text-align:center;"> </p> <p> 受此影响,智谱今日股价大涨18%报收216港元,上市一周来股价较116.2港元发行价接近翻倍,市值一度突破千亿港元。 </p> <p> <strong>对标顶级模型</strong> </p> <p> 从实测样例可以看出,智谱这波主打的是长文本以及复杂视觉文字的生成任务。 </p> <p> 在文字渲染的权威榜单上,GLM-Image 交出了一份相当亮眼的成绩单。不仅超越 Qwen-Image、Z-Image 达到开源SOTA水平,部分指标甚至超越了Nano Banana Pro。 </p> <p style="text-align:center;"> </p> <p> 在 CVTG-2K(复杂视觉文字生成)榜单中,该评测重点考察模型是否能够在同一张图像中,准确生成多处、多个区域的文字内容。结果显示,GLM-Image 在多区域文字生成准确率上表现突出,Word Accuracy 达到 0.9116,位列开源模型第一。 </p> <p> 同时,在衡量字符级差异的 NED(归一化编辑距离)指标上,GLM-Image 以 0.9557 的成绩继续领跑,意味着其生成文字与目标文本高度一致,错字、漏字等问题显著更少。 </p> <p> 而在更偏向“真实应用场景”的 LongText-Bench(长文本渲染)榜单中,GLM-Image 的表现也相当突出。该榜单主要考察模型在长文本、多行文字场景下的渲染能力,覆盖招牌、海报、PPT、对话框等 8 类文字密集场景,并同时设置中英文双语测试。 </p> <p> 最终结果显示,GLM-Image 在英文任务中取得 0.952,中文任务中达到 0.979,双语成绩均位列开源模型第一。 </p> <p> <strong>国产芯片如何训练</strong> </p> <p> 而从具体如何使用国产芯片实现顶级模型训练,华为昇腾的工作人员向观察者网解释了其中的技术原理。 </p> <p> 华为表示,其自回归结构的整个训练基座,从最早期的数据预处理,到最终的大规模预训练,全部运行在昇腾 Atlas 800T A2 设备之上。 </p> <p> 而围绕昇腾NPU与昇思MindSpore AI框架,智谱对训练系统进行了深度定制,自研了一整套模型训练套件,对数据预处理、预训练、SFT 以及 RL 等关键环节进行了端到端优化。在执行层面,模型充分利用了动态图多级流水下发、高性能融合算子以及多流并行等特性,将原本容易成为瓶颈的流程拆解并重组。 </p> <p style="text-align:center;"> </p> <p> 具体来看,通过动态图的多级流水优化,Host 侧算子下发中的关键阶段被流水化并高度重叠,有效消除了算子下发带来的性能瓶颈;借助多流并行策略,通信与计算实现互相掩蔽,文本梯度同步、图像特征广播等高频操作不再“卡脖子”,显著降低了通信开销。 </p> <p> 在算子层面,训练过程中大量采用了 AdamW EMA、COC、RMS Norm 等昇腾亲和的高性能融合算子,在提升吞吐效率的同时,也进一步增强了整体训练的稳定性。 </p> <p> 这套软硬件深度协同的训练体系,为 GLM-Image 的规模化训练和复杂能力打下了扎实的工程基础,使其成为首个在国产芯片上完成全流程训练的SOTA多模态模型,也验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。 </p> <p> <strong>1毛钱生成商业级图片</strong> </p> <p> 而在模型架构本身,GLM-Image采用「自回归 + 扩散解码器」的混合架构。 </p> <p> 其中9B的自回归部分负责语义理解和全局构图,全程在昇腾上训练,而7B的扩散解码器部分则采用DiT结构,配合Glyph Encoder做文字渲染,解决提笔忘字的问题。 </p> <p> 也就是说,智谱将图像生成拆解成了理解语义和画对内容两个独立任务进行分别执行,并将其称为“认知型生成”。 </p> <p> 这也和谷歌的Nano Banana Pro模型采用的将语言模型的推理能力和图像生成能力结合采用了类似的核心架构思路。 </p> <p> 智谱本次模型的创新之处则在于其对Tokenizer策略,可以实现无需后期裁剪便可根据不同的需求生成1024-2048范围内长宽尺寸的图片,这也意味着无论是横屏,竖屏,社交媒体封面,电影海报还是精修照片,都可以定制成型尺寸。 </p> <p style="text-align:center;"> </p> <p> 观察者网就尝试生成了一张超宽的横幅,可以做到一次成型。 </p> <p> 而在价格方面,API调用模式下,使用GLM-Image生成一张图片仅需0.1元。这一打破行业底价的成本,不仅展示了智谱的技术自信,更直接证明了国产算力在经济性上已具备与国际顶尖水平正面“硬刚”的能力。 </p> <p> <strong>国产替代悄然崛起</strong> </p> <p> 巧合的是,就在智谱发布模型的前一天1月13日,美国联邦公报正式发布新规,将英伟达H200出口审查从“推定拒绝”改为“逐案审查”,这标志着英伟达对华出口H200正式解禁。 </p> <p> H200的解禁,固然为中国AI企业提供了更多的算力选择,但面对这个看似对“国产替代”逻辑利空的消息,智谱GLM-Image模型的发布和股价暴涨体现了投资者们的真实态度:高端算力不再是被“卡脖子”的生存命门,而变成了“货比三家”的成本选项。 </p> <p> GLM-Image在国产昇腾算力上的全流程跑通,证明了即便完全脱离美系算力生态,中国头部大模型依然能够对标甚至超越像“Nano Banana Pro”这样的国际顶尖竞品。 </p> <p> 对于资本市场而言,智谱作为上了美国实体清单的企业,本次携手华为打造出的全国产模型,也代表着以智谱为首的国产大模型企业在AI发展上有了国产算力托底和全球供应链改善的双保险。 </p> <p> 这也意味着2026年开年的这一周,或许将成为中国AI发展史上的一个分水岭。 </p> <p> 如果说过去两年,国产大模型还在努力证明自己“可用”,那么智谱GLM-Image与华为昇腾的这次联手,则向全行业宣告了国产全栈技术已经“好用”且“敢用”。 </p> <p> 当国产芯片能够支撑起从万亿参数训练到极低成本推理的全生命周期,当国产模型在复杂的中文语境和视觉生成中占据鳌头,有理由相信,中国AI产业正在走出模仿与追赶,正式迈入以自主创新定义技术范式的新阶段。 </p>

编辑:史蒂夫·汉密尔顿·肖