www.haiwaiwai.comToken成本战打响，中国芯片企业找到新出路

Token成本战打响，中国芯片企业找到新出路

本文是虎嗅WAIC”追踪Token商业新范式”系列的第05期内容。

2026年，红果短剧平台悄然出现了一种新型创作模式：仅凭三五人的微型团队，借助AI工具便能大规模生产短剧内容，产能翻倍，成本却大幅压缩。

这无疑具有某种颠覆性意义——一种被称为OPC（一人公司）的组织形态，率先在短剧领域落地生根。然而在上海浦东的曦望Sunrise（日出）办公室里，联席CEO王湛关注的焦点，却是一个叫”Token消耗量”的数据指标。

Token，通俗来说，是AI执行任务时的计量单位。无论是让AI撰写文案、生成图像，还是制作一集短剧，背后都在持续消耗Token。Token用量越大，所需算力越多，花费自然也越高。而曦望科技（下简称曦望）的产品，正是专门用于降低这笔开销的芯片。

“我们预判推理算力需求会大幅增长，但实际增速远超我们的预期。”王湛坦言。

AMP

曦望联席CEO王湛图片由曦望科技提供

若要寻找一家最能诠释Token经济的企业，曦望或许是最佳样本。Token这一概念因推理需求爆发才进入大众视野，而曦望深耕的，恰恰是Token工厂中最关键的推理GPU领域。

参与本次对话的还有曦望科技CTO高洋。与王湛相比，高洋更像一位纯粹的技术人，甚至带着几分社交内敛的特质——他习惯用文字逻辑表达思想，而非口头阐述。王湛则截然不同，他身上更多是企业家的气质，商业嗅觉敏锐，对市场风向的捕捉近乎本能。

AMP

曦望CTO高洋图片由曦望科技提供

王湛说，这正是曦望团队的特质所在——协同作战，各司其职，优势互补。

透过会议室的落地窗向外眺望，黄浦江静静流淌。对岸是徐汇西岸标志性的东西双塔，那片区域聚集着中国密度最高的AI企业群落。几站地铁之外的张江，则是芯片企业高度集中的产业重镇。曦望，恰好落脚于这两大产业的交汇地带。

曦望脱胎于AI龙头企业商汤科技，骨子里天然带着”软件优先”的基因：先研判大模型与AI软件的发展走向，再以此为依据定义硬件形态，让硬件设计紧随软件需求而动。正是这种视角，使曦望从创立之初便将目光锁定在推理市场。

在此有必要厘清”推理”的概念。AI的运作分为两个阶段：训练阶段负责构建智能大脑，推理阶段则让这个大脑真正投入工作。过去数年，资本几乎全部押注训练环节，因为智能能力尚待提升；如今模型能力趋于成熟，实际应用的需求便呈井喷之势。

一组数据勾勒出了这场变革的规模。德勤预测，2026年推理将消耗全球AI算力的三分之二，而仅仅三年前，推理市场几乎还是一片空白。OpenAI仅ChatGPT的日常推理运营，每天就要烧掉逾70万美元，折合全年账单超过2.5亿美元。相比之下，GPT-4完成一次训练的费用？四个月的推理开销便足以抵平。

另一个更值得关注的趋势是：在这轮国产大模型推理需求的爆发中，中国本土芯片与生态体系正迎来前所未有的发展窗口，机遇正被加速放大。

王湛有一句话令人印象深刻：中国推理芯片是伴随中国大模型整体生态共同成长的，是整个中国AI产业链中不可或缺的一环。国内AI芯片与中国本土AI生态的适配程度更高，这本身就是一种差异化竞争优势。

这一判断从根本上扭转了”国产替代”的叙事框架——不再是被动跟随与奋力追赶，而是转向了一种换道并跑的新姿态。

事实上，到2026年初，中国大模型已在全球范围内取得了某种程度的定价话语权。同等规格的Token，中国模型的定价仅为海外同行的六分之一乃至十分之一。

在我们完成交流后的一周内，大模型企业智谱便印证了这一趋势——港股上市不足半年，市值从528亿港元飙升至万亿港元量级，涨幅近20倍。其背后正是”国产模型配国产芯”逻辑的市场映射。据悉，智谱的GLM-

Token成本战打响，中国芯片企业找到新出路