本文是虎嗅WAIC”追踪Token商业新范式”系列的第05期内容。
2026年,红果短剧平台悄然出现了一种新型创作模式:仅凭三五人的微型团队,借助AI工具便能大规模生产短剧内容,产能翻倍,成本却大幅压缩。
这无疑具有某种颠覆性意义——一种被称为OPC(一人公司)的组织形态,率先在短剧领域落地生根。然而在上海浦东的曦望Sunrise(日出)办公室里,联席CEO王湛关注的焦点,却是一个叫”Token消耗量”的数据指标。
Token,通俗来说,是AI执行任务时的计量单位。无论是让AI撰写文案、生成图像,还是制作一集短剧,背后都在持续消耗Token。Token用量越大,所需算力越多,花费自然也越高。而曦望科技(下简称曦望)的产品,正是专门用于降低这笔开销的芯片。
“我们预判推理算力需求会大幅增长,但实际增速远超我们的预期。”王湛坦言。

曦望联席CEO王湛 图片由曦望科技提供
若要寻找一家最能诠释Token经济的企业,曦望或许是最佳样本。Token这一概念因推理需求爆发才进入大众视野,而曦望深耕的,恰恰是Token工厂中最关键的推理GPU领域。
参与本次对话的还有曦望科技CTO高洋。与王湛相比,高洋更像一位纯粹的技术人,甚至带着几分社交内敛的特质——他习惯用文字逻辑表达思想,而非口头阐述。王湛则截然不同,他身上更多是企业家的气质,商业嗅觉敏锐,对市场风向的捕捉近乎本能。

曦望CTO高洋 图片由曦望科技提供
王湛说,这正是曦望团队的特质所在——协同作战,各司其职,优势互补。
透过会议室的落地窗向外眺望,黄浦江静静流淌。对岸是徐汇西岸标志性的东西双塔,那片区域聚集着中国密度最高的AI企业群落。几站地铁之外的张江,则是芯片企业高度集中的产业重镇。曦望,恰好落脚于这两大产业的交汇地带。
曦望脱胎于AI龙头企业商汤科技,骨子里天然带着”软件优先”的基因:先研判大模型与AI软件的发展走向,再以此为依据定义硬件形态,让硬件设计紧随软件需求而动。正是这种视角,使曦望从创立之初便将目光锁定在推理市场。
在此有必要厘清”推理”的概念。AI的运作分为两个阶段:训练阶段负责构建智能大脑,推理阶段则让这个大脑真正投入工作。过去数年,资本几乎全部押注训练环节,因为智能能力尚待提升;如今模型能力趋于成熟,实际应用的需求便呈井喷之势。
一组数据勾勒出了这场变革的规模。德勤预测,2026年推理将消耗全球AI算力的三分之二,而仅仅三年前,推理市场几乎还是一片空白。OpenAI仅ChatGPT的日常推理运营,每天就要烧掉逾70万美元,折合全年账单超过2.5亿美元。相比之下,GPT-4完成一次训练的费用?四个月的推理开销便足以抵平。
另一个更值得关注的趋势是:在这轮国产大模型推理需求的爆发中,中国本土芯片与生态体系正迎来前所未有的发展窗口,机遇正被加速放大。
王湛有一句话令人印象深刻:中国推理芯片是伴随中国大模型整体生态共同成长的,是整个中国AI产业链中不可或缺的一环。国内AI芯片与中国本土AI生态的适配程度更高,这本身就是一种差异化竞争优势。
这一判断从根本上扭转了”国产替代”的叙事框架——不再是被动跟随与奋力追赶,而是转向了一种换道并跑的新姿态。
事实上,到2026年初,中国大模型已在全球范围内取得了某种程度的定价话语权。同等规格的Token,中国模型的定价仅为海外同行的六分之一乃至十分之一。
在我们完成交流后的一周内,大模型企业智谱便印证了这一趋势——港股上市不足半年,市值从528亿港元飙升至万亿港元量级,涨幅近20倍。其背后正是”国产模型配国产芯”逻辑的市场映射。据悉,智谱的GLM-