毋庸置疑,1997年的宋亚宸是AI应用领域非典型性创业者。在大模型创始人普遍拥有耀眼技术背景的当下,他文科出身,曾联合创立了MiniMax。
宋亚宸选择将创业方向押注在AI 3D大模型上,于2023年创立VAST。他坚信,AI3D时代的大众级创作与设计工具,能够让每个人以几乎零门槛、零成本、即时完成3D创作。随着AI硬件与相关基础设施逐步成熟,信息终将回归其三维的本真形态,并由此孕育出一个“3D版的TikTok”。
据《福布斯》报道:截至2025年8月,VAST年经常性收入(ARR)已突破1200万美元,在拥有超650万专业用户(85%位于海外)的同时,全职员工总数不足百人。
12月29日,VAST的Tripo Studio1.0上线。如果说Tripo大模型是“大脑”,负责生成,那么Studio就是“手”。它试图重构传统的3D制作管线,将以往需要专业团队耗时数周的建模、绑骨、贴图工序缩短至分钟级。
宋亚宸希望通过这款产品,让专业设计师从80%的机械劳作中解脱,去回归那20%的创意本身。
2025年底,《深网》在VAST北京办公室见到了宋亚宸。这位“非典型”创业者、“小怪兽”CEO,将向我们揭示,他如何规划那条通往“3D版TikTok”的现实路径。
以下是对谈整理,经节选与编辑:
3D:是“小众工具”,还是信息的“源文件”
深网:不少C端用户对“3D”还比较陌生,更不用说“AI3D”。能否介绍一下VAST究竟在做什么?
宋亚宸:我们专注于AI3D大模型的研发。它的核心是“多模态生成”,就像一个精通多国语言的翻译官。用户只需输入一段文字描述或上传一张图片,模型就能直接“翻译”出立体的、可交互的3D内容。这意味着,即使毫无建模经验,任何人都能通过一句话或一张图,构建出真实的三维模型。
深网:当初为什么选择AI 3D这个相对硬核的赛道,而不是更热门的大语言模型?
宋亚宸:因为我们看到了它被长期低估、但潜在规模远大于现有媒介的市场空间。传统的文学、电影,本质上都是以观看为核心的媒介,用户更多是旁观者,市场规模也相对稳定。游戏是一个很好的参照。它同样是数字内容,但通过交互机制,让用户真正参与进来,已经支撑起一个约2600亿美元的全球市场。从这个意义上说,游戏可以被看作是目前最成熟、也最成功的一类3D可交互内容形态。当3D内容的生成和使用门槛被进一步降低后,它会从游戏这一单一场景,扩展到更多领域。所以我们判断,AI3D可交互内容最终支撑起一个接近30000亿美元且仍在高速增长的市场。
深网:但对比抖音、小红书这类成熟的UGC平台,3D内容的体量似乎还很小?
宋亚宸:这正是我们的机会所在。历史证明,当一种内容载体出现“革命性”的创新工具,让大众都能参与创作时,其市场规模将是原有精英市场的5到10倍。微博之于诗歌,抖音之于电影,都是如此。3D之所以小众,是因为一直缺乏让普通人也能上手的“超级工具”。我们的核心商业逻辑,就是打造这个工具,催生出一个万亿美金级别的、可交互的3DUGC内容平台。
深网:但3D内容需要用户主动交互,这比被动地“刷”短视频累得多。这种高交互成本,是否会限制它的用户规模?
宋亚宸:人类的需求是复杂立体的,绝非只有“懒惰”这一面。如果只追求省力,那最火的运动应该是下棋,而不是篮球、足球。关键在于,你提供的体验是否足够独特和吸引人。B站的弹幕、抖音的评论,都证明了人们愿意为高质量的互动体验付出精力。只要3D体验足够好,交互本身就会成为魅力,而非负担。
深网:除了商业潜力,从更根本的技术演进角度看,你如何定义3D这种媒介形式?
宋亚宸:我认为,3D才是信息的“源文件”,而文字、图片、视频都只是受技术所限的“压缩格式”。在人类文明出现前的几十亿年里,物理世界本身就是三维的。我们发明各种低维媒介,是因为过去的“传输带宽”不够。随着技术发展,信息载体必将“返璞归真”。如果未来真的存在AGI(通用人工智能),它理应基于最原始、最真实的3D“源文件”进行训练,而不是基于人类发明的压缩格式。因此,3D是通往终极通用的必经之路。
从“大脑”到“双手”:如何打造AI原生的3D工作流
深网:VAST先发布了3D大模型Tripo,现在又推出了工作台Tripo Studio1.0。你如何规划“大脑”和“手”的关系?
宋亚宸:早期行业普遍是“模型即产品”,就像ChatGPT,给你一个对话框生成结果。但我们很快意识到,用户需要的不是一个孤立的3D文件,而是端到端的完整工作流。因此,我们“勇敢”地发布了TripoStudio,试图重构3D内容的生产管线。最初的版本有成功的创新,也有不符合实际需求的功能。经过半年与用户的深度磨合,TripoStudio1.0版本是我们交出的新答卷。
深网:Tripo Studio 1.0最大的升级是什么?
宋亚宸:主要在两方面。第一,交互体验的融合。我们思考了AI原生工作流该有的样子,既保留了专业用户熟悉的操作习惯,不让它变得“反人类”,又深度融合AI能力来降低门槛。第二,大幅降低上手曲线。我们不再假设用户都懂3D“黑话”,优化了引导,让新手也能边做边学,无需啃说明书。在此基础上,从输入到生成一个完整、可直接使用的3D模型的整体效率提升约300%,制作流程也因此变得更顺畅、更稳定。
深网:“大脑”Tripo模型本身有哪些进化?
宋亚宸:模型能力全面升级:几何模型(高模)到3.0版,细节更精细、表面更平整;贴图材质到3.0版,色彩更准确;为实时渲染优化的低模到2.0版,能快速生成高质量网格。这保证了从生成到使用的链条都更高效。
深网:你曾把AI3D的发展比作手机摄像头的进化。按从360P到4K的标尺,你们现在处在什么阶段?
宋亚宸:这取决于用户群体。对于大众消费和3D打印爱好者,我们的生成质量已达到“惊艳”的领先水平。但对于航天器螺丝钉级别的工业精度要求,目前还远远不够。AI3D作为大众创作工具的价值正在爆发,但走向全面工业化应用还有长路要走。
深网:AI 3D领域是否存在类似大语言模型的“幻觉”问题?
宋亚宸:这是两回事。3D生成是一个确定性极强的转换过程:输入一张红色物体的图,就必须输出红色的3D模型。如果输出绿色,那叫Bug,不叫幻觉。我们面对的挑战更多是“角落案例”,比如处理透明物体或复杂光影,这些是技术难题,而非模型“胡编乱造”。Tripo的产出是高度稳定和可控的。
深网:你曾将产品愿景对标AI编程助手Cursor。但3D创作流程比写代码更复杂,如何让它真正嵌入工作流?
宋亚宸:Cursor是方向。文字、视频领域能直接做“模型即产品”,是因为已有成熟的UGC平台来承载创作结果,立刻产生价值。但3D缺乏这样的“TikTok”。因此,我们必须先从工具切入,为专业和准专业人群提供一套像Cursor一样完整的工程化流程,让创作结果能在现有工作场景中产生价值。这是当前最务实的路径。
深网:目前产品更偏向专业人士,这与“让每个人都能创作”的愿景是否矛盾?
宋亚宸:不矛盾,这是分阶段实现的策略。TripoStudio是为“专业效率”打造的复杂工具。同时,我们还有一款处于保密阶段、即将发布的产品,它专门面向“小白”用户,将以极其简单直观的方式,让普通人瞬间体验3D创作的乐趣。从专业到大众是逐渐泛化的过程。
成为“TikTok”:如何在巨头的视野盲区里成长
深网:这个领域大厂也已关注。你觉得你们的时间窗口长吗?
宋亚宸:时间窗口不是“藏”出来的,是靠持续创新跑出来的。当行业对3D大模型尚无认知时,我们凭“先相信”获得了技术领先。当巨头看懂模型并开始追赶时,我们已定义了TripoStudio这套新工作流。等大家看懂Studio,我们已在布局面向大众的UGC产品了。生意场的领先,在于不断勇敢定义下一件别人还没完全看懂的事。
深网:如果大厂进入这个领域,你们的护城河是什么?
宋亚宸:这取决于“全力”的程度。如果真有大厂CEO明天告诉我,他放弃主营业务,砸两千亿All-inAI3D,那我肯定洗洗睡了(笑)。但现实中,大厂的决策逻辑并非如此。你看泡泡玛特或米哈游,大厂有资源,但能轻易干掉它们吗?很难。很多时候,真正的机会存在于大多数人“看不见”或“看不上”的认知缝隙里。即便我告诉大家“3D版抖音”的愿景,许多人当下也不会相信。这就是我们的护城河。
深网:据说你们销售团队只有两人?为什么?
宋亚宸:我们的理念是,当技术和产品足够领先时,对销售的依赖会减弱。销售主要做两件事:让世界知道你;在产品同质化时靠关系取胜。目前,我们选择让产品力本身说话,对技术领先度有足够信心。这是营收增长的核心驱动力。
深网:国内市场潜力巨大,但你们的客户85%在海外。为什么?
宋亚宸:国内3D产业(游戏、动画、电商等)非常蓬勃,但核心问题是,企业对SaaS软件的付费意愿和习惯仍在培养中。这是许多科技企业选择出海的核心原因之一。不过,对于C端大众市场,情况反而乐观。只要产品能激发创作热情,这个市场的潜力是巨大的。
深网:你提到过“3D版TikTok”的愿景,这听起来是一个非常宏大的未来,你预判它什么时候会到来?
宋亚宸:“3D版TikTok”只是一个更好理解的说法,本质上它是一个承载海量可交互3D内容的平台。当每个人都能通过手机和AI工具低门槛地参与创作时,这种平台一定会诞生。至于具体时间,我觉得会比大家想象中快不少。虽然很难准确预判是5年还是10年,但一旦技术和认知的临界点到了,它的爆发速度会非常惊人。
