www.haiwaiwai.com首半年过去，AI 的十件大事讲清楚

您好，冷逸来了。

前天傍晚做饭时，我通过手机遥控办公室的人工智能软件完成了三项工作：整理一批发票 PDF 并生成报销 Excel 单表、为电影《火遮眼》用一句话需求生成宣传网站含视频和海报、按个人风格为这篇文章起草导言部分。

饭菜做好的时候，工作也随之完成。

类似这种事，去年这个时候还属于科幻范畴，现在已成日常操作。

提这件事并非为了渲染什么，而是想指出，2026 上半年的人工智能，已经超越了”哪款大模型分数更高”这种竞争维度。这个领域的竞争烈度在”谁的基础模型算力强”这边逐渐趋于平缓，真正的变化已经悄然转移——转到了”怎样把 AI 能力融入日常生活、怎样集成进工作流程、怎样部署在个人设备里”这些实际应用层面。

过去半年里，我接触过数不尽的新产品原型，看过更多放到一半就关掉的发布会直播。这篇文章并非陈列清单式的罗列，而是从这堆内容里精选十个自己有真实使用体验、踩过坑、形成判断的话题，用一条叙述线串联起来。

这十个话题分别是：Agent Skills、OpenClaw、Harness、Multi-Agent（涵盖Agent OS、Sub-agent）、Coding Plan、CLI 的重新流行、Desktop Agent、Physical AI、语音交互、Seedance 2.0。

耐下心来，慢速阅读。

其一、Agent Skills：2026 年开发者最需要学的东西

在整个上半年里，最容易被忽视、但最直接冲击工作流的，莫过于 Agent Skills 这个方向。

在短短六个月时间里，它实现了从单一厂商专属功能向行业通用标准的升级。由 Anthropic 在前年十月首发，十二月升级为开放规范，现如今 OpenAI、Alphabet 和国内多家 AI 企业都跟进了这个标准。

那么它的核心定义是什么呢。简单地说，Skills 本质上是一个文件夹结构，其中必须包含一个 SKILL.md 文件，该文件前面是 YAML 格式的名称和描述信息，下方是用 Markdown 记述的操作步骤，另外可选配备 scripts 子目录、references 子目录以及 assets 资源文件夹。

Agent Skills 的精妙设计在于progressive disclosure 这个分级披露机制。采用三层结构设计。第一层属于元数据层，各个 Skill 的 name 和 description 共计约 50 到 100 个 token，在会话初始化时所有 Skills 的这部分信息进入系统提示，模型仅知道”存在这些能力”而已。第二层是具体指令层，即 SKILL.md 的核心内容部分，通常建议控制在 5000 token 以下、500 行以内，只有在模型判定当前工作内容匹配到某项 Skill 时才会装进对话历史。第三层是具体资源层，scripts 和 references 等更深层次的文件仅在 SKILL.md 明确引用时才进入上下文。

AMP

这种架构应对的是一个极其现实的约束条件——上下文资源的有限性。早期 Agent 应用的典型问题是：什么都想往 System Prompt 里堆，期望 AI 既懂财务、又懂法律、还懂产品，但结果是塞的东西越多，输出质量反而越糊。Skills 从技术角度上将”具备什么能力”与”如何具体实施”这两个维度物理隔离，确保 AI 的 token 开销只针对眼前任务付费。

Skills 处理的本质问题，其实是个人和团队知识的商业化。一个企业的真正资产从来都不在那些 SOP 文档里，而在于少数几个资深员工掌握的那些”这张表一定要按这种口径填”这样的隐性经验。过往这类东西只能口头传承，要么被打成员工手册吃灰。Skills 头一次让”个人或集体的工作方法”能够被共享、被重用、被版本管理。

我亲身体验后最深的感受，就是工作效率的显著提升。我为一家 AI 内容机构设计了许多 Skills，涵盖选题搜集、写作范式到标题生成全流程，每次添加一个新 Skill 时，模型在没有触发它的情况下完全察觉不到存在，但一旦使用时又能精准执行。”加了没坏处，用了最有效”这种体验，在传统 Prompt 时代是根本不存在的。

来到 2026 年六月这个时间点，继续讲”学会怎样跟 AI 对话”已经不合时宜。当下应该学的是”怎样指导 AI 做事”，而 Skills 正是这件事最简洁的承载形式。

其二、OpenClaw：全民 Agent 化的第一道曙光

春节过后的 2026 年，国内 AI 社区最受关注的产品名叫龙虾，学名 OpenClaw，属于开源项目，核心代码用 TypeScript 编写，作者是 Peter Steinberger。这个名字的来源很有趣。Peter 起初想打造一个”太空龙虾”的 AI 助手叫 Molty，工作进行中他把底层基础设施抽象出来做了开源化，项目就改名了，取意”Open + 螯”。该项目的 GitHub Stars 已经突破 37 万，成为开源社区排名第一。

它正面解决了一个长期被置之不理的空白。

此前做 Agent 的主流路线只有两条。像 ChatGPT 的 Operator、Manus、Genspark 这样的产品，打开浏览器即用，交互体验完整但你的对话记录、文件、长期记忆全部托管在他人的服务器上。另一个分支是 Claude Code、Codex 这样的终端工具，本地运行没错，但本质上还是编码专用的命令行程序，涉及多渠道接入、跨设备同步、全天候可用这些需求它并未考虑。

OpenClaw 打通了这两条路线。它本身不涉及模型能力，而是在本地起一个 Gateway 网关，接入所有通讯渠道，后端可挂接任何 LLM 供应商。微信、Telegram、WhatsApp、Slack、Discord，甚至 macOS / iOS 语音唤醒和 Android 连续语音都纳入支持范围，背后驱动的是同一个运行在你个人机器的 Agent，统一的记忆库，统一的技能集。

它的真正爆发在春节期间，几乎全民都开始养龙虾。Kimi、GLM 和 MiniMax 相继推出了 Coding Plan 方案，使得能在 OpenClaw 里直接使用国内模型。每月 99 块就能运行一个终年在线的专属 Agent，这放在三年前完全是不敢想象的。

但它确实存在”烧钱”这个弱点。OpenClaw 是个特别用心的管家角色，每轮交互都要把系统指令、长期记忆、技能元数据这整套东西一齐打包投喂。我刚部署那阵子，往云服务账户充了 50 块，聊到第三个问题账户就进赤字了。OpenClaw 的 token 消耗约是 Claude Code 的三到五倍。这不是 BUG，而是它的架构选择造成的。一个二十四小时活跃、跨越多个通讯平台的 Agent，必须始终携带完整上下文，不然人设、记忆、技能就会断连。

这个热风来得快，去得也快。如今龙虾热已经明显降温，还在使用的绝对是最忠实的爱好者。无疑它还存在若干问题，比如对新人不够友好，安全防护始终是隐患，以及 token 烧耗量很恐怖。不过，它确实把”自动化 Agent”从极客玩物拖到了大众可用的层级，这一步已经足够有意义。

我的个人看法是，2026 下半年的竞争焦点不会是通用 Chatbot，而是每个人都能拥有的专属 Agent。OpenClaw 是第一个真正跑通的开源方案。

其三、Harness：给大模型装上管制系统

Harness Engineering 这个话题，在 2026 上半年的讨论热度还不错。当然这种热度主要存在于 AI 业内，普通用户的关注度不算高。

中文里没有特别贴切的翻译，”缰绳”、”马具”、”辅具”都不够传神。它指的是套在大模型外面的整套工程化支撑设施，涵盖指令系统 (Instructions)、约束条件 (Constraints)、反馈机制 (Feedback)、长期记忆 (Memory)、任务编排 (Orchestration)等。核心作用在于把一个原本充满不确定性的模型转变成一个稳定可靠、可预测控制、能投入实用的”数字员工”。

为何 Harness 这个概念在 2026 年变成业界共识。我的观察有两个角度。一方面是大家逐渐意识到，即使模型再强大，面对上下文无限扩张也会吃不消，真正决定成败的是外面这层”管制系统”。同样一个模型，在 Cursor 环境和 Claude Code 环境的表现完全是两个档位，差异就在于 Harness 层面的工程品质。

在这种大背景下崭露头角的代表产品是Hermes Agent。它基于开源协议，后端可接入 Claude、GPT、Kimi、GLM、MiniMax、Qwen 和 DeepSeek 等多家模型，从三月起成为 AI 爱好者的新宠，热度甚至超越了 OpenClaw。

AMP

它试图解决的问题，表面上和 OpenClaw 重叠，实质上走的方向不同。OpenClaw 的核心理念是”自动化 Agent”，强调跨通讯界面、本地常驻。Hermes Agent 则标榜”自演进 Agent”。你现在教它一个技能，下星期它自己会评分、判断要不要保留，品质不达标的 Skill 它会自动整合或清理。

六月三号，Hermes Agent 发布了桌面应用版本，支持 macOS、Windows、Linux，桌面前后端共用同样配置、技能和记忆。你在终端起的会话可以无缝切换到桌面界面。

我个人认为，Harness 工程这一层在 2026 下半年会日益凸显其重要性。模型层的竞争已经进入边际报酬递减阶段，Harness 这块才刚刚踏入发展期。

其四、Multi-Agent：多智能体开始团队作战

2026 上半年，Agent 领域最显著的变化就是单体 Agent 逐步失去优势。

并非 AI 能力不足，而是任务本身变得复杂。企业级系统迁移、涉及多个平台的市场调研、跨越众多服务的故障排查，单个上下文窗口装不下，单一思路也跑不完。多 Agent 协作从学术论文走向实际产品，于是衍生出了不少术语分支，Sub-agent、Agent Team、Multi-Agent、Agent OS，听上去相近但含义差别很大。

AMP

先把这几个关键字理清楚。

Sub-agent。一次性任务、隔离环境、上传结果。主 Agent 派出一个或多个从属 Agent 执行任务，这些从属 Agent 各自拥有独立上下文空间，完成工作后只把摘要反馈回来，期间彼此无通讯。这是最轻量的多智能体体系，原质是上下文分离 + 并行计算。Claude Code 文档把这类定义得很直白，fire-and-forget worker。VS Code 1.109 在 2026 年二月把 Sub-agent 做成了编辑器一等功能，能同时运行多个子 Agent、图形化显示进度。

Agent Team。多个 Sub-Agent + 一个 Team Lead 协调，长期合作、共享任务清单、配备队内通讯机制。区别点在于队员间能直接交流、能展开讨论、发现问题时能相互通报。代价是 token 开销成倍上升。

Dynamic Workflows。Anthropic 五月二十八号与 Opus 4.8 同时发布的新品，国内通常称为”动态工作流”。它没有让你手动分配子 Agent，而是让 Claude 自行编写编排脚本，动态确定要启动多少乃至数百个从属 Agent，并行执行、各自验证、交叉汇总。官方演示场景包括大规模代码库迁移和企业级跨服务调试，原本需要数周的任务被压缩到数天。

Agent OS。这个术语的民间定义五花八门，暂无官方规范。开发社群实践出来的样式是：一个 CEO Agent 负责战略规划，一个 COO Agent 负责消息分发，再加一个调研 Agent 处理长期项目，还有个人助理 Agent 采集屏幕和麦克风作为环境信息。简言之，就是拿开源 Agent 拼装成个人级的智能操作系统。

Multi-Agent。这是最宽泛的概括性术语，上述所有的形态都纳入其中。Cursor v3 内置最高八个并发 Agent，Google Antigravity 2.0 上线了 Agent Teams，GitHub Copilot 也进了多 Agent 工作空间，amux 这样的工具无关供应商的编排器能把 tmux + SQLite 任务库 + git worktree 把不同来源的 Agent 组织到一起运行。

为什么多智能体这件事在 2026 上半年集中爆发。我个人的认知有三条主线。

AMP

首先一点，模型的上下文窗口已不再是瓶颈，工程设计反而成了卡脖子的地方。1M token 如今是 Claude、Gemini 的基础配置，但实际把满 1M token 全部堆进单个上下文，模型的焦点就会被分散成碎片。倒不如拆分成多个独立上下文并行运行，各自专注一个模块。这就是 Sub-agent 流行的底层动机。

其次一点，Agentic 工作的实际架构本来就是分布式系统。Hermes Agent v0.13 那个看板式多 Agent 我之前讲过，心跳信号、任务重新分配、无响应检测、故障恢复，这些机制全是从分布式系统理论直接挪来的。Agent Team 也罢、Dynamic Workflows 也罢，本质上都是把模型当成处理单元，把协调分发当成一个分布式调度问题。这个思维框架一旦建立，多 Agent 协作就退化成纯工程实现问题了。

再者一点，B 端企业真正进来了。OpenAI 四月二十二号发的 Workspace Agents、六月四号上线的 ChatGPT Workspace Agents，通通针对团队协作设计，用户群从技术人员扩大到销售、营销、客服等各部门。这代表从”基于对话的会话模式”向”基于编队的持续工作”的范式转变。企业所需的从来都不是一个全能 ChatGPT，而是一个分工协作、能持久运转的 Agent 编队。

我自己的使用体感：Sub-Agent 实在太好用了，token 翻倍但任务品质明显上升一个档次，尤其在长程调研和编程这样的场景里。Agent Team 就差强人意了，多个 Agent 可以互相对话听着不错，实际运行时常碰到”两个队员都等着对方先动”的死锁。动态工作流效果确实不错，但代价真的很高。

回顾起来有种意思的进展，2024 年我们说 Agent 是工具，2025 年说 Agent 是工作流，到了 2026 年终于讨论到了”Agent 编队”这个维度。一个配合得当的 Agent 编队，再也不像是工具，更像是一个真正的团队部门。

其五、Coding Plan：AI 商业化道路上的里程碑

2026 上半年，影响程序员最深的一次定价变革，就是 Coding Plan。

这个事的前因后果要从一年前说起。Cursor、Claude Code 这些 AI 编码辅助工具，2024 年启动时基本上全部采取 token 计费模式。一个稍显复杂的编码任务，跑一轮 Opus 就要几十刀，OpenClaw 这样的全天候在线 Agent 一日下来消耗几百块也就不稀罕。我自己装 OpenClaw 那会儿，往 API 账户里充了 50 块，问了三个问题账户就欠费了。这是非常切实的真实体验，不是在说段子。

以 token 论价，费用确实离谱。每一次敲回车以前，你脑子里都得预算这行代码会花掉多少钱。开发者最讨厌的恰好是这种持久的认知负荷，本来编程已经费脑子，再加一层成本计算，体验立时就被劝退。

局势转折点发生在 GLM 推出的 GLM Coding Plan。

计费结构简洁直接。从 20 块一个月起步，Lite 到 Max 档位最高 200 块封顶。与 Anthropic 自有的 20 美元 Pro 和 100 美元 Max 对比，价格便宜了一个数量级。不提供使用次数限制，而是 5 小时滚动配额叠加 7 天周期配额。20 块这一档基本上能满足一个全职码农每天的 AI 编程需求。

更重要的是生态兼容能力。修改一个环境变量就能切换到国产模型，国内大模型可以直接嵌入 Claude Code 的运行框架里。MiniMax、Kimi、阿里云百炼、火山方舟、阶跃星辰等紧随其后跟进对标。诸位一齐发力，整个行业的定价模式被彻底改写了。

为什么 Coding Plan 这类商业模式能够成立。我个人的分析大致有三个层面。

首先，模型的边际成本下降了。GLM-5.1 在编程基准测试里能达到 Opus 4.6 大约九成水准，国内推理成本基础就低，再加上 GLM 自建云、自产模型、自己卖，一手货直供给开发者。MiniMax、Kimi 等厂也是这个逻辑。这种纵向整合让”便宜且管饱”在商业上真的能跑通。

其二，开发者不追求”最顶尖的模型”，而是要”堪用且价格合理”。我自己用 Claude Code 的最直观感受就是，对付日常脚本、网页开发、Skill 编写，GLM-5.1 在 Claude Code 框架里基本没有感觉，用起来跟原生 Sonnet 差不多。

其三，订阅付费本身减轻了心理负荷。每月固定支出，按日常习惯使用，大脑就不再对”这回该不该提问”做经济核算。这种工程意义经常被无视。开发者乐意更频繁提问、更大胆尝试、更容易犯错，这正好是 AI 编程能力积累的最佳沃土。

对于 2026 下半年，我的判断是 Coding Plan 会持续下沉，每月 20 美元这一档会逐步成为开发者人手一份的标配。

Coding 场景的成本焦虑一直是过去两年最大的心理障碍，Coding Plan 把这堵墙彻底拆掉了。这份功劳簿上，GLM 必须记一笔。

其六、CLI：AI 年代的统一入口

2026 年的今天回头看，CLI 这玩意在 AI 圈的地位逆转挺有戏剧性的。

往前几年还在宣传”AI 把普通人从命令行中解放出来”。Copilot 能代码编写、Cursor 拖出聊天框、ChatGPT 通过网页对话，所有产品都朝着”更易学、更可视、更小白”的入口设计。

但从 2025 年四季度开始，风向调转。Anthropic 推出 Claude Code，OpenAI 发布 Codex CLI，Google 上线 Gemini CLI，三大巨头在几个月内同步推出运行在终端里的 Agent。去年这事看起来反常规，现在回看就是必然演进。

为何偏偏是 CLI。

最直接的因素是，Coding Agent 的最佳活动场所就是文件系统和命令行。你让一个 Agent 帮你做迁移，它得能转换目录、能用 git、能跑测试。这些操作在图形界面里全是绕路，在终端里才是最原生的表达。CLI 本质上就是人类四十年积累的最稳固、最强悍的”工具调用协议”，所有程序员打造的工具都能直接调用。

更底层的因素是，CLI 是被认真设计的”人机互动界面”。图形界面为首次使用的直观性优化，CLI 为高频使用的快速和安稳优化。

不仅编码 Agent 喜欢用 CLI，许多别的产品也纷纷走向 CLI 化。飞书能通过 CLI 链接各种 Agent。甚至不少企业开发了双版本，一版图形化给人类用，一版命令行给 AI 用。这是 2026 年特别有意思的一个趋势。

AMP

不过 CLI 也不是完美的。对新手仍然构成学习障碍，CLAUDE.md / AGENTS.md 该怎么写、Plan Mode 怎么用、Sub-Agent 派几个、Skills 怎么挂，都有学习成本。它对持续会话的支持也有局限，长程任务跑一半窗口掉线、tmux 进程挂掉，恢复难度跟图形界面完全是两个档次。这也是为什么 Hermes Desktop 那种”命令行核心 + 桌面界面”的组合模式会应运而生。

下一步产品进化，我推测会出现在”命令行核心 + 多种界面形态”这个高度。终端、桌面、Web 一条龙打通，记忆和技能跨表面流转。

其七、Desktop Agent：AI 走入你的计算机

2026 上半年最具体的范式变动，就是 Desktop Agent 这类产品总算成功了。

我说”具体”的含义是真的具体。AI 再也不是浏览器标签栏里的一个对话网页，而是在本地运行的实实在在的应用程序，能读硬盘里的文件、操纵电脑上的软件、敲桌面的键盘。这个预言响了两三年，上半年好几家 AI 厂商都给出了真实答案。

AMP

Codex（OpenAI）。2026年2月2日 macOS 版推出，3月4日 Windows 跟进，6月4日已迭代到 rust-v0.138.0-alpha.4 版本。产品定位很清晰，不是要替代 Codex CLI，而是给多 Agent 协作流程搭建一个图形化指挥室。同一个窗口可以同时开多个项目、多条工作线、多个代码副本，每个 Agent 在隔离的代码副本中运行，互不干扰。Skills 和 CLI、IDE 实现了完全互通，你在终端设计的 Skill 在 Codex 里直接能够应用。

Claude Cowork（Anthropic）。定位并非开发者，而是知识工作者。你指定一个文件夹，说”把收据组织成报销单”，它就去读、去分类、去输出 Excel。有个细节我特别欣赏：Cowork 主要是通过 Claude Code 自身编写的，整个开发周期约一周半。这本身就挺戏剧化，一个编码 Agent 给自己编写了一个面向非编程人员的 Desktop Agent。

与此同时国内的Qoder Work、Workbuddy、TRAE SOLO、MiniMax Agent、Skywork、Kimi Work等桌面应用也纷纷推出。

这个时间点为什么是 2026 上半年。

首要原因是基础模型成熟了。Computer Use 这件事 2024 年 Anthropic 初次发布时能勉强跑，但稳定性很差。一年后 Claude 4.x 系列、GPT-5 系列在图像识别、界面元素定位、连续操作上达成了”可投入使用”的程度。Online-Mind2Web 这种网页自动化评估从去年的”凑合能用”变成了当今的”真正有用”。

第二个原因是 Skills 标准化了。Desktop Agent 跟 Coding Agent 的主要差异在于前者需要兼容的工具种类太多。每一套应用都隐含了一套 SOP，不可能全部硬编码进模型。Skills 为把隐性经验沉淀下来创造了一个渠道。Anthropic 十二月十八号把 Agent Skills 升级为行业规范之后，Desktop Agent 这个拼图就补齐了。

第三个因素是企业级需求出现了。Workspace Agents 我之前讲过，OpenAI 四月二十二号的定位就是做”组织的 AI 同事”去替代传统 GPT。Claude Cowork 也冲这个目标去的，它的 Enterprise 部署文档特意讲 SSO、MDM、MSIX 打包，这些都是给 IT 管理员看的术语。Desktop Agent 不单单是给个人的智能助理，而是企业 IT 资产的一部分。

那它给出了什么答案。

我的亲身体验里最直接的改变就是消除了复制黏贴这个操作。以前用 Chatbot 搜索资料，最大的工作量根本不在提问，而是把网页内容复制到对话框、把 AI 输出复制到本地文档、把数据表反复倒腾。Desktop Agent 直接把这一层擦掉了，文件是它的读写对象，应用是它的操作工具，完整的工作流就此打成一环。

第二个改变是工作能力跨度显著拉长。Web 端 chat 是问一句答一句的会话形式，超过五分钟你就会本能地觉得它反应慢。Desktop Agent 是常驻后台，可以挂十来分钟甚至几十分钟做一项长期工作，你可以去忙其他事情，它跑完会自动通知。这种异步能力才是 Agent 真实的样貌。

Desktop Agent 最关键的意义就是，AI 第一回真正入驻你的计算机。不在云、不在浏览器、不在消息框，而是真实地跑在你这台机器的进程里，是 macOS 活动监视器或者 Windows 任务管理器里的一个真实的程序名。这个名字或许就是 AI 成为”真正的工作伙伴”的那道关键门槛。

其八、Physical AI：AI 总算是生了身体

假如前七个主题还在讨论 AI 在虚拟世界的演进，Physical AI 就是 2026 上半年最大的”跨界”转折。

AI 终于有了身体。而且绝非演示视频那种身体，是真的在制造业地板上上班、在科研机构做实验、在汽车厂里拧紧螺栓的那种身体。

AMP

先从器材角度看。截至 2026 年中叶，世界范围内大约有 7000 到 8000 台商用人形机器人在工作。神州这里，AGIBOT 三月底就交付突破一万台，宇树在六月通过科创板上市审核，估值约 62 亿美元。远方，Tesla Optimus 开始批量生产，定价目标在 2 到 3 万美元。Figure 03 已在宝马厂线上线，Atlas 供给现代汽车。

光看这个数据就能感知到转折点。一年前全球人形机器人总和还只有几百台，如今全部跨过千台、万台量级。

但机器人本身不是故事核心，软件才是。Physical AI 这个概念的本质含义，是软件第一次能推动一台机器在真实物理环境里做”看懂 + 采取行动”。

NVIDIA 是这一波最关键的推力。它推出的Cosmos 3 就是一个”人造世界模型”，把”视觉理解 + 来日预测 + 行为生成”整合成一个模型。配套的 GR00T 是人形机器人专用堆栈，同样的模型权重能在不同厂商的人形机器人上适配。

这的价值在于，从前每家机器人企业都要自己从头训练模型，现在有了一个共用基座。NVIDIA 供应”大脑”，机器人企业供应”身体”，学界供应”使用场景”。这种协作架构非常清晰。

AMP

那 Physical AI 解决了什么难题。

我的个人判断是它处理了”AI 进入实物经济”这最后一道接口。Knowledge work 这头 AI 已经卷得够深，但全球经济产值里超过一半实际上是运输、制造、巡检、照料这类体力活。以前 AI 和这半段经济基本上无交集，现在 Physical AI 把这道门槛拆掉了。

不过它还远未成为面向大众的消费品。

C 端当前最接近的是 1X Neo，声称定价 2 万美元，目标 2026 年底交付。其他机厂全部面向企业，Figure 03 在宝马产线跑、Optimus 在 Tesla 自家工厂里跑、Atlas 给现代汽车服役。

这个方向的真实卡点不是价钱，而是稳定性。一台能稳定跑 8 小时不出故障的家用人形，对硬件和软件的要求比工业场景大好几个数量级。居家环境地形众多、儿童和宠物到处活动、照度复杂、工作边界模糊不清。Cosmos 3 这样的世界基础模型在工业环境已经能操作，在家庭环境仍然还差一些。

我个人对 Physical AI 的态度是偏向看好，但并非短期乐观，而是长期乐观。2026 年是从数百到数万的飞跃，2027 年的关键是能否从生产制造跨向商业服务，比方说饭馆、物流、旅馆。C 端的真正拐点我估计需要等到 2028 年之后。

然而，即便进展比硅谷宣传的缓一些，方向是准确的。AI 不再单纯是屏幕上的一段对话，开始成为站在你面前、会转头看你一眼的一个存在。这件事比整个 chatbot 圈子加起来都更接近”AI 改变人类”这句话真正的意义。

其九、语音交互：成为每一个 AI 产品的基础设施

2026 上半年最容易被忽视的事，就是几乎所有的 AI 产品都悄悄部署了语音交互模块。

这事可能不像别的话题那么炫酷，但它实实在在改变了普罗大众和 AI 打交道的姿态。最直观的参考标准是：回想一下去年这个时候怎么操纵豆包，再想想眼下怎么用，你会看到”敲键盘”这个动作在迅速衰减，”语音对话”在快速增长。

AMP

它处理了什么。

其一，输入难度的彻底降低。我自己最直接的感受是草拟长 prompt 的时间花销被大幅削减。以前设置一个稍复杂的任务，得敲几分钟键盘，现在一句话三十秒完成一个完整需求。语速比键盘打字快三倍甚至四倍。

其二，多任务互动的成本大幅下滑。以前用 AI 必须坐在电脑前停下其他事，现在可以洗盘子时让 OpenClaw 查机票、做菜时让 ChatGPT 想晚餐菜谱、走路时让 Claude 审阅要发的文章。AI 第一回能和”在忙别的”这件事搭在一块儿。

其三，可及性边界扩大了。不能盯着屏幕的人、键盘不习惯的老年人、有阅读困难的小孩，这帮人以前基本上被 AI 的文字界面拦在门外。语音通道铺开之后，AI 真的面向全体人群。

我的认识是，2026 下半年语音不再会是某家公司的竞争亮点，它会沉入基建层，和记忆系统、skills 一样，成为 AI 产品的标配功能，没有就等于产品还没做好。

其十、Seedance 2.0：中国大模型首次站在了世界中央

到最后，我想用一个国内大模型来落笔。

二月份，字节推出 Seedance 2.0。三月，Seedance 2.0 进驻 CapCut，先在巴西、印尼、马来西亚、墨西哥、菲律宾、泰国、越南等境外市场部署。五月，DeepLearning 杂志用了个有意思的标题，《字节把 Seedance 2.0 装进 CapCut，OpenAI 退出了》。Sora 的团队那会儿正在缩小面向大众的业务，字节反倒在把视频天成铺成 CapCut 数亿用户的核心功能。这是个很鲜明的对比。

AMP

那 Seedance 2.0 究竟是什么。

其本质就是一套统合的多模态合成框架。输入侧支持文本、图像、音频、视频，最多能同时加载 9 张图片、3 段视频、3 段音频做参照。输出端是带原生音频轨的视频，会同步生成人物对白、背景音、背景乐。视频时长 5 到 15 秒，分辨率 720p。

Seedance 2.0 处理了什么。

最直接的，把 AI 视频从”生成几个镜头试试”拉到了”能进入生产流程”。15 秒 720p 配音乐配口型一次成品，对短视频创作、商品展示视频、社交广告、教学课件这些日常工作简直是秘密武器。

更深层的，改变了视频内容的生成成本结构。过去拍一条 60 秒的产品宣传片要演员、拍摄地、后期剪辑、声音处理四个环节，现在 Seedance 2.0 + CapCut 一个人在电脑前两钟头就搞定。这对小商家、内容创作者、跨国电商是真正意义上的解放。

Seedance 2.0 当然也有弱点。分辨率还卡在 720p 和 1080p，和 Veo 3.1 的 4K 差一档。长叙事仍要靠拼接，转场处有时会露破绽。物理真实感还差一截，流动液体、织物这类场景，Seedance 2.0 的”看似逼真”和 Sora 2 的”计算出的真实”完全不是概念。加上肖像权和著作权的风险。

三年前我们说”国产 AI 视频还在慢吞吞追赶”，现在这句话说不出来了。Seedance 2.0、Kling 3.0、可灵、即梦这一轮产品一起把 AI 视频创新的舞台搬到了亚洲。这轮 AI 视频革命，最热闹的地方，已经挪到了东半球。

终篇寄语

十个话题讲完，其实只有一条暗线。

2026 上半年的 AI，不再是”基础模型参数多、跑分有多高、demo 有多炸”这样的故事。它是把模型能力继续深化、不断落地、逐步融入日常的故事。

Skills 把工作方法资产化，OpenClaw 和 Harness 把 Agent 基础设施开源化，Harness 工程把 Agent 设计提到了讨论的高度，Multi-Agent 把单一 AI 升级成队伍 AI，Coding Plan 把价格焦虑清除，CLI 给了 AI 一个统一入口，Desktop Agent 把 AI 装入本地，Physical AI 给 AI 装上四肢，语音交互给 AI 装上耳朵和嘴巴，Seedance 2.0 让华夏大模型首次端坐主桌。

每一件事单纯看是技术进阶，串联起来看就是 AI 第一回真正进入日常生活。这个过程并非一场发布会就能完成，而是无数齿轮咬合到位后的自然演进。

下半年我仍在一线跑动、继续试用、继续记录。沃垠AI 的内容供应不会暂停，万字深度文章的频率也不会减低。

假如让我为 2026 下半年预测一个关键词，那就是”AI 的 iPhone 时刻还没过去，但 AI App Store 时刻才刚刚启动“。AI 会越来越类似水电气，彻底融进你的每一项工作和生活，融到你察觉不到的程度。

到此，一万两千字收笔。

我是冷逸，咱们下期再聊。

首半年过去，AI 的十件大事讲清楚

关于作者

山海无痕管理员组

发表回复

首半年过去，AI 的十件大事讲清楚

关于作者

相关推荐

发表回复