4月初,Hermes Agent迅速出圈。它主打的卖点很鲜明,Agent在完成任务后会把经验沉淀成Skill,之后遇到类似问题可以直接复用,并在反复使用中继续优化。这种“越用越强”的叙事,几乎击中了当下所有人对Agent的想象。
但热闹之下,一个更基础的问题反而容易被忽略,当前限制Agent落地的关键,真的是Skill不够聪明吗?

文章指出,真正体验成熟的编程Agent产品,靠的往往不是Skill自我进化,而是扎实可靠的命令行工具体系。像文件搜索、代码定位、符号分析、内容读取这类原子操作,本质上都足够确定、调试成本低,而且几乎不消耗额外token。相比之下,Skill虽然更“性感”,却未必是最重要的地基。
把这个视角放到OpenClaw身上就更容易理解。用户最常抱怨的通常是两件事,一是token花费太高,二是长任务稳定性不够,经常中断或失联。继续往下拆,会发现它们常常来自同一个源头,也就是Agent被迫依赖脆弱工具,尤其是容易出错的浏览器自动化,去做本来应该由确定性工具完成的事情。
工具一旦不稳,Agent就只能反复观察、重试、重新规划。每一步虽然不一定致命,却都会持续烧token。于是稳定性差和成本高,实际上变成同一个问题的两面。Skill能提升Agent使用工具的熟练度,却不能把一个先天脆弱的工具直接变成高质量基础设施。
更进一步说,Skill本身仍然是自然语言资产,它依赖模型能力,也会受到模型版本变化影响。很多人以为强模型写出来的Skill可以无缝迁移给弱模型使用,但现实往往不是这样。命令行工具不同,它们更像执行层资产,只要输入一致,输出就可预期,和底层换了哪一个模型关系不大。
作者因此提出,当上下文管理足够好、底层工具足够强时,Skill的重要性会自然下降。真正值得补课的,是让更多高频流程CLI化,让Agent不必盯着网页一点点试错,而是通过结构化命令拿到结果。无论是网页、桌面应用还是移动端,只要流程足够稳定,理论上都可以被逐步压缩成原子工具。
文章最后给出的判断是,Agent系统的理想分层应当是CLI负责确定性执行,Skill负责经验编排,LLM负责语义判断。Hermes的出现说明Skill层正在快速补齐,但接下来更关键、也更不性感的战场,可能仍然在CLI层。