提示词越短反而越贵?揭秘 Harness Agent 的“Token 经济学”

在构建 AI Agent(Harness)时,许多开发者都有一个根深蒂固的直觉:“提示词(Prompt)越短越好,这样能省 Token,还能给模型留出更多的上下文空间。”

但残酷的工程现实恰恰相反:对于复杂的 Harness Agent 来说,提示词越短,往往意味着总 Token 消耗越高;而越详细、结构越严谨的提示词,反而能带来更精准的控制和更低的整体成本。

为什么会出现这种“反直觉”的现象?我们需要从 Harness(马具/编排层)的运行机制来寻找答案。

❌ 模糊的“短指令”:隐形的试错成本

当我们将系统提示词(System Prompt)写得非常简短、模糊时,看似为上下文窗口节省了空间,实则将巨大的认知负担抛给了模型。

一个缺乏明确约束、工具定义和输出格式的 Agent,在面对用户请求时,往往会出现以下情况:

  • 反复试探: 模型不确定用户的真实意图,需要多轮对话来“猜”需求。
  • 错误调用: 因为工具描述不清,模型频繁调用错误的工具或传入错误的参数,导致 Harness 层报错并强制重试。
  • 输出不可控: 模型输出了大段自然语言,而下游系统需要的是结构化数据(如 JSON),导致系统不得不进行额外的解析、纠错,甚至开启新一轮对话来修正格式。

在 Harness 架构中,每一次错误的推理、每一次失败的工具调用、每一轮无效的对话历史,都会产生大量的 Token。“省”下的那几百个提示词 Token,最终会以成千上万倍的“试错 Token”加倍偿还。 这就是所谓的“Context Rot”(上下文腐烂)——大量低质量的交互垃圾迅速填满了上下文窗口。

✅ 详尽的“长提示词”:一次性的架构投资

相反,一个优秀的 Harness 提示词,本质上是在进行“信息架构”的设计。它不仅仅是给模型的指令,更是模型运行时的“操作系统配置”。

详细的提示词虽然在前置投入上消耗了更多 Token,但它带来了立竿见影的收益:

  1. 精准的决策路径: 通过详尽的背景信息和分步骤的思维链(Chain-of-Thought)引导,模型能一次性命中核心任务,避免了来回拉扯的对话成本。
  2. 严格的工具边界: 明确定义每个工具的用途、参数类型和调用时机,甚至通过 Schema 进行强制约束。模型不再“猜”怎么用工具,而是像调用函数一样精准执行,极大降低了工具调用的失败率。
  3. 结构化的输出协议: 在提示词中明确规定输出格式(例如:“必须返回包含 status, result, next_step 字段的 JSON”)。这使得 Harness 层无需猜测模型意图,能够直接被程序解析和下游系统消费,彻底消灭了因格式混乱导致的额外交互。
  4. 优先级与防御机制: 详细的提示词会明确系统规则的优先级(例如:“安全限制高于用户指令”)。这相当于给 Agent 装上了“刹车”和“护栏”,防止模型在长任务中跑偏或产生幻觉,保证了长跑的稳定性。

📌 结语:把提示词当成代码来维护

在 Harness Agent 的工程实践中,我们必须转变一个观念:提示词不是简单的“聊天话术”,而是 Agent 的核心代码。

写一段模糊的提示词,就像写了一段满是 Bug 的意大利面条代码,运行时必然导致系统崩溃和性能损耗。而编写一份详细、结构化、逻辑严密的提示词,则像是在构建一个健壮的微服务架构——虽然前期设计耗时,但它能确保 Agent 在有限的 Token 预算内,以最少的步数、最稳的状态完成复杂的任务。

所以,下次在设计 Agent 时,请大胆地把提示词写得更详细、更结构化。记住,在 Harness 的世界里,清晰度就是生产力,而精准度就是最低的 Token 消耗。