AI 应用系统:终端层 — 自建还是复用

2026-06-02

上一篇讨论编排层时给出一个判断:大多数项目永远不需要编排层。那对于不需要编排层的项目来说,终端层呢?答案同样是克制——绝大多数项目根本不需要自建终端。

终端层是"门店"

回到第一篇的定义:终端层是消费者直接使用的 AI 工具,是价值的最终交付点。用四层的比喻来说——模型层是工厂,网关层是批发商,编排层是消费 token 的公司,终端层是门店。消费者不关心工厂的流水线怎么布局、物流走哪条路线、管理层怎么开会。他们只关心门店里的商品好不好用、价格合不合理。

这意味着终端层的设计逻辑和其他三层完全不同。模型、网关、编排都是基础设施,面向的是开发者;终端层面向的是最终用户。评价标准不是"接入了多少个模型",而是"用户愿不愿意每天用它"。

2026 年的终端生态

2026 年可用的成熟终端产品比两年前多了不止一个量级:

类别代表产品适合场景
通用对话ChatGPT、Claude、Gemini、Kimi、豆包日常问答、内容创作、信息检索
编程助手Cursor、Claude Code、GitHub Copilot、Windsurf代码生成、项目级重构、Debug
知识库问答NotebookLM、Perplexity、秘塔文档分析、研究辅助、事实核查
工作流工具Coze、Dify(终端部分)、Zapier AI自动化流程、业务集成
行业专用法律、医疗、教育垂直产品专业场景、合规要求

需要注意的是,ChatGPT、Claude 这类产品是包含模型、网关、编排、终端全部四层的完整系统。本文讨论"复用终端"时,指的是以这些产品的终端能力作为入口,接入自己的业务逻辑——而非将它们视为不可拆分的整体。市面上已经有成熟的方案(如 OpenAI 的 Assistants API、Claude 的 Projects 功能)允许在复用终端界面的前提下注入自定义模型、知识库和行为逻辑。Benedict Evans 将这种趋势称为"ChatGPT 的围墙花园"——终端产品正在变成平台,复用不再是零和选择。

这些产品之间的竞争非常激烈。每个季度都有重大功能更新:流式输出已经成为标配,工具调用展示(思考链可视化)越来越精致,多模态输入(图片、音频、代码文件)基本普及,对话历史管理愈发成熟。

对一个创业团队来说,这些终端能力能覆盖 80% 以上的用户场景。

自建终端的真实成本

完整功能的 AI 终端远不止一个聊天框。以下是实现"及格线"功能所需的工程投入:

功能工程复杂度说明
流式渲染SSE 连接管理、打字机效果、连接中断重连
工具调用展示中高思考链可视化、工具调用状态、结果折叠/展开
多轮对话上下文管理、编辑/撤回消息、分支对话
文件上传预览多格式支持(图片/PDF/代码/视频)、缩略图生成
对话历史存储、搜索、导出、多设备同步
身份认证低中OAuth、Session 管理、权限控制
跨平台Web + iOS + Android + IDE 插件
可观测性用户行为追踪、错误监控、性能指标

以上是"能用"的清单,不是"好用"的清单。每个功能背后都有大量的 edge case。举一个例子:流式渲染看起来简单——创建一个 ReadableStream,收到 chunk 后 append 到 DOM 上。但当用户在网络不稳定时快速发送多条消息,同时每条消息都在流式输出,同时中间一条消息被用户编辑重发——队列管理、滚动锁定、输入状态的冲突处理会迅速变成一团乱麻。

一个自建终端从 MVP 到生产可用,大约需要 2-3 个前端工程师 3-4 个月的时间。之后每个新功能(Agent 模式、多模态输入、自定义指令)都需要持续追赶成熟产品的标准。

什么时候复用

判断标准很简单:核心价值在终端里还是终端外?

场景核心价值终端策略
用 AI 辅助内容创作模型能力和提示词质量复用 ChatGPT/Claude
内部知识库问答知识库内容和 RAG 质量用 NotebookLM/Perplexity
AI 编程助手代码理解和上下文感知Cursor/Claude Code
客户支持机器人后端逻辑和知识库复用成熟聊天 UI + API
把 AI 嵌入现有产品现有产品的核心体验自建终端
2C 垂直 AI 产品独特的用户交互模式自建终端

2026 年的成熟产品已经不只是"聊天工具",它们逐步开放了插件系统和 API。ChatGPT 支持自定义 GPTs,Claude 支持 Projects 和 Artifacts,Cursor 有 Rules 和自定义模型。这意味着可以在复用其终端能力的同时注入自己的业务逻辑。复用不是"用别人的品牌",而是"用别人的终端做自己的功能"。

什么时候自建

以下三个条件是"需要自建"的充分信号:

1. 核心交互模式不是对话。 如果用户的主要操作是画流程图、编辑表格、拖拽组件,聊天框只是辅助交互方式,那现有的通用终端并不适用。需要把 AI 能力嵌入到操作界面中,而不是强迫用户在聊天框和产品界面之间来回切换。

2. 产品需要深度集成到用户已有的工作流中。 Slack 里的 AI 助手、Notion 里的写作助理、Figma 里的设计 Agent——这些场景的终端不是独立的网页,而是嵌入到宿主应用里的组件。复用产品做不到这种集成。

3. 品牌即壁垒。 如果 AI 界面的视觉风格、交互语言、用户体验是产品差异化的核心组成部分,那就不能外包给第三方终端。这与"功能追赶"不同——不是在复制 ChatGPT 的功能,而是在做 ChatGPT 做不了的事情。

三个条件同时满足才需要自建?不,满足任何一个就足够。

自建的合理范围

大多数需要自建的团队,实际需要自建的只是终端层的前半部分——交互界面。后端能力依然可以复用:

  • 模型调用→ 走网关层,不需要自己对接模型 API
  • Agent 协作→ 走编排层,不需要自己实现多 Agent 调度
  • 知识库检索→ 用 RAG API 或现有平台
  • 用户认证→ 用标准 OAuth,不需要自建

这就是四层架构的价值:只需要自建终端层这一层,其他三层全部复用现成的。

我自己在做产品时,终端层用纯前端方案构建(不依赖特定框架),模型调用全部通过网关层的统一 API,Agent 逻辑走编排层协议。前端只负责三件事:渲染流式输出、管理对话状态、提供用户输入方式。后端复杂度全部被下层掩盖了。

终端层的新陷阱

功能追赶是最常见的错误。团队开始自建终端后,会不自觉地以 ChatGPT 为对标:它加了语音输入,我也要加;它支持了图片生成,我也要支持;它出了 Mac 客户端,我也要出。这种追赶是无限的——OpenAI 和 Anthropic 都在全力投入终端,创业团队不可能在功能数量上超过它们。

低估渲染复杂度是另一个普遍问题。AI 终端的渲染跟普通前端应用完全不同:输出不是一次到位而是流式增量到达,内容类型不固定(文本/代码/表格/图片可能混杂在同一次输出中),用户的每一次输入都可能触发一个长达数十秒的状态变化。普通前端的状态管理范式在这种情况下不堪一击。我见过不止一个团队把 AI 终端做成 React 组件后发现,每次流式渲染都触发全组件重绘,解决方案是在虚拟 DOM 之外再维护一层手动 DOM 操作。

过早跨平台。Web 端还没做利索就启动 iOS 和 Windows 客户端的团队,最后往往什么都没有交付。一个 Web 端做到 90 分,比三个平台各 60 分更有价值。

总结

终端层的决策框架可以简化为两阶段判断:

第一阶段:必要性判断(满足任一即需要自建)

  1. 用户能否通过现有产品的终端能力完成核心任务?→ 不能
  2. 核心交互方式是否脱离聊天范式(画板、编辑器、拖拽等)?→ 是

第二阶段:可行性判断(必要性为"是"时才进入)

  1. 团队是否做好了持续追赶功能标准的储备?→ 是则自建,否则暂缓

终端是四层架构里最需要"延迟决策"的一层。 以复用起步,直到现有产品无法满足用户需求时再自建。到那时,已经有足够多的用户数据和场景理解来指导自建的方向,而不是猜测用户需要什么。

最后回顾整个四层架构的建设顺序:

  1. 模型层 — 选提供商,不必自建
  2. 网关层 — 尽早建立统一入口,不必自建(有成熟开源方案)
  3. 编排层 — 只在需要时引入,不一定需要
  4. 终端层 — 最晚决策,能复用就复用

四层里,最不值得自己写的反而通常是团队最先动手的那一层。

参考

https://blog.logfun.xyz/blog/feed.xml