AI 应用系统：模型层 — 调用 API、自建、混合部署三种方式

2026-05-28

上一篇文章从四层架构俯瞰了整个 AI 应用系统。这一篇深入最底层，模型层，讨论一个我在每个项目开始时都得面对的问题：模型从哪里来？

过去两年模型层的变化比我预想的快得多。调 API 还是自建推理，用闭源还是开源模型，每个阶段都有不同的答案。这篇文章从实际调研和成本数据出发，梳理不同方案的适用条件。

当前模型市场现状

今天（2026-05），从三个维度看这个市场。

国内 vs 国外

国内	国外
DeepSeek、阿里千问、月之暗面、智谱、MiniMax、火山引擎	OpenAI、Anthropic、Google

国内模型迭代极快，DeepSeek V4 四月刚发，Qwen 版本号已经到 3.7。国外三巨头的护城河仍然在能力天花板和工具链生态上。Google Gemini 3.5 Flash 在速度/成本维度持续领先，Claude Opus 在长上下文理解上最强。

开源 vs 闭源

开源权重	闭源 API
DeepSeek V4、Qwen3.7、GLM-5.1、OpenAI gpt-oss、Mistral Large 3	GPT-5.5、Claude Opus/Sonnet、Gemini 3.5、Kimi K2.6

2025 年 OpenAI 首次发布开源模型 gpt-oss，最坚定的闭源派也开始两条腿走路。但开源最强和闭源最强之间仍有距离。能跑得起 Qwen3.7 70B 的硬件，也不一定能追上 GPT-5.5 的推理能力。这不是开源模型不行，是推理预算不对等。

昂贵智能 vs 性价比

模型定价可以大致分成两档。性价比档：DeepSeek V4 Flash 输入 ¥1/百万 token，缓存命中 ¥0.02；V4 Pro ¥3 输入 ¥6 输出。昂贵智能档：Kimi K2.6 输出 ¥27/百万 token，Claude Opus 4.8 输出 ¥180/百万 token（按 ¥7.2 汇率折算），GPT-5.5 在两者之间。

两者的价差可能超过 100 倍。但这不是简单的「贵的更好」，K2.6 的长上下文和 agent 能力 Flash 确实做不到，而日常对话场景里 Flash 和 Opus 的体验差别可能远小于价格差别。缓存命中率在重复 prompt 场景下能把性价比档的实际成本再压低一个数量级。

价格会怎么走

国产 API 的价格在持续下降。DeepSeek V4 Pro 原本定价 ¥12/¥24，永久降到 ¥3/¥6，降幅 75%。开源模型通过阿里百炼、Together AI 等聚合平台竞争，价格只会更低。缓存技术（硬盘级 KV cache）也在拉低实际使用成本。

进口硬件的价格则正好相反。B300 受出口管制影响翻倍到 ¥700 万，RTX 5090 从年初 ¥30 万涨到 ¥50 万。对美国芯片的获取越困难，自建推理的硬件成本就越高。国产加速卡（华为昇腾、寒武纪等）在政策扶持下价格相对稳定，但软件生态和推理性能与 NVIDIA 仍有差距。

两条曲线在往不同方向走：API 越来越便宜，高端硬件越来越贵。这对自建决策的影响是结构性的，同样的预算，去年够买 8×H100，今年只够买 8×5090；去年自建比 API 划算的量级，今年这个量级又往上移了。

三条路

我把当前主流方案收敛成三个。先说结论：

维度	调用 API	自建	混合
能力天花板	最高	受限于 GPU 预算	接近 API
成本模型	按量线性	硬件固投 + 运维	低成本区域走本地
数据主权	离开可控范围	数据不出网	敏感数据走本地
延迟	受网络抖动影响	稳定可控	大部分走本地
运维负担	接近零运维	GPU 驱动、框架、调度	集中在网关层
适用规模	任何规模	调用量足够大才划算	中到大规模

算账

以单次请求 2K 输入 + 1K 输出 token 为基准（¥1 ≈ $0.14），当前定价：

模型	输入 ¥/M token	输出 ¥/M token	单次请求成本
DeepSeek V4 Flash	1	2	¥0.004
DeepSeek V4 Pro	3	6	¥0.012
智谱 GLM-5.1	6	24	¥0.036
Qwen 3.7 Max	12	36	¥0.060
Kimi K2.6	6.5	27	¥0.040
GPT-5.5	18	72	¥0.108
Claude Sonnet 4.6	22	108	¥0.152
Claude Opus 4.8	36	180	¥0.252

不同调用量下的日成本（GPT-5.5 价格为估算值，OpenAI 定价页面受限）：

日调用量	DeepSeek Flash	Kimi K2.6	GPT-5.5	Claude Opus 4.8
1 千次	¥4	¥40	¥108	¥252
1 万次	¥40	¥400	¥1,080	¥2,520
10 万次	¥400	¥4,000	¥10,800	¥25,200
100 万次	¥4,000	¥40,000	¥108,000	¥252,000

自建成本从单卡起步到大规模集群，跨度很大。单卡 RTX 5090 整机约 ¥3.3 万，月均成本约 ¥1,200（含折旧、电力），日均承担 1-2 万次推理。8×5090 整机约 ¥50 万，月均 ¥2.6 万，也可按 ¥1.5-1.9 万/月租赁。8×H100 月均成本 ¥10.1 万，可支撑日均 50-100 万次推理，单次成本 ¥0.003-0.007，与 DeepSeek Flash 的 API 价（¥0.004）在同一区间。

但 GPU 闲置是最大的隐形成本。利用率 50% 意味着单次成本翻倍，利用率 30% 就直接不如调 API。

月调用量	月成本区间（Flash）	推荐方案
< 300 万次	< ¥12,000	直接调 API，Flash 成本最优
300 万 - 3000 万次	¥12,000 - ¥120,000	网关路由为主，考虑自建
> 3000 万次	> ¥120,000	自建 GPU 集群，API 成本已超过硬件折旧

调用 API

2026 年几乎所有主流提供商都兼容 OpenAI SDK 格式，换模型只需要改 base_url 和 api_key。

直连最简单：一行代码、延迟最短。但换模型要改代码，一个供应商出问题整个服务就挂。

from openai import OpenAI
client = OpenAI(api_key="sk-...", base_url="https://api.deepseek.com")

当项目用到两个以上模型时，网关的价值就出来了。以 OpenRouter 为例，它把「换模型」从代码变更变成了配置变更，同时提供故障转移、成本追踪和模型排名。

client = OpenAI(base_url="https://openrouter.ai/api/v1", api_key="$OPENROUTER_API_KEY")

更上层是聚合平台。阿里百炼把国内主流模型做成统一产品，一个 key 通调。火山引擎的 GPU 集群规模大，推理并发容量上有明显优势。Together AI 和 Fireworks 在国际市场扮演类似角色，Amazon Bedrock 把 30+ 模型商的 API 打包成云服务搭售。

自建

当数据不能出厂，或者调用量大到 API 成本不可接受时，自建推理进入考虑范围。从起步到大规模，硬件方案分几个档次：

方案	配置	硬件总价	可跑模型规模	月均总成本	适用阶段
单卡消费级	RTX 5090 × 1	¥3.3 万	14B 以内（量化 30B）	¥1,200	个人开发、原型验证
消费级集群	RTX 5090 × 8	¥50 万	70B+（TP/PP 并行）	¥2.6 万	小团队生产
数据中心一代	H100 × 8	¥200 万	70B-180B	¥10.1 万	规模生产
数据中心二代	B300 × 8	¥700 万	180B+	¥26 万	大规模生产

月均总成本包含三年硬件折旧、机房电力和运维人力分摊（单卡 5090 除外，不含劳力和托管）。单卡 5090 配消费级主板和 CPU，整机约 ¥3.3 万，用 Ollama 跑 7B 量化模型日均 1 万次推理，电力月增 ¥300-500。8×5090 成本大头在 8 张显卡（¥26.4 万）和服务器内存（¥9.6 万），整机约 ¥50 万。消费级卡原生屏蔽 P2P 通信，部分供应商提供解锁方案。月租约 ¥1.5-1.9 万，短期项目租赁比购买划算。B300 国内现货受出口管制影响价格飙升，近期约 ¥700 万，相比去年底翻倍，月租约 ¥19 万，批量采购（128 台起）单价约 ¥300 万。8×H100 的完整三年 TCO 拆解：

成本项	金额	备注
服务器硬件	¥200 万	含 8×H100（¥22 万/卡）、CPU、内存、存储、网络
机房机柜 + 电力	¥1.5 万/月	8kW 功耗，托管 IDC
GPU 运维工程师	¥3 万/月	含框架升级、模型调度、故障排查
三年总持有成本	¥362 万	月均成本 ¥10.1 万

自建的优势：数据不出网、延迟可控、token 吞吐可以比公有 API 高一到两个数量级（连续批处理 + PagedAttention 把 GPU 压满）。代价：能力天花板受限，能跑得起 70B 的硬件预算至少要 ¥20 万起，运维需要专人。

混合

纯 API 和纯自建不是非此即彼。混合方案把本地推理和远程 API 组合起来。

本地跑小模型做预处理，遇到复杂推理才转发 API。这个模式下 60-80% 的请求可以由本地模型消化，只有 20-40% 需要调 API。OpenRouter 和 Portkey 上可以直接配置路由规则：简单对话走本地、复杂推理走云端、代码生成走特定模型。

网关层

不管是调 API、自建还是混合，最终都会收敛到一个统一入口：网关。

网关并不只是统一接口格式。它管理认证（虚拟 key）、做负载均衡、处理故障转移、追踪成本和用量。模型可以随时换，但网关的配置不需要动。这也是为什么聚合平台，阿里百炼、Together AI、Fireworks、Bedrock，都在往网关方向靠。模型本身在快速商品化，真正的价值在接入层。

下一篇讲网关层，具体聊多模型路由、故障转移和成本控制。

参考