AI 应用系统:模型层 — 调用 API、自建、混合部署三种方式
上一篇文章从四层架构俯瞰了整个 AI 应用系统。这一篇深入最底层,模型层,讨论一个我在每个项目开始时都得面对的问题:模型从哪里来?
过去两年模型层的变化比我预想的快得多。调 API 还是自建推理,用闭源还是开源模型,每个阶段都有不同的答案。这篇文章从实际调研和成本数据出发,梳理不同方案的适用条件。
当前模型市场现状
今天(2026-05),从三个维度看这个市场。
国内 vs 国外
| 国内 | 国外 |
|---|---|
| DeepSeek、阿里千问、月之暗面、智谱、MiniMax、火山引擎 | OpenAI、Anthropic、Google |
国内模型迭代极快,DeepSeek V4 四月刚发,Qwen 版本号已经到 3.7。国外三巨头的护城河仍然在能力天花板和工具链生态上。Google Gemini 3.5 Flash 在速度/成本维度持续领先,Claude Opus 在长上下文理解上最强。
开源 vs 闭源
| 开源权重 | 闭源 API |
|---|---|
| DeepSeek V4、Qwen3.7、GLM-5.1、OpenAI gpt-oss、Mistral Large 3 | GPT-5.5、Claude Opus/Sonnet、Gemini 3.5、Kimi K2.6 |
2025 年 OpenAI 首次发布开源模型 gpt-oss,最坚定的闭源派也开始两条腿走路。但开源最强和闭源最强之间仍有距离。能跑得起 Qwen3.7 70B 的硬件,也不一定能追上 GPT-5.5 的推理能力。这不是开源模型不行,是推理预算不对等。
昂贵智能 vs 性价比
模型定价可以大致分成两档。性价比档:DeepSeek V4 Flash 输入 ¥1/百万 token,缓存命中 ¥0.02;V4 Pro ¥3 输入 ¥6 输出。昂贵智能档:Kimi K2.6 输出 ¥27/百万 token,Claude Opus 4.8 输出 ¥180/百万 token(按 ¥7.2 汇率折算),GPT-5.5 在两者之间。
两者的价差可能超过 100 倍。但这不是简单的「贵的更好」,K2.6 的长上下文和 agent 能力 Flash 确实做不到,而日常对话场景里 Flash 和 Opus 的体验差别可能远小于价格差别。缓存命中率在重复 prompt 场景下能把性价比档的实际成本再压低一个数量级。
价格会怎么走
国产 API 的价格在持续下降。DeepSeek V4 Pro 原本定价 ¥12/¥24,永久降到 ¥3/¥6,降幅 75%。开源模型通过阿里百炼、Together AI 等聚合平台竞争,价格只会更低。缓存技术(硬盘级 KV cache)也在拉低实际使用成本。
进口硬件的价格则正好相反。B300 受出口管制影响翻倍到 ¥700 万,RTX 5090 从年初 ¥30 万涨到 ¥50 万。对美国芯片的获取越困难,自建推理的硬件成本就越高。国产加速卡(华为昇腾、寒武纪等)在政策扶持下价格相对稳定,但软件生态和推理性能与 NVIDIA 仍有差距。
两条曲线在往不同方向走:API 越来越便宜,高端硬件越来越贵。这对自建决策的影响是结构性的,同样的预算,去年够买 8×H100,今年只够买 8×5090;去年自建比 API 划算的量级,今年这个量级又往上移了。
三条路
我把当前主流方案收敛成三个。先说结论:
| 维度 | 调用 API | 自建 | 混合 |
|---|---|---|---|
| 能力天花板 | 最高 | 受限于 GPU 预算 | 接近 API |
| 成本模型 | 按量线性 | 硬件固投 + 运维 | 低成本区域走本地 |
| 数据主权 | 离开可控范围 | 数据不出网 | 敏感数据走本地 |
| 延迟 | 受网络抖动影响 | 稳定可控 | 大部分走本地 |
| 运维负担 | 接近零运维 | GPU 驱动、框架、调度 | 集中在网关层 |
| 适用规模 | 任何规模 | 调用量足够大才划算 | 中到大规模 |
算账
以单次请求 2K 输入 + 1K 输出 token 为基准(¥1 ≈ $0.14),当前定价:
| 模型 | 输入 ¥/M token | 输出 ¥/M token | 单次请求成本 |
|---|---|---|---|
| DeepSeek V4 Flash | 1 | 2 | ¥0.004 |
| DeepSeek V4 Pro | 3 | 6 | ¥0.012 |
| 智谱 GLM-5.1 | 6 | 24 | ¥0.036 |
| Qwen 3.7 Max | 12 | 36 | ¥0.060 |
| Kimi K2.6 | 6.5 | 27 | ¥0.040 |
| GPT-5.5 | 18 | 72 | ¥0.108 |
| Claude Sonnet 4.6 | 22 | 108 | ¥0.152 |
| Claude Opus 4.8 | 36 | 180 | ¥0.252 |
不同调用量下的日成本(GPT-5.5 价格为估算值,OpenAI 定价页面受限):
| 日调用量 | DeepSeek Flash | Kimi K2.6 | GPT-5.5 | Claude Opus 4.8 |
|---|---|---|---|---|
| 1 千次 | ¥4 | ¥40 | ¥108 | ¥252 |
| 1 万次 | ¥40 | ¥400 | ¥1,080 | ¥2,520 |
| 10 万次 | ¥400 | ¥4,000 | ¥10,800 | ¥25,200 |
| 100 万次 | ¥4,000 | ¥40,000 | ¥108,000 | ¥252,000 |
自建成本从单卡起步到大规模集群,跨度很大。单卡 RTX 5090 整机约 ¥3.3 万,月均成本约 ¥1,200(含折旧、电力),日均承担 1-2 万次推理。8×5090 整机约 ¥50 万,月均 ¥2.6 万,也可按 ¥1.5-1.9 万/月租赁。8×H100 月均成本 ¥10.1 万,可支撑日均 50-100 万次推理,单次成本 ¥0.003-0.007,与 DeepSeek Flash 的 API 价(¥0.004)在同一区间。
但 GPU 闲置是最大的隐形成本。利用率 50% 意味着单次成本翻倍,利用率 30% 就直接不如调 API。
| 月调用量 | 月成本区间(Flash) | 推荐方案 |
|---|---|---|
| < 300 万次 | < ¥12,000 | 直接调 API,Flash 成本最优 |
| 300 万 - 3000 万次 | ¥12,000 - ¥120,000 | 网关路由为主,考虑自建 |
| > 3000 万次 | > ¥120,000 | 自建 GPU 集群,API 成本已超过硬件折旧 |
调用 API
2026 年几乎所有主流提供商都兼容 OpenAI SDK 格式,换模型只需要改 base_url 和 api_key。
直连最简单:一行代码、延迟最短。但换模型要改代码,一个供应商出问题整个服务就挂。
from openai import OpenAI
client = OpenAI(api_key="sk-...", base_url="https://api.deepseek.com")
当项目用到两个以上模型时,网关的价值就出来了。以 OpenRouter 为例,它把「换模型」从代码变更变成了配置变更,同时提供故障转移、成本追踪和模型排名。
client = OpenAI(base_url="https://openrouter.ai/api/v1", api_key="$OPENROUTER_API_KEY")
更上层是聚合平台。阿里百炼把国内主流模型做成统一产品,一个 key 通调。火山引擎的 GPU 集群规模大,推理并发容量上有明显优势。Together AI 和 Fireworks 在国际市场扮演类似角色,Amazon Bedrock 把 30+ 模型商的 API 打包成云服务搭售。
自建
当数据不能出厂,或者调用量大到 API 成本不可接受时,自建推理进入考虑范围。从起步到大规模,硬件方案分几个档次:
| 方案 | 配置 | 硬件总价 | 可跑模型规模 | 月均总成本 | 适用阶段 |
|---|---|---|---|---|---|
| 单卡消费级 | RTX 5090 × 1 | ¥3.3 万 | 14B 以内(量化 30B) | ¥1,200 | 个人开发、原型验证 |
| 消费级集群 | RTX 5090 × 8 | ¥50 万 | 70B+(TP/PP 并行) | ¥2.6 万 | 小团队生产 |
| 数据中心一代 | H100 × 8 | ¥200 万 | 70B-180B | ¥10.1 万 | 规模生产 |
| 数据中心二代 | B300 × 8 | ¥700 万 | 180B+ | ¥26 万 | 大规模生产 |
月均总成本包含三年硬件折旧、机房电力和运维人力分摊(单卡 5090 除外,不含劳力和托管)。单卡 5090 配消费级主板和 CPU,整机约 ¥3.3 万,用 Ollama 跑 7B 量化模型日均 1 万次推理,电力月增 ¥300-500。8×5090 成本大头在 8 张显卡(¥26.4 万)和服务器内存(¥9.6 万),整机约 ¥50 万。消费级卡原生屏蔽 P2P 通信,部分供应商提供解锁方案。月租约 ¥1.5-1.9 万,短期项目租赁比购买划算。B300 国内现货受出口管制影响价格飙升,近期约 ¥700 万,相比去年底翻倍,月租约 ¥19 万,批量采购(128 台起)单价约 ¥300 万。8×H100 的完整三年 TCO 拆解:
| 成本项 | 金额 | 备注 |
|---|---|---|
| 服务器硬件 | ¥200 万 | 含 8×H100(¥22 万/卡)、CPU、内存、存储、网络 |
| 机房机柜 + 电力 | ¥1.5 万/月 | 8kW 功耗,托管 IDC |
| GPU 运维工程师 | ¥3 万/月 | 含框架升级、模型调度、故障排查 |
| 三年总持有成本 | ¥362 万 | 月均成本 ¥10.1 万 |
自建的优势:数据不出网、延迟可控、token 吞吐可以比公有 API 高一到两个数量级(连续批处理 + PagedAttention 把 GPU 压满)。代价:能力天花板受限,能跑得起 70B 的硬件预算至少要 ¥20 万起,运维需要专人。
混合
纯 API 和纯自建不是非此即彼。混合方案把本地推理和远程 API 组合起来。
本地跑小模型做预处理,遇到复杂推理才转发 API。这个模式下 60-80% 的请求可以由本地模型消化,只有 20-40% 需要调 API。OpenRouter 和 Portkey 上可以直接配置路由规则:简单对话走本地、复杂推理走云端、代码生成走特定模型。
网关层
不管是调 API、自建还是混合,最终都会收敛到一个统一入口:网关。
网关并不只是统一接口格式。它管理认证(虚拟 key)、做负载均衡、处理故障转移、追踪成本和用量。模型可以随时换,但网关的配置不需要动。这也是为什么聚合平台,阿里百炼、Together AI、Fireworks、Bedrock,都在往网关方向靠。模型本身在快速商品化,真正的价值在接入层。
下一篇讲网关层,具体聊多模型路由、故障转移和成本控制。
参考