AI 应用系统:模型层 — 调用 API、自建、混合部署三种方式

2026-05-28

上一篇文章从四层架构俯瞰了整个 AI 应用系统。这一篇深入最底层,模型层,讨论一个我在每个项目开始时都得面对的问题:模型从哪里来?

过去两年模型层的变化比我预想的快得多。调 API 还是自建推理,用闭源还是开源模型,每个阶段都有不同的答案。这篇文章从实际调研和成本数据出发,梳理不同方案的适用条件。

当前模型市场现状

今天(2026-05),从三个维度看这个市场。

国内 vs 国外

国内国外
DeepSeek阿里千问月之暗面智谱MiniMax火山引擎OpenAIAnthropicGoogle

国内模型迭代极快,DeepSeek V4 四月刚发,Qwen 版本号已经到 3.7。国外三巨头的护城河仍然在能力天花板和工具链生态上。Google Gemini 3.5 Flash 在速度/成本维度持续领先,Claude Opus 在长上下文理解上最强。

开源 vs 闭源

开源权重闭源 API
DeepSeek V4、Qwen3.7、GLM-5.1、OpenAI gpt-oss、Mistral Large 3GPT-5.5、Claude Opus/Sonnet、Gemini 3.5、Kimi K2.6

2025 年 OpenAI 首次发布开源模型 gpt-oss,最坚定的闭源派也开始两条腿走路。但开源最强和闭源最强之间仍有距离。能跑得起 Qwen3.7 70B 的硬件,也不一定能追上 GPT-5.5 的推理能力。这不是开源模型不行,是推理预算不对等。

昂贵智能 vs 性价比

模型定价可以大致分成两档。性价比档:DeepSeek V4 Flash 输入 ¥1/百万 token,缓存命中 ¥0.02;V4 Pro ¥3 输入 ¥6 输出。昂贵智能档:Kimi K2.6 输出 ¥27/百万 token,Claude Opus 4.8 输出 ¥180/百万 token(按 ¥7.2 汇率折算),GPT-5.5 在两者之间。

两者的价差可能超过 100 倍。但这不是简单的「贵的更好」,K2.6 的长上下文和 agent 能力 Flash 确实做不到,而日常对话场景里 Flash 和 Opus 的体验差别可能远小于价格差别。缓存命中率在重复 prompt 场景下能把性价比档的实际成本再压低一个数量级。

价格会怎么走

国产 API 的价格在持续下降。DeepSeek V4 Pro 原本定价 ¥12/¥24,永久降到 ¥3/¥6,降幅 75%。开源模型通过阿里百炼Together AI 等聚合平台竞争,价格只会更低。缓存技术(硬盘级 KV cache)也在拉低实际使用成本。

进口硬件的价格则正好相反。B300 受出口管制影响翻倍到 ¥700 万,RTX 5090 从年初 ¥30 万涨到 ¥50 万。对美国芯片的获取越困难,自建推理的硬件成本就越高。国产加速卡(华为昇腾、寒武纪等)在政策扶持下价格相对稳定,但软件生态和推理性能与 NVIDIA 仍有差距。

两条曲线在往不同方向走:API 越来越便宜,高端硬件越来越贵。这对自建决策的影响是结构性的,同样的预算,去年够买 8×H100,今年只够买 8×5090;去年自建比 API 划算的量级,今年这个量级又往上移了。

三条路

我把当前主流方案收敛成三个。先说结论:

维度调用 API自建混合
能力天花板最高受限于 GPU 预算接近 API
成本模型按量线性硬件固投 + 运维低成本区域走本地
数据主权离开可控范围数据不出网敏感数据走本地
延迟受网络抖动影响稳定可控大部分走本地
运维负担接近零运维GPU 驱动、框架、调度集中在网关层
适用规模任何规模调用量足够大才划算中到大规模

算账

以单次请求 2K 输入 + 1K 输出 token 为基准(¥1 ≈ $0.14),当前定价:

模型输入 ¥/M token输出 ¥/M token单次请求成本
DeepSeek V4 Flash12¥0.004
DeepSeek V4 Pro36¥0.012
智谱 GLM-5.1624¥0.036
Qwen 3.7 Max1236¥0.060
Kimi K2.66.527¥0.040
GPT-5.51872¥0.108
Claude Sonnet 4.622108¥0.152
Claude Opus 4.836180¥0.252

不同调用量下的日成本(GPT-5.5 价格为估算值,OpenAI 定价页面受限):

日调用量DeepSeek FlashKimi K2.6GPT-5.5Claude Opus 4.8
1 千次¥4¥40¥108¥252
1 万次¥40¥400¥1,080¥2,520
10 万次¥400¥4,000¥10,800¥25,200
100 万次¥4,000¥40,000¥108,000¥252,000

自建成本从单卡起步到大规模集群,跨度很大。单卡 RTX 5090 整机约 ¥3.3 万,月均成本约 ¥1,200(含折旧、电力),日均承担 1-2 万次推理。8×5090 整机约 ¥50 万,月均 ¥2.6 万,也可按 ¥1.5-1.9 万/月租赁。8×H100 月均成本 ¥10.1 万,可支撑日均 50-100 万次推理,单次成本 ¥0.003-0.007,与 DeepSeek Flash 的 API 价(¥0.004)在同一区间。

但 GPU 闲置是最大的隐形成本。利用率 50% 意味着单次成本翻倍,利用率 30% 就直接不如调 API。

月调用量月成本区间(Flash)推荐方案
< 300 万次< ¥12,000直接调 API,Flash 成本最优
300 万 - 3000 万次¥12,000 - ¥120,000网关路由为主,考虑自建
> 3000 万次> ¥120,000自建 GPU 集群,API 成本已超过硬件折旧

调用 API

2026 年几乎所有主流提供商都兼容 OpenAI SDK 格式,换模型只需要改 base_urlapi_key

直连最简单:一行代码、延迟最短。但换模型要改代码,一个供应商出问题整个服务就挂。

from openai import OpenAI
client = OpenAI(api_key="sk-...", base_url="https://api.deepseek.com")

当项目用到两个以上模型时,网关的价值就出来了。以 OpenRouter 为例,它把「换模型」从代码变更变成了配置变更,同时提供故障转移、成本追踪和模型排名。

client = OpenAI(base_url="https://openrouter.ai/api/v1", api_key="$OPENROUTER_API_KEY")

更上层是聚合平台。阿里百炼把国内主流模型做成统一产品,一个 key 通调。火山引擎的 GPU 集群规模大,推理并发容量上有明显优势。Together AIFireworks 在国际市场扮演类似角色,Amazon Bedrock 把 30+ 模型商的 API 打包成云服务搭售。

自建

当数据不能出厂,或者调用量大到 API 成本不可接受时,自建推理进入考虑范围。从起步到大规模,硬件方案分几个档次:

方案配置硬件总价可跑模型规模月均总成本适用阶段
单卡消费级RTX 5090 × 1¥3.3 万14B 以内(量化 30B)¥1,200个人开发、原型验证
消费级集群RTX 5090 × 8¥50 万70B+(TP/PP 并行)¥2.6 万小团队生产
数据中心一代H100 × 8¥200 万70B-180B¥10.1 万规模生产
数据中心二代B300 × 8¥700 万180B+¥26 万大规模生产

月均总成本包含三年硬件折旧、机房电力和运维人力分摊(单卡 5090 除外,不含劳力和托管)。单卡 5090 配消费级主板和 CPU,整机约 ¥3.3 万,用 Ollama 跑 7B 量化模型日均 1 万次推理,电力月增 ¥300-500。8×5090 成本大头在 8 张显卡(¥26.4 万)和服务器内存(¥9.6 万),整机约 ¥50 万。消费级卡原生屏蔽 P2P 通信,部分供应商提供解锁方案。月租约 ¥1.5-1.9 万,短期项目租赁比购买划算。B300 国内现货受出口管制影响价格飙升,近期约 ¥700 万,相比去年底翻倍,月租约 ¥19 万,批量采购(128 台起)单价约 ¥300 万。8×H100 的完整三年 TCO 拆解:

成本项金额备注
服务器硬件¥200 万含 8×H100(¥22 万/卡)、CPU、内存、存储、网络
机房机柜 + 电力¥1.5 万/月8kW 功耗,托管 IDC
GPU 运维工程师¥3 万/月含框架升级、模型调度、故障排查
三年总持有成本¥362 万月均成本 ¥10.1 万

自建的优势:数据不出网、延迟可控、token 吞吐可以比公有 API 高一到两个数量级(连续批处理 + PagedAttention 把 GPU 压满)。代价:能力天花板受限,能跑得起 70B 的硬件预算至少要 ¥20 万起,运维需要专人。

混合

纯 API 和纯自建不是非此即彼。混合方案把本地推理和远程 API 组合起来。

本地跑小模型做预处理,遇到复杂推理才转发 API。这个模式下 60-80% 的请求可以由本地模型消化,只有 20-40% 需要调 API。OpenRouterPortkey 上可以直接配置路由规则:简单对话走本地、复杂推理走云端、代码生成走特定模型。

网关层

不管是调 API、自建还是混合,最终都会收敛到一个统一入口:网关。

网关并不只是统一接口格式。它管理认证(虚拟 key)、做负载均衡、处理故障转移、追踪成本和用量。模型可以随时换,但网关的配置不需要动。这也是为什么聚合平台,阿里百炼Together AIFireworksBedrock,都在往网关方向靠。模型本身在快速商品化,真正的价值在接入层。

下一篇讲网关层,具体聊多模型路由、故障转移和成本控制。


参考

https://blog.logfun.xyz/blog/feed.xml