2023年,调用GPT-4的成本约为$0.06/千tokens。2025年底,主流推理API的价格已跌至$0.002以下;2026年部分模型的批量推理报价突破$0.001下限。[1] 这条成本曲线的断崖式下行,是过去两年算力投资、模型压缩和芯片效率三线同步推进的结果。它正在重塑AI的部署地理:从数据中心向手机、汽车、工厂和家居终端扩散。
这不是"AI普惠化"的叙事口号——而是一条正在改变产业链受益格局的具体路径。
数据中心侧:吞吐量飞跃与精度压缩
英伟达Blackwell架构(B200/GB200)的推理吞吐量相比上一代Hopper(H100)提升了3-5倍,FP8精度下的token生成速度达到Hopper的约4倍。[2] 这不仅仅是参数升级——Blackwell原生支持FP4精度,允许在不显著损失模型质量的前提下,将同等算力下可部署的模型参数量翻倍。
从行业内部看,推理效率提升的背后有两条技术路径:一是芯片架构升级(Blackwell的Transformer Engine + NVLink Switch),二是软件层的推理框架优化(vLLM、TensorRT-LLM的KV Cache管理)。两者叠加,使得主流云厂商的推理成本在过去12个月下降了60-70%。[3]
主要云厂商的推理收入占AI收入比正在提升。AWS、Azure、Google Cloud在2025年财报中均披露,推理调用量增速已超越训练调用量——这标志着AI算力消费从"建模"转向"用模"的结构性拐点。据行业分析师估算,2026年全球大型云厂商的推理收入占AI总收入比例约为55-65%,较2024年的约35%显著提升。[4]
| 平台 | 精度支持 | 推理吞吐(相对H100) | 典型场景 |
|---|---|---|---|
| NVIDIA H100(Hopper) | FP8 / FP16 | 1x(基准) | 训练+推理混合 |
| NVIDIA B200(Blackwell) | FP4 / FP8 / FP16 | 3-5x | 超大模型推理集群 |
| AMD MI300X | FP8 / FP16 | 约1.5-2x | 开源模型推理 |
边缘侧:手机、汽车、IoT三线并进
推理成本跌穿$0.001意味着云端调用已接近"近乎免费",但这反而加速了本地部署的驱动力——网络延迟、数据隐私和离线可用性成为新的竞争维度。
手机端:高通骁龙8 Gen4系列的NPU算力已达45 TOPS,支持70亿参数模型的本地推理;Apple A18 Pro配备了专为"Apple Intelligence"优化的第二代神经网络引擎,本地处理速度约为A16的两倍;联发科天玑9400的APU 890同样达到50 TOPS级别。[5] 供应链的真实信号是:手机SoC的NPU算力规格已成为旗舰机核心卖点,而非边缘特性。
汽车端:英伟达Orin系列目前仍是全球智能汽车的主流算力平台,算力从65至500 TOPS覆盖L2+到L4场景。Thor平台预计2026年H2批量装车,算力跃升至2000 TOPS。[6] 国内方面,地平线征程6系列凭借低功耗比(性能/瓦特领先竞品约30%)和本土化软件栈已进入比亚迪、大众中国供应链;黑芝麻武当C1200定位高算力场景,算力达1200 TOPS,主要对标Orin高端版本。两者的共同逻辑是:国内整车厂的自主可控需求正在从"可选项"变为"必选项"。
IoT与智能家居:算力在这一环节仍以低功耗TOPS为单位,瑞芯微、全志科技、恩智浦等厂商的AIoT芯片正在抢占安防摄像头、智能音箱和工业视觉的推理需求。这一市场的特征是单价低但出货量大,价值量主要在芯片设计和方案集成层。
国内产业链:定位分层,差异化明确
与上一轮周期不同的是,本轮国内AI芯片厂商已经从"概念追随"走向"场景切割"——不再试图在通用算力上正面对抗英伟达,而是在细分场景建立可防守的位置。
寒武纪(688256):思元590系列面向数据中心推理,主要市场是政务云、金融风控和运营商边缘节点——这些场景对"国产可控"的要求高于对绝对算力的要求。2025年营收约11亿元,同比增长约70%,但仍处于持续亏损阶段,研发投入比例超过营收的100%。[7] 与英伟达的真实差距在于CUDA生态的壁垒,而非芯片本身的参数。
地平线(9660.HK):2025年上市后,市场关注点集中在其征程系列的汽车客户渗透率。已公开的合作主机厂覆盖比亚迪、长安、大众中国、理想等,累计装车量超过500万颗。[8] 黑芝麻智能(2533.HK)则主打高算力场景,两者形成了国内汽车推理芯片的双核格局。
兆易创新(603986):NOR Flash是AI推理中存储"固件+权重片段"的标准配置,地平线、寒武纪的模块级产品都有兆易或竞品的存储支撑。随着边缘推理设备出货规模化,NOR Flash的出货量直接受益——这是一个受益逻辑清晰但弹性有限的环节。
投资链路:推理规模化的具体受益环节
这条产业链的关键节点,按推理规模化的受益确定性从高到低排列:
第一层(确定性最高):AI服务器代工与组装。推理集群的出货量直接拉动服务器出货。工业富联(601138)作为全球最大的AI服务器代工厂,2025年AI服务器收入占比已超30%,2026年随着Blackwell批量装机,这一比例预计继续提升。[9] 该环节的逻辑直接,但利润率有限(净利率约3-5%)。
第二层(高弹性):CPO/LPO光模块。推理集群的内部互联密度比训练集群更高,800G向1.6T升级的过程中,光互连需求量随之提升。新易盛(300502)的LPO方案和天孚通信(300394)的光引擎产品代表了国内这一环节的两种技术路线——前者主打短距低成本,后者凭借60%的全球光引擎份额享有定价权。两者的估值已部分反映了AI Capex周期的预期,但供需紧张持续时间仍有争议。
第三层(间接受益):存储芯片。HBM的单GPU用量随推理密度提升而增加;DRAM和NOR Flash在边缘推理设备端出货随终端规模化上量。兆易创新在NOR Flash细分市场有较强定价能力,但受益弹性弱于光模块环节。南亚科(台股,2408)和长鑫存储(未上市)则代表了这一环节中更大体量的标的。
需要提示的是:推理成本的持续下降是一把双刃剑——它扩大了调用量(带动算力需求),也压缩了单位服务价格(压制提供推理服务公司的毛利率)。直接受益的是硬件层(芯片、光模块、服务器),而不是在云端卖推理API的平台商。
数据来源:各公司公开财报及投资者关系材料;Lightcounting 2026全球数通光模块市场报告;行业分析师公开研究;英伟达GTC 2026产品发布资料。推理成本数据来自各云厂商公开API定价页面的横向比对,实际批量合同价格存在差异。
常见问题
AI推理成本下降为什么会推动边缘计算?
当推理成本低于$0.001/千tokens,云端调用已接近于零成本,但网络延迟和隐私问题依然存在。在手机、汽车等延迟敏感场景,把模型部署到本地芯片反而更经济,驱动了端侧AI的规模化。
寒武纪和英伟达在推理市场的定位有何不同?
英伟达Blackwell/B200专注超大规模数据中心推理,单张卡吞吐量是Hopper的3-5倍,服务于超大模型和高并发场景。寒武纪思元590则主打国产替代路线,面向政务、金融等合规要求高的本土市场,两者存在明确的场景分层而非直接竞争。
汽车端AI推理市场国内外格局如何?
英伟达Orin目前仍是全球主流,Thor平台2026年量产节奏加快。国内地平线J6系列凭借低功耗和本土化优势,已进入比亚迪、大众中国等主机厂。黑芝麻武当C1200定位高算力自动驾驶,两者代表了国内自主可控的主要技术路线。
AI推理规模化对光模块和存储有什么影响?
推理负载更依赖低延迟的内存带宽而非原始算力。HBM用量随推理规模扩大持续增长,CPO/LPO光互连需求随数据中心推理集群扩张而上行。新易盛、天孚通信代表了国内这一环节的受益标的。
By m8 康哥。m8 邀请的行业内部研究者,深耕特定行业与产业链。
免责声明:本文为基于公开资料的市场观察与分析,不构成任何投资建议、买卖推荐或目标价预测。投资者应独立判断、自行承担风险。所引用机构数据仅作参照,不代表 m8 立场。
常见问题
这篇文章属于 m8 的哪个研究入口?
这篇文章归入 AI产业链 主线,建议先从 AI产业链栏目 进入,再结合研究目录里的相邻专题一起看。
读完这篇后,下一步应该看什么?
优先继续看 AI产业链文章列表、AI产业链研究中心、GPU / 算力平台。这些入口能把单篇内容放回市场、行业和方法论框架里。
后续最需要跟踪哪些变量?
后续重点跟踪:AI capex、GPU/HBM/先进封装供给、服务器交付、软件变现和产业链利润分配是否兑现。
这篇内容可以直接当作投资建议吗?
不可以。m8 的文章用于整理公开信息、研究框架和风险变量,不构成个股买卖建议,也不替代个人的仓位管理和风险评估。
m8 会如何更新这类主题?
如果后续出现财报、政策、订单、资金流或估值假设的关键变化,m8 会在对应栏目和专题页继续补充更新,并通过内链把新旧文章串起来。