AI推理下沉2026：边缘算力演变与A股机会

Q: 这篇文章属于 m8 的哪个研究入口？

这篇文章归入 AI产业链 主线，建议先从 AI产业链栏目 进入，再结合研究目录里的相邻专题一起看。

2023年，调用GPT-4的成本约为$0.06/千tokens。2025年底，主流推理API的价格已跌至$0.002以下；2026年部分模型的批量推理报价突破$0.001下限。^[1] 这条成本曲线的断崖式下行，是过去两年算力投资、模型压缩和芯片效率三线同步推进的结果。它正在重塑AI的部署地理：从数据中心向手机、汽车、工厂和家居终端扩散。

这不是"AI普惠化"的叙事口号——而是一条正在改变产业链受益格局的具体路径。

数据中心侧：吞吐量飞跃与精度压缩

英伟达Blackwell架构（B200/GB200）的推理吞吐量相比上一代Hopper（H100）提升了3-5倍，FP8精度下的token生成速度达到Hopper的约4倍。^[2] 这不仅仅是参数升级——Blackwell原生支持FP4精度，允许在不显著损失模型质量的前提下，将同等算力下可部署的模型参数量翻倍。

从行业内部看，推理效率提升的背后有两条技术路径：一是芯片架构升级（Blackwell的Transformer Engine + NVLink Switch），二是软件层的推理框架优化（vLLM、TensorRT-LLM的KV Cache管理）。两者叠加，使得主流云厂商的推理成本在过去12个月下降了60-70%。^[3]

主要云厂商的推理收入占AI收入比正在提升。AWS、Azure、Google Cloud在2025年财报中均披露，推理调用量增速已超越训练调用量——这标志着AI算力消费从"建模"转向"用模"的结构性拐点。据行业分析师估算，2026年全球大型云厂商的推理收入占AI总收入比例约为55-65%，较2024年的约35%显著提升。^[4]

平台	精度支持	推理吞吐（相对H100）	典型场景
NVIDIA H100（Hopper）	FP8 / FP16	1x（基准）	训练+推理混合
NVIDIA B200（Blackwell）	FP4 / FP8 / FP16	3-5x	超大模型推理集群
AMD MI300X	FP8 / FP16	约1.5-2x	开源模型推理

边缘侧：手机、汽车、IoT三线并进

推理成本跌穿$0.001意味着云端调用已接近"近乎免费"，但这反而加速了本地部署的驱动力——网络延迟、数据隐私和离线可用性成为新的竞争维度。

手机端：高通骁龙8 Gen4系列的NPU算力已达45 TOPS，支持70亿参数模型的本地推理；Apple A18 Pro配备了专为"Apple Intelligence"优化的第二代神经网络引擎，本地处理速度约为A16的两倍；联发科天玑9400的APU 890同样达到50 TOPS级别。^[5] 供应链的真实信号是：手机SoC的NPU算力规格已成为旗舰机核心卖点，而非边缘特性。

汽车端：英伟达Orin系列目前仍是全球智能汽车的主流算力平台，算力从65至500 TOPS覆盖L2+到L4场景。Thor平台预计2026年H2批量装车，算力跃升至2000 TOPS。^[6] 国内方面，地平线征程6系列凭借低功耗比（性能/瓦特领先竞品约30%）和本土化软件栈已进入比亚迪、大众中国供应链；黑芝麻武当C1200定位高算力场景，算力达1200 TOPS，主要对标Orin高端版本。两者的共同逻辑是：国内整车厂的自主可控需求正在从"可选项"变为"必选项"。

IoT与智能家居：算力在这一环节仍以低功耗TOPS为单位，瑞芯微、全志科技、恩智浦等厂商的AIoT芯片正在抢占安防摄像头、智能音箱和工业视觉的推理需求。这一市场的特征是单价低但出货量大，价值量主要在芯片设计和方案集成层。

国内产业链：定位分层，差异化明确

与上一轮周期不同的是，本轮国内AI芯片厂商已经从"概念追随"走向"场景切割"——不再试图在通用算力上正面对抗英伟达，而是在细分场景建立可防守的位置。

寒武纪（688256）：思元590系列面向数据中心推理，主要市场是政务云、金融风控和运营商边缘节点——这些场景对"国产可控"的要求高于对绝对算力的要求。2025年营收约11亿元，同比增长约70%，但仍处于持续亏损阶段，研发投入比例超过营收的100%。^[7] 与英伟达的真实差距在于CUDA生态的壁垒，而非芯片本身的参数。

地平线（9660.HK）：2025年上市后，市场关注点集中在其征程系列的汽车客户渗透率。已公开的合作主机厂覆盖比亚迪、长安、大众中国、理想等，累计装车量超过500万颗。^[8] 黑芝麻智能（2533.HK）则主打高算力场景，两者形成了国内汽车推理芯片的双核格局。

兆易创新（603986）：NOR Flash是AI推理中存储"固件+权重片段"的标准配置，地平线、寒武纪的模块级产品都有兆易或竞品的存储支撑。随着边缘推理设备出货规模化，NOR Flash的出货量直接受益——这是一个受益逻辑清晰但弹性有限的环节。

投资链路：推理规模化的具体受益环节

这条产业链的关键节点，按推理规模化的受益确定性从高到低排列：

第一层（确定性最高）：AI服务器代工与组装。推理集群的出货量直接拉动服务器出货。工业富联（601138）作为全球最大的AI服务器代工厂，2025年AI服务器收入占比已超30%，2026年随着Blackwell批量装机，这一比例预计继续提升。^[9] 该环节的逻辑直接，但利润率有限（净利率约3-5%）。

第二层（高弹性）：CPO/LPO光模块。推理集群的内部互联密度比训练集群更高，800G向1.6T升级的过程中，光互连需求量随之提升。新易盛（300502）的LPO方案和天孚通信（300394）的光引擎产品代表了国内这一环节的两种技术路线——前者主打短距低成本，后者凭借60%的全球光引擎份额享有定价权。两者的估值已部分反映了AI Capex周期的预期，但供需紧张持续时间仍有争议。

第三层（间接受益）：存储芯片。HBM的单GPU用量随推理密度提升而增加；DRAM和NOR Flash在边缘推理设备端出货随终端规模化上量。兆易创新在NOR Flash细分市场有较强定价能力，但受益弹性弱于光模块环节。南亚科（台股，2408）和长鑫存储（未上市）则代表了这一环节中更大体量的标的。

需要提示的是：推理成本的持续下降是一把双刃剑——它扩大了调用量（带动算力需求），也压缩了单位服务价格（压制提供推理服务公司的毛利率）。直接受益的是硬件层（芯片、光模块、服务器），而不是在云端卖推理API的平台商。

数据来源：各公司公开财报及投资者关系材料；Lightcounting 2026全球数通光模块市场报告；行业分析师公开研究；英伟达GTC 2026产品发布资料。推理成本数据来自各云厂商公开API定价页面的横向比对，实际批量合同价格存在差异。

常见问题

AI推理成本下降为什么会推动边缘计算？

当推理成本低于$0.001/千tokens，云端调用已接近于零成本，但网络延迟和隐私问题依然存在。在手机、汽车等延迟敏感场景，把模型部署到本地芯片反而更经济，驱动了端侧AI的规模化。

寒武纪和英伟达在推理市场的定位有何不同？

英伟达Blackwell/B200专注超大规模数据中心推理，单张卡吞吐量是Hopper的3-5倍，服务于超大模型和高并发场景。寒武纪思元590则主打国产替代路线，面向政务、金融等合规要求高的本土市场，两者存在明确的场景分层而非直接竞争。

汽车端AI推理市场国内外格局如何？

英伟达Orin目前仍是全球主流，Thor平台2026年量产节奏加快。国内地平线J6系列凭借低功耗和本土化优势，已进入比亚迪、大众中国等主机厂。黑芝麻武当C1200定位高算力自动驾驶，两者代表了国内自主可控的主要技术路线。

AI推理规模化对光模块和存储有什么影响？

推理负载更依赖低延迟的内存带宽而非原始算力。HBM用量随推理规模扩大持续增长，CPO/LPO光互连需求随数据中心推理集群扩张而上行。新易盛、天孚通信代表了国内这一环节的受益标的。

By m8 康哥。m8 邀请的行业内部研究者，深耕特定行业与产业链。

免责声明：本文为基于公开资料的市场观察与分析，不构成任何投资建议、买卖推荐或目标价预测。投资者应独立判断、自行承担风险。所引用机构数据仅作参照，不代表 m8 立场。

常见问题

这篇文章属于 m8 的哪个研究入口？

这篇文章归入 AI产业链主线，建议先从 AI产业链栏目进入，再结合研究目录里的相邻专题一起看。

读完这篇后，下一步应该看什么？

优先继续看 AI产业链文章列表、AI产业链研究中心、GPU / 算力平台。这些入口能把单篇内容放回市场、行业和方法论框架里。

后续最需要跟踪哪些变量？

后续重点跟踪：AI capex、GPU/HBM/先进封装供给、服务器交付、软件变现和产业链利润分配是否兑现。

这篇内容可以直接当作投资建议吗？

不可以。m8 的文章用于整理公开信息、研究框架和风险变量，不构成个股买卖建议，也不替代个人的仓位管理和风险评估。

m8 会如何更新这类主题？

如果后续出现财报、政策、订单、资金流或估值假设的关键变化，m8 会在对应栏目和专题页继续补充更新，并通过内链把新旧文章串起来。

AI推理下沉：从数据中心到边缘端的算力格局演变与产业链机会

数据中心侧：吞吐量飞跃与精度压缩

边缘侧：手机、汽车、IoT三线并进

国内产业链：定位分层，差异化明确

投资链路：推理规模化的具体受益环节