Deepseek-V4预览版本于4月24日正式上线,并同步开源。该模型采用了一种全新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力,实现了全球领先的长上下文能力,同时大幅降低了计算和显存需求。
Deepseek-V4的出现可能直接削弱英伟达GPU的优势,并且优先适配国产芯片厂商。这意味着AI产业链中的利润分配、部署路径和投资逻辑可能会发生变化。过去两年,AI大模型的竞争主要集中在训练和算力上,但美国对高端GPU的出口管制使得国内GPU厂商面临挑战。尽管如此,中美大模型性能差距已缩小至2.7%,基本实现技术追平。
国产芯片崛起及中国电力基础设施的完备是缩小差距的重要因素。黄仁勋曾表示,中国可以通过堆叠更多芯片来弥补单颗芯片的制程差距。国内一些GPU厂商如摩尔和沐曦已经实现了万卡集群,以弥补单卡算力不足的问题。DeepSeek通过软件上的前瞻性设计,主动适配和赋能国产硬件,为国产芯片铺平道路。例如,DeepSeek-V3验证了FP8在大规模模型训练中的可用性,扩大了模型训练规模而不影响质量。
虽然英伟达GPU在训练上仍占优势,但从产业演进来看,推理才是决定商业化速度和产业渗透深度的关键。Claw类Agent的爆发,使得长上下文记忆能力成为核心需求。当前推理的主要瓶颈在于显存容量,而非算力。英伟达GPU在显存技术上有领先优势,但国产GPU受限于先进制程,显存容量和带宽较低。
DeepSeek-V4采用了独特的Engram架构,解决了显存容量瓶颈问题。它将静态知识存储在内存表中,CPU负责检索知识,GPU负责计算推理,两者并行执行,显著提升了AI单位时间内的产出效率。这意味着国产GPU在显存受限的情况下也能完成同样的任务,而英伟达HBM显存的稀缺性面临崩塌。此外,DeepSeekV4即将发布,这次没有给英伟达早期测试权限,而是优先适配华为和寒武纪,目标是从CUDA生态迁移到华为CANN框架。
从投资角度看,DeepSeek-V4将直接利好两大方向:国产算力及AI应用。如果DeepSeek-V4完全基于国产算力训练成功,这将是国产芯片史上的重要时刻,证明了即便没有H100,也能跑出世界一流的大模型。受益最大的将是国产GPU厂商,如华为和寒武纪。展望未来,寒武纪、壁仞科技等公司收入预期将大幅增长,沐曦股份也有望扭亏为盈。此外,Deepseek有望加速全球大语言模型和AI应用企业的商业化进程,降低训练和推理成本,缓解资本开支压力。对于A股的应用公司来说,大模型更像是一种廉价的基础设施,有利于优化成本。DeepSeek-V4的发布可能改善市场情绪,推动AI应用企业迎来边际改善。




