景顺长城基金:DeepSeek发布模型,利好国内AI产业链
专题:DeepSeek为何能震动全球AI圈
近期,国内AI领域迎来重磅消息,DeepSeek在春节期间连续发布三款大模型,包括基座模型DeepSeek V3(对标OpenAI的GPT4o)、推理模型R1(对标OpenAI的o1)、多模态模型Janus Pro(对标OpenAI的DALL-E 3),引发市场高度关注。景顺长城基金分析指出,DeepSeek对于国内的AI产业链是确定性利好,受益程度排序分别为端侧及AI应用、国产GPU链。
三大模型技术路径各具突破
DeepSeek此次发布的三款模型聚焦于不同技术方向。
V3的亮点在低成本。V3并无颠覆式的路线创新,更应当看作是在算力约束的大背景下,通过极致的算法工程和Infra层面的联动优化,对于既有算力利用效率进行了一次极致挖掘。但也要客观看待,比如从绝对值看,优解,往往需要做很多次实600万美元的训练成本远非全部,大模型的训练是个复杂的工程问题,为了得到架构/参数最验和试错,这部分隐含的探索成本可能达到末次训练的5x量级。从相对比较看,OpenAI等先行探索者付出更多试错和模型架构的探索成本,DeepSeek作为后发者会更省算力。对于模型而言,达到同等水平的模型所需训练成本的下降是持续在发生的,考虑到V3较对标海外模型(诸如LLaMA 3)的发布晚了半年时间,V3更低的训练成本也是符合产业规律的。
R1的亮点在性能。R1是以V3为基础做了更深入的后训练(SFT+RL),效果可对标OpenAI的o1正式版模型,也不输OpenAI春节发布的O3-Mini,同时由于承袭了V3的架构特点,推理API定价也要低于海外的同行,海外各大云厂商都宣布接入R1模型。证明了后训练/RL(强化学习)的迭代潜力:DeepSeek发现即便不用SFT,大模型仍能够通过多轮RL迭代来提升其推理能力,并且并未看到效果随着CoT长度出现收敛,证明了RL范式后续迭代的巨大潜力。
通过蒸馏提升了更小模型的推理能力:DeepSeek指出通过蒸馏的方法,可以将671B的R1模型的推理能力,迁移到更小的模型是奏效的,这会很大程度提升端侧模型推理能力的上限,如Agent的规划、工具调用的能力。
利好端侧及AI应用、国产GPU链
从投资端来看,景顺长城认为,DeepSeek对于国内的AI产业链是确定性利好,受益程度排序分别为端侧及AI应用、国产GPU链。
应用侧方面:DeepSeek证明了国内模型有一战之力,开源及低成本降低了应用落地门槛、蒸馏的有效性则极大增强端侧模型的能力上限。DeepSeek对于广泛的AI应用都是重大利好。
端侧/2C Agent类应用是最为受益的方向。如前所述,R1的核心发现是大模型的推理能力可以通过蒸馏转移到端侧模型的范畴(PC、甚至手机),而推理模型赋予的自主规划能力将加速端侧Agent类应用的落地。
AI应用(尤其是国内应用)也会广泛受益。V3/R1从三个维度降低了应用(类O1推理模型)落地推广的门槛:一是高性价比,即更低的单位推理成本; 二是开源,V3/R1较O1多开放了思维链的过程,更低的部署门槛、更低的复制难度;三是对于国内的C端和B端用户而言,DS的爆火是一场深刻的用户教育。
算力层方面:结构上算力训练叙事的不确定性有所增强,叠加此前算力板块存在系统性的高配,造成短期较大的股价波动;但算力的推理叙事其实大幅增强,相当部分兼具训练与推理逻辑(如ASIC供应链)的A股算力标的存在错杀。
从DeepSeek对全球算力的训练叙事的影响来看,不同海外模型公司的方向不同,DS对于这些公司训练算力投入的持续性有多大影响可能也有所差异:1)OpenAI为代表的模型创企追求AGI和模型推理能力的边界扩展和领先,依赖外部融资,需要向投资人说明巨额算力投入的合理性及闭源模型的领先性,DeepSeek的出现对于这一叙事有一定冲击。2)Google等大厂模型迭代的方向有明确的商业化出口或服务自身业务需求,依赖自有资金,预计DS对其影响不大。
同时,应用的爆发将会带动推理算力需求增长;在推理叙事下,NV的壁垒可能有所削弱,算力结构将更为多元;国产GPU链有望从DeepSeek中受益。需求端,DeepSeek激发国内应用/推理需求,同时DeepSeek爆火使得H20被禁被美国政府重新讨论;供给端,DeepSeek证明了软件工程层面的优化可以一定程度上弥补Infra层面的一些缺陷,如互联带宽和软件生态。此外,DS内部也已经在测试和探索基于昇腾910B的训练。
当前,全球AI发展已进入深水区,DeepSeek的出现,有望推动国内AI产业链的持续发展。
还没有评论,来说两句吧...