-
当前位置:芯师爷
- 首页
- 热点资讯
“服务器繁忙,请稍后再试”
Deepseek已经学会玩自己的梗
这是近期在官网体验Deepseek功能的用户最常看到的提示,让人抓狂不已。功能间接性瘫痪和算力不足背后,是Deepseek高度破圈,7天实现用户破亿的壮举。游戏科学创始人、《黑神话:悟空》制作人冯骥对其有着高度评价,“Deepseek,可能是个国运级别的科技成果。”
繁荣有竞争力的下游应用,能为芯片产业的未来发展指明方向并提供广阔的市场,如我国新能源汽车和智能手机行业对国产芯片的推动作用。如今Deepseek的出现,也为国际竞争中处于相对劣势的国产芯片提供了机会。诸多业内人士称,“有望推动国内厂商有机会在推理侧与英伟达抢占一定份额。”
风华GPU研发负责人Cuki向芯师爷表示,Deepseek展现出的强大性能吸引了很多用户,改变了大众对于大模型的认知,未来大家对deepseek的依赖度和认可度会很高。对于这样主流的下游应用场景,处于产业链上游的芯片厂商自然会抓紧适配,这和硬件企业的市场推广有非常强的正相关性。
也正因此,近期国内掀起一轮国产AI芯片厂商竞相适配风潮。据芯师爷不完全统计,已有华为、海光信息、龙芯中科、壁仞科技在内的21家国内厂商参与其中。
注 资料源自企业资料及公开信息 | 芯师爷制图
#
Vol.1/ 21家企业适配Deepseek 寒武纪也未失约
目前已经官宣适配Deppseek的国产芯片企业已经至少有21家,不过在官宣时间方面略有先后。
早在2月2日(大年初五),Gitee AI称联合国产GPU独角兽沐曦,基于曦云 C 系列GPU完成DeepSeek 蒸馏版本模型的适配。2月4日(大年初七)的时候,海光信息官宣团队完成DeepSeek V3和R1模型与海光DCU(深度计算单元)的适配。2月7日,龙芯中科方面称,联合太初元碁等产业伙伴,在太初T100加速卡上完成DeepSeek-R1系列模型的适配工作,采用龙芯3A6000处理器的诚迈信创电脑和望龙电脑已实现本地部署DeepSeek。
在所有国产芯片企业当中,市值在年前曾突破3000亿大关的国产AI芯片龙头寒武纪格外被舆论关注。或受春节假期影响,以及本身行事风格比较低调,国产寒武纪适配Deepseek的消息出得稍晚,一度被众多网友玩梗。2月10日,南京智算中心称已经携手寒武纪,用国产芯片、国产算力设备运行大模型DeepSeek。不过,此次官方信息中并未透露适配芯片的具体型号。据了解,南京智能计算中心在2021年7月投入运营,起初搭载的是寒武纪思元270和思元290智能芯片及加速卡。
在所有企业宣布适配Deepseek的资料当中,有两个信息点被企业方着重提及,一个是适配的模型类型,如部分企业可以适配DeepSeek-R1系列模型,其中满血版的参数规格达671B,部分企业则只支持DeepSeek-R1全系列蒸馏模型(参数规格在1.5B-8B之间)。
另一个比较重要的信息则是适配Deepseek所耗费的时间,如龙芯中科于合作伙伴在适配方面花费时间为2小时,灵汐科技的适配时间为半天,天数智芯、风华创智在适配工作上花费的时间为一天。对于部分企业着重宣传适配耗费时间这个点,有业内人士称,“这是国内AI芯片厂商在试图证实,自身在AI生态适配方面的速度和实力。”
对于芯片企业在上述两点信息披露上的差异,此芯科技多媒体和AI开发总监陈国银向芯师爷指出,就Deepseek模型推理的适配来看,各个芯片厂商适配分成两类。
一类是适配原生R1和V3模型,这类主要面向云端推理市场,其适配过程有一定的挑战,主要在于模型671B的这么大参数量以及MOE和MLA的推理结构,通常要解决多卡互联,MOE路由分配并行计算,异构资源分配, MLA新的KV cache缓存机制,FP8参数类型,内存带宽和卡间通信优化等;另一类是通过R1蒸馏的小模型,从1.5B到70B的模型大小都有,端侧推理主要集中在8B模型以下的蒸馏模型。这类模型推理过程和原始非蒸馏版本是一样的,因此只要原来芯片能够适配之前流行的Qwen和Llama模型,就能非常快速的适配。成熟硬件在适配端侧蒸馏模型主要挑战在于内存带宽带来的挑战和相关量化数据类型计算支持。
Cuki指出,只要有足够多的设备、足够的时间,其实企业都可以适配满血版的Deepseek,但问题在于适配后大模型的体验感、性能好不好。在日常生活、企业办公等常规环境中,32B版本的Deepseek已经足够用。所以基于适配后的大模型使用体验、投入的资源、产品能力等多方面因素的考量,有不少企业选择了适配更轻量化的蒸馏模型。
陈国银表示,不同模型大小适应的场景不一样,云端推理需要模型参数比较大,模型性能最好,主要适配原生R1或者V3模型,如前面所说,这类适配难度比较大,因此需要一定的开发和优化工作,需要更长的时间。端侧芯片主要适配1.5B~8B间的模型,这类模型推理结构非常成熟,无需花费额外的工作。以此芯P1芯片为例,P1面向端侧AI PC场景设计,对于端侧8B以下大语言模型有成熟的支持,此芯有完善的AI SDK工具链,能够简化适配流程,因此只要模型拿到之后,做些简单量化,就能高效而准确的完成相关推理任务。面对不断创新的模型和推理结构,芯片企业在芯片设计时需要充分考虑计算的灵活性和充足的带宽,在软件工程上要有极致的工程优化能力。
“众多国产AI芯片厂商与DeepSeek的快速适配潮是中国芯片实现国际化突击的第一步。”CIC灼识咨询高级咨询顾问张笑璐接受21世纪财经报道采访时称,DeepSeek对于中国AI芯片厂商的利好非常确定,通过与DeepSeek合作,中国芯片厂商加速了深度学习框架和分布式训练适配,推动了中国“国产算力+国产大模型”闭环生态。
#
Vol.2/ 适配之后 下一步怎么走?
“在适配工作之后,产业将会把资源和精力转移到大模型的应用落地上。”Cuki认为,“在这一阶段,硬件企业承担的角色主要有两个,第一提供模型所需要的硬件底座设施平台,第二是与模型应用落地所需要的产业生态做深度的配合。”
尽管以ChatGPT为代表的各类AI大模型自2022年年底开始风靡全球市场,在两年多的时间里,各行各业尽管都先后与AI大模型链接,但行业一直处于产业商业模式落地的探索过程中,尚未有明确可行的案例出现。之所以如此,一方面在于AI+产业融合还在融合当中,不够成熟,另一方面在于,此前的AI大模型成本太高。
Deepseek凭借较低成本和高性能出圈,也给了AI大模型的应用落地提供了不错的解决方案。根据Cuki的观察,大模型在互联网、教育、金融方面会走得更快,例如研究所、高校的基础教学、科研工作非常契合大模型的应用落地。以为AI芯片产业界人士与Cuki持类似观点,他认为AI在与教育结合的过程中,有两点值得关注,其一是Deepseek让学校能以更低成本、更高效率利用AI技术,加速人工智能教育的普及与实现,其二是国产算力对deepseek快速灵活适配和开源,对在美国禁售情况下实现突破,对全国产化环境下开展AI人才培养和研究成为新途径。
据了解,近期壁仞科技联合中兴通讯、浙江大学上海高等研究院和一蓦科技共同打造了智海AI教育一体机。该产品快速实现了国产算力与DeepSeek的适配及知识课程、实训课题、智能体等教学工具的设计开发,形成了包含AI通识课、专业课、实践实训在内的一体化解决方案,让学校能以更低成本、更高效率利用AI技术,加速人工智能教育的普及与实现。
值得一提的是,除了上述三个方向之外,端侧AI也被众多人士看好。随着Deepseek的大热,市场已经喊出“2025是端侧AI应用元年”的口号。
此前,功能比较齐全的AI大模型的参数规格动辄百亿上千亿,很难在算力有限的AI眼镜、智能机器人、智能手机上部署,而某些参数较小的大模型在功能方面有所缺失,用户实际体验感并不好。也正因此,即使端侧AI的呼声很高,但实际的落地效果并不算好。
芯师爷在去年曾体验了一款新发布的AI眼镜,由于产品内置芯片的算力较小,所以厂商采用的是云端AI联动,AI与人的交互流畅性有待加强,而且一旦离线,其AI功能几乎不可用。而Deepseek的出现,可以直接将其蒸馏版大模型本地部署,无需联网便可有较好的用户体验,且并不需要太大的算力做支撑。
陈国银表示,“随着R1蒸馏技术的普及,小模型具备了原来只有大模型才具备的能力,特别是长思维链下的编程和复杂问题推理能力,会迸发出不同的创新应用和新场景,加速端侧模型应用和落地。”
一家国内消费电子配套芯片公司人士接受《科创板日报》采访时表示,尽管他们的产品在产业链几乎最上游,但还是能感受到DeepSeek为智能终端行业带来的积极影响。“AI降本之后,终端应用预计会有大的爆发,继续看好眼镜、玩具、AI手机、AI PC等消费电子。”
“未来端侧模型推理落地的场景也会非常丰富,例如AI一体机,家庭AI网关,AI PC,边缘服务器,智能机器人等。”对于端侧AI的未来,陈国银非常看好,而关于下游AI场景对于上游硬件的推动,他认为,不同的端侧场景对芯片算力,功耗,安全,成本和功能都会有不同的要求,未来对于硬件的要求从能运行到运行得好过渡,同时时刻准备新的模型应用场景。硬件企业应该在提供基础算力能完成相关推理基础上,下一步重点可能是性能极致优化,多场景下功耗和性能的平衡,丰富AI生态的对接,多模态数据融合和处理。
相关文章
查看更多
>>
“松弛感”首富虞仁荣,和他背后的千亿芯片巨头
科创板归母净利润增幅最高,国产CIS芯片企业思特威何以脱颖而出

IOTE 2025国际物联网展·上海站携手世界移动通信大会(MWC)定档6月上海新国际博览中心!

发表评论 取消回复