-
当前位置:芯师爷
- 首页
- 热点资讯
AI已经从技术走向应用,改变了我们的生活和工作方式。数据流通,万物互联,在不久的将来,我们将进入一个全新的Robot Computer时代。Robot Computer时代由智能化和大模型为核心驱动力,以视觉、语言和AI为媒介代表的一种主动交互形态。它区别于个人电脑和手机终端时代的被动交互方式。
从个人电脑到智能手机,随着应用场景的迁移,我们对计算系统与芯片可以提供的算力需求也在加速演进。面对未来大模型(LLM)和AIGC等智能化浪潮的挑战,更高的算力效率,更低的算力功耗和更低的算力成本,三者叠加在一起,使得算力需求与算力供给之间的矛盾,越来越凸显。
通过对芯片、算力与AI三者发展迭代过程的观察不难看出,高能效比的算力、通用的软件栈以及高度优化的编译器,将是AI算力产品迈向成功的必要条件。近日,进迭时空在高性能计算芯片方面,已经取得了显著的进展,成功推出了全球颗8核RISC-V AI CPU,SpacemiT Key Stone™ K1(以下简称:K1),以最快速度跑通高性能RISC-V从技术到商业的闭环。
4月29日,在“创芯·生生不息——进迭时空2024年度产品发布会”上,进迭时空创始人、CEO,陈志坚博士发布了全球首颗 8核 RISC-V AI CPU——SpacemiT Key Stone™ K1(简称K1),用一项项实测数据证明:在满足AI算法模型快速迭代和部署方面,同等微架构的RISC-V芯片至少领先ARM芯片1.5代。
进迭时空创始人、CEO,陈志坚博士在发布会上介绍,现有的主流AI算法部署通常使用抽象描述的多框架算法模型,落地应用至具体的芯片平台,依托CPU、GPU、NPU等相关载体。在目前的边缘和端侧计算生态中,由于各家芯片公司缺少基于CPU核定制AI算力的能力或者授权,而且NPU相较于传统CPU有一定的功耗优势,使得在实际落地场景中,NPU的使用率很高。但是NPU有其致命的缺点,各家NPU都拥有独特的软件栈,其生态相对封闭,缺乏与其他平台的互操作性,导致资源难以共享和整合。对于用户而言,NPU内部机制不透明,使得基于NPU的二次开发,如部署私有的创新算子,往往需要牵涉到芯片厂商,IP厂商和软件栈维护方,研发难度较大。
着眼于这些实际的需求和问题,进迭时空推出的K1芯片在设计和生态上采取了开放策略。以通用CPU为基础,结合少量DSA定制(符合RISC-V IME扩展框架)和大量微架构创新,以通用CPU的包容性最大程度的复用开源生态的成果,在兼容开源生态的前提下,提供TOPS级别的AI算力,加速边缘AI应用。这意味着K1芯片可以避免低质量的重复开发,并充分利用开源资源的丰富性和灵活性,以较小的投入快速部署。
aK1适配所有主流大模型
“这种开放性和兼容性不仅降低了部署大量现有AI模型的门槛,还为用户提供了更多的创新可能性,使得AI解决方案不再是一个专门的领域,而是每个程序员都可以参与和创新的领域。”——陈志坚 进迭时空创始人、CEO
据陈志坚博士介绍,基于进迭时空的AI技术路线,以轻量化插件的方式,通过开放的软件栈,使得K1芯片能够在短时间内支持大量开源模型的部署,目前已累计验证了包括图像分类、图像分割、目标检测、语音识别、自然语言理解等多个场景的约150个模型的优化部署,timm、onnx modelzoo、ppl modelzoo等开源模型仓库的支持通过率接近100%,而且理论上我们能够支持所有的公开onnx模型。
aSpacemiT Muse™ Book 大模型及AI性能展示视频
进迭时空插件的使用方式如下:
○ C/C++
C++ |
○ python
Python |
陈志坚博士在发布会上宣布,将开源K1所有自研的AI扩展指令和所有AI软件栈源代码,与RISC-V生态的开发者和建设者们共享AI技术,共建未来。
作为进迭时空首颗自研高性能计算芯片,K1芯片除了在AI方面取得了突破性成果,在包括存储性能、计算性能、浮点性能等芯片的三个核心性能上,相较ARM同级别的Cortex-A55芯片也都取得代差级优势。
同等微架构下,存储性能大幅领先于ARM Cortex-A55
芯片存储的速度越快,计算机的运行速度也就越快,这也意味着能够更快地访问和处理数据,缩短反应时间,对于需要高效数据交换的AI终端应用场景来说,尤为重要。陈志坚博士介绍,在存储性能方面,同等微架构下,K1芯片搭载的进迭时空自研RISC-V 智算核X60™表现亮眼,大幅领先ARM Cortex-A55 15%。其中,LMbench Write单项来看,最高可达6.32GB每秒,LMbench Copy和Read,分别可达3.35GB每秒和3.56GB每秒,远超ARM Cortex-A55的读写和复制速度。此外,X60智算核在内存stream方面的各项指标也远超ARM Cortex-A55。
同等微架构下,计算性能大幅领先于ARM Cortex-A55
在各大领域的真实应用中,X60™智算核的实际计算性能也大幅领先ARM Cortex-A55。在相同工艺下,X60™智算核单位频率的性能大幅领先,这来自于之前提到的出色的各项传统CPU的性能,也来自于X60™智算核基于RISC-V Vector的强大SIMD性能。图像性能方面,最高为ARM Cortex-A55图像性能的2.14倍,压缩性能的1.2倍,绘制性能的1.19倍。
提高芯片的计算性能,也可以通过提高数据并行性能来实现。这种能力也被称为向量计算能力。事实上,AI大模型推理涉及大量的向量运算和矩阵运算,利用处理器的向量指令功能,能够加快模型的推理速度。
据发布会公布的数据显示,基于RISC-V Vector 1.0标准,X60™智算核可以提供2倍于ARM Neon的256-bit SIMD并行处理算力。相比Arm Neon指令集能在多个领域的应用情况和带来的性能提升。在图像预处理、颜色空间转换、图形学等算法性能上,X60™是ARM Cortex-A55的1.5倍。此外,进一步在LU分解,QR分解,SVD分解,Chelesky分解,Eigen分解等五大矩阵进行分解后,基于在OpenBLAS+Eigen,核心计算,sgemm的性能上的突出表现,X60智算核是ARM Cortex-A55的1.5倍。更为重要的是,X60智算核的向量计算技术,还解决了SIMD技术带来的二进制不兼容问题,使同一份代码可以跑在基于RISC-V架构的任何矢量位宽的处理器上,开发者不需要经历ARM指令集扩展和代码重写,这意味着软件维护成本将大大降低,对RISC-V生态的建设具有重大意义。
同等微架构下,浮点运算能大幅领先于ARM Cortex-A55
浮点运算能力是芯片在进行浮点计算时的速度和精确度,对于Robot Computer时代里高强度的科学计算和图型处理等密集运算的应用程序来说,浮点性能尤为关键。
陈志坚博士介绍,进迭时空随机抽取的18个应用程序进行实测后,测试结果显示,X60™智算核在14个应用程序的运行数据都大幅领先于ARM Cortex-A55。其中,在X60™智算核上运行从头计算量子化学程序GAMESS,是ARM Cortex-A55的12.2倍,称得上“遥遥领先”。
a
SpacemiT Key Stone™ K1产品特性介绍
“进迭时空成立之初就一直坚信,RISC-V可以进入高端CPU市场,未来的芯片属于RISC-V.而在中国,一定会诞生若干家世界一流的RISC-V计算生态企业”。——陈志坚博士
K1芯片的成功,不仅仅是进迭时空的成功,更是RISC-V全球AI创新实践的一个重要成果。陈志坚博士认为,RISC-V开源模式带来的开放性,让包括进迭时空在内的企业和研发人员有了与全球顶尖人才合作、共建的机会。此外,十倍压强、软硬件和生态并行发展也更具优势。RISC-V指令集更加适合全面加速迭代的Robot ComputerI时代算力发展需求。
“RISC-V的软件生态相比X86和ARM还不够成熟,但发展的速度是当年X86和ARM不能匹敌的”陈志坚博士认为,作为一个开源,且跨所有领域的指令集生态,各应用领域和全球各大厂商都在有序的,大力的贡献自己技术。RISC-V社区在推进底层软件生态的建设,RISE社区在推进上层应用生态的建设,也都在快速有序的推进中。目前我们不能说它比X86或者Arm的生态更大,但假以时日,我们坚信,开源Linux取代Unix的现象,一定会在RISC-V架构发展中再次上演。
据悉,进迭时空在这场年度产品发布会上不仅发布了自研SpacemiT Power Stone™ P1电源芯片、SpacemiT Key Stone™ K1终端芯片,还发布了搭载K1芯片的SpacemiT Muse™ Book、SpacemiT Muse™ Shelf和SpacemiT Muse™ Box等生态产品。陈志坚在发布会上透露,SpacemiT Muse™ 系列生态产品将于近期开启预售,为全球RISC-V生态建设提供更加便捷的软硬件产品支持。
发表评论 取消回复