过去几年生成式人工智能(GAI)的快速发展,让所有主流指令集架构迎来了一次重要更新潮。
从x86、Arm到RISC-V,都在制定面向矩阵(Matrix)指令集方向的扩展,因为GAI应用的大部分典型负载的核心运算都需要使用矩阵计算。
2023年底,RISC-V国际基金会同时成立了2个矩阵指令集扩展技术组(Attached Matrix Extension TG和Integrated Matrix Extension TG),计划用一至两年的时间完成新指令集的制定,其目的就是要加速矩阵运算,从而提高机器学习和AI应用的性能。
就在最近,希姆计算在RISC-V美国峰会上发布了其RISC-V矩阵扩展开源项目的最新0.5版本,行业内率先支持了向量+矩阵的实现。
这家年轻的中国创企也成为首家向全球社区提交完整RISC-V矩阵指令集及其支持工具的公司。这一举措无疑会推动RISC-V矩阵指令集国际标准的快速形成,提高AI应用的兼容性、降低软件开发适配成本,推动整个RISC-V生态系统的发展。
对此,RISC-V国际基金会首席执行官Calista Redmond给予了高度评价,她说到:“看到像希姆计算这样的创新项目积极采用和支持了RISC-V的新特性,真是令人鼓舞。矩阵指令集扩展代表了RISC-V生态系统向前迈出了重要一步,能够在特定应用场景中显著提升性能。我们对希姆计算团队的努力表示感谢,这对整个社区来说是一个巨大的胜利。”
中国电子工业标准化技术协会RISC-V工作委员会技术委员会主任、国家工业信息安全发展研究中心总工程师周平说到:“非常高兴看到作为RISC-V工委会副理事长单位的希姆计算,在推动Matrix国际标准方面所做的贡献,特别是在开源SCOOP项目上的努力令人印象深刻。希姆计算不仅展示了卓越的技术能力,还体现了开放合作的精神,这对于促进RISC-V在AI领域指令集扩展的发展具有重要意义。我们期待希姆计算继续在工委会、在国际社区积极发挥作用和协作精神,为行业带来更多的创新与进步。
AI新时代,中国芯片企业正集体一步一步走到制定国际标准的行业领导者行列中。
首先,正如前文所提到的,RISC-V可以凭借开源的模块化设计去赋能开发者,让AI芯片可以针对不同负载做加速,同时兼顾良好的可编程性和通用性。
此外,在AI新时代,基于RISC-V的开源方案可以最大程度保证国家层面对数据安全的掌控,还一定程度上打破既有的行业垄断态势,同时还能兼顾产业生态的融合,可以说是商业模式潜力最大化的解决方案。
明确了RISC-V的方向,如何让RISC-V可以更好地支持AI应用?标准的统一就成为了接下来的重中之重。
一旦矩阵扩展指令标准确定下来,全球RISC-V生态中的开发者都可以用一样的矩阵指令来做自己的芯片,这样软件应用层面就会有更多的融合机会,应用也能实现真正的通用性,就如同基于安卓系统的应用生态。
基于这一统一标准,各类产品都将快速生长,工具连、基础软件也将逐渐完善,这对于RISC-V在应用层面与x86和Arm生态竞争十分关键。
从生态角度上来说,制定好这样一套全球范围内都可以接受的、基于AI方向的矩阵扩展指令集标准,意义非常重大。
RISC-V的优势在于开源,但劣势也在于此:如果指令集不统一、“各自为战”、就会有碎片化的问题。
目前包括谷歌、高通、Meta等全球头部科技巨头都在往RISC-V矩阵指令集扩展及相关标准统一的方向上努力,这进一步证明了这一方向的正确性。
而国内AI芯片创企希姆计算,正成为其中跑的最快的一个,成为这一领域中中国芯片企业的代表,在国际行业标准的制定方面将话语权掌握在了自己手里。
正如前文所说,新标准的统一成为RISC-V生态在AI新时代最需要解决的问题,也成为全球科技巨头竞争的焦点。希姆计算这次在标准制定过程中的亮眼表现,赢得了国际基金会和业界的广泛认可。
根据官方信息,目前希姆计算的RISC-V矩阵扩展开源项目已升级至0.5版本,支持了向量+矩阵的实现。
具体来看,最新的RISC-V矩阵指令集采用了Tile-based的矩阵乘法架构设计,在原有基础上进一步完善了编程模型和类型支持,同时提供了基本版32位指令编码。
此外,通过参数化寄存器架构和模块化类型系统,新的RISC-V矩阵指令集能够适应从边缘到云端的各种应用场景。
值得一提的是,为了进一步推动标准化和商业实施,希姆计算还更新了一系列工具,包括基于LLVM的编译器、基于Spike的模拟器、基于GDB的调试器,以及基于SCOOP(Stream Computing Out-of-Order Processor)平台的开源核心实现,其包含对RVV和RV Matrix的支持。
站在今天的0.5版本回顾过去三年,希姆计算可以说实现了“从量变到质变”的积累。
从2022年9月RISC-V矩阵ISA规范0.1版本完成、首次向RISC-V国际基金会提交开源提案和支持工具,到2023年与达摩院建立了协商机制、共同探索RISC-V矩阵指令集。
用希姆计算执行副总裁陈炜博士的话来说,指令集的设计、功能的完善补充,是一个不断的学习和演进的过程,逐渐从非标到标准化,与国际上达成的共识相一致。
此外,指令集从设计到应用落地也充满挑战,比如仿真验证、DEBUG等方面相关软件的完善,以及面对AI应用在算子库层面的更广泛支持。
由于目前矩阵指令集的国际标准还没有定下来,相关配套的软件工作量是非常大的,希姆计算团队投AG真人国际入了大量资源来完善相关工作。
值得一提的是,希姆计算的独到优势之处在于,其不光完成了指令集的开发工作,还进一步实现了产业化,也就是对大模型的适配以及应用的落地。
就在本月早些时候,RISC-V国际基金会正式刊发的《希姆计算基于RISC-V计算能力和大型语言模型(LLMs)提供智能社区服务》一文,基于自主研发的RISC-V芯片和推理加速卡STCP920,希姆计算给LLM应用创建了一个集成RISC-V硬件和软件的生态系统。
这个生态系统包括一个智能计算云平台、行业LLMs、数据治理平台和一个智能代理开发平台。基于这套系统,希姆计算为广州某社区定制开发了一个便捷的社区服务助手。据称该助手可以提供37类、超2000项服务,社区服务咨询的准确性从原来的30%提高到了现在的95%以上。
在AI推理性能方面,STCP920 AI加速卡已经经过国内头部互联网厂商50多个模型测试,平均下来,希姆计算的12nm板卡推理性能是英伟达7nm A10的108%,可以说是兼顾通用性和高性能的解决方案,也是全球第一个量产的基于RISC-V的AI推理卡。
尤为重要的是,希姆计算采用的12nm工艺节点可以很好地规避制程受限的问题,无论是TSMC南京工厂还是中芯国际都可以支持这一工艺节点。
在完成自身技术和产品体系化、产业化的基础上,希姆计算进一步积极推动RISC-V行业新标准制定的举措,给全球芯片产业各方带来了重要价值,对中国科技产业发展也有着历史性意义。
对CPU厂商来说,有了完整指令集以及各种扩展支持,CPU增加AI相关的特性功能就会更加便利;SoC芯片公司也可以针对不同方向做更多的组合,根据应用场景来做更好的芯片设计。
此外,对于在“大算力”领域做AI加速器的公司来说,指令集标准的完善对软件生态和应用的建设都非常有帮助。
今天,从数据中心到车载、机器人、AI PC、AI手机、AIoT,不同场景都有不同的公司在聚焦,如果能够在芯片指令集架构层面形成统一,各家的软件生态就可以更好的融合。
千变万化的应用都可以追溯到同一个基础指令集,将非常有助于整个产业的蓬勃发展。
除了对全球芯片产业的重要推动作用,0.5版本的发布对中国科技产业在全球市场掌握更多话语权也有着重要意义。
0.5版本的发布,意味着中国公司为国际社区作出了重要贡献,并且在关键的标准制定层面跑在了前面。
正如希姆计算CEO梅迪所说,如果中国企业能先行一步,成为标准的主要制定者和推动者之一,就可以让国内的软件和应用生态能够更多的被国际接受、一起融合发展。
这也是为什么要有更多中国公司来做这件事,去为标准的统一做贡献,去尽可能多的争夺话语权。
今天,放眼芯片、AI乃至整个科技产业,受到地缘政治的影响,隶属于一个国家的一套技术路线往往都难以推广至全球范围内被积极采用。
但同时产业又呼吁生态的融合发展,因此唯一的解决方式就是采用一套不隶属于任何国家的开源技术路线,这也是RISC-V方案的突出优势之一。
在当今国家数据资产治理和转型的关键发展阶段,一个开放、稳定、安全、融和、去中心化以及保持和国外接轨的算力底层技术路线显得尤为重要。
纵观信息时代全球科技产业的发展,中国在绝大部分重要的底层技术路线上,都没能将标准化工作掌握在自己手里,要做到底层技术话语权的掌控,是非常难的一件事。
而今天希姆计算推动RISC-V在AI方向上的一系列标准制定工作,显然是有重大意义的,也必然会在未来展现出巨大价值。
从2019年选择差异化市场竞争、布局RISC-V相关技术,到2022年自研AI加速卡踩中大模型风口,再到如今全球RISC-V矩阵扩展指令集标准的建设成为必须要做的事情。
从摸着石头过河到如今产业化落地,希姆计算无疑是在全球RISC-V生态建设中走的最早的一批中国企业。他们从幕后走到台前,从摸索追赶到推动矩阵指令集标准的完善,领跑细分赛道。
用梅迪的话来说,希姆计算希望把自己的技术路线、方案等沉淀下来,争取让行业中其他公司可以跟随,从而实现对行业的引领。
从底层做起、扎扎实实,虽然初期挑战重重,但完成后却能够迸发出巨大商业化潜力。
希姆计算所做的事情就好比在芯片产业中“种树”,而种一棵树,最好的时间就是今天。