|胜利艾云“核心火”草原火原隋圈可见

1 AI云训练烽火升起

人工智能(AI)无疑是当今最热门的词汇,当智能在各行各业引人入胜的时候,AI成为核心创新技术的体现,其中AI芯片更是“万众宠爱的一体”。本专栏曾介绍过客户端的AI芯片和着陆应用程序。[1]主要为了语音识别和智能图像处理,必须始终能够看到AI云。这里也一样景色很好。

对越来越丰富的AI应用场景的计算需求增加,是推动AI云芯片发展的动力,其中潜在的机会是巨大的。据权威机构统计,AI计算力需求将在3个半月内翻一番,市场将在几年内从数十亿美元转变为数百亿美元。但是云AI训练芯片被国际巨头垄断的壁垒已经成为制约整个产业健康发展的问题。这块坚硬的冰已经松动,随着一扇窗户的临近,火焰开始被AI“中国心”点燃。(WiND SUMMER)升起的火焰中,涌现出许多本土公司的身影,其中上海水源技术有限公司(ENFLAME)以红色火焰为企业形象标志,其CLOUD AI培训芯片尤为引人注目。笔者对国产AI云芯片新锐感到好奇。特别是在符合“摩尔定律”周期的18个月内,取得了丰硕的成果,成为了行业领先者,因此他前往上海长江,在张润大厦接受了创始人兼CEO赵丽东的采访。

赵丽东首先谈到了AI芯片的三个层次。技术门槛最高的是顶层云训练,中间是云推理,底层是终端推理。各种AI应用场景的模型培训只能在云上进行。目前云培训的市长/市场规模大于云推理。随着AI技术的大面积落地,在云端估计的市长/市场规模将逐渐超过云端训练。这也意味着训练效果越来越好,AI模式越来越成熟,应用越来越广泛。

在云AI训练芯片被垄断的情况下,下游的云推理和终端应用程序的发展必然受到阻碍。由于高价格企业、当地技术支持不足、生态不开放等因素,禁锢了培训团,堵住了下游推理的落地,限制了更多AI创新的出现。

水原科技致力的目标是打破外国垄断,实现国产替代,从而良性发展这个市场和产业。因此,水源技术于2019年12月11日发布了第一个“深”云训练芯片和“云深”AI训练加速卡以及“计算”计算和编程平台,如图1所示。

1603344908967764.png

图1国内AI云教育芯片和加速卡及开发平台

2深入思考“核心”火升起的奥秘

后者要想名列前茅,需要硬实力,赵立东指出,GPU或CPU芯片的结构本来不是为AI设计的。只有专门为AI设计的架构才能有机会打破垄断,赢得市场。AI爆炸式增长的数据和算法模型可以满足带来的算术需求。“深度思考”针对以深度学习为代表的神经网络算法和模型,主芯片DTU单元计算内核使用32个通用可扩展神经元处理器(SIP)进行高速并行处理,其中每8个SIP组合1个可扩展智能计算组(SIC)。通过SIC间HBM进行高速互连,利用片上调度算法,在重新定位中完成数据计算,最大限度地提高SIP利用率SIP基于可重构芯片设计理念,不仅具有高度并行化功能,还可以通过可编程指令集适应现有和未来可能的AI算法。

使用12 nm FinFET工艺和2.5D高级封装技术集成了141亿个晶体管。如图2所示,中间层用于使用自研究Interposer技术建立密集连接。

深思熟虑的DTU云教育芯片具有开放性、通用性和高性能功能,并显示了以下四个方面:

1)世界上最高的高精度计算力:基本支持FP32精度的标量、矢量、矩阵和卷积计算FP32最大计算力20TFLOPS;这是业界唯一支持BF16的芯片,计算力达到80TFLOPS。

2) e级数据中心互连支持:200 GB/s高速片间互连总线:单节点最多16个芯片互连多节点扩展和分布式培训平台支持PCIe 4.0。

3)个性化算子库:深度学习共同算子,支持多种超越函数。基本、开放式、按需定制。

4)支持模型深度优化:混合精度高,支持BF16数据格式,模型迁移成本低。

1603345079618229.png

图2深度芯片配置图

3尹秀加速卡制作“火战车”

图3是具有深度AI芯片(ESL片之间的互连层)的主板和背板的云T10加速卡配置图。基于深度思维芯片的云T10教育加速卡具有高计算能力、低功耗、强互连等特点。自主开发的ESL互连技术支持无专用接口和转换器的群集培训,有效降低了成本,并通过创新的拓扑设计提供了更灵活的连接方式。

尹秀T10加速卡是PCIe附加卡,但它包裹着厚的金属外壳,就像能够高速运行的AI“火战车”一样,并支持CNN,数据类型有FP32/FP16/BERT/LSTM/INT 16/INT 32等多种。

1604024263468858.png

图3云遂T10加速卡组件

4传播AI之火的“郁计算”生态平台

AI云训练从深度射芯片“火”到运通卡“火的战车”重叠的分布式集群可以看作是“火的列车”。ESL互连的创新背板互连方式形成了支持超级计算中心的AI系统。首先是PCIe单卡,4个1组通过ESL背板连接。然后是通过ESL电缆连接的单个服务器8卡ESL背板互连的独立机柜。然后,通过标准RDMA在整个RACK中构建E级计算数据中心。基于云加速卡的超级计算中心如图4所示。

为了控制AI超立体化“火的列车”,需要与软件平台——“计算和编程平台、硬件产品一起构建软硬件集成解决方案。在AI芯片领域,软件与硬件地位一样重要,“计算”既支持主流AI框架(如TensorFlow和PyTorch),也支持各种主流AI机型(如ResNet、Yolo和BERT),并通过SDK提供深度定制。正在开发的编程语言模型对开发者具有相对友好的意义,同时也为开发者提供了更好地发挥灵活操作和硬件性能的方法。同时,针对国产AI框架的适应和支持工作正在进行中。

5中国AI本土化火灾正在引发大草原火灾。

赵立东说水原技术的创业初衷是“大芯片、硬技术”,目前取得了阶段性成果,第一代通用AI训练芯片“深思熟虑”成功公布并量产。关于未来的发展,他强调“意志坚强、踏实”。一方面,加快产品迭代和技术创新,持续软件优化,改善生态系统。另一方面,坚持工作落地、规模化、盈利。只有形成两轮驱动、顺循环,企业才能拥有可持续发展的动力。

2020年3月,国家提出了加快新基础设施建设的战略,5G和AI成为重点发展领域。7月国家又颁布了《新时期促进集成电路产业和软件产业高质量发展的若干政策》。对像水原科技这样的本土企业是很大的鼓励,希望与政府及上下商业伙伴携手密切合作,打破垄断,实现国产替代。访问后不久的9月22日,水原科技正式宣布,第一代AI训练加速卡“运T10”及其配置的多卡分布式教育集群已经落地云数据中心。这是该产品和系统进入商业化阶段的里程碑,标志着水原跃升为成功进入数据中心市场的“中国核心”公司。

参考文献:[1]郑小龙。人工智能探测技术的“核心”是[J]。电子产品世界,2020(8):12-13。

注:本文来源于科技期刊《电子产品世界》 2020年第10期,欢迎在写论文时引用并注明出处。

|胜利艾云“核心火”草原火原隋圈可见

Leave A Reply

您的电子邮箱地址不会被公开。