服务热线

13103866733
网站导航
主营产品:
产品展示
当前位置: 首页 > 案例展示

【48812】从2022新的特斯拉机器人Dojo芯片架构解析到存算一体

产品时间: 2024-06-24 13:22:46 |   作者: 五星体育高清在线直播

详细介绍

  D1处理器由台积电制作,选用7纳米制作工艺,具有500亿个晶体管,芯片面积为645mm2;,小于英伟达的A100(826 mm2;)和AMD Arcturus(750 mm2;)。要知道,这个D1处理器可是特斯拉人形机器人的中心,含义严重。

  千芯科技陈巍博士就D1架构、D1练习模块、D1练习网格以及练习矩阵全体架构做了解析。

  每个D1处理器由 18 x 20 的D1中心构成。每个D1处理器中有354个D1中心可用。估量是出于良率和处理器中心安稳考虑,D1处理器由台积电制作,选用7nm制作工艺,具有500亿个晶体管,芯片面积为645mm2;。

  这个尺度小于英伟达的A100(826 mm2;)和AMD Arcturus(750 mm2;)。可是每个中心都是一个完好的带矩阵核算才能的CPU,其核算灵敏性是远超众核架构的GPU的,这也会带来极高的本钱。这个架构有点类似于SambaNova。

  D1芯片运行在2GHz,具有巨大的440MB SRAM,是存算一体架构(近存核算)。

  从18x20阵列中每个D1中心的结构上看,每个D1中心是带有向量核算/矩阵核算才能的处理器,具有完好的取指、译码、履行部件。处理器运行在2GHz,具有4个8x8x4矩阵乘法核算单元。

  D1中心具有FP32和FP16这两个规范的核算格局,一起还具有更适合Inference的BFP16格局。为了到达混合精度核算进步功能的意图,D1还选用了用于较低精度和更高吞吐量的 8 位 CFP8 格局。Dojo 编译器能够在尾数精度邻近滑动,以包括更广泛的规模和精度。在任何给定时刻,最多能够正常的运用 16 种不同的矢量格局,灵敏进步算力。

  在D1练习模块方面,每个D1练习模块由5x5的 D1芯片阵列排布而成,以二维Mesh结构互连。片上跨内核SRAM到达惊人的11GB,这也算是一个十分典型的近存核算架构了。当然耗电量也到达了15kW的惊人目标。能效比为0.6TFLOPS/W@BF16/CFP8。关于CPU架构来说,这一能效比适当的好。明显存算一体架构带来的优势十分大。外部32GB同享HBM内存。(HBM2e或HBM3)

  每个练习模块外部边际的 40 个 I/O 芯片到达了 36 TB/s的聚合带宽,或许10TB/s的横跨带宽。

  数据传输方向与芯片平面平行,供电及水冷却方向与芯片平面笔直。这是一个十分美丽的结构设计,不同的练习模块之间还能够互连。可想而知,这是一个能够横向扩展的超级核算机架构。

  D1扩展的方法就好像自家铺地砖相同。在 D1 网格的边际有Dojo 接口处理器(DIP)。

  Dojo V1 练习矩阵由 6 个练习块、4 个主机服务器上(装有20个 DIP),以及一组连接到以太网交流结构的辅佐服务器构成。

  据Dojo项目负责人Ganesh Venkataramanan介绍,特斯拉Dojo是史上最快的AI练习核算机。比较于业界其他芯片,同本钱下功能进步4倍,同能耗下功能进步1.3倍,占用空间节约5倍。而使得Dojo完结练习AI算法的重担,便是特斯拉自研神经网络练习芯片——D1芯片。

  马斯克泄漏,不久后,特斯拉行将开端Dojo超级核算机的第一批拼装,特斯拉Dojo超级核算机将于下一年投用。回来搜狐,检查更加多

 


关注我们