当前位置: 主页 > 皇冠官方网 > 工程案例 » 清华发布《AI芯片技术白皮书》:新计算范式,挑战冯诺依曼、CMOS瓶颈:皇冠官方网
皇冠官方网
本文摘要:近日,在由北京未来芯片技术高精尖创意中心和清华大学微电子学研究所牵头主办的第三届未来芯片论坛上,清华大学月公布了《人工智能芯片技术白皮书(2018)》。
近日,在由北京未来芯片技术高精尖创意中心和清华大学微电子学研究所牵头主办的第三届未来芯片论坛上,清华大学月公布了《人工智能芯片技术白皮书(2018)》。《白皮书》首次统合了国际化的学术和产业资源,交叠学术研究和产业发展前沿,对人工智能芯片技术展开了深入探讨、专业阐释,已完成了对AI芯片各种技术路线辨别及对未来技术发展趋势和风险预判。
据报,《白皮书》由斯坦福大学、清华大学、香港科技大学、台湾新竹清华大学,北京半导体行业协会及新思科技的顶尖研究者和产业界资深专家,还包括10余位IEEE Fellow联合撰写已完成。无芯片不AI,新的计算出来范式来袭近些年随着大数据的积存、理论算法的革新、计算能力的提高及网络设施的发展,使得持续累积了半个多世纪的人工智能产业,又一次步入革命性的变革,人工智能的研究和应用于转入全新的发展阶段。实质上,人工智能产业以求较慢发展,都必不可少目前唯一的物理基础——芯片。可以说道,“无芯片不AI”。
目前,关于AI芯片的定义没一个严苛和普遍认为的标准。更为明确的观点是面向人工智能应用于的芯片都可以称作AI芯片。
具体来说,报告中探究的AI芯片主要分成三类,一是经过软硬件优化可高效反对AI应用于的标准化芯片,如GPU;二是注重加快机器学习(特别是在是神经网络、深度自学)算法的芯片,这也是目前AI芯片中最多的形式;三是不受生物脑灵感设计的神经形态计算出来芯片。AI芯片的计算出来既不瓦解传统计算出来,也具备新的计算出来特质,主要特点有三:处置内容往往所谓结构化数据,如视频、图像及语音等,必须通过样本训练、数值恩环境交互等方式,利用大量数据来训练模型,再行用训练好的模型处置数据;处理过程必须相当大的计算出来量,基本的计算出来主要是线性代数运算,大规模并行计算硬件更加合适;处理过程参数量大,必须极大的存储容量,高带宽、较低延时的访存能力,及计算出来单元和存储器件间非常丰富且灵活性的相连。AI芯片的新计算出来范式,也为芯片明确提出了处置非结构化数据、计算出来量大及存储和计算出来间的采访相连等新问题。AI芯片发展现状:云、边融合在应用于场景上,AI芯片的应用于主要分成云端和终端,以深度自学的算法来说,云端人工智能硬件负责管理“训练+推测”,终端人工智能硬件负责管理“推测”,因而终端的计算出来量更加小,比较没传输问题。
但从自动驾驶、智慧家庭,到loT设备等,速度、能效、安全性和硬件成本等是最重要因素。云端AI计算出来:目前各大科技巨头争相在自有云平台基础上配备人工智能系统,主要有IBM的waston、亚马逊的AWS、以及国内的阿里云、百度云平台等。其中英伟达的GPU使用更加普遍,赛灵思、英特尔、百度等厂商也在大力使用FPGA在云端展开加快,一些初创公司,如深鉴科技等也在研发专门反对FPGA的AI开发工具。
另外,除GPU和FPGA外,AI领域专用架构芯片ASIC则因其更佳的性能和功耗,沦为云端领域新的搅局者,如谷歌的TPU。边缘AI计算出来:随着人工智能应用于生态的愈演愈烈,更加多的AI应用于开始在末端设备上研发和部署。
智能手机是目前应用于尤为普遍的边缘计算出来设备,还包括苹果、华为、高通、联发科和三星在内的手机芯片厂商争相发售或者正在研发专门适应环境AI应用于的芯片产品。另外,也有很多初创公司重新加入这个领域,如地平线机器人、寒武纪、深鉴科技、元鼎音讯等。传统的IP厂商,还包括ARM、Synopsys等公司也都为还包括手机、智能摄像头、无人机、工业和服务机器人、智能音箱以及各种物联网设备等边缘计算出来设备研发专用IP产品。
自动驾驶是未来边缘AI计算出来的最重要应用于之一,MobileEye SOC和NVIDIA Drive PX系列获取神经网络的处置能力可以反对半自动驾驶员和几乎自动驾驶。目前云和边缘设备在各种AI应用于中往往是因应工作。
最广泛的方式是在云端训练神经网络,然后在云端(由边缘设备收集数据)或者边缘设备展开推测。AI芯片的技术挑战:冯·诺依曼、CMOS工艺和器件瓶颈由于前文所述的AI芯片必须符合高效的数据采访,以及深度自学下的新的计算出来范式,AI芯片在发展上,也遇上了一些瓶颈问题,尤其是冯·诺依曼瓶颈,及CMOS工艺和器件瓶颈。冯·诺依曼瓶颈:在传统“冯·诺依曼架构”中,计算出来模块和存储单元相互分离出来,数据从处理单元外的存储器萃取,处置完了之后再写返存储器。每一项任务,如果有十个步骤,那么CPU不会依序展开十次加载、继续执行,再行加载、再行继续执行,这就造成了延时,以及大量功耗花费在了数据加载上。
可以不滑稽地说道,大部分针对AI,尤其是加快神经网络处置而明确提出的硬件架构创意都是在和这个问题做到斗争。总结来说,目前的解决问题思路还包括增加采访存储器的数量,减少采访存储器的代价。
CMOS工艺和器件瓶颈:目前,人工智能,尤其都是机器学习的发展将必须更加有力的、多达每秒百亿次运算能力的计算出来系统,而建构这些系统的基础是CMOS技术的芯片,而CMOS工艺能大大提升系统性能主要归功于构建尺寸的增大。过去30年,摩尔定律很好预测了这种计算出来变革,但由于基础物理原理容许和经济的原因,持续提升构建密度显得更加艰难。目前的解决方案是通过研发获取大量存储空间的片上存储器技术,并探寻利用片上存储器去建构未来的智能芯片架构。
另外,近年来,可以存储仿真数值的非易失性存储器发展快速增长,能同时具备存储和处置数据能力,可以密码传统计算出来体系结构的一些基本容许,未来将会构建类脑神经元功能。AI芯片架构设计趋势:云端、边缘设备、软件定义而针对以上AI芯片计算出来和应用于上的市场需求,目前云端和边缘设备的AI芯片都在展开新的研发。AI云端训练和推测:大存储、高性能、可前端。
从英伟达和谷歌的设计实践中可以显现出云端AI芯片在架构层面,技术发展的几个特点和趋势:存储的市场需求(容量和访问速度原本越高);处置能力推上每秒千万亿,并反对灵活性前端和部署;专门针对推测市场需求的FPGA和ASIC。边缘设备:目前,取决于AI芯片构建效率的一个最重要指标是能耗效率——TOPs/W,这也沦为很多技术创新竞争的焦点。其中,减少推测的分析比特精度是最有效地的方法;除减少精度外,提高基本运算单元MAC的效率还可以融合一些数据结构切换来增加运算量;另一个最重要的方向是增加对存储器的采访,如把神经网络运算放到传感器或存储器中;此外,在边缘设备的AI芯片中,也可以用各种低功耗设计方法来更进一步减少整体功耗。
最后,终端设备AI芯片往往呈现出一个异构系统,专门的AI加速器和CPU、GPU、ISP、DSP等协同工作以达到最佳效率。软件定义芯片:标准化处理器如CPU、GPU,缺少针对AI算法的专用计算出来、存储单元设计,功耗大;专用芯片ASIC功能单一;现场可编程阵列FPGA重构时间支出过大,且过多的校验逻辑造成其功耗过低。以上传统芯片都难以实现AI芯片所必须的“软件定义芯片”。
可重构计算技术容许硬件架构和功能随软件变化而变化,不具备处理器的灵活性和专用集成电路的高性能、低功耗,是构建“软件定义芯片”的核心,被普遍认为为是突破性的下一代集成电路技术,清华大学的AI芯片Thinker目前使用可重构计算出来框架,反对卷积神经网络、仅有相连神经网络和迭代神经网络等多种AI算法。AI芯片中的存储技术、新兴计算技术及神经形态芯片如前所述,提升AI芯片的性能和能效的关键之一在于数据采访。而在传统的冯·诺依曼体系结构中,数据从存储器串行萃取并载入到工作内存,造成非常宽的延后和能量支出。
近期,面向数字神经网络的公里/小时器(GPU、FPGA和ASIC)迫切需要AI友好关系型存储器;中期,基于遗内计算出来的神经网络可以为回避冯·诺依曼瓶颈问题获取有效地的解决方案;后期,基于悲阻器的神经形态计算出来可以仿真人类的大脑,是AI芯片远期解决方案的候选之一。而对应的新兴计算技术还包括将近内存计算出来、遗内计算出来,以及基于新型存储器的人工神经网络和生物神经网络。
神经形态芯片,即“仿生电脑”。如前所说,对于冯·诺依曼、CMOS工艺和器件瓶颈构成的AI芯片存储、计算出来间的问题,神经形态计算出来是一种新的路径。近些年,神经形态计算出来也用来指使用仿真、数字、数模混合VLSI以及软件系统构建的神经系统模型。
其将数字处理器当成神经元,把内存作为神经元,内存、CPU和通信部件几乎构建在一起,使用仿真人脑神经元结构来提高计算能力。每个神经元计算出来都是本地的,且从全局来看神经元们是分布式在工作。受到脑结构研究的成果灵感,研制出的神经形态芯片具备低功耗、较低延后、高速处置、时空牵头等特点。
人工智能的未来:算法、架构、器件的大大探寻“未来能否有一个终极算法来构建标准化人工智能?”这个问题还没有人能得出认同的答案。芯片是人工智能算法的物理基础,它与算法唇齿相依。如果能有统一的终极算法经常出现,那么我们很可能会看见一个终极芯片经常出现。
但在未来很长一段时期,有所不同的应用于依然必须有所不同的算法(也还包括传统算法),因此我们还必需探寻有所不同的架构,探寻新的器件甚至材料。随着底层芯片技术的变革,人工智能算法也将取得更佳的反对和更加慢的发展。CMOS技术与新兴信息技术的交叉融合,开源软件到开源硬件的潮流渐显,伴随着将步入一个前所未有的协同创意机遇期。
本文来源:皇冠官方网-www.casalillibelle.com