炼数成金 门户 商业智能 芯片 查看内容

人工智能(AI)芯片大观

2017-10-30 15:23| 发布者: 炼数成金_小数| 查看: 14436| 评论: 0|原作者: 赵元闯|来自: 芯思想
摘要: 从功能来看,可以分为Training(训练)和Inference(推理)。从应用场景来看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类。据介绍,Training(训练)目前只在Cloud/DataCenter(云端)实现;而 ...
算法 架构 深度学习 人工智能 芯片
现在大家都在谈人工智能,谈AI芯片。笔者也来蹭蹭这个热点。

据悉,目前全球有3000家以上的AI初创公司。

以下内容以公司英文字母排序。子公司都放在母公司内介绍。

一、AI芯片分类
从功能来看,可以分为Training(训练)和Inference(推理)。

从应用场景来看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类。

据介绍,Training(训练)目前只在Cloud/DataCenter(云端)实现;而Inference(推理)大都也都在Cloud/DataCenter(云端)处理,只有对实时性要求很高的ADAS、VR设备会交由Device/Embedded(设备端)。

按技术架构来看,可以分为通用类芯片(GPU、FPGA)、基于FPGA的半定制化芯片、全定制化ASIC芯片、类脑计算芯片(IBM TrueNorth)。

二、中国AI芯片和算法公司

Sophon
比特大陆(BITMAIN)一家专注于高速、低功耗定制芯片设计研发的科技公司,拥有低功耗高性能的16nm工艺集成电路的量产经验,成功设计量产了多款ASIC定制芯片和集成系统。比特大陆设计的全定制矿机芯片性能优越,出货多多。

随着ASIC定制技术的成熟及集成电路设计量产的优势,比特大陆积极拓展人工智能硬件及软件产品,积极研发深度学习加速卡及服务器、深度学习云平台等系列产品及服务,深入扩展云基础设施与人工智能计算领域。

基于公司强大的设计能力,准备推出基于ASIC的深度学习芯片,以智子(Sophon)为名。如果一切按计划进行,数以千计的智子单元将在世界各地的数据中心训练神经网络


寒武纪1A
北京中科寒武纪科技有限公司面向深度学习等人工智能关键技术进行专用芯片的研发,可用于云服务器和智能终端上的图像识别、语音识别、人脸识别等应用。

寒武纪深度学习处理器采用的指令集DianNaoYu由中国科学院计算技术研究所陈云霁、陈天石课题组提出。模拟实验表明,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。

目前,寒武纪系列已包含三种原型处理器结构:
寒武纪1号(DianNao),面向神经网络的原型处理器结构;是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2;
寒武纪2号(DaDianNao),面向大规模神经网络;包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销;在28nm制程工艺下,主频为606MHz,面积67.7mm2,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的高效能计算系统较主流GPU的性能提升甚至可达450倍,但总能耗仅为1/150。
寒武纪3号(PuDianNao),面向多种机器学习算法。

2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备。

DPU:Deep-Learning Processor Unit,中文名:深度学习处理单元

深鉴科技致力于成为国际先进的深度学习加速方案提供者。公司提供基于原创的神经网络深度压缩技术和DPU平台,为深度学习提供端到端的解决方案。通过神经网络与FPGA的协同优化,深鉴提供的嵌入式端与云端的推理平台更加高效、便捷、经济,现已应用于安防与数据中心等领域。


BPU:Brain Processing Unit,中文名:大脑处理单元
注意:地平线机器人(Horizon Robotics)公司的AI芯片命名BPU,且BPU已经申请了注册商标。

地平线的解决方案可以深度整合多种嵌入式计算平台,包括ARM、CPU、GPU、FPGA以及地平线授权集成BPU核的SoC。地平线初期会推出自研处理器,但其目的是端到端的实现完整的解决方案,直接在典型应用场景下展现效果,提升业界芯片厂商对地平线BPU的认知。

智能驾驶、智能家居、安防是公司瞄准的三大领域。

第一代BPU是高斯架构,采用的是TSMC的40nm工艺,命名为“盘古”;将拥有2W的超低功耗和比现在世界上较好的嵌入式人工智能处理器的高两到三倍的性能,但是成本是其1/20。
据公司介绍,第二代BPU采用伯努利架构,第三代将采用贝叶斯架构。


异构智能(Novumind)主要为智能为汽车、安防、医疗、金融等领域提供ASIC芯片,并提供训练模型的全栈式AI解决方案。

异构智能专注于开发一种“非常专用但非常高效地进行推理”的深度学习加速器芯片。NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,通过使用独特的张量处理架构(tensorprocessing architecture)直接对三维Tensor进行处理,新芯片将支持Tensorflow、Cafe和Torch模型

公司的第一个AI芯片(原型)预计会在2017年圣诞节前推出,到2018年2月份应用程序准备就绪,并能够在该芯片上实现耗能不超过5瓦进行15万亿次浮点运算。

公司的第二个芯片,计划在2018年中期面世,耗能将不超过1瓦。


UniOne
云知声是一家专注物联网人工智能服务,拥有完全自主知识产权、世界顶尖智能语音识别技术的高新技术企业。

2017年8月17日对外宣布获得3亿人民币战略投资,主要将在三个方面持续发力,其中包括加大人工智能专用芯片UniOne的研发力度,进一步完善以“云端芯”为核心的产品开发和商业落地。

星光智能一号
2016年6月20日,中星微推出嵌入式神经网络处理单元(NPU)芯片,具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,较高能达到98%的准确率,超过人眼的识别率。该NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例。

“星光智能一号”目前主要针对安防摄像领域,未来将主要向车载摄像头、无人机航拍、机器人和工业摄像机方面进行推广和应用。

西井科技(Westwell Lab)是一间专注研究Neuromorphic Engineering神经形态工程的类脑强人工智能商业公司。westwell lab致力构造一种完全跳脱于冯诺依曼结构的神经形态的芯片结构——即模拟人脑神经元工作原理而制造出的芯片,它既具备人脑的学习能力,又具备强大的特定运算能力,仅需一块邮票大小的芯片,就能模仿人类大脑在短时间内处理海量的感官信息。

公司产品是用FPGA模拟神经元以实现SNN的工作方式。

DeepSouth(深南)
仿生类脑神经元芯片
第三代脉冲神经网络芯片SNN,基于STDP(Spike-Time-Dependent Plasticity)的算法构建完整的突触神经网络,由电路模拟真实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的“神经元”,功耗为传统芯片在同一任务下的几十分之一到几百分之一。

DeepWell(深井)
深度学习类脑神经元芯片
处理模式识别问题的通用智能芯片,基于在线伪逆矩阵求解算法(OPIUM lite)对芯片中神经元间的连接权重进行学习和调整;拥12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;学习与识别速度远远高于运行在通用硬件(如CPU,GPU)上的传统方法(如CNN),且功耗更低。

更多信息:
百度联合XILINX推出的XPU,是一款256核、基于FPGA的云计算加速芯片。

启英泰伦(ChipIntelli)提供基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元。

人人智能(FaceOS)发布了脸识别硬件模组,集成了人工智能操作系统FaceOS。

云天励飞(IntelliFusion)专注于人工智能领域,以新型处理器、机器学习与大数据技术为核心。公司自主研发的处理器芯片IPU,采用了全新的面向视觉计算的处理器芯片架构。

珊口智能科技(SanKoBoT)是一家初创AI公司,专注于计算机视觉技术在机器人领域的应用。

三、海外AI芯片和算法公司

APU:Accelerated Processing Unit,中文名:加速处理单元

APU是有史以来第一个异构系统架构(HSA)的服务器处理单元芯片,将中央处理单元(CPU)和图形加速器单元(GPU)集成进单一芯片上,提高组件间数据传输的速率,同时降低功耗。在收购ATI后,AMD宣布启动一项名为“The Future is Fusion”的计划。此后,AMD推出了7代APU产品,第八代、第九代正在研发中。

第一代:当时叫FUSION。2011年1月推出针对功耗设备Brazos平台中的Ontario,8月推出用于高性能设备的Llano,分别采用台积电的40nm和格芯的32nm SOI工艺。

第二代:工艺和第一代一样。2012年10月用于低功耗设备的Brazos-2和高性能设备的Trinity。

第三代:采用28nm工艺。2013年5月推出用于低功耗设备的Kabini、Temash和高性能设备的Richland。

第四代:采用28nm工艺。2014年1月发布用于高性能设备的Kaveri。

第五代:采用28nm工艺。2014年5月推出用于低功耗设备的Beema。

第六代:采用28nm工艺。2015年6月推出Carrizo-L和Carrizo,基于AMD“挖掘机”核心和第三代次世代图形核心(GCN)架构设计,提供多达12个计算核心(4个CPU + 8个GPU)。 

第七代:采用28nm工艺,全面使用高密度库技术,降低功耗。2017年推出用于低功耗设备的Stoney Ridge和高性能设备的Bristol Ridge。

第八代:正式发布的时间目前定于2018年夏季。Pinnacle Ridge与Raven Ridge APU都采用12nm制程工艺。

第九代:正式发布的时间目前定于2019年夏季,分别以画家亨利·马蒂斯和毕加索命名为Matisse和Picasso。

DynamIQ
2017年ARM刚推出全新芯片架构DynamIQ,通过这项技术,AI的性能有望在未来三到五年内提升50倍。

ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为AI算法设计的处理器。芯片厂商将可以为新处理器配置最多8个核心。同时为了能让主流AI在自己的处理器上更好地运行,ARM还将放出一系列软件库。

DynamIQ是在ARM上一代革新架构big.LITTLE基础上的一次演进,这种架构能够对同一运算设备中的大小两个核进行适当配置,以减少电池消耗。目前big.LITTLE架构已经被应用到了几乎所有智能手机的芯片上,包括用于安卓系统的高通骁龙处理器以及苹果一代的A10芯片。

早在2006年,Google就考虑为神经网络构建一个专用集成电路(ASIC),但ASIC的开发周期长。2014年斥资4亿美元收购人工智能初创企业DeepMind。


DeepMind就使用其定制的芯片TPU训练围棋AlphaGo。这个不多说了。

TPU:Tensor Processing Unit,中文名:张量处理单元
TPU是Google公司为了更好的用TensorFlow来实现机器学习功能而特意优化了ASIC,降低了计算精度以减少完成每个操作所需要的晶体管数量。从设计到验证、构建和部署到数据中心里,只有15个月。

第一代TPU于2016年Google I/O大会发布,采用28nm工艺,裸处面积小于331平方毫米。
TPU冲模平面图
黄色代表运算单元,占30%;蓝色是数据单元占37%;绿色是I/O,占10%;红色是控制逻辑单元,只占2%,给片上存储器和运算单元留下了更大的空间

第二代TPU于2017年5月的开发者I/O大会上正式公布,又称 Cloud TPU。
相比于第一代TPU,第二代TPU 既可以用于训练(training)神经网络,又可以用于推理(inference)。

IPU:Image Processing Unit,中文名:图像处理单元

IPU是谷歌为其PIXEL2手机打造的专用处理器,是谷歌继服务器用TPU后推出的第二颗芯片。

谷歌IPU拥有八个核心,其定位是加速HDR+,运算速度较高达3TOPS。

IPU:Intelligence Processing Unit,中文名:智能处理单元
英国初创公司Graphcore于2017年推出的AI芯片,采用同构多核架构,超过1000个独立处理器;可同时支持训练和推理。应用范围包括无人驾驶卡车、云计算、处理机器学习技术。


TrueNorth

2014年IBM推出仿人脑芯片:TrueNorth。TrueNorth是IBM参与DARPA的研究项目SyNapse的成果。

TrueNorth只有邮票大小,重量只有几克,但却集成了54亿个硅晶体管,内置了4096个内核,100万个“神经元”、2.56亿个“突触”,能力相当于一台超级计算机,功耗却只有 65 毫瓦。

TrueNorth芯片结构、功能、物理形态图

Watson
2011年IBM推出的Watson一直人工智能的代名词。

Watson系统具有几大能力:Understanding(理解)、Reasoning(推理)、Learning(学习)、精细的个性化分析能力。


再往前看,还有1997年5月战胜国际象棋大师卡斯帕罗夫超级电脑“深蓝”。


WPU:Wearable Processing Unit,中文名:可穿戴式处理单元

印度Ineda Systemswcng在2014年推出Dhanush系列可穿戴芯片,专门针对IoT市场。Dhanush系列实现了一个独特的、可扩展的计算架构称为HCA(分层计算架构)。开发人员可以使用HCA硬件和软件框架,以最优的性能功耗比以及合理的内存占用来运行应用程序和任务。HCA是一个分层的多处理器架构,能共享外设和本地存储器,因此,多个处理器能独立运行,并给用户创造一个统一的应用体验。HCA和一个模块化的SoC设计相结合,可以提供优异的功耗优化能力。目前情况不明。


作为PC时代的霸主,Intel已经错过了移动互联网时代,在已经到来的AI时代,公司积极布局,投入巨资连续收购Altera、Mobileye、Movidius、Nervana、Saffron等公司。


2017年3月13日英特尔正式宣布以每股63.54美元现金收购,股权价值约153亿美元。

Mobileye是以色列一家生产协助驾驶员在驾驶过程中保障乘客安全和减少交通事故的视觉系统的公司。已投身研发12年并收获了前所未有的技术知识。公司在单目视觉高级驾驶辅助系统(ADAS) 的开发方面走在世界前列,提供芯片搭载系统和计算机视觉算法运行DAS客户端功能,例如车道偏离警告(LDW)、基于雷达视觉融合的车辆探测、前部碰撞警告(FCW)、车距监测(HMW)、行人探测、智能前灯控制(IHC)、交通标志识别(TSR)、仅视觉自适应巡航控制(ACC) 等。

Mobileye的产品系列是EyeQ,2004年开始研发,2007年开始整合到全新车辆模型中。EyeQ1至EyeQ4都是采用FD-SOI工艺,晶圆代工伙伴是意法半导体(STM)。

2007年3月发布EyeQ1;运算速度只有每秒44万次;
2008年5月发布EyeQ2;运算速度只有每秒260万次;
2013年5月发布EyeQ3;运算速度只有每秒2560万次,使用在特斯拉Tesla无人驾驶汽车上;
2015年3月发布EyeQ4,运算速度只有每秒2.5万亿次。该芯片建立在多核架构的基础上,用于在ADAS中(即预测防撞系统)进行计算机视觉处理;采用了28nm SOI工艺,其中用了4个MIPS的大CPU core做主控和算法调度以及一个MIPS的小CPU core做外设控制,集成了6个向量处理单元(VMPU,Vector Microcode Processor Unit)来做数据运算;将于2018年量产;


2016年5月公司对外发布EyeQ5,公司表示EyeQ5集成18个视觉处理器,并且为了达到自动驾驶的level 5增加了硬件安全模块。据悉EyeQ5将采用FinFET工艺,预计样片奖在2018年发布(公司虽然是联合意法半导体做的发布,但是EyeQ5交由意法半导体代工有点悬)。


VPU:Vision Processing Unit,中文名:视觉处理单
Myriad VPU是Movidius推出的专注于视觉处理的芯片,英特尔在2016年将其收入囊中。Movidius开发的Myriad系列VPU专门为计算机视觉进行优化,可以用于3D扫描建模、室内导航、360°全景视频等更前沿的计算机视觉用途。

从无人机到手机,再到虚拟现实,这些都需要成本低、功耗低的计算机视觉技术。早在2014年,Movidius推出的首颗芯片Myriad 1就应用到了谷歌的第一代Project Tango平板中。

2014年推出Myriad2,采用TSMC 28nm工艺,集成了12个向量处理器 SHAVE (Streaming Hybrid Architecture Vector Engine)。SHAVE 是一种混合型流处理器,集成了GPU、DSP和RISC 的优点,支持 8/16/32位定点和16/32位浮点计算,而且硬件上支持稀疏数据结构。此外,Myriad2 中有两个RISC核以及video硬件加速器。据称,Myriad2可以同时处理多个视频流。

2017年8月28日,Myriad X推出,其强大之处在于 Movidius 引入了被称之为神经计算引擎(Neural Compute Engine)的新结构,这是一种片上 DNN 加速器。采用TSMC 16nm FFC工艺。



2016年8月,英特尔为了加强其人工智能领域的能力,以4亿美元的天价收购了机器学习初创公司Nervana。该初创公司成立仅仅两年,却被公认为是机器学习技术开发的领导者。主打产品是基于Python open source的Neon DL framework。他们使用的Coppersmith–Winograd algorithm号称是理论上最快的矩阵操作算法。
Saffron的技术旨在通过模仿人类大脑工作方式的算法来从庞大的数据集里提取有用的信息。但和其他不同的是,该公司专注于研发自家的“联想记忆”技术。2015年10月被英特尔收购。

HPU:Holographics Processing Unit,中文名:全息图像处理单元

2016年微软在Hot Chips会上公布专为自家HoloLens MR头盔开发的芯片,负责处理所有板上传感器传送过来的信息,包括微软的定制飞行时间法(time-of-flight)深度传感器、头部追踪摄像头、惯性测量单元(IMU)、红外摄像头。HPU 使得 HoloLens 成为全球较早的以及一个独立的全息计算机。

第一代HPU采用台积电28nm HPC工艺,使用了24个Tensilica DSP并进行了定制化扩展。HPU 支持5 路 cameras、1 路深度传感器(Depth sensor)和1 路动作传感器(Motion Sensor)。每秒可以处理1万亿条操作指令,同时集成8MB SRAM缓存以及1GB DDR3 RAM。它采用BGA封装,封装面积仅为12x12mm。

第二代HPU在CV/PR 2017上宣布,HPU2将包含一个AI协处理器,以自然、灵活地实现DNN。该芯片支持大量层类型,完全可编程。HPU2将人工智慧技术与类神经网络运算结合,借此让下一款扩增实境装置可更即时、快速分析使用者(或前方摄影机)所看见图像内容,或是判断声音内容,甚至直接在装置端完成相关分析运算,让使用者能感受更流畅、稳定的扩增实境图像,同时让手势、语音识别判断反应效率更高。


GPU:Graphics Processing Unit,中文名:图形处理单元

nVIDIA的GPU已经成为云端服务器不可或缺的一部分,称其为领跑者毫不为过。据悉全球AI初创公司大部分都采用了Nvidia提供的硬件平台。
关于nVIDIA的情况和产品,这里就不多说了。

BlueBox

2016年5月,NXP在恩智浦技术论坛(NXP Technology Forum,NXP TFT)上发布了一款名为BlueBox的计算平台,主要用于帮助OEM主机厂生产、测试无人驾驶汽车。BlueBox装备了一枚NXP S32V汽车视觉处理器和一枚LS2088A内嵌式计算机处理器。
S32V芯片包含有不同的图形处理引擎,特制的高性能图形处理加速器,高性能ARM内核,高级APEX图形处理和传感器融合。提示:APEX图形处理是收购飞思卡尔从而获得CogniVue的技术。
图片来源:NXP

LS2088A负责进行高性能运算,内嵌式处理器是由8个64位ARM Cortex-A72内核组成,配合频率2GHz的特制加速器、高性能通信接口和DDR4内存控制器,延时极低。
BlueBox将推动Level 4水平的无人驾驶汽车2020年投放市场。

图片来源:NXP


HTM算法

Numenta致力于推动Hierarchical Temporal Memory(HTM)新一代人工智能算法。HTM算法旨在模拟新大脑皮层的工作原理,将复杂的问题转化为模式匹配与预测。正如它的名字HTM一样,该算法与普通的神经网络算法有诸多的不同之处。HTM强调对“神经元”进行分层级,强调信息模式的空间特性与时间特性。目前Numenta公司已经推出基于HTM算法的python平台和可进行视觉识别的软件工具箱。


DPU:Dataflow Processing Unit,中文名:数据流处理器

Wave Computing公司致力深度学习加速处理器研发。2017年在Hot Chips大会上公司介绍了应用于数据中心的DPU。

DPU具有16,000个处理元件、8,000个以上的运算单元以及独特的自定时机制,使用粗粒可重组式架构(coarse grained reconfigurable architecture),运行频率为6.7GHz,在没有资料通过时,DPU会进入休眠状态。 DPU可以看作是FPGA与多核处理器的混合体,能处理数千个元件的静态资料流图排程。

 
DPU内集成1024个cluster。每个Cluster对应一个独立的全定制版图,每个Cluster内包含8个算术单元和16个PE。其中,PE用异步逻辑设计实现,没有时钟信号,由数据流驱动,这就是其称为Dataflow Processor的缘由。

使用台积电16nm FinFET工艺,DPU die面积大概400mm2,内部单口SRAM至少24MB,功耗约为200W,等效频率可达10GHz,性能可达181TOPS。


更多信息:
ALCES专注人工智能视觉算法。在手机摄像头的微小尺寸上实现高清超动态的3D图像感知,大大提高智能机器对环境的感知水平。

Deep Instinct在病毒软件市场尝试使用深度学习。

Deep Vision专注人工智能视觉算法。将人工智能算法和低功耗芯片技术相结合,开发了技术指标先进的低功耗人工智能芯片,提高智能设备的视觉识别能力。

Kneron提供神经网络处理器NPU及解决方案。Kneron可以提供终端的NPU,并组建软件、硬件、云服务和端协同的整套NPU解决方案。NPU采用28纳米工艺。

KnuEdge是一家以开发神经网络芯片为目标的公司,在2015年向第一个客户交付了首款芯片。Knupath的第二代产品“Hermosa”,将会在2017年下半年推出,这是一款完全内部设计和组装的定制DSP,以及新的“Lambda”模块,既可以连接多个Hermosa芯片,也有潜力被多个系统的机架(Racks)采用。

TeraDeep提供基于传统的ARM和其它移动处理器平台上的深度学习算法,可以嵌入移动设备的深度学习模块。

当然也还有QUALCOMM、XILINX、HRL等相关公司。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-11-24 17:18 , Processed in 0.234637 second(s), 26 queries .