PPV课数据科学社区DeepRack深度学习一体机要逆天了？

深度学习(Deep Learning)在这两年风靡全球，大数据和高性能计算平台的推动作用功不可没，绝对算得上是深度学习的“燃料”和“引擎”，而GPU(图形处理器)则是引擎中的引擎，基本所有的深度学习计算平台都采用GPU加速，其出色的浮点计算性能特别提高了深度学习两大关键活动：分类和卷积的性能，同时又达到了所需的精准度。

采用GPU加速与只采用CPU训练CNN(卷积神经网络)的性能比较

　　以ImageNet竞赛为例，基于GPU加速的深度学习算法，百度、微软和Google的计算机视觉系统在ImageNet图像分类和识别测试中分别达到了5.98%(2015年1月数据)、4.94%(2015年2月数据)、4.8%(2015年2月数据)的错误率，接近或超过了人类识别水平。

　　深度学习为什么会选中GPU呢?与CPU擅长逻辑控制和通用类型数据运算不同，GPU采用了数量众多的计算单元和超长的流水线，但只有非常简单的控制逻辑并省去了Cache，面对的是类型高度统一、相互无依赖的大规模数据和不需要被打断的纯净的计算环境，擅长大规模并发计算。相比之下，CPU的计算能力只是GPU很小的一部分。

　　CPU与GPU的结构对比图

　　因此，与单纯使用 CPU 的做法相比，GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量，在同样的深度学习程序中，应用单个GPU的执行速度比单纯使用 CPU快上10倍。按照这样的比率，云创大数据刚发布的DeepRack深度学习一体机，在4个节点满配时，相当于160台选用英特尔E5-2600系列至强处理器的服务器，可提供最大每秒128万亿次的单精度计算能力，计算性能完全逆天。

　　DeepRack深度学习一体机全景图

　　具体而言，DeepRack深度学习一体机可配置4个4U高性能节点，每个计算节点可插入4块英伟达GPU卡，在 CPU为Dual E5-2620 V3、GPU为Titan X的硬件配置之下，单个GPU执行速度比单纯使用 CPU快上10倍，那么每个节点的执行速度就是单纯使用 CPU的 40倍，整个机柜包括4个这样的计算节点，也就是160倍，满配时的DeepRack深度学习一体机相当于160台单纯使用 CPU的服务器。

　　DeepRack深度学习一体机计算节点内部图

　　除了强悍的硬件支撑，DeepRack深度学习一体机同时预装CentOS操作系统，集成了两套世界一流的开源工具软件——Google的TensorFlow以及加州大学伯克利分校的Caffe，可以帮助学习诸如图像识别、语音识别和语言翻译等任务。与此同时，DeepRack还提供MNIST、CIFAR-10、ImageNet等图像数据集以及一百万张车牌的图片数据，可满足实验与模型塑造过程中的训练数据需求。

　　对于深度学习开发者而言，还需要面对软件系统的部署和调试、复杂的算法、频繁的参数调节等多重难题。对此，在DeepRack深度学习一体机之外，云创大数据将提供免费周到的培训，使用户根据操作手册即可快速搭建属于自己的深度学习应用，享受从部署到使用提供完整的服务体系，帮助用户带出一个能够切实应用深度学习的团队。