百度开发超级计算机 用于深度学习算法研究
1 月 16 日,百度表示,正在开发全球最准确的计算机视觉系统 Deep Image。这一系统运行在针对深度学习算法优化的超级计算机之上。
百度称,在 Imange Net 对象识别评分中,这一系统的错误率仅为 5.98%。而 2014 年,来自谷歌的一个团队凭借 6.66% 的错误率获得了冠军。在试验中,对于 Image Net 给出的数据集,人眼识别的错误率为 5.1%。
Deep Image 的主要优势在于其超级计算机 Minwa。百度开发这一超级计算机的主要目的就是为了容纳 Deep Image 系统。过去几年,关注深度学习的研究者利用 GPU(图形处理单元)去处理重度计算任务。实际上,Deep Image 的论文援引的一项研究显示,在著名的谷歌 Brain 项目中,3 台机器中 12 颗 GPU 带来的性能就达到了包含 1000 个节点的 CPU 簇的水平。百度首席科学家吴恩达此前从事了谷歌 Brain 项目。
不过到目前为止,还没有公司开发出类似 Deep Image 的专用系统,利用深度学习算法去完成计算机视觉的相关工作。以下是论文中给出的配置信息:
这一系统包含 36 个服务器节点,每一服务器节点配备了 2 颗六核英特尔至强 E5-2620 处理器。每个服务器包含 4 颗英伟达 Tesla K40m GPU,以及 1 个 FDR InfiniBand(速度为 56GB/S)。这带来了高性能、低延时的连接,以及对 RDMA 的支持。每一颗 GPU 的最高浮点运算性能为每秒 4.29 万亿次浮点运算,而每一颗 GPU 也配备了 12GB 的内存。
整体来看,Minwa 内置了 6.9TB 的主内存、1.7TB 的设备内存,而理论上的最高性能约为 0.6 千万亿次浮点运算。
百度开发 Minwa 是为了解决与 Deep Image 算法相关的问题。“考虑到随机梯度优化算法的特性,设备互联需要极高的带宽和超低的延时,从而最小化通信开销。对于这类算法的分布式版本来说,这是必要的。”论文作者表示。
凭借如此强大的系统,研究人员可以使用与其他深度学习项目不同,或者说更好的训练数据。因此,百度没有使用常见的 256x256 像素图片,而是使用了 512x512 像素图片,并且可以给这些图片添加各种特效,例如色彩调整、增加光晕,以及透镜扭曲等。这样做的目的是使系统学习更多尺寸更小的对象,并在各种环境下识别 对象。
百度正在大力投资,研究深度学习算法。在 Deep Image 之前,百度还开发了语音识别系统 Deep Speech。这一产品已于去年 12 月公开发布。百度高管曾表示,该公司已经看见,语音和图片搜索的比例正越来越高,而未来还将继续上升。如果百度的产品能更好地处理现实世界数据,那么就能 带来更好的用户体验。
百度并不是唯一一家从事此类研究的公司。在互联网市场,有多家公司正在投资研发深度学习算法,并且已取得了不错的成果。到目前为止,谷歌仍在 ImageNet 的实际竞赛中保持最高纪录。该公司也在大力开发深度学习算法,而本周还发布了可能利用了这一技术的新版谷歌翻译服务。微软和 非死book 也拥有知名的深度学习算法研究员,并正在这一先进研究领域继续努力。
雅虎、推ter 和 Dropbox 等公司也拥有自己的深度学习和计算机视觉团队。