揭秘支付宝中的深度学习引擎:xNN


 

本文先容付出宝App中的深度进修引擎——xNN。xNN经由过程模子和盘算框架两个方面的优化,办理了深度进修在挪动端落地的一系列成绩。xNN的模子紧缩对象 (xqueeze) 在营业模子上实现了近50倍的紧缩比, 使得在包估算极其无限的挪动App中大范围安排深度进修算法成为能够。xNN的盘算机能颠末算法和指令两个层面的深度优化,极大地低落了挪动端DL的机型门坎。

深度进修——云端照样挪动端?

迩来,深度进修(DL)在图象辨认、语音辨认、自然语言处置等诸多范畴都取患了突破性停顿。DL平日给人以盘算繁杂、模子庞大的印象——从Siri语音助手到各类谈天机器人、再到付出宝“扫五福”,挪动端网络数据+云端加工处置彷佛成为一种知识。然而对许多利用来讲,这类形式实在只是无奈之选。

去年春节的“扫五福”运动中,为了辨认手写“福”字,付出宝多媒体团队调动了近千台服务器用于安排图象辨认模子。然则如斯范围的集群也没能抵盖住天下国民集五福的万丈热忱。为了避免云端盘算才能超载,运动中后期不能不启动了升级预案——用盘算量小但精度也较低的传统视觉算法代替了DL模子。升级固然不妨害大伙继承热火朝寰宇网络福卡,但对用户体验无疑是有一定影响的,好比一些不可言说的汉字也被误判成为了“福”字。

另一方面,DL在云端则意味着数据必需上传。纵然不考虑盘算压力,从网络延时、流量、隐私保护等角度也给用户体验带来各种限定。是以,对相称多的利用来讲,DL模子前移到挪动端安排能够看做是一种刚需。

两大挑衅

迩来,跟着手机处置器机能的晋升和模子轻量化技巧的成长,挪动端DL正在变得愈来愈可行,并得到了普遍的存眷。苹果和google曾经分离发布了各自操作系统上的DL框架Core ML和Tensorflow Lite,这无疑将极大地增进挪动端DL的成长。然则,特别对付付出宝如许的公民App来讲,仍旧存在一些严格的挑衅是无奈经由过程间接套用厂商计划来办理的。

机型跨度大:付出宝App领有数亿受众群体,在其中落地的营业必需对尽量多的用户、尽量多的机型供给优质的体验。对付出宝来讲,参考Core ML只将功效凋谢给多数高端机型的做法是不合适的。是以不管在运转速率和内存占用等机能目标、照样在兼容性上,付出宝的挪动端DL都必需做到极致,才能最大幅度地低落应用门坎。

包尺寸请求严:付出宝App集成为了众多的营业功效,装置包资本异常重要,一个新模子要集成进装置包每每意味着必要下线其他的功效。而纵然经由过程静态下发的情势停止安排,DL模子的巨细也会激烈影响用户的体验。跟着挪动端智能化水平的赓续晋升,间接在端上运转的DL利用必然会愈来愈多,这以以后单个模子巨细就动辄数十、数百M的尺寸来看险些是不可想象的。同时,挪动端DL引擎自己的SDK也必要尽量地瘦身。

五大目的

付出宝xNN是针对公民App情况定制开辟的挪动端DL办理计划,名目制定了以下技巧目的。
1. 轻模子:经由过程高效的模子紧缩算法,在包管算法精度的前提下大幅减小模子尺寸。
2. 小引擎:挪动端SDK的深度扩充。
3. 疾速:联合指令层和算法层的优化,综合晋升DL盘算的效力。
4. 通用:为包管最大的机型覆盖率,以最为通用的CPU而非机能更微弱的GPU作为重点优化平台。不只支撑经典的CNN、DNN网络,也支撑RNN、LSTM等网络状态。
5. 易用:对象链对营业坚持高度友爱——使得算法工程师们能更好地专一于算法自己,在不必要成为模子紧缩专家和挪动端开辟专家的情况下都能疾速实现云端模子到挪动端模子的转换和安排。

主要特性一览

xNN为DL模型提供了从压缩到部署、再到运行时的统计监控这一全生命周期的解决方案。xNN环境由开发后台和部署前台两部分组成。

开发后台以xqueeze工具链为核心,支持多种训练框架。业务可以使用xqueeze压缩、优化自己的DL模型,得到尺寸大幅减小、运行速度显著加快的模型版本。压缩后的模型根据使用场景,可以通过App安装包内置或按需下发的形式部署到移动端。

在部署前台,xNN的计算框架提供高效的前向预测能力。xNN的应用层在计算的基础上还提供了模型下发、数据统计、错误上报等一站式能力。xNN还通过一个jsapi提供了直接对接H5应用的能力——通过DL模型的动态下发和H5,能够实现完全的动态化,从而在客户端不发版的情况下完成算法+逻辑的同时更新。

图片描述

上图给出了xNN的主要特性。在xqueeze模型压缩的基础上,xNN还支持通过快速处理稀疏网络来提高性能。xNN支持了丰富的网络结构类型,包括经典CNN/DNN、SSD目标检测和LSTM。xNN的部署框架原生兼容Caffe,业务可以在不做转换的情况下直接在移动端运行已有的Caffe模型,以快速评估效果。而经过压缩的私有格式模型更小、更快。在Tensorflow和Keras平台上训练的模型也能够在原有的环境上进行压缩,然后转换为xNN支持的格式部署到移动端。不同于core ML,xNN理论上支持安卓和iOS上的所有机型。

xqueeze模型压缩

xNN-xqueeze的模型压缩流程如下图之(a)所示,包括神经元剪枝 (neuron pruning)、突触剪枝 (synapse pruning)、量化 (quantization)、网络结构变换 (network transform)、自适应Huffman编码 (adaptive Huffman)、共5个步骤。其中前三步理论上是有损的,而使用xqueeze对网络权重和压缩超参进行finetune,能够将精度的下降保持在可控甚至可忽略的程度。后两步则完全不影响网络的输出精度。整个流程不仅会减小模型的尺寸,还通过网络的稀疏化和结构优化,显著提高前向预测的速度。

在领域的经典方案DeepCompression的基础上,xqueeze 进一步扩充了neuronpruning和network transform的能力。其中,neuron pruning能够逐次裁剪掉“不重要”的神经元和与之对应的权重参数。通过neuron pruning和synapse pruning的结合,在模型精度和压缩比之间达成更好的平衡。xqueeze还具有network transform——在网络的宏观层面进行优化的能力,networktransform脚本扫描整个网络,诊断出可优化的点,包括在有条件的情况下自动地进行层 (layer) 的组合与等效替换。此外,xqueeze通过自适应地使用Huffman编码,有效提升不同稀疏程度的模型之压缩比。

如下图所示,对于业务分类模型,使用xqueeze工具链能够实现45.5倍的压缩,在同等程度的精度损失下,压缩率超越经典方案达60%。

xNN计算性能优化

xNN的性能优化不局限于底层,而是通过与xqueeze工具链的配合,在算法和指令两个层面同步发力,为更为深入的优化创造空间。

如下图所示,在算法层,xqueeze的剪枝在压缩模型尺寸的同时,也促进了网络的稀疏化——即催生出大量的零值权重。相应地,xNN在指令层实现了稀疏运算模块,在卷积和全连接计算中,自动忽略这些零值权重,减小计算开销,提升速度。又如之前已经提到的,在xqueeze的network transform阶段,会对网络进行宏观层面的优化,包括将相邻的层进行结果上等效的组合与替换,来减少计算的冗余度和提高访问存储器的效率。要充分发挥network transform的效能,也离不开指令层实现的支持。

在指令层,xNN通过智能调配各个内核的负载,提升多线程环境下的性能。xNN在设计中不仅关注计算资源,还充分考虑了访问存储器的开销,通过精细化地调度数据的读写来提升cache的命中率。最为重要的是,所有核心计算模块均由某位芯片行业出身的指令集架构专家一条一条汇编代码手写而成。

在以SqueezeNet为基础的业务分类模型上,xNN在Qualcomm 820 CPU上能够输出29.4 FPS的前向预测帧率,在苹果A10 CPU (iPhone 7)上的帧率则达到52.6 FPS,比CPU与GPU并用的Core ML还要更快。

业务落地

支付宝App已经集成了xNN。在支付宝的“AR扫一扫”入口,90%以上的Android和iOS机型都在使用xNN来完成前置物品分类,向用户推荐“AR扫花识花”等便利功能。xNN本身的健壮性也经受住了“七夕送你一朵花”这样高强度、广机型覆盖的大型运营活动的考验。该模型的最新版本在确保精度的前提下,尺寸已压缩到100KB以下。Android平台上,全功能xNN的SDK包增量仅200KB出头,若根据特定应用做裁剪,将能够轻松减小到100多KB。

xNN上线后,已在蚂蚁和阿里内部引起了强烈反响,一大波移动端DL应用正在基于xNN紧张开发中,并在未来的几个月中逐步提供给用户使用。

声明:大家学-卢卫湘|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 揭秘支付宝中的深度学习引擎:xNN


加vx: beyonds 备注:app上架 lwxshow