网易云信 IM 推送保障及网络优化实践
sai1019
8年前
<p>今天,我想和大家分享的是云信在保障 IM 推送和移动网络优化方面的一些实践经验。</p> <p>对于移动 App 来说,除了简单的工具类 App 外,IM 功能可谓非常重要,它能够创建起人与人之间的连接。社交类产品中,用户与用户之间的沟通可以产生出更好的用户粘性。电商类产品,用户与商家的连接能极大的促进沟通效率,降低沟通成本。教育类产品,学生与老师的连接让在线教育犹如课堂。医疗类 App,医生与患者的沟通让医生把脉更加准确。</p> <p>IM 应用如此之广泛,那么,IM 是什么,有些什么要求呢?IM 由两个字组成:Instant,Messaging。即时性要求有新消息时能够立即收到,如果程序在后台,则要能立即收到推送通知。而通信则要求稳定可靠,系统不宕机,程序不崩溃,安全,传递消息时不会被拦截监听,消息不丢,顺序不乱,不重复,如果包含音视频聊天,则要求延迟低,流畅不卡顿。这两点说起来容易,但是,要真正做出一套稳定可靠的商用级IM系统,挑战非常之多。下面,我会挑选影响 IM 即时性和消息稳定性最核心的两个问题,来看看都有哪些障碍,以及云信是如何去实践克服这些障碍的。</p> <p>首先第一个问题是消息推送,在 iOS 端有 APNS 做推送,相当稳定。Android 本身也有 GCM 可以用,但是在国内,我们有一个叫作“墙”的东西,直接就把 GCM 等 Google 服务全部挡在外面了,导致国内根本无法运用。对于 IM,当 App 退到后台,是必须还能够收到新消息提醒的,没有 GCM,怎么办?唯一能做的,就是后台运行了。Android 从设计上,就是支持真后台运行的,后台运行的特性也是 Android 现在能如此成功的原因之一。但另一面,Android 长久以来一直摆脱不了的卡顿、耗电等坏名声,后台运行也拖不了干系。因此,系统对于后台运行也不会放任自流。App 想要在后台运行,需要面对不少的障碍。</p> <p>第一个障碍是 Android 的 Low Memory Killer 机制。手机的内存毕竟是有限的,当后台运行的进程越来越多,内存剩余量也就随之减少。当有一个新的 App 想要启动,如果此时内存不够了,LMK 机制就会启动,从正在运行的进程中挑选一个清理掉,释放出空间,然后新的 App 就可以云信了。这个挑选过程显然不会随机拼人品,LMK 有两个尺度去评判。一个是进程优先级,优先级越低,被清理的可能性越大,另一个是内存占用,占的内存越多,被清理的权重自然也越大。</p> <p>因为 LMK 机制的存在,虽然 App 允许在后台运行,但同样也面临随时被清理的风险。因此,我们需要在被清理后及时的重新启动。常规的,有 4 种方式能够做到:</p> <ol> <li>sticky service,就是在 Service 的 onStartCommand 中返回 sticky flag,这样当 service 被 kill 掉后,系统会将它加入重启的 pending 列表,在后面合适的时机再把 service 重启;</li> <li>alarm,闹钟,有循环闹钟和一次性闹钟两种,在闹钟触发后启动对应的组件;</li> <li>在 Manifest 文件中静态注册的 Receiver,通过监听各种系统事件,比如开机、网络变化、mount/unmounts 等。在这些事件发生时启动组件,因为这种方式会造成在这些事件发生时系统容易卡顿,在7.0里面,Android增加了限制;</li> <li>JobScheduler,这是在 5.0 里面新增的,允许 App 在特定事件发生时做一些动作,比如充电、切换到 Wi-Fi 等。</li> </ol> <p style="text-align: center;"><img src="https://simg.open-open.com/show/ad709708a16de192dc45197be5b71910.jpg"></p> <p>虽说无论怎么做,App 终究免不了一死,但通过对照 LMK 的评判准则,我们还是可以降低 App 被清理的概率的。第一个就是降低进程的内存占用。如果采用单进程的模式,由于进程中包含了 UI、Webview、各种图片缓存等内容,内存必然会居高不下,降不下来。IM 软件一般都会采用双进程甚至多进程的策略,将 push 进程独立出来,在 push 进程里只处理网络连接和 push 业务,不参与任何其他业务逻辑,更不包含任何 UI。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/f2e064ebd83a6a99a0e94c0961c0344a.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/d8242b8daa207bfa706eef9edff147c0.jpg"></p> <p>我们来看一下云信 Demo 的进程内存占用情况。上面一个是主进程,看第四列 PSS 的数据,内存占用是 50M 左右,下面一个是 push 进程,内存占用只有 10M 左右。当处于后台时,push 进程被清理概率比 UI 主进程低很多。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/c0adf5af6c3a85ea5cbc92d4b2f18979.jpg"></p> <p>降低被清理概率的第二个手段是提升进程优先级。我们先看这个例子,这是绿色守护的一个截图,我们评价其他 App 的行为,也不打广告,所以这里对 icon 和名字做了模糊处理。看最上面,这一组是“暂不自动休眠”,因为这里列出的两个 App 的状态都是工作中,对应的进程优先级是“可视进程”。但这两个 App 并没有提供桌面小部门在运行,也没有指示前台服务的常驻通知栏提醒,事实上,它们就只是在后台运而已。通常进程退到后台后,其进程优先级类型就变成了较低的后台进程,而不是这样的“可视进程”,它们是通过什么方法来提升优先级,降低被清理概率的呢?</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/e4b6240b34e058374772c553a90b378d.jpg"></p> <p>Android 在设计前台服务上有一个漏洞,通过两个服务配合,我们就能创建一个隐形的前台服务。这里有两个已经启动的 service: A 和 B。先在 A 中调用 startForeground,提供一个 NOTIFY_ID, 然后 A 就变成前台服务了,同时有了一个 ID 为 NOTIFY_ID 的常驻通知栏提醒,然后我们在 B 中也调用 startForeground,提供相同的 NOTIFY_ID, B 也变成了前台服务,因为两个通知 ID 相同,因此这一次就不会创建新的通知栏提醒了。然后再在 A 中调用 stopForeground,A 的前台属性被取消,同时,常驻通知栏提醒也会被移除,但是,service B 并不会受到任何影响,还是前台服务,这是再把 A 停掉,进程就只剩下前台服务 B 了,进程也变成了前台进程,但用户不会有任何感知。</p> <p>正常来说,做了上面三步之后,我们的进程就能够比较稳定地在后台运行了。但是后来发现,在有些情况下,我们的推送进程却永远起不来。跟踪之后发现,除了系统能够杀掉后台运行的进程外,用户也一样是可以杀死进程的。用户杀掉进程的方式有两种,一种是在最近任务列表中将 App 划掉,这种方式和系统杀掉进程效果相同。另外一种就是通过这里的 force stop,这种方式比系统清理更加彻底。不但 App 正在运行的进程会被清理,App 当前在重启列表中的待重启服务,注册的各种闹钟、事件监听组件等都会被移除,除非用户在主动点击或者系统重启等外力,App 没法再自己重新爬起来了。</p> <p>我们后来还发现,在有些国内的像 MIUI 一类的 ROM 上,用户从最近任务列表中将 App 移除,效果竟然也是 force stop。正常来说,如果是用户主动操作,我们 App 本身也不应该再重启了。但有些时候这个并不是用户本意。况且,对于 IM 软件来说,消息提送是一定要得到保障的,否则不明正确的吃瓜群众们会觉得是我们软件不行,连消息推送都做不好。因此,这时候还是应该想办法继续维持后台运行。那么,又有哪些办法呢?</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/e793e4b0f9d74398bf7120401fd9e133.jpg"></p> <p>第一个是通过两次 fork 加上 exec 的方式。两个 fork 后,第一次 fork 的进程退出,第二次 fork 出来的进程就会被 init 进程领养。用户此时再 force stop,因为这个进程父进程是 init,而不是 Zygote,因此不会被清理。由于这个进程还是从 Android 进程 fork 出来的,带有 Android 运行时环境以及父进程的资源,所以内存会比较大。这里可以再通过 exec 命令,打开一个纯 Linux 的可执行文件,开启一个 daemon 进程,其内存占用大概只有100K+,对用户也就完全无感了。利用这个后台进程,可以定时地将 push 进程拉起来。此种方式只在 5.0 以下的系统中有效,在 4.4 及以上系统中,SELinux 特性是强制开启的,exec 没有权限执行,同时在 5.0 之后,ActivityManager 在做 force stop 以及移除任务时,只要是具有相同的 uid 的进程,就会全部清理掉,不再漏掉没有虚拟机环境的进程。</p> <p>最后一个后台保活的手段是一个大杀器,也是带有强烈的中国特色。因为前面所列的所有保活手段都不是那么保险,因此想出来这么一个互相保活的方式。当一个 App 进程起来后,它就去扫描已安装的应用列表,看看有没有自己的兄弟姐妹。比如说同一个长的 App,或者是集成了同一个 SDK 的 App,如果有,就把这些 App 都拉起来。这也就是现在比较出名的“全家桶”方案。虽说这种方法确实能够带来较高的后台存活率,特别是那些大厂和应用广泛的 SDK,但是这种方式对于用户的伤害也非常大,如果有后台推送的必要性,且不会对用户体验造成太大伤害时,此方式还可以使用,但如果只是为了推广告,则会对用户造成伤害,反过来,也可能会导致用户直接卸载 App。</p> <p>现在,因为“全家桶”实在是太令人讨厌,现在各种手机管理软件都会对这种唤醒方式做限制,特别是在 Root 过的机器上,可以做到完全切断这些唤醒路径。同时,很多 ROM 也会自带管理软件,限制后台运行和后台唤醒,以便给设备换取更长的续航。在目前国内的 Android 生态环境中,无论采用什么方式,想要一直在后台运行时越来越难了,我们需要重新想另外的办法来保障消息推送。另一方面,我们作为开发者,也有义务为用户提供更好体验的软件,而不是无休止的在后台浪费用户的资源。</p> <p>其实,对于 IM 来说,及时的消息推送和较低的电量消耗也并非不可兼得。在传统上,每个 IM 客户端都会各自维护一条与服务器的长连接,自己的消息和信令都在这条长连接上传递,每个 App 也独自去心跳,断线重连等事情。这种模式比较简单,不同的 App 也是完全隔离的,不会互相影响。但它的缺点也非常明显,首先是做了很多重复的事情,造成了流量和电量的无谓消耗,第二是要保证所有的进程都能在后台运行很难。优化的方向也就非常明显了,那就是共享连接,现在绝大部分推送 SDK 也是这么做的。</p> <p>从这些 App 里选出一个当前正在运行的,或者是被杀概率最低的 App 作为总代理,只由这个代理和服务器建立连接,一个手机上的所有其他 App 都通过这个代理中转与服务器通信。但是,IM有一个很基本的要求在这种模式下无法得到满足:安全。所有 App 的消息都经过代理中转,代理到服务器的连接是加密、安全的,但到了代理这里,消息都被解开了,因此代理理论上可以看到其他所有 App 的来往消息。因此,这种共享长连接的方式并不适用于 IM。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/28f0d73eab5b41f973466854b8bfb2be.jpg"></p> <p><em>长连接+推送</em></p> <p>虽然共享长连接方式不合适,但仍然给我们提供了一个优化的思路。在此基础上,我们想到了另外一个可以脱敏共享连接的方式:安全长连接加推送连接模式。每个 App 在使用和真正传递数据时,仍然独立使用自己的安全长连接。而当 App 退到后台一段时间之后,则断开长连接,然后每个 App 开启一个推送代理,并选择其中一个和云信的推送服务器建立连接,之后当 App 有新消息时,就通过这个推送连接传递。 App 可以自己控制发出的推送消息的安全级别,可以是包含说话人和消息内容,可以只包含说话人,或者只是一条简单的有新消息到达的提醒文案。推送到达后,如果是代理 App 自己的消息,直接传递给代理 App 即可。如果是其他 App 消息,前面说到过,直接唤醒可能会失败,而且会导致无谓的电量消耗,所以这里并不直接将提醒传递给目标 App ,而是由带来发出一条通知栏提醒。等用户去点击通知栏提醒后,才会把目标 App 唤醒。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/32c68cf94fab704ebb26b883a513e587.jpg"></p> <p><em>系统推送</em></p> <p>现在国内的ROM中,华为和小米的系统本来是带有推送系统,且开放给了第三方 App 的。在这两个系统上,使用系统的推送通道明显会更加稳定,也更加节省资源。因此在MIUI上,从长连接到推送通道的切换流程仍然和前面的一样,只是不再使用自己的推送连接,而是将消息转发到MIUI的推送服务器,然后转给MIUI系统的推送代理,然后传递给云信的 App 。华为的推送系统流程也是一样。不过现在华为和MIUI在推送实现上有一些区别,例如MIUI的通知栏提醒是在自己的推送代理里完成的,而华为却是将提醒通知交给 App 自己去完成的,另外,他们的通知栏提醒的管理接口也有很多区别。在 App 没有被禁用的情况下,两者都可以收到推送,而如果 App 已经被禁用了,MIUI的通知栏提醒方式还可以将推送送达,而其他的推送方式则不能送达了。</p> <p>以上就是在保障消息推送方面我们所能够做的所有事情了。如果以后有更多的系统开放自己的推送系统,我们也可以选择逐步接入,以提高推送到达即时性,减少资源消耗。不过相应的,我们也要承受不断加入各种系统的推送SDK,增大发布包体积的缺点。期望Android拥有统一推送平台的那一天早点到来吧。</p> <p>相对于PC的网络环境,我总结的手机网络有三个特点:</p> <ul> <li>第一个是 <strong>慢</strong> ,尤其是2G,3G网络,慢的令人发指。当我们收发图片视频这类比较大的文件时,就会看到蛋疼的菊花一圈一圈不停的转。</li> <li>第二个是 <strong>断</strong> ,手机跟着人不停的移动,网络也不停的在切换,从 Wi-Fi 到移动网络,从一个基站到另一个基站,从有信号到没信号,都可能导致网络中断。有些制式的网络,接打电话也会导致数据网络断开。另外,移动基站还有 NAT 超时,到一个连接上长时间空闲后,基站就会默默的将连接断开,没有任何通知。</li> <li>第三个是 <strong>贵</strong> ,这个就不用多说,看中国移动每天净赚一个亿就知道了。</li> </ul> <p>在云信整个通信系统中,我们有三种类型的连接:TCP,UDP,HTTP。虽说这三个并不是同一层的协议,不过毕竟都在我们的应用的更下层,因此这么划分也无妨。3种类型的协议对应了不同的业务应用。TCP主要是用户长连接,也就是普通IM消息和信令的传输,UDP用于传输实时音视频数据流,而HTTP则主要用在音频,图片等文件的上传下载上。对于不同的业务,我们的优化的关注点会有一些不相同。</p> <p>长连接是云信所有业务的基础,使用量也是最大的,因此优化也是从基础开始。 在这里我们举两个例子。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/0464391f84ab3fcb1cf99060b8027d86.jpg"></p> <p>第一个是协议的选择。前面说,长连接的使用量是最大,选择一个合适的协议至关重要。如果是刚开始接触IM开发,一般会选择一些开源的协议,比如XMPP,SIP等。这是XMPP协议的一个请求样例,可以看到是一段XML格式的文本数据。这是基于SIP的SIMPLE协议的一个请求样例,可以看到是一段类似HTTP协议的文本数据。这些协议的优势在于开源,有成熟的解决方案可以使用,扩展性好,甚至还可以和其他系统互联互通,协议的可读性也非常好。但是在普遍比较臃肿,冗余字段很多,在昂贵的移动网络里面用起来会让人觉肉疼。云信采用的是私有的二进制协议,这是一个请求的数据样例,这里是把二进制数据转为了16进制显示出来,每个字节这里显示为两个字符。可以看到二进制协议的特点在于完全失去了可读性,但是,却带来极高的表达效率,相对于文本协议,可以节省非常多的数据流量。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/a26623fc423a194e4a7b0af731e5af71.jpg"></p> <p>另一个例子是登录的优化。由于移动网络经常断开,所以登录常常是心跳之外交互最多的协议了。使用量越大,优化就越有意义。一般而言,登录会经过这么几步。</p> <p>第一步是LBS。这里的LBS不是经常说的基于地址位置的服务,在不同的厂商可能也有不同的叫法,反正作用都是获取服务器的IP地址。像云信这种需要提供全球服务的系统,在世界各地都要部署服务器,用户登录时,肯定要选择一台最优的服务器接入服务。通过lbs,客户端可以获取离自己最近,连通性最好的服务器连接机IP地址,服务器也可以据此做负载均衡。</p> <p>拿到服务器连接机IP后,客户端就去连接该服务器。</p> <p>连接成功,需要有一次握手。这个握手不是TCP的三次握手,而是为了建立安全连接,同服务器协商加密算法和加密密钥。</p> <p>然后就发送登录请求,这里会带上用户认证信息,本机设备信息等数据。</p> <p>登录成功之后,就是同步数据,包括离线消息,用户信息,群组信息等。一般而言,这里不会去做全量同步,而是采用基于时间戳的增量同步。</p> <p>在移动网络上,每一次交互都需要比较长的时间,同时,每一次网络请求电量消耗也是很大的。所以,优化的方向就是尽量减少交互次数,而方法则是合并请求,并行操作以及省略请求。</p> <p>LBS和连接这两个步骤是可以并行完成的。如果前面已经获取过LBS,这里可以有之前的缓存地址,如果没有,可以先连一个默认地址。</p> <p>其次是握手和登录也可以并行操作。在握手包中,就可以把加密后的登录包直接带上去了。如果是断线重连,我们还可以简化登录,直接带上上一次登录的会话ID,一来减少服务器鉴权压力,二则可以直接带回在断线期间是否有未读消息等数据,如果没有,则能直接将同步这一步省略掉。如果有,同步也可以只做部分同步,只去拉去离线消息即可。等到 App 切换到前台,才去同步其他的信息。</p> <p>通过这些优化,登录时间可以降为原来的1/2到1/3,登录的流量消耗也可以节省30%左右。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/93ee11e3c2e532ed34ef0b539c4923c5.jpg"></p> <p>实时音视频对实时性要求很高,但可以容忍一定的丢包,所以我们选择 UDP 私有协议来作为底层的传输协议。如果只是普通的IM消息,对网络情况其实不是太敏感,最多也就是慢一点,菊花转得久一点。但对于这种视频电话,如果网络差了,发生了经常性卡顿,或者是延迟很高,图像出现花屏,音视频不同步了,这个功能其实也就相当于废弃了。而且,音视频数据量本身也比较大,在弱网环境下发生问题的概率就更大了。</p> <p>UDP 协议是不可靠,为了提高弱网下的实时音视频的通话效果,需要使用相关方案来做 QoS 保障:主要包括了基于 UDP 协议的拥塞控制、前向纠错 FEC 技术及相关的重传技术。同时网络层需要能够实时的探测到网络状态,作为底层调整 QoS 策略的依据,同时需要回调上层,来动态调整音视频的码率,做到音视频码率自适应。通过上面的 QoS 保障,我们实际测试在 20% 的随机丢包弱网环境下,音视频通话还能够正常进行。</p> <p>第二是音频,我们的音频编解码主要以Opus为主,它具备高音质,高压缩率,高抗丢包等特性,非常适合移动网络。我们使用智能的jitterbuffer算法来平滑由于网络抖动引起的声音卡顿和延迟累计问题。配合PLC丢包补偿算法,来降低音频丢包后的爆音。同时,我们使用自研的高性能降噪算法,配合回声消除、自动增益和舒适噪音等音频处理算法来进一步保证音频部分的质量。</p> <p>对于视频,我们使用时域分层的H264视频编码器,来降低丢包对视频流畅性的影响,同时支持动态帧率和动态分辨率,方便上层根据业务需求进行切换。现在用户对于视频的清晰度要求越来越高,我们的实时通话系统当前能够支持720p。720p下纯软件编解码对CPU开销过大,因此在可以开启硬件编解码的机器上,对于需要720p清晰度的都尽量使用硬件编解码。</p> <p>由于音视频的网络优化如果全部细说,恐怕再加1个小时也讲不完,所以这里我只提了一些优化的方向供大家参考,就不一一展开了。</p> <p>下面再来看看对于HTTP的优化。图片语音是IM的必需元素,而且本身数据比较大。在弱网环境下,快速的上传下载,更少的等待时间可以带来更好的用户体验。</p> <p>断点续传可以减少因网络原因导致的重复传输,减少传输时间,节省流量。</p> <p>图片预加载技术可以根据不用网络情况,在收到消息后,就加载不同素质的预览图片,甚至直接将原图预加载,做到用户点开即看。</p> <p>上面两个是比较基础的优化措施,下面两个则比较高级一点。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/479d6f23d597435ef06a3bb735dd2d6f.jpg"></p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/6e4ae04c51b085db7f3919ddb18554ed.jpg"></p> <p>图片和语音这种文件我们并没有通过长连接收发,而是通过HTTP去做上传下载。传统上通过HTTP上传时,文件会分为一片一片,传完一片,收到回包,才会穿下一个分片,一直到最终传输完成。可以看到,服务器返回ack这段时间,上传通道其实是空闲的,如果把这段时间利用起来,可以节约不少上传时间。Pipeline就是为此而来。通过重叠利用http请求的响应等待时间,加快传输速度。使用pipeline,需要修改HttpClient,同时还需要服务器提供支持。视网络具体情况,使用pipeline后,一次上传可以减少20%至30%的时间。</p> <p style="text-align: center;"><img src="https://simg.open-open.com/show/3192a042e5150dc708a8e5508324e441.jpg"></p> <p>常规发送语音消息需要这几步,先录音,然后计算hash值,然后上传,上传完毕后,服务器计算一下校验和,通过后语音消息发送成功。在前面录制语音时,网络其实也是空闲的。把这段时间利用起来,则可以减少后面上传步骤的时间。优化后,流程就变成这样。在录制的过程中,每录完一段,就作为一个分片直接上传。直到最后录完,计算好hash,再把最后一个分片带上hash信息上传。这里除了客户端的改动,也是需要服务器支持。服务器在开始接收时,很多信息都不明确,需要开辟缓存来记录整次上传过程。对于比较差的网络,边录边传的效果会更好,毕竟纯语音的比特率并不高,基本都能做到录完就传完。</p> <p>以上就是我今天分享的全部内容。提升消息推送达到率和到达速度,优化网络利用效率,节省系统资源一直都是Android开发的核心和基础,新技术,新方法都在不停的涌现,也欢迎大家一起讨论,进步,谢谢大家。</p> <p> </p> <p> </p> <p>来自:http://geek.csdn.net/news/detail/106242</p> <p> </p>