打开数据分析的门,就再也不愿回去了

aeon 8年前
   <p>你知道吗?评价一个人是不是 NB,有一个独特但是客观的方法,就是利用一个人的微博数据来计算。</p>    <p>一个人的微博资料,关注人的级别,他的访问设备,被关注人的身份,综合起来,就是一个人的身份参数。这些参数和一个人的消费能力和品味都息息相关,并且和此人在现实生活中的社会地位高度匹配。</p>    <p>这就是数据的力量。</p>    <p>而这套微博数据挖掘系统,正是孔淼在创新工场时,开发出的一项功能。在当时公司内部的“身份测试”中,这套模型百发百中屡试不爽。</p>    <h2><strong>数据=真理</strong></h2>    <p>对于一款 App 来说,最重要的就是“讨人喜欢”。</p>    <ul>     <li> <p>攻城狮耗尽心力开发出了某一项功能,发现点击这项功能的用户,都是刚刚注册的新用户,这说明什么?说明凡是用过这个功能的用户,都不愿意再点进来。简单说来,这个新功能就是废品。</p> </li>     <li> <p>同样,在页面布局上,某个按钮被用户点击一次之后,就再也没有兴趣进来。这说明你的页面布局有问题。相反如果一个功能,都是用户第二次或者第三次来使用,说明这个功能的“回头客”还是蛮多的。</p> </li>    </ul>    <p>所有支撑企业改进自己 App 服务的,都是实打实的数据。</p>    <p>讲真,获得单一的数据本身并非难事,难的是,如何把多个数据之间的关系计算出来。大家都知道,不同的优惠政策,会印象用户的付费意愿。但是, 究竟给多大的优惠粒度,可以得到多少“铁粉”;把活动的入口,放在一级菜单还是二级菜单能够增加用户的“留存度”;什么样的广告渠道,可以带来最忠实的客户。所有这一切的答案,都不是凭直觉可以得来的。</p>    <p>笃信自己直觉的 CEO,无外乎巫婆神汉。</p>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/834c8be2965b85b90977decc0cc7be14.jpg"></p>    <p style="text-align: center;">【用地球上的人来比喻一个产品的用户生命周期/图片来自诸葛IO】</p>    <p>当然很多人已经意识到数据的重要性。但是数据本身是浩如烟海的,怎样找到“刀刃数据”,才是人们关心的。孔淼告诉雷锋网 (公众号:雷锋网) :</p>    <p>传统的企业数据分析,一般会采用以下几个数据:订单量、BAU(日活跃用户量)、UV(独立访客数)、PV(点击量)、留存率等等。</p>    <p>但是这些数据很难给人以具体的行为指导。用户看着这些数据,却找不到数据量上升或下降的原因,只能干着急。</p>    <p>孔淼说,诸葛 IO 想要提供的,是细粒度的数据,这些数据包括但不限于: 用户的来源、用户使用的设备、用户的每一步点击详情、用户的浏览路径、用户的重复付费情况、文章的阅读量、文章的热度等等等等,以及这些数据经过复杂计算之后呈现的规律。</p>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/6e72826b65d179d82922c0e88cdfe347.jpg"></p>    <p>他相信,这些数据甚至可以指导产品、市场、营销、技术等不同部门的工作改进。</p>    <p>在产品研发中,有一个 GodenPass(黄金路径)的概念。就是在产品设计者的假想中,用户应该按照什么顺序,先注意到什么,后点击什么,这一套完整的路径。但是在实际使用中,用户往往会跑偏。经常被一些“无关紧要”的东西分散注意力。这个时候,就需要对“产品在用户手中究竟发生了什么”有一个完整的把控。</p>    <p style="text-align:center"><img src="https://simg.open-open.com/show/3b40ef491445d4d9c67a235c3c9edf03.jpg"></p>    <p style="text-align: center;">【用户往往不会按照产品设计者的意图去行事】</p>    <p>这就是孔淼所谓的“把黑盒分析变成白盒分析”。因为在传统的数据分析服务中,很多因素都被杂糅在一起,形成了一个数据结果,你根本无法分辨究竟是哪一个数据变化引起了最终的结果。成为“白盒”之后,企业可以站在上帝视角,清楚地看到用户手里的 App 中究竟在发生什么。</p>    <p>这就像为你打开了一扇门,当你看到崭新的世界之后,就再也回不去了。</p>    <p>他说。</p>    <h2><strong>计算,从数据摆渡到答案</strong></h2>    <p>诸葛IO对数据的分析,大概分为如下的阶段,在 App 或服务的代码中“埋点”,即个人用户每进行一个操作,都会被探测到。虽然埋点至关重要,但是技术上并不难。孔淼介绍,对于一个客户,需要半天时间梳理埋点方案,加上客户利用半天时间实施,基本一两天就可以搞定。</p>    <p>这一个过程,很多都基于经验和积累。因为不同行业需要探测的数据会有很大区别,而一旦积累足够行业和案例的埋点方案之后,一切都变得更加简单了,只需要在模板上不断修改进化。</p>    <p style="text-align:center"><img src="https://simg.open-open.com/show/7767f35b4ba686f1c8d75563446f37c5.jpg"></p>    <p style="text-align: center;">【不同行为动作的精确统计数据/图片由诸葛IO提供】</p>    <p>真正的难点在于,如何对数据进行分析,进而可以预测未来。</p>    <p>我们可以来想象一下。</p>    <p>针对一个动作点,需要记录它的时间、设备、来源参数,而一个服务中,往往有诸多的动作点,包括点击ABCD按钮,选择ABCD服务,作为数据记录者,还必须存储这些动作发生的前后顺序、时间跨度等细节信息。</p>    <p>这些数据,可以精准地还原一个用户究竟是如何使用这个 App 的。但如果想要得出规律,需要对这些“全量数据”进行“交叉计算”。这个计算的复杂度,是随着数据量增长而呈指数级别增长的。</p>    <p>任意两组数据之间关系的计算,都需要巨大的计算量,何况我们还允许任意维度进行组合计算,还需要实时给出计算结果。如果一根筋地进行计算,往往会超过我们服务器的计算瓶颈。算法做不到的时候,我们就要换一套算法。</p>    <p>简单来说,以前的计算就好像是一个单项式,但如果我把这个单项式拆成很多多项式,利用分布式计算,就使得计算成为了可能。</p>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/a56c7572c2f4f3bea9bd593fa8e22ba4.jpg"> <img src="https://simg.open-open.com/show/0f25ffbf77a13f4fa08148370c1df752.jpg"></p>    <p>如何改进算法,正是孔淼和团队的长项所在。而对于算法的改进,还有一项重要的内容。</p>    <p>鉴于运算量的巨大,我们采取了一个办法,那就是把常见的分析模型做成预计算的模块,提前计算出结果。这样当客户想要进行计算的时候,在后台我们需要做的就是把预计算的结果进行加工,这会节省大量的时间和算力。</p>    <p>他说。“这需要对用户的业务有充分的理解,需要经验的积累。”</p>    <p>据此可以得出有用的结论,例如:</p>    <ul>     <li> <p>在滴滴打车中,抢了红包,但是并没有消费的人,是属于哪一种人群?</p> </li>     <li> <p>抢了五块红包,并且后续打车十次以上的人,有哪些特点?</p> </li>     <li> <p>在“在行”中,频繁浏览,但就是不约见专家的人,有怎样的心态?</p> </li>     <li> <p>在“分答”中,由王思聪推荐过来的,并且完成一次偷听的用户,是怎样类型的人?</p> </li>    </ul>    <p>根据不同的条件所限定的模型,可以筛选出某些特定行为和高付费、高留存之间的关系。根据这个规律,服务商就可以针对接下来符合这一条件的用户“重点照顾”,从而提高整体的运营和盈利状况。</p>    <h2><strong>数据的“神力”</strong></h2>    <p>在数据分析中,一个重要的玩法就是“漏斗分析”。这是一个很形象的比喻。</p>    <p>如果你是一个电商的老板,恰好你又有“超能力”可以看到用户的屏幕,你会看到用户使用你的 App 搜索产品,然后仔细挑选比对,然后加入购物车,然后把手放到付款的按钮上。。。</p>    <p>用户每进一步,你都会暗自较好,期待他能向付款的环节顺利地“进发”。你最害怕的是,用户进行到某一部的时候,突然产生了犹豫和困惑,经过一段时间的思考,直接点击了取消。你在屏幕后面顿足捶胸,发誓要找到原因改进这个页面的内容,让用户下一次不至于“半途而废”。</p>    <p>而漏斗分析所做的,恰恰就是把这些流程叠加起来,然后分别计算随着流程的进展,每一步流失掉多少用户。当你看到在“X”步骤时,通过的人数骤然减少,你就可以肯定,问题一定出在这个步骤上。</p>    <p style="text-align:center"><img src="https://simg.open-open.com/show/6e3cc9c6850656614fc84c1b1fd82117.jpg"></p>    <p style="text-align: center;">【漏斗模型示意图】</p>    <p>孔淼把漏斗分析主要分成两类:</p>    <p>步骤式:是一个连贯的一二三四步骤,例如美图秀秀,拍照,点击滤镜修图,分享。用户在哪一步流失最多,利用漏洞分析显而易见。</p>    <p>状态式:是一个并不连贯的步骤,但是在逻辑上却前后相关。例如你在 App 上去挑一款旅游产品。你可能会先选择看看攻略,然后关闭了 App;过几天之后,你又进入 App,挑选了旅游产品,但是并没有下单;几天之后,你又进入了 App,最终下单购买了一款自由行。</p>    <p style="text-align:center"><img src="https://simg.open-open.com/show/d16dcb48714c0149b84ba928da05cf76.jpg"></p>    <p style="text-align: center;">【漏斗模型之下,转化率和流失率统计/图片由诸葛IO提供】</p>    <p>通过数据分析,用户都可以判断,究竟是哪一步顾客的“弃买”率最高,从而拼命去研究这一步究竟出了什么问题。</p>    <ul>     <li> <p>以美图 App 为例,如果用户在选择滤镜这一步放弃比例最高,那么很有可能是你的滤镜不够吸引人,或者甚至是你的某些滤镜隐藏得太深,根本没有被用户发现。</p> </li>     <li> <p>以壁纸 App 为例,如果用户在搜索了“蓝瘦香菇”之后放弃的比例很高,那么很可能是因为你的壁纸酷里根本没有好看的“蓝瘦香菇”,需要赶紧“备货”。</p> </li>     <li> <p>以优信二手车为例,如果分析发现某地的用户搜索“特斯拉”比例一直非常高,那么根据数据就要相应提高这个地区特斯拉的备货量。</p> </li>    </ul>    <p>至此,那些冰冷的数据才转化成热气腾腾的利润。</p>    <p>孔淼举了两个让他印象深刻的例子:</p>    <ul>     <li> <p>暴走漫画 App 在改版之前,首页显示的是”“暴漫”“趣图”等内容分类。在利用诸葛IO进行分析之后,发现用户往往会试探性地点击一个分类名,但如果在这个分类下没有找到自己感兴趣的内容,退出的概率很高(并不像王尼玛期待的那样,退回上级菜单重新选择类目。)于是,暴漫团队对 App 进行了改进,在首页以瀑布流的形式显示用户可能会喜欢的内容。这样,用户在下拉的过程中,一旦发现了自己喜欢的内容,就会对 App“刮目相看”,好感度大大增加。实际上,通过这一项改进,暴走漫画的留存率提高了惊人的 68%。</p> </li>     <li> <p>分答,一款“刷屏”的爆款线上知识共享平台。很多人不知道,它是从“在行”诞生出来的(在行:一款线上预约行家线下约见的知识共享平台)。通过诸葛io的转化漏斗,在行团队发现,想提升行家和用户之间知识分享的成功率,是否还有另一种模式可以并行。于是,基于诸葛io数据分析平台在行团队开始做些尝试,筛选了样本用户并构建了参与度模型,灰度开放了“吱”的功能,最后通过数据发现,模式可行,在数据的支撑下, 以一天两个H5版本的速度迭代,最终独立推出了分答APP,引爆了整个市场。</p> </li>    </ul>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/7f3f6c03d0273fa1558ebe33da9cea84.jpg"></p>    <p style="text-align: center;">【改版之后,暴走漫画首页呈现瀑布流】</p>    <h2><strong>尾声</strong></h2>    <p>数据的核心,实际上是背后的每一个用户,每一个人。对用户数据的分析,可以勾勒出每个人在互联网世界里的形象。对每一个人所思所想的量化计算,又成为我们认识世界的另一个维度。</p>    <p>孔淼把一个个互联网产品的用户流比作木桶中的水。</p>    <p>之前的中国互联网处在爆发增长阶段,因为经济形势一直在上行。这些产品只需野蛮生长,不用关心数据分析的细节。 这个木桶有漏洞,但是周围有充足的水源。这个时候理性的抉择很可能是优先用周围的水源来补充水桶。但是现在经济平稳,水源稀少,流量越来越贵,漏洞的危害就凸显出来。 例如某个旅游产品,现在平均获客成本达到了3000元/人。这个巨大的成本,看来已经超越了做数据分析的成本。</p>    <p>这也是他看好未来数据分析市场的原因。</p>    <p>直觉是一种蛮荒,数据是一种秩序。</p>    <p>当这个世界告别蛮荒,秩序的力量便开始凸显。</p>    <p> </p>    <p>来自:http://www.leiphone.com/news/201610/QT8xpJoKaqduHc79.html</p>    <p> </p>