数据分析三部曲

14年前

University Of Maryland的Shneiderman教授把数据分析的过程归纳为三大步:Overview,Zoom&Filter,Detail-on-demand。可以大致简译为:全盘观察,深入及过滤,及时获取详细数据。这三步可以说缺一不可。不仅是数据分析的一个主要的流程,也是数据分析软件所必须提供了功能。我们在这里来简单看一看每一步的工作和需要的工具支持。

全盘观察

对数据的一个全盘观察是每一个数据分析的起始点。除非你已经有一个明确的分析重点,一个全面的数据呈现界面可以让你很快地判断出你是否需要进一步的分析,或者进一步分析的方向。但很多BI软件往往忽约了这一点。

在设计一个分析界面时,如果我们要求用户做很多工作才能看到一个全面的情况,用户就失去了一个很快掌握全局的机会。比如下面的一个Dashboard。

数据分析三部曲 - Data Mining - 数据分析数据挖掘
 

通过对这个界面的初步分析,我们知道数据被按照地区(Location)分成了不同的视图。如果一个用户需要找到感兴趣的地区,他就需要一个一个地区的去点击。这不仅被迫用户做出不必要的操作,而且完全打断了用户的思路。如果用户需要对不同地区进行比较,等到点击到几个地区之后,大概也已经忘记最初始的情况了。

提供一个全局的展现,当然也不是只是一个理念就能解决的问题。如果我们想把大量的数据集成在一个界面,不需任何切换就可以观察,就需要相应的软件支持。比如子弹图,Sparkline等等工具。在这里就不详细描述了。

深入及过滤

一旦用户找到了感兴趣的方面,第二步的工作就需要缩小范围,更进一步分析相关的数据。从实现的角度,这里有两种可能。第一,如果可能的话,用户可以直接在全盘的界面上做一些放大和过滤的工作。但因为空间的限制,往往一个全局的界面已经比较拥挤,同时包含一些详尽分析功能有一些困难。

如果是这种情况,我们可以提供一个快捷的切换功能,让用户可以在保持当前环境(Context)的情况下,迅速地切换的新的界面。在这个步骤里,用户需要很强大的功能从不同的角度,不同的层次对数据进行显示和操作。这些操作主要包括数据过滤,图表切换,数字比较及再计算等等。

数据过滤的目的是灵活地缩小数据的范围。根据不同的数据种类,我们可以选择合适的工具,比如可选列表,可拉动滚动条等。

数据分析三部曲 - Data Mining - 数据分析数据挖掘
 

作为数据的重要显示渠道,图表本身也应该提供大量的数据过滤与操作功能。比如用户应该可以快捷地转换数据显示形式,进行不同的排序,计算,和比较。这些可以通过一些预先设计的界面,让用户用最简单的形式和数据互动。或者通过一个完全开放的界面,让用户任意地定义图表的展示。

以下是StyleScope的终端用户界面。

数据分析三部曲 - Data Mining - 数据分析数据挖掘

及时获取详细数据

分析的目的,是找到有用的信息,从而采取相应的措施。而最后的决定,往往还是需要落实到具体的事件。所以从分析的综合数据到低层的细节数据是至关重要的一步。这个问题貌似简单,但却是很多分析软件的一个软肋。

最传统的分析方案,OLAP,通过提前计算汇总数据来达到更高的速度。但这样的直接后果是汇总数据和详细数据的关系就常常失去了。虽然新的OLAP系统通常会提供一个解决方案,但往往结果并不是最优化。

另一个需要解决的问题是用户怎样选择需要的详细数据。一个常用的方法是直接在图表上通过选择数据点,然后直接链接到详细数据上。


数据分析三部曲 - Data Mining - 数据分析数据挖掘