图数据库中的高科技和高安全性
这篇文章首先出现在 IEEE IT Professional 杂志上. IEEE IT Professional 对当前战略性的科技议题提供可靠的同行评议信息。 为了能应对挑战,可靠、灵活地运行企业,IT管理者和技术领导者在获得最先进的解决方案时需要依靠IT 专家。
针对网络安全的措施最好在系统设计时就进行考虑,否则后期的改造成本会非常高。新的技术和应用会使系统的安全和隐私面临新的挑战,而且采纳新技术 的结果通常很难去预测。图数据库就是这样的情形,它是一个比较新的、关注度持续上升的数据库技术。这篇文章探讨了图数据库的价值,并对影响安全和隐私的地 方作了一些研究。
NOSQL的出现
关系型数据库(RDBMS)起初是为了最大化利用昂贵的存储而设计的,不过它现在已经真正成为具有高效和稳定事务处理能力的系统。例如,关系型数 据在大规模信用卡事务处理和循环计费操作方面都具有优势。它在索引数据位置上提供了出众的性能,但在高度动态的环境下却表现不佳,比如作为易失性数据 (volatile data)的管理信息系统,或者是有大量多对多关系时所需的系统架构。在这些场景下,关系新数据库的设计强加了太多的数学和管理开销。
NoSQL(Not Only Structured Query Language)数据库的出现表示在数十年之久的关系型数据库 1 之外有了另一种选择。多种形式的NoSQL数据库开启了一扇扇大门,从而极大地改进了动态数据描述,以及更小的开销和性能损失。例如,在NoSQL世界中 模式(schemas)的定义不必那么严格。NoSQL数据库的种类包括宽列存储、文本存储、键值(元组)存储、多模式数据库、对象数据库、网格/云数据 库和图数据库。其中图数据库,与NoSQL世界 2 多个技术发展路线交叉,势必会成为一项成功的技术。
图数据库
图数据库依赖于熟悉的“节点-弧-节点”网络关系,或者更简单一些的“名词-动词-名词”网络关系(参见图1)。一个节点可以是任意的对象,而一 个弧则表示了节点间的关系。节点和弧都可以有自己的属性。这种简单的节点-弧-节点构成了三元一体,通常称为三元组(triple),三元组是详尽描述复 杂网络行为的基础构件。
电力网络、企业供应链或整体生态系统这样的网络通常由许多的节点组成,这些节点通过它们之间的弧共享大量的多元关系。这些网络非常适合用图来表示,图数据库利用了这个强大的能力来表示网络的组成和连接。目前,图数据库已经可以很成熟地支持图发现、知识管理和事件预测。
在互联网世界中,各种类型的网络也愈显重要,而探究网络的能力正成为其现代化意义中的基本要素。然而和关系新数据库一样,图数据库只是工具箱中的 一种工具,它可以被正确地利用,或者是相反。所以对这个令人兴奋的新技术,至少从最高的设计层次上,大范围地评估安全性对其影响,是个成熟的做法。
图发现
图数据库通过处理节点属性和连接,从而可以表示丰富的信息,这些信息通常是被隐藏的,直到它们被挖掘出来。图发现(Discovery)是一种通过挖掘相关的大数据集,从而提供新的洞察(Insight)的方法,而这些并不需要对洞察的内容具有很强的预判能力。
图数据库起初并没有被认为是一个有用的发现工具。之前人们使用特殊设计的超级计算机家族来实现图发现的全部能力。尽管这样可以很直接地表示图,但当三元组的数量增加到数十亿的量级后,快速遍历多个路径就成为计算的瓶颈,除了那些最强大的机器。
上述的情况经常在稠密图时出现,比如编织紧密的蛋白质网络。此时,详细的图查询可以让计算能力不足的系统崩溃。当前,为了遍历图,在处理图的超级计算机上 重新进行了设计,克服了时间和容量上的限制。完成这样工作的设备包括了一些Hadoop平台的分析工具,以及近期在克雷超级计算机 3 上已经可用的商用高端图数据库。
为图发现而设计的高端图处理超级计算机带给人们巨大的期望。比如,它可以支持详尽创建出海洋和天气之间的复杂关系,这些就构成了气候变化的条件。在巨大气候变化时,进一步发现那些间接的、非线性的原因和影响显得尤为重要。 同样的,图处理超级计算机可以加速发现西非埃博拉疫情的是如何传播的,这有助于我们阻止这种病情的传播。图2描述了用图数据库做图发现的概念。
图1. 基础图理论。这种简单的节点-弧-节点构成了三元一体,通常称为三元组(triple),三元组是详尽描述复杂网络行为的基础构件。
图2. 利用图处理数据库实现图发现。这种发现可以支持详尽创建出海洋和天气之间的复杂关系,这些就构成了气候变化的条件;或者可以加速发现西非埃博拉疫情的是如何传播的。
图发现:隐私和安全
图发现,给解决复杂的相关性问题带来了很大希望,然而我们要关注随之而来的隐私和安全性问题。例如,当图处理超级计算机变成可以挖掘我们社交和金融交易信息以进行监听、广告,以及其它公然利用个人信息来侵犯个人隐私的设备时,个人信息就会面临更多被暴露的风险。
虽然在一个繁荣自由的系统中设置道德约束的想法有点格格不入,然而事使对个人生活的侵犯保持在可接受范围内却被证明是很有必要的,如果其不是宪法 所要求的,也是处于财务保密的原因。期望执法机关利用所有必需的手段以消除我们面临的那些真正的威胁,是完全合理的想法,但这样的话社会成本会有多高?同 样的,有些人为了利用每次市场机会从而使用各种方法来快速推出产品,但这个目标的实现又会牺牲多少个体的代价呢?现实中这样极端的开发模式不过是已有趋势 的一个投影。
在社会经济学的研究设计中,当特别涉及大范围的社会和商业事务关系时,安全门槛就必须设置的非常高。任何对此的恶意侵入,可能比最近一些信用卡发行公司或影片公司遭受的大规模黑客攻击,更具毁灭性的后果。当考虑万物互联( IoA:Internet of Anything )这个概念时,情况会进一步恶化,因为IoA中包含了无数的传感器、执行器和移动设备,所有这些看起来都可以被优化利用,以泄露个人隐私。 4
图知识管理
节点-弧-节点的三元组概念非常适合使用资源描述框架(RDF:Resource Description Framework)这种描述性语言来表达“主谓对象(subject predicate-object)”关系。RDF创建了一种正式表达的层次从而可以描述和推理图数据库中的数据。并且,RDF很好地满足了形式本体论 (formal ontology),从而可以定义严格语义的术语。这种形式化定义“多少才够呢”?这个问题和形式化定义在实际中可容许的程度相关,可能要用很多年才能回 答。对W3C来说,RDF和形式化本体论一起提供了网络关联数据的视图,并且致力于在常用的网络引用格式中提供可重用的结构化知识 5 。但它也有一个缺点,即对于高度结构化的数据,如组织非常好的电子表格数据和数据库转换到RDF是相对简单的,但可靠地转换非结构化数据到RDF的能力还 只能在一些高端工具中提供,并且还带有一些限制性的警告。然而并不是所有的图数据库都需要用RDF来进行三元组的表达,许多发展很好的商业图数据库没有使 用RDF,而是使用私有的方法来表达三元组。一些图数据库还提供了一些有吸引力的特性,比如图可视化、备份和恢复。预计到2017年 6 ,图数据库产业在数据库市场的份额将从2个百分点增长到25个百分点,在此过程中图数据库工具将会逐步获得企业认可,并且其消费群体会持续增长。当然,其中很多图数据库会使用自己的数据管理语言和技术,但也会有对标准化的实际需求,至少是在支持数据的可移植性上。
知识管理:隐私与安全
不得不再次强调安全,特别在那些专有的架构设计中必须有所考虑。如果按现有专家预期的那样,网络分享是产生大量表述系统三元组的一个合理渠道,那么设计RDF数据仓库的安全门户就变得极其重要。同样,用户身份认证和验证的概念也会变得很重要。
在隐私和安全方面,也许知识管理可能不会像图发现付出的代价高,但相关数据库仍会暴露特定的身份属性,而这些属性本应得到很好地保护。所以必须制 定前端规定(front-end provisions)来确保防范入侵的安全性,以及图数据库中储存的个人数据的隐私性。不能提供足够保护的图形数据库产品可能会被取消资格,被承诺提供 这种保护的图数据库产品取而代之,尽管后者的接口仍会容易受到攻击。
图预测
在动态环境中需要揭示其变化过程时,如天气或经济的走势,则非常期望具有预测未来行为的能力。
图的表述形式有利于这种预测,因为它让我们可以把一个系统定量定性地描述成一个网络。可以给节点和弧分配属性,如位置、时间、重量或数量,这种能力可以使 我们在相似属性的基础上去定性地评价图。更重要的是,量化技术可以使我们评估几乎所有图表的内在指标,这可以应用在包括神经科学的许多领域中。 7
将验证过的指标应用到图的能力意味着图的特征可以被量化,从而可以客观地去评价它。如果图数据是动态的,比如是一个持续变化的过程,当数据流可以 被访问时,那么强大的预测能力可能就蕴藏其中。这个方法假定组合图论和组合数学可以被应用到实时数据流处理中。而且,各种图配置可以根据指标来分类。通过 每个分类模板,加上一个基于指标的图签名,就可以对图进行识别,也可以作为有相似的图出现时,预测它们的基线。
预测:安全和隐私
目前网络安全的最佳实践建议是对研究的系统进行快照,以确定其安全和隐私中的脆弱关系,这被认为具有重要意义,而系统也可以由此获得证明其安全性 的认证。这个实践的谬误之处在于绝大多数的系统处于永远变化的环境中,随着时间的推移,系统的行为会发生改变。因此,认证只能说明在快照的那个时刻系统是 好的。
在复杂性日趋增加的情况下,图形数据库提供了让我们监测近实时动态变化的可能性。通过定量的方法监测数据流中异常节点或关系模式的变化,我们就可以尽早地检测和调查那些入侵行为和其他安全漏洞,以及迅速起诉识别到的那些罪犯。
从预测的角度来看,数据的完整性必须优先保证。而且因为预测的成本很高,所以数据的来源问题也变得至关重要。预测结果的准确性来自预测工具使用数 据的准确性。错误的数据会严重影响到结果,甚至严重危及到安全性。设想一下将错误的预测模型应用于救灾时的后果,这时它可能要求将资源分配到没有受灾的区 域而不是相反。就这一点而言,实践中好的安全性来自于我们再应用科学时所采取的高道德标准。尽管图数据库可以在各种网络构成的世界中被应用,人们也对这些 图数据库寄予了很大的期望,但它们仍然会暴露出一些固有的安全风险,人们对这些风险尚未能完全认识,更不要说去领会了。
谨慎的IT专业人员从不建筑空中楼阁,他们必须仔细评估在预期操作环境中的潜在风险,并且进行必要的权衡,最终达到可接受的安全和数据保护级别。 如果对这些新技术,如日益流行的图数据库,在设计前期没有考虑相关的安全和隐私问题,那么在后期实现它们的代价就会变得相当高昂。
References
- A.B.M. Moniruzzaman and S.A. Hossain, “NoSQL Database: New Era of Databases for Big Data Analytics—Classification, Characteristics and Comparison,” Int’l J. Database Theory and Application, vol. 6, no. 4, 2013.
- M. Buerli, “The Current State of Graph Databases,” Dept. of Computer Science, Cal Poly San Luis Obispo, Dec. 2012.
- Real Time Discovery in Big-Data Using the Urika-GD Appliance , white paper, Oct. 2014;
- A. Ukil, S. Bandyopadhyay, and A. Pal, “IoT-Privacy: To be Private or Not to be Private,” IEEE Conf. Computer Communications Workshops (INFOCOM), 2014, pp. 123–124.
- D. Wood et al., Linked Data—Structured Data on the Web, Manning Publications, 2014.
- E. Eifrem, “ Graphs are Eating the World ,” keynote, GraphConnect, Nov. 2014;
- O. Sporns, “ The Nonrandom Brain: Efficiency, Economy, and Complex Dynamics ,” Frontiers in Computational Neuroscience, vol. 5, 2011;
关于作者
George Hurlburt 是STEMCorp公司的首席科学家, STEMCorp是一个非营利性机构,它致力于通过采用网络科学来促进世界经济的发展,以及推动可为人类服务的自动化技术工具的应用。可以通过下面这个邮箱来联系他: ghurlburt@change-index.com 。
这篇文章首先出现在 IEEE IT Professional 杂志上. IEEE IT Professional 对当前战略性的科技议题提供可靠的同行评议信息。 为了能应对挑战,可靠、灵活地运行企业,IT管理者和技术领导者在获得最先进的解决方案时需要依靠IT 专家。
查看英文原文: High Tech, High Sec.: Security Concerns in Graph Databases