DTCC 2019 | 百度安全开源图数据库HugeGraph 引领国产图数据库发展

2019-05-13 22:24:329394人阅读

漫威电影宇宙短暂而漫长的11年,终于迎来了自己第一个终结篇。

我们还在猜测,电影里是不是存在另一个平行世界,在那里,钢铁侠复活了看到了小摩根长大的样子,美国队长没有变老并准时去赴了约。但可以坚定的是漫威外的电影世界里,参演过漫威电影的演员们正在用其他的角色占领好莱坞,以至于我们现在在其他任何一部好莱坞电影中,都能找到“漫威演员”的身影。

举个简单的例子:扮演美国队长的克里斯·埃文斯,早在漫威前就曾与扮演黑寡妇的女神斯嘉丽·约翰逊,共同出演过两部电影《完美学分》和《保姆日记》。

在数据世界里,每个人就是一份数据,他们有不同的角色,人与人之间的不同角色会产生不同的人物关系,上面“美队”和“黑寡妇”的人物关系,其实就能够用一个简单的图数据关系图来呈现。

 

图数据库是近年来业界公认增长速度最快的数据库类型,就在5月10日,由IT168 旗下ITPUB企业社区平台主办的第十届中国数据库技术大会图数据库分论坛上,来自百度安全自主研发的开源图数据库HugeGraph技术负责人,为我们介绍了什么是图数据库、图数据库如何应用以及HugeGraph的技术框架。

 

什么是图数据库?

要理解图数据库,你并不需要具备太多图论知识。实际上,对普通人而言,图数据库比关系数据库更容易理解。

在图数据库领域,每个现实世界中的实体被抽象为一个顶点,实体之间的关联关系是一条边。实体可以是:人、电影、地点等任何事物,关联关系可以是:朋友、参演、出生于、喜欢等任何关系。

 

 

我们从一个真实的例子来开始了解图数据库。上图展示了“章子怡”这个明星的部分人物关系图谱。其中,章子怡和汪峰是两个节点,他们的关系是夫妻,与此同时他们有一个女儿醒醒。

我们生活的世界本身就充满了对象之间的相互联系,六度关系理论告诉我们,你跟任何一个陌生人,中间间隔都不会超过六个人。而图数据库在描述、存储、查询数据间关联时有着不言而喻的天生优势。

传统的关系型数据库在存储章子怡这个模型时,需要建立家庭情况、作品、获奖、合作导演、圈内好友等至少十几张表格,假设我们希望查询“章子怡和周冬雨的关系”,整个过程需要关联作品、导演等至少两张表才能找到答案。 

而利用图数据库,一条简单的图查询语句就能方便的查询到上面所示的关系。由此,随着社交网络、移动互联网、IoT和人工智能等新兴互联网应用不断涌现,用户、系统和传感器产生的数据呈指数级增长,数据内部依赖和复杂度增加,面对更为复杂的关联关系时,图数据库的适应性要远高于传统关系型数据库,可快速满足用户需求,效果高下立判。

 

图数据库的应用—以反黑产侦查为例

正如上面提到,比起传统的信息存储和组织模式,图数据库能够很清晰揭示复杂的模式,尤其在错综复杂的社交,物流,安全,金融行业效果更为明显,我们以HugeGraph在百度安全反黑产侦查上的应用为例。

 

 

首先在大数据平台中找到实体及其关联关系,然后存储到HugeGraph图数据库中,基于HugeGraph提供的图分析能力,可以轻松找到异常设备、IP、账号等信息,从而识别出恶意用户,输出能力可服务于威胁情报、反刷单作弊等业务。具体而言,比如针对反刷单场景,在IP、WIFI、手机电脑各种设备、账号等实体组成的关联图普中,如果有黑产用户通过成百上千个设备登录若干账号进行薅羊毛,这种网络的关联关系则较为稠密,那么通过图谱的多层(一般2层或3层即可)中心度计算就可以发现这种特征IP,一旦发现这种特征则连接该IP的设备和账号均视为高风险对象予以防范。

 

HugeGraph的存储原理和优势

百度安全每天需要处理大量的日志数据,并对数据进行挖掘分析以识别各种安全问题,HugeGraph不仅在反欺诈方面还为百度安全其他业务提供关联分析能力,那么HugeGraph究竟有哪些优势呢?

HugeGraph是由百度安全研发的一款面向分析型,支持批量操作的图数据库系统,它能够与大数据平台无缝集成,有效解决海量图数据的存储、查询和关联分析需求。支持HBase和Cassandra等常见的分布式系统作为其存储引擎来实现水平扩展。HugeGraph可以与Spark GraphX进行对接,借助Spark GraphX图分析算法(如PageRank、Connected Components、Triangle Count等)对HugeGraph的数据进行离线分析挖掘。

 

 

经过第三方框架graphdb-benchmarks的测试发现,HugeGraph在多种数据集的批量写入和最短路径查询性能上,均有着与市面主流图数据库相比不俗的表现。

 

在技术选型方面,百度安全的工程师们在充分研究了市面上主流的存储模型、查询语言后,选择支持属性图、采用以邻接表(顺序表)为基础的存储模型、完全兼容Gremlin图查询语言的技术方案。

HugeGraph选择支持属性图,顶点和边可以灵活使用属性来进行表征,相较于RDF更为直观,也是工业界普遍的选择。对于多维度、复杂的关系,使用邻接表存储更为紧凑、同时也更易于实现和优化性能,如磁盘IO优化等。查询语言使用的是非常流行通用、更贴近自然语言、且灵活强大的Gremlin语言,这也是遵循Apache Tinkerpop 的必然选择。

目前,图数据库的发展仍处起步阶段,成长速度极快,市场潜力巨大。在国外数据库市场上,既有巨头,也有专业厂商,还有创业厂商参与,相关产品已经初步进入市场化、产业化阶段。而反观国内,目前市面上成熟的图数据库产品尚属空白。

伴随全球范围内的人工智能革命,数据呈现爆炸式增长,企业能否充分利用好海量数据影响着企业发展的未来。百度安全研发的开源图数据库HugeGraph,将致力于引领国产数据库的革新,欢迎广大开发者加入开源,也将携手更多企业共建美好的数据库世界。


点击首页右上角“控制台”,申请产品免费试用体验。

 


0
现金券
0
兑换券
立即领取
领取成功