随着数字经济的高速发展,图计算在社交网络的精准营销、金融反欺诈、电商等领域被广泛应用。近期,在第二届世界科技与发展论坛上,阿里正式对外发布一站式超大规模分布式图计算平台GraphScope,并将于12月对外开源。值得关注的是,支持GraphScope处理万亿规模图数据的关键组件之一GAE(Graph Analytics Engine),其核心技术起源于深圳计算科学研究院首席科学家主持研发的图计算引擎GRAPE。
深圳计算科学研究院首席科学家领衔的研究团队早期发表的论文《Parallelizing Sequential Graph Computations》中首次提出GRAPE引擎。GRAPE引擎是国内罕见的从理论到技术都是由中国人原创的大规模图数据分布式图计算平台,可实现单机算法即插即用,普通用户提供简单的串行图算法和少量参数即可在GRAPE系统上完成算法的并行化,降低用户使用大数据并行计算的门槛,使图数据计算应用普惠化成为可能。
除了领先的易用性,GRAPE计算速度也遥遥领先,依托原创的并行算法和并行模型,每秒可以计算52.2亿次,能在极短时间内实现海量图数据处理。经工业界权威LDBC基准测试,GRAPE在6类算法共28个测试数据集上,有26项实现秒级运算,整体性能远超业界近52倍。更有意思的是,在GRAPE上用LCC(local clustering coefficient)分析由5600万用户及他们18亿朋友关系组成的社交网络,只需要1分钟左右就能计算出其中任意两人也是朋友的概率,而所需的计算资源仅为4台阿里云内存型ECS(Elastic Compute Service)。算力消耗和运行速度能够同步保证,而诸多同类图计算产品现在仍不能支持LCC算法。
GRAPE强大的计算性能也获得国际学术界认可,相关论文相继获得数据库国际顶级会议SIGMOD 2017的最佳论文奖、VLDB 2017的最佳演示奖、SIGMOD 2018研究热点奖。
此次,GRAPE在 GraphScope上的技术应用,是深圳计算科学研究院首席科学家主持的早期研究成果在工业界的小试牛刀,进一步验证了大数据系统与理论创新背后所蕴藏的工业生产力。深圳计算科学研究院研究团队将继续潜心研究以大数据为代表的计算科学系统与理论,开发核心系统软件,打造从科学、技术到工程的S (Science) T (Technology) E (Engineering) 创新模式,形成从理论突破——技术创新——工业化应用完整的大数据计算全自研产业闭环。