“我觉得还可以再规划十年。”王义寅说。

       王义寅是深圳计算科学研究院的首席解决方案架构师。从大学毕业之后,他用了十年时间,从最初的实用数据库慢慢接近到数据库内核。但是在到了内核之后,他突然觉得找不到方向了,很多理论还是三十年前的理论,很多代码别人已经写好了,最后来来去去做的只是一些场景上的修补和创新,就像“补锅”一样。
所以他认为,现在需要的并不是应用的创新,而是理论的革新。

     “樊老师做的是有一点突破性的东西,现在有这个机会可以不用“补锅”了,现在要做电饭煲了。这应该是技术上的一个革命吧。”王义寅说,“要是按照樊老师的这套理论继续往下走,我觉得还可以再规划十年。”

       王义寅提到的樊老师是英国皇家学会计算机领域唯一的华裔院士樊文飞,也是数据库领域历史上仅有的两个“大满贯”学者之一。他提出的有界计算理论(bounded evaluation)和数据驱动的近似计算(data-driven approximation)理论横扫计算机理论和系统大奖,这一理论的产品化商业落地正是由王义寅所在的数据征服者 CoD 团队承载。


640_wps图片.png

图 | CoD 在 CNCC 大会上的合影,从左到右依次为袁腾飞、王义寅、樊文飞、陈志标、李怿、李银丹


       因为一首名为《Conquest of Paradise》的歌曲与 CoD 团队希望挖掘数据真正的价值、最终征服数据的愿景非常契合,所以他们最终把团队命名为 Conquest of Data(数据征服者,CoD)。

       在前不久举行的计算机行业盛会 CNCC2019 上,DeepTech 看到了这支团队的展台和系统原型。

        据介绍,他们展出的“BEAS:JiT 大数据分析系统”是一套基于独创的有界计算理论,可以实现将大数据变小,使得分析查询在确定资源开销下实现数量级性能提升的大数据系统,具备在大数据下 JiT(Just in Time)分析的核心能力。据了解该产品将在明年第四季度正式商用发布。

640-3_wps图片.png

图 | BEAS:JiT 大数据分析系统


       依托云,企业有能力使用大规模计算集群完成计算,但在某些情况下,大数据分析会“失之毫厘,谬以千里”,造成相当尴尬的失败,产生巨大的损失。

       谷歌在 2008 年设计并发布了大名鼎鼎的流感预测系统 GFT,原理很简单,如果在某一个区域某一个时间段有大量的有关流感的搜索指令,那么这个地区就很有可能存在大量的流感人群。GFT 监测并预测流感趋势的过程仅需一天,有时甚至可缩短至数个小时。谷歌自称其预测结果和美国疾病控制与预防中心公布的真实结果相关度高达 96%,但没过几个月全球爆发甲型 H1N1 流感,GFT 就没有预测到。自从 2011 年 8 月以来,Google 流感趋势在 108 周的时间里有 100 周出了错。至今依然没有办法替代传统的流感监测模式。

       这个大数据的失败案例引发了大家的思考,再加上 AI 在火爆之后并没有一些突破性的进展,大家的注意力又重新回到了大数据这个基础。

     “机器学习类数据分析技术往往在明确的场景下实现较好的效果,但这类技术的局限性在于,基于统计数学方式拟合的手段本身不具备可解释性,一旦它训练数据集本身不具备场景数据的代表性,就很容易出现错误或者偏差。所以,它用于解决的是有限的类别和特定的场景的数据分析问题”,王义寅说,“我们产品的区别在于,我们是选择用 SQL 这条路做一个通用的数据分析,切入点就是希望能保证用户实时的交互体验下,给用户想要的答案。

       樊文飞的有界计算理论的基本思想是,给定一个函数 F(x),参数 x 代表大数据集。多数计算不需要访问全部的 x、只需要取 x 的一小部分就能得到 F(x)的精确解。有界计算理论研究的就是如何根据不同的函数 F,根据语义找到所需的 x 的那一小部分。
数据驱动的近似计算理论是根据用户的查询,在数据的层次表述中动态找到所需的数据,并在有限资源下计算查询的近似解通俗来讲,无论数据集本身有多大,可以通过先确定用户想要问的问题相关的一小部分数据,然后访问这一小部分数据就可以替代原来要访问所有数据这样一种形式。

640-2_wps图片.png

图 | 大数据的爆炸式增长使得数据分析查询变得非常耗时(来源:Pixabay)


       当下,大数据的爆炸式增长使得扫数据变得非常耗时。所以要处理 PB 级的数据分析查询已经不是一个工程问题,而是一个理论问题。按照有界计算理论的思路,根据业务查询的模式方法构造 Access Schemas,在这套通用的执行模式下可以实现等价计算,但是效果能得到数量级的提升。

       王义寅说:“在数据集不断变大的时候,BEAS 依然能保证像处理小数据这样的性能,并且资源的开销会很小,BEAS 单机的分析结果可以达到分布式的大数据方案里面几百台同时计算的效果。”

       对企业来说,如果能在不耗费过多资源的情况下,随时随地了解公司数据的变化,辅助做一些商业决策,对企业而言具有重要意义。据了解,目前已经有一些企业表达了对这套系统的兴趣,在展出 Demo 期间也有一些企业与该团队达成进一步交流和合作的意向。

       据了解,CoD 团队的一些成员背景深厚,此前都就职于各大一流的企业。王义寅此前在一家国内实力很强的大企业工作,他放弃了在那里丰厚的薪资福利,选择了 CoD 这个团队。“我们在读了樊老师的论文并且跟他交流了之后,觉得这个事情本身很有前景,所以我们希望在未来的几年里面能把以前学到的东西真真正正地用在一件比较有意义的事情上,实现我们自己的梦想。”

       据介绍,CoD 团队目前大概有 20 人,都是数据库各个领域的专家。谈及他们内部的代码精神,王义寅说:“其实一行代码可以很容易地写,也可以很难地写,我们选择后者。其实在我们这个系统里,核心的代码不会很多。但我们要求写完之后不要轻易去改,能严丝合缝地完成代码编写。
我们的代码精神在于重视每一行代码。

       Linux 创始人 Linus Torvalds 说过一句话:“Talk is cheap.Show me the code”。王义寅在接受采访的最后说:“我们也想,最终能编写出一套很酷的代码
。”

-End-


(原文来源  DeepTech深科技:“有界计算”或是突破数据分析瓶颈的新思路——专访深圳计算科学研究院团队)