新闻中心

我来、我见、我征服!从0开始,打造集学研原创、关键技术与应用创新于一体的基础研究机构

发布时间:2024-05-24

2019年4月13日,深圳计算科学研究院(以下简称“深算院”)在深圳大学揭牌成立,重点研究大数据领域方向的计算科学基础理论,致力打造中国原创的基础软件民族品牌,建设中国的“贝尔实验室”。 

5年时间,筚路蓝缕创新路,披荆斩棘谱新篇。深算院从0开始白手起家,构建了大数据计算的基础原创理论和新型计算系统两大平台,面向世界科技前沿和解决国家关键领域“卡脖子”的需求,在大数据领域开展基础理论研究和核心技术攻关,开发了从原创理论到工程实现全自研的崖山数据库系统、采石矶数据质量系统和钓鱼城数据分析系统三款基础软件系统,持续推动技术成果在金融、政务、能源、制造和交通等重点行业的应用创新,真正落实国家“人工智能+”行动,提效新质生产力,全力服务数字中国建设战略。


理论+工程人才汇聚


深算院已建立起500人规模团队,其中研发人员占比近九成,汇聚了一批优秀青年科学家和工程实力媲美硅谷的系统开发人才,包括英国皇家学会院士1人、中国科学院院士2人、深圳市杰出人才1人、海外高层次人才5人、长江学者1人。值得一提的是,首席科学家樊文飞院士于2019年当选为中国科学院外籍院士,2023年当选英国皇家工程院院士,达成六院院士的卓越成就并且在英国皇家学会羊皮簿,留下第一个中文签名,也是英国皇家学会计算机领域的唯一华裔科学家,是目前英国皇家学会和英国皇家工程院唯一的两院院士。


基础研究成果卓著


深算院围绕大数据 5V挑战(Volume数据量、Velocity数据速度、Variety数据多样性、Veracity数据真实性和Value数据价值)进行布局,深耕数据库系统、数据质量、数据分析等关键技术领域,五年来在SIGMOD、VLDB、ICDE、TODS等国际顶级期刊/会议发表/录用论文102篇(含CCF A类90篇),申请专利/PCT共132项,理论研究成果产出比肩全球任何一支大数据学术团队。深算院奠基性理论科研成果为系统研发提供“N+1”的理论支撑,已达成超过60%原创理论的工程转化,落实到关键技术系统中,为深算院三大基础软件实现技术超越和创新,注入持续的源动力。


系统研发崭露头角


崖山数据库系统(YashanDB)

崖山数据库系统是深算院自主研发设计的新型数据库系统,秉持理论和工程并重的初衷,崖山数据库系统融入了原创的有界计算理论、近似计算理论、并行可扩展理论和跨模融合计算理论,实现国产高端数据库从零到一的全自研突破,经权威机构检测,内核代码自主率100%,具备从理论创新、产品定义、代码实现到质量保障端到端的基础软件工程实现能力。

历经五年的持续迭代与打磨,崖山数据库系统在大规模数据高效处理、单节点事务处理吞吐和高可用能力等关键指标已实现与国际主流数据库并跑,突破并掌握数据库关键技术“制高点”——共享集群技术,成功推出基于国产共享存储集群的金融级高可用解决方案,提供在高端核心场景对国际主流数据库系统1:1平替的能力,实现国产数据库在高端领域“零”的突破。目前YashanDB与主流国产芯片、服务器、操作系统、中间件等研发企业完成兼容性互认证,在金融、政府、能源等国计民生行业的核心业务系统中上线应用;此外,面向大数据与人工智能等未来新场景,YashanDB发挥理论优势,积极探索有界计算、跨模融合计算等前沿大数据库技术的落地和应用,例如基于有界计算理论的数据规模无关查询处理技术突破了传统计算的限制,有效解决了数据规模对算力的依赖问题,有望为大数据处理带来革命性的进步。

崖山数据库始终致力于解决关键技术“卡脖子”难题,助力政府、国企央企的数字化转型,目前在各行各业的应用遍地开花。

在金融领域,崖山数据库历经了极为严苛、极为复杂的场景验证,能够真正助力金融高端应用场景短时间、低成本、低风险的平滑替代。在商业银行国产化替代的实践中,做到应用零修改,仅用3人周完成近10万行代码的迁移,上线多套业务系统,单业务流程中YashanDB响应时间减少50%,并发吞吐量提升1.3-2.4倍,远超客户预期;通过了头部金融机构长达三个月、数十万次高强度故障测试,系统持续运行平稳,在功能、性能、高可用、易用性、安全、生态等方面全面验证崖山数据库的落地应用能力;在券商基金清算核心系统亿级数量规模测试比拼中,过程耗时不到40分钟,性能表现一骑绝尘。

在政务领域,在深圳市政府包括社保、医保、教育、交通、国土、市场监管和龙华区政府等关键领域的真实业务场景中得到深度验证与应用,打造了如数字孪生平台、智慧人资管理系统等多个标杆应用,形成一套完整成熟的平滑替换方案,具有广泛示范作用。崖山数据库已在深圳市短信平台上线稳定运行,向60+政府部门、11个区政府业务系统提供短信发放服务,实际峰值高达每秒数十万条记录,有效解决性能瓶颈导致的短信堆积和延迟问题;在深圳市政府数据开放平台上线,在面向互联网共享数据总量2TB的场景下,使用崖山后系统性能提升50%并解决了原有单点架构存在的单点故障风险问题,故障切换时间小于10秒;深度参与国家工业互联网大数据中心体系建设,作为国家中心数字底座的关键系统,已成功上线运行一年,系统表现稳定。

在公用事业领域,完成燃气集团核心系统的数据库对国外一体机的国产化改造,形成基于国产服务器、崖山数据库以及应用的高端全栈国产化方案,业务覆盖13个省、50个以上城市和千万级用户,较原有方案性能提升2-60倍,项目成本仅为原有方案的六分之一。双方联合共建的数据库国产化建设项目,获信通院数字化转型应用大赛信息技术应用创新赛道二等奖。同时,崖山数据库已在地铁、水务等公用事业核心场景适配上线,具有显著的试点示范作用。

崖山数据库凭借在关键领域的技术实力,获得行业的广泛认可,已通过了信通院可信数据库测评、赛西实验室《数据库政府采购需求标准(2023年版)》测评,入选了2022年数字中国建设峰会“十大硬核科技”榜单、2023年数字化转型自主创新解决方案优选案例以及2023世界互联网大会领先科技奖收录成果集《科技之魅》。


采石矶数据质量系统(RockDQ)

采石矶数据质量系统是基于樊文飞院士奠基性数据质量原创理论指导下,完全自主研发的智能数据质量系统,旨在解决数据一致性、时效性、精确性、完整性和实体同一性的问题。通过全球独创的逻辑规则与机器学习融合新架构,实现对数据内部潜在规则的挖掘,并通过规则执行完成数据潜在错误发现以及提供具有正确性保证的修复建议,从而帮助企业快速提升数据质量,降低数据治理成本,快速支撑业务分析和决策。

采石矶系统在精度和速度方面国际领先,能够在超大数据量上进行规则自动发现,并有效提升结果判断的准确率,系统执行性能比业界常用的原生Spark SQL快32倍;在规则发现能力、正确性保证修复能力等关键领域领先国外平台系统,速度快25倍,精度提升56%。

采石矶系统经权威机构检测,内核代码自主率100%,实现了自主可控能力突破。通过中国信通院“数据质量管理平台基础能力专项评测”,并已与主流国产芯片、服务器、操作系统、中间件等研发企业完成兼容性互认。2023年7月,采石矶系统获得北京市大数据中心主办的北京市大数据技能大赛数据治理赛道一等奖。

采石矶系统已在金融、数字资产、数字政府、运营商、科研院所等重点领域与头部企业机构开展合作,共同推动行业级的自主可控数据治理方案。

在金融领域,采石矶已经成为商业银行实现高精准、自动化数据核查、监管报送校验的利器。采石矶实现了对头部商业银行非现场监管报表涉及的数据表、数据字段之间的逻辑关系和数据质量规则挖掘,挖掘出有效规则三千多条,其中高价值规则占30%,全面丰富银行业内UPS系统中的监管报送校验规则;通过搭建规则校验中心,对银行亿级数据对比校验,提高数据校验效率,准确率提升近20个百分点,客服确认量降低近10倍,大幅降低人工成本。

在数字资产领域,采石矶通过一站式的数据质量评估,实现了自动化的数据质量评估和数据质量增强,为某头部数据交易所的数据评估和数据交易流程提供底层能力支撑,助力打通数据要素进入流通的关键节点,落地国内首创的大数据精准量化质量评估。

在数字政务领域,基于采石矶的“字段搜索V1.0”功能已上线深圳市政府数据开放平台,对开放数据进行字段级的精准分析,支持亿级数据量下的高性能、高可用、准实时服务能力。更好地服务用户“找到数据”“用好数据”“多要数据”,有效提升数据质量和数据开放的透明度,助力落实国家对数据资源集中管理、联动更新、共享开放的要求。

在企业数字化转型领域,国内头部物流企业,通过近二十万张关系不明数据表、超千万字段的数据自动、跨表匹配,实现海量数据与主数据的自动融合,准确率达到85%,高精准地完成了人工不可能完成的任务。


钓鱼城数据分析系统(Fishing Fort)

钓鱼城数据分析系统是基于樊文飞院士开创性的图关联规则理论开发,融合逻辑规则与机器学习,能够在海量、高密度的图谱数据中计算实体之间的关联关系,分析其拓扑结构特征及语义规律,摆脱了对人工分析和算力的高度依赖和局限,高效自动发现数据中存在的客观规律,挖掘数据深度价值,高质量地实现业务应用创新和科学决策。钓鱼城核心为全球独创的逻辑规则与机器学习融合新范式,在国际上没有对标产品,填补行业空白,可自动挖掘图数据中蕴含的关联关系,通过“可解释”的高精度数据知识,赋能金融、制造、政务、生物医药、电商等行业应用创新场景。

钓鱼城系统经权威机构检测,内核代码自主率100%,并通过了中国信通院“图计算平台基础能力专项评测”认证。2022年,钓鱼城系统通过层层选拔,获得科技部举办的全国颠覆性技术创新大赛领域赛“优胜奖”以及总决赛“优秀奖”。

目前,钓鱼城系统与主流国产芯片、服务器、操作系统、中间件等研发企业完成兼容性互认,并在智能制造、配方工艺、网络安全、金融风控等方面展示了超越机器学习的强大功能,应用效果显著,具备支撑数据智能化的关键能力,被外界誉为“真正的AI+”。

在智能制造领域,针对锂电池尤其是磷酸铁锂电池生产“化成分容”工序耗时长、能耗高、产能低等痛点,通过“智能容量预测”功能,优化动力电池头部企业产线流程,大幅缩短工时、节省能耗、提升产能。经在头部厂家的PoC测试,已累计预测电芯数量50万+,电池容量预测误差<1‰,沉淀为国内首创、国际领先的动力电池智能容量预测解决方案。值得一提的是,在保证具有传统分容能力的同时,钓鱼城进一步提供免分容的解决方案,有效助力传统制造的智能化转型。在配方工艺方面,针对农产品原材料组配方的稳定与自主可控问题,通过构建农产品原材料的感官、近红外等数据大规模图,挖掘数据间潜在关联规则,高效发现相似度超80%的替代原材料,实现不同原材料组配方研发的自动化、精准化和智能化,帮助提升产品质量与生产效率,成功完成客户接榜挂帅项目,荣获客户极高评价。

在网络安全方面,支持10亿级别的数据自动构图,针对网络安全中的多步复合攻击,构建起真实攻击事件的时序区间逻辑公式,实现识别复杂攻击事件,从根本上改变了以往网络安全仅能采取被动防御的局面,升级为了能够主动识别网络威胁。

该方案在某大型央企数据中心举办的攻防演练大赛中以出色的攻击识别和预测能力拿到金奖。已与该大型央企联合创新,研发出一套智能网络安全分析系统建设方案,适用于网络安全领域识别复杂攻击事件和攻击有效性判定等应用场景,能替代人工发现复杂攻击模式,攻击判定的准确率远超行业平均水平,已为2000多家中小企业的网络安全保驾护航。

在金融风控领域,针对银行企业贷款业务中遗漏的低质量客户而导致的贷款逾期问题,应用钓鱼城系统数据分析后,高效过滤出人工未发现的低质量高风险进件。PoC数据验证,系统可过滤出超过10%的原逾期进件,有效降低客户贷款业务的资金风险。


展望未来,深算院将继续坚持基础研究与系统研发并驾齐驱的创新模式,践行“四个面向”战略方向,集聚力量进行原创性引领性科技攻关,致力于打造自主可控的国产基础软件产品,以“AI+”赋能培育新质生产力,以科技创新为驱动,积极与大数据产业链上下游公司开展深度合作,共同推动原创基础研究成果的产业化落地,全力服务深圳市“基础研究+技术攻关+成果产业化+科技金融”全过程创新生态链,助力数字中国建设战略的实现,努力为国家高水平科技自立自强贡献力量。

粤公网安备 44030902003371号