日前,我院科研团队的3篇论文成果在数据库领域国际顶会SIGMOD(Special Interest Group on Management Of Data)发表。相关研究成果为高效处理数据库并发事务、提升规则发现效率以及破解大规模图分析难题等,提供了创新的解决方案和思路。
《Transaction Scheduling: From Conflicts to Runtime Conflicts》
该论文重点研究并解决了在多核架构下的数据库管理系统中如何高效处理并发事务。深算院科研团队创新性地提供了一种事务调度机制,即对于特定事务集合,可根据其访问的数据集分配到不同的CPU核进行冲突延迟处理。
对于特定CPU核来说,因特定事务与其他CPU核事务间存在冲突,故并行执行的前提是时间上错峰。因此,基于提前识别事务之间的冲突和代价,深算院科研团队通过时间片延迟调度实现了不同CPU核之间的并行事务处理。
实验数据显示,这一独特方法能够将现有基于分区的方法和并发控制协议的吞吐量分别提高131%和109%,最高情况可分别提高294%和152%。
原文链接: https://doi.org/10.1145/3588706
《Discovering Top-k Rules using Subjective and Objective Criteria》
在大数据中进行规则发现是一个费时费力的过程。规则发现面临的一个主要问题是会产生大量的规则候选,用户常常需要花费大量的时间和精力手动检查和选择适合自己需求的规则,这种惊人的成本阻碍了规则发现方法的发展及适用性。
相比传统规则发现算法,深算院科研团队在该论文中提供了一种基于剪枝策略的的top-k规则发现算法。实验结果显示,使用了剪枝策略后,top-k规则发现算法相比于传统发现算法平均提速达到134倍。在一个有1681617条记录的大数据集上,该方案仅用183秒就完成了全部规则发现,而传统算法需耗时15789秒。该方案被充分证明能有效减少需要遍历的无效候选,从而大大提高top-k规则发现的计算效率。
原文链接:https://doi.org/10.1145/3588924
《Making It Tractable to Catch Duplicates and Conflicts in Graphs》
相较于以往图依赖方法对于经典问题的不可解,该论文研究证明了GCR对于可满足性、蕴含性和验证问题都可以在多项式(PTIME)时间复杂度内求解。
深算院科研团队开发了一种并行算法,通过结合模式和谓词的生成来发现GCRs规则,以及提出一个基于递归的应用挖掘出来的GCRs规则来处理“深度”ER和CR的并行PTIME算法。该论文证明了所提出的算法具备并行可扩展性,即当处理器被更多使用时,算法的运行时间减少。通过真实图和合成图实验验证,GCR 的规则发现和错误检测效果比图依赖关系的速度更快、准确性更高。
原文链接:https://doi.org/10.1145/3588940
数读SICS科研:
截至2023年7月,研究院共发表/录用高水平论文85篇,其中CCF A类73篇;申请知识产权共113项,其中申请专利/PCT共93项(含授权发明专利7项)、申请并授权软件著作权20项。