深圳大数据基础研究领域传来喜讯。5月20日,记者从深圳计算科学研究院获悉,由该院系统研发团队自主研发的多个产品已取得突破性进展。
其中,从理论到系统全自研的分析型数据库系统“崖山”YashanDB首个版本,预计在今年下半年正式发布;“采石矶”数据增强引擎和“钓鱼城”图谱因果分析引擎及相关解决方案,将在本月底举行的2021中国国际大数据产业博览会上正式发布。
这一系列在深圳诞生的中国原创基础软件品牌,有望逐步破解我国数据库系统的“卡脖子”难题。
锚定源头创新
长期以来,我国IT领域存在“缺芯少魂”的“卡脖子”问题,在核心硬件和基础软件方面存在短板。
该院科研部部长桑艳博士在接受记者采访时表示,尽管我国以大数据为代表的新兴信息产业发展迅猛,但市场上广泛使用的基础软件品牌缺乏“中国智造”,高度依赖国外底层技术,存在极大的安全风险。
“夯实基础研究,开展源头创新,是解决‘卡脖子’问题的关键。”桑艳介绍,深算院聚焦的研究领域,就是以大数据为代表的计算科学基础理论研究和核心系统软件开发,均属于关键核心的“卡脖子”领域。
成立于2018年11月的深算院是由深圳市人民政府批准建设的“十大基础研究机构”之一,由深圳市科创委主管,深圳大学举办,龙华区政府共同建设。
建院两年多,深算院已组建起一支实力雄厚的系统研发团队,192名在职员工中,既包括英国皇家学会院士、中国科学院院士、深圳市杰出人才、海外高层次人才等多位领军人才,也有来自世界500强、拥有多年系统研发实战经验的资深工程师,研发人员占比约80%,从中涌现了一批代表性理论研究成果。
在数据库系统实现重大突破
数据库系统、数据质量和数据共享是深算院三大攻关方向。目前,深算院已率先在数据库系统开发上实现重大突破。
深算院CoD研究室首席技术官陈志标介绍,在分析型数据库(OLAP)方面,深算院已完成国际领先的,从理论到技术均为中国原创的国产数据库系统——“崖山”YashanDB V1版本。
“这也是业内首次实现把大数据难解问题转换到小数据有界计算,颠覆了传统数据计算模式。”陈志标透露,经过实测,该系统可提高通信数据查询速度25-10万倍,实现数据即生产即分析。“崖山”YashanDB预计在今年下半年发布第一个版本。
在数据质量方面,深算院科研团队也实现了突破。据深算院PoD研究室首席技术官王绍星介绍,研究人员基于奠基性数据质量自研理论开发的“采石矶”数据增强引擎,首创逻辑规则和机器学习协同的复杂规则自动发现技术,开创了在复杂大数据环境下自动化数据质量提升的先河。
此外,据深算院IoD研究室主任靳朝辉介绍,在图数据计算方面,深算院落地了“钓鱼城”图谱因果分析引擎。“这是国际上首个把可解释逻辑规则发现、规则应用和人工智能推荐融合一体的系统,填补了全球图计算行业的空白,可实现千万级别规模的高复杂度图数据计算。”