1.1 流数据挖掘
流数据是指按照时间顺序无限增加的数据观测值向量所组成的数据序列,也可以将流数据看成历史数据不断增加的更新数据的并集。流数据主要出现在大量实时监测和控制系统中,例如物联网设备中的传感器组监控、数据中心网络监控、气温水流等气象环境监测、金融市场实时交易监控、网络流量监测、系统入侵检测及信用卡欺诈检测等。我们致力于针对各种应用,设计高效流数据挖掘算法,抽取数据流中信息并加以管理,实时反馈给上层应用。
2017年,我们在该方向文章发表于CCF A类数据挖掘和数据库领域顶级会议VLDB,是南京大学第一篇VLDB;当时仅4所国内高校在VLDB发表论文。
1.2 噪声鲁棒型流数据挖掘
在实际环境中,数据采集的过程时常会受到扰动,导致单一实体呈现为不同的数据项,从而影响传统流数据挖掘算法的性能。针对频繁项、持续项查找等问题,设计具有高吞吐量、低空间占用率的处理算法。
1.3 知识图谱实体对齐
Google在2012年提出知识图谱概念,旨在提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。随着人工智能技术的发展和应用,知识图谱作为认知智能领域中的主要技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。
实体对齐是知识图谱融合的关键技术,其目标在于找出不同知识图谱中相同的实体。最近几年,基于embedding的实体对齐方法得到很大的发展,但仍有很多问题待解决,如训练样本较少、存在噪声、图谱稀疏部分的对齐等等,我们试图从融合后的知识图谱出发来估计对齐预测的置信度,来获得高精准率的对齐预测扩充训练样本。
2.1 流数据计算系统
在海量数据背景下,如何设计或优化数据库系统使其支持海量数据挖掘任务至关重要。在流数据计算系统方向本组研究包括但不限于:基于强化学习的自动调参技术、支持近似查询处理、支持机器学习算法的流数据计算平台研发等。
2.2 面向流数据计算的高效概率型数据结构设计(Sketch等)
在当前大数据计算的背景下,在有限的硬件资源上完成大数据集上的计算任务(如集合查找,计数)十分困难,为了解决该挑战,我们致力设计全新的概率型数据结构或改进现有设计,结合硬件特性,实现计算速度,准确度等性能指标大幅提升。
2016年,我们在该方向文章发表于网络测量领域顶级会议CCF B类会议SIGMETRICS,是南京大学第一篇SIGMETRICS,中国大陆第6篇。
2.3 NoSQL数据库系统优化
基于LSM-tree的NoSQL层级数据库性能优化 LSM-tree被广泛应用于现代NoSQL系统的存储层,包括BigTable、Dynamo、HBase、Cassandra、LevelDB、RocksDB,与传统索引结构不同,LSM-tree首先在内存中缓冲所有写操作,再将其刷新到磁盘,因此写入效率很高,但牺牲了一定查询效率,我们致力于结合高效的数据结构(如Bloom filter)对查询性能进行优化,以提高数据库查询操作的吞吐量。