Welcome to the Rinc.Group !
数据分析与数据挖掘是南京大学机器人智能与神经计算研究组(RINC)的主要研究方向之一。数据挖掘与数据分析一般是指从海量数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。RINC主要涉及的是基于自组织增量学习神经网络(SOINN)的大数据集可信代表集提取、基于神经网络的时间序列预测与分析、大规模推荐系统、生物医学数据模式识别、数据可视化技术、数据质量分析、非结构化数据挖掘等任务。
随着互联网时代的到来和移动端的普及,海量数据的处理已经成为了当下热门的研究方向。如何从如此巨量的数据中提取出有效的代表信息以减少数据分析的难度是一项极具挑战的任务。基于我们提出的使用小数据的方法分析大数据的指导思路,采用自组织增量学习神经网络(SOINN)在大数据条件下进行可信代表集提取,利用SOINN自适应学习和增量学习的优势,可以对源源不断到来的大量数据进行有效的信息提取和压缩,便于后续的数据分析处理工作。
时间序列数据在国民经济和社会领域占有举足轻重的地位,因此针对时间序列的预测分析对于决策者而言也起到了至关重要的作用。针对于一般时间序列数据非线性、非平稳,一般统计处理方法需要人工经验参与,步骤繁琐等问题,我们提出了基于连续深度置信网络(CDBN)进行汇率预测和股票预测的模型、基于Fast DTW的自组织增量学习神经网络(SOINN)和Shapelet学习方法的序列分类模型以及使用循环神经网络(RNN)结合时间序列分解(TSD)进行大规模序列预测的方法。在汇率市场预测、股票市场预测、电力需求量预测、市场销量与库存销量分析中取得了很好的效果。
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。我们的工作则是,在海量的原始用户行为数据上进行数据清洗、数据整理并从中挖掘出用户的偏好信息,用来指导并向用户针对性推荐所需的产品,以实现对于用户需要的精准定位。
生物医学数据,在此主要指的是EEG脑电波数据和眼动数据的分析与解读。实验室拥有完整的EEG脑电波检测设备和眼动仪检测设备,可以进行高精度、低噪声的相应生物学数据的收集采样。并利用机器学习的算法对收集到的数据进行分析和处理,对采集到的数据语义化,还可以与机器人等硬件设备相结合,例如已经实现的使用脑电波来控制机械手运动等功能。
随着数据量的不断增加和数据维度的不断扩展,使得人们对于数据的直观认识难度逐步加大。数据可视化技术就是为了解决这一问题,是数据与人之间交互的桥梁和纽带。数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。本研究方向主要包含可视化算法和前端技术两部分,算法领域包括基于非线性降维的数据可视化、基于自组织映射(SOM)的数据可视化以及基于自组织增量学习神经网络(SOINN)的数据可视化等,前端技术主要是研究基于计算机图形学和计算机视觉技术将可视化结果更好地呈现出来。
在数据分析领域,数据是原料,是之后数据分析过程的基础。数据本身质量的优劣极大地影响着最后的分析结果。因此,数据质量分析是数据分析和数据挖掘中重要的一个方面。从数据的完整性、一致性、准确性、及时性四个指标出发,对原有数据做相应的处理和清洗,包括对原始数据的子集筛选、数据的降维、数据中存在的缺失值的有效补充、数据关联性分析、数据的特征选择、数据异常检测等。
随着数据采集形式的丰富多样,非结构化数据出现的越来越多。数据不再是以简单的二维表的形式出现,而是以更加复杂的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息呈现出来。针对这类数据,使用相关的深度学习算法(如针对图像模型的CNN和针对序列模型的RNN),进行有效的特征提取,并在此基础上完成目标任务。这类研究方向可与多领域多学科进行交叉,如医学CT图像分析、卫星遥感图像识别、GPS数据连续定位导航,天文星图的星体识别、工业大数据异常检测等等。