本实验室长期坚持进行中文分词、词性标注、命名实体识别、句法分析、指代消解等自然语言处理基本任务的研究工作。这些基础研究支持和推动了很多其他研究工作的开展,部分研究包括:
中文分词和命名实体识别 中文分词的主要难题为未登录词识别和切分歧义,而未登录词中绝大部分为命名实体。为此,我们研究了一种将层叠条件随机场(CCRFs)用于中文分词和命名实体识别的方法,有效提高了未登录词的识别效果和歧义消解能力。此外,还基于深度学习和移进规约系统进行分词处理的研究。
中文句法分析
近年来,深度学习方法提供了一种进行端到端学习的自然语言处理新思路。本实验室在积极关注和开展了相关技术在机器翻译、句法分析、自动问答等方面的研究。相关工作包括:
本实验室从1986年开始进行基于规则的日汉机器翻译的研究,研究工作先后得到国家七五攻关项目以及国家863高科技项目资金的资助,研究成果处于国内领先、某些技术达到国际先进水平。
本实验室积极开展统计机器翻译的研究工作,内容涵盖数据预处理、词对齐、翻译规则抽取、参数训练、解码器、语言模型等各个方面。涉及的语言对包括汉英、英汉、日汉、汉日等。部分研究内容如下:
智能问答系统,主要研究内容包括:
更深更广的推荐系统,主要研究内容包括:
多层次多粒度情感分析,主要研究包括:
本实验室的工作还包括利用已有技术进行其他语言问题的研究,包括古汉语资源分析、语言处理资源自动构建、特殊语言问题建模等方面。
古汉语的全词词性标注 我们利用已有技术为已分词的古汉语文献中(《左传》)所有的实词标注了词义,其主要方法如下:
中文认知属性库
网页过滤系统
论文标题自动缩写
江苏省南京市栖霞区仙林大道163号
南京大学仙林校区机关603号信箱计算机系
Contact:陈家骏 教授
Phone: +86-025-89683672
Office: 计算机科学与技术系904
Email: chenjj@nju.edu.cn

