项目名称: 概念层次网络理论(HNC)
推荐单位: 中国科学院
项目简介: 1.所属科学领域
HNC是 Hierarchical Network of Concepts(概念层次网络)的简称,是关于自然语言理解处理的理论框架,属于计算机科学和语言学的交叉学科――计算语言学的研究领域。
2.主要研究内容
发达国家对自然语言理解已进行了长达50余年的研究,但所获甚微。究其原因,西方文明缺乏切入语言本体研究的基础,而以方块字为基础的汉语却为攻克这一难题提供了天然条件。黄曾阳发现汉语"字义基元化,词义组合化"的现象,提出具有原始创新特征的、切合语言本质的概念层次网络理论,其主要思路就是对不同层级的语言单位设计相应的基元模式,以有限的基元表述无限的语言现象,让计算机通过对有限基元的操控完成对自然语言的理解处理。现已经形成完整的理论框架,形成语句分析和句群篇章处理技术。目前已有基于HNC技术的软件产品问世,显现出"懂"的特点。HNC还将形成一系列计算机自动处理人类语言的理论成果与核心技术,为我国抢占信息时代的技术制高点奠定坚实基础。
3.科学价值
该理论有助于推进自然语言理解处理研究,有望在自然语言语义知识的利用方面取得突破性进展,它对语言学,人工智能,计算机科学和认知科学等都具有重要的理论和应用价值,对中文信息处理和汉语研究尤其具有特殊重要的意义。
4.同行引用评价情况
HNC理论已经作为一门研究生课程,进入高等学府。全国人大副委员长、著名语言学家许嘉璐先生曾撰文将HNC理论列为目前我国中文信息处理的三大流派之一。该理论提出的学术观点及研究方法为国内外学术界所公认和引用:"HNC理论,提出了创新的自然语言理解处理思路,突破了现有的自然语言的知识表述和处理模式,直接进入自然语言的语义深层进行处理,特别适合于非形态变化的汉语的理解与处理,在汉语语句理解处理方面达到国际领先水平。"(见信息产业部科技司组织的技术鉴定会的专家鉴定意见),经中科院文献情报中心查询中国科学引文数据库(CSCD)1997~2004年数据,黄曾阳发表论文(著)被收录1篇;有7篇(部)论著被他人引用28次。
主要发现点: 1、自然语言理解是人工智能的重要组成部分,也是根本难题之一。HNC理论发现了世界上各种语言都对应着一个语言概念空间,汉语具有"字义基元化,词义组合化"的特点。设计了数字化的语言概念空间,建立了模拟人脑交际引擎的交互引擎,为自然语言理解处理提供了凸现自然语言内在关联性的符号设计,把语义内容的关联显现出来,使语义变成可计算的内容。本发现点属于语言信息理论与系统(1201040)和人工智能理论(5201410),见论文“HNC理论概要”和专著《HNC(概念层次网络)理论》。
2、发现了语言概念空间包括四个层级:概念基元空间,句类空间,语境单元空间,语境空间。四层级的发现,为自然语言理解处理建立了从词语到篇章的全景处理模式。本发现点属于语言信息理论与系统(1201040)和人工智能理论(5201410),见论文“在反思中前进,在碰撞中成长”和专著《语言概念空间的基本定理和数学物理表示式》。
3、在语言概念空间的基础上,发现了语言概念无限而语言概念基元有限,语句无限而句类有限,语境无限而语境单元有限。从而在自然语言处理上能化无限为有限,化繁为简。本发现点属于人工智能理论(5201410),见论文“在反思中前进,在碰撞中成长”和专著《语言概念空间的基本定理和数学物理表示式》。
4、在语言概念空间的基础上,发现了自然语言理解处理的3级提升,形成了计算机理解自然语言词句、句群以及篇章语义的三大核心技术:句类分析技术,语境单元萃取技术,语境生成技术。为从词语到篇章的内容处理建立恰当的处理层级,使处理具备了可以攀登的台阶。本发现点属于人工智能理论(5201410),参见同上。
5、从句类分析的角度出发,发现了语句处理的20项难点,从深层次揭示语句处理的本质,给自然语言处理研究提供一个新的角度,必将使语言分析更深入、更透彻。本发现点属于语言信息理论与系统(1201040)和人工智能理论(5201410),见网上公布的专著《自然语言理解处理的20项难点及其对策》。
6、发现了语境单元萃取的8项基本原则:语境单元与句群SG对应原则、 领域DOM认定原则、领域句类SCD认定原则、情景SIT框架描述原则、事件背景BACE描述原则、情景与事件背景转换原则、述者背景的立场判定原则、基本判断句功能原则,为计算机具有短时记忆或工作记忆机制奠定了基础。本发现点属于语言信息理论与系统(1201040)和人工智能理论(5201410)及语言认知理论(3105425),见论文“在反思中前进,在碰撞中成长”和专著《语言概念空间的基本定理和数学物理表示式》。
7、发现了语境生成ABS的6项基本原则:变换原则、同步原则、适应原则、对应原则、虚实原则、层次与要点原则,为计算机获得长时记忆、知识存储和自学习能力奠定了基础。所属学科及参见同上。
主要完成人: 1. 黄曾阳
对"主要发现点"栏中全部发现点均做出了创造性贡献:
第1-2点:发现语言概念空间及四层级,汉语"字义基元化,词义组合化";
第3-4点:发现语言概念基元,句类及语境单元的有限性和3级提升;
第5-7点:提出语句和语境处理的原则。
投入本项目研究的工作量占本人工作量的100%。
10篇代表性论文: 1. 《HNC(概念层次网络)理论》/清华大学出版社
2. HNC理论概要/中文信息学报
3. HNC理论与自然语言语句的理解/中国基础科学
4. HNC的发展与未来/汉语学报
5. 语义及概念体系在NLP中的作用/中文信息处理若干重要问题/科学出版社
6. 语言概念空间的基本定理和数学物理表示式/海洋出版社
7. 在反思中前进,在碰撞中成长/第二届HNC与语言学研讨会论文集/海洋出版社
|