2003年8月27日在华盛顿召开了第九届知识发现与数据挖掘国际会议,参与讨论的专家一致认为:数据挖掘正面临着巨大的机遇和挑战;作为一门仅有17年历史的新兴交叉学科,当前知识发现(数据挖掘)的研究进展中,存在着两个大的核心问题(难题): 其一是“缺乏基础理论”;另一个是缺少“杀手锏”式的应用。 U. Fayyad认为:从科学发展的长远来看,最大的绊脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。 他认为对于我们要做什么,几乎没有理论甚至工程实践来指导:在今天它仍然是” 不为人知的艺术”。 我们需要理论来指导我们要做什么以及要如何作。这些理论能够促使工程解决方法的出现,这样我们也可以将我们的 “手艺”更有效的教给其他人。而这种形势与从业者以及对应用感兴趣的人们的巨大的热情同时存在,这些人来自不同的领域,但是没有科学根基以及持续的学术发展,本领域不可能得到发展与巩固。
R.Uthurusamy也认为:WEB的使用和生产厂家的大肆宣传等都会在短期内影响本领域的发展,它们会使得我们将更多的精力投向数据库营销、CRM和OLAP等方面,而不是致力于使KDD从根本上或科学上有大的进步。KDD的基础研究界必须消除这些干扰而去努力解决KDD的真正的根本的问题。
有些学者在KDD的基础理论的相关研究中做出一些成果,主要包括从数据库的角度进行研究,它强调知识发现的效率(efficiency);从机器学习的角度进行研究,它强调知识发现的有效性(effectiveness)、从统计分析的角度进行研究,它强调知识发现的正确性(valid)、以及从微观经济学的角度进行研究, 它强调的是知识发现的最大效用(maximum utility)等。但遗憾的是这些研究或者没有深入探讨其理论基础,或者没有给出具体的实现方法,因此无法从根本上明显提高现有知识发现的性能,也无法解决KDD发展过程中极富挑战性的一些问题。事实上,上述的成果,只是提供了KDD的方法论基础,而要真正构建其理论体系,必须抓住KDD的本质,形成与其本质相适应的理论基础。KDD的本质何在?至少有两个可信的路径:一个是将KDD过程(系统)视为认知过程(系统);另一个是将KDD过程(系统)视为非线性动力系统中非平衡态转化的过程(系统)。
第一完成人是国内较早进入知识发现领域的学者。围绕这两个核心问题,早就开始在国家自然科学基金重点项目、863项目、教育部重点科技项目、国家九五攻关重点项目等11个项目的资助下,用十余年的时间全面、稳定、系统地跟踪前沿,另辟蹊径地给出了令人信服的答案,即在这两大核心问题上有所突破:1) 于1997年跳出主流发展,以认知自主性为核心,在国际上开创了从内在认知机理出发、用认知科学与系统论方法研究知识发现的新路径;首次提出五个系列的原创性技术发明;进而于2002年构建并逐步完善与拓展了基于内在认知机理的知识发现技术理论体系(KDTICM),且据查至今国内外尚无人像第一完成人那样针对知识发现系统地提出一整套理论(包括作为理论的实现研发了相应的集成化组合构件式知识发现软件系统ICCKDSS)。2) 利用七年时间深入实际,将KDTICM与ICCKDSS应用于铝电解生产领域,产生了较大的经济效益;以及农业、气象、现代远程教育网及国际商务等领域,产生了较大的社会效益;进一步应用到蛋白质三维结构预测这一国际性重大课题的研究中。以下分述之。
1. 科学发现导致技术发明,确保了技术发明的原创性
1.1 开创了知识发现研究的新路径
我们首先进行了若干先导性工作,主要集中在相关的逻辑基础、方法论与哲学基础方面的工作。比较典型的研究成果是:1) 提出基于语言场与语言值结构的知识表示方法与数据归约(离散化)方法,成为数据挖掘研究中贯穿性的方法;2) 形成因果联系能行可判定方法——基于单一语言场的因果关系定性推理模型——基于综合语言场的因果关系定性推理模型——广义细胞自动机及广义归纳逻辑因果模型的系列性成果,这为后面的因果关联规则的挖掘算法等研究奠定了基础;3) 结合专家系统研究,提出“一类不确定性归纳型自动推理机制”和“专家知识的归纳获取机制”,为KDK模型与算法的研究、新型实用智能系统的研究作了技术储备;4) 提出了认知自主性的实现策略与几点哲学思考,成为内在认知机理研究中重要的思想来源。
在知识发现的主流发展中,特别是在复杂系统知识发现过程中,存在着许多富有挑战性的问题。比如,1)迫切需要领域知识的参与;2)自主发现知识的机制;3)知识库的实时维护;4)尽量缩小搜索空间与挖掘空间;5) 免失重要的意外规则;6) 挖掘新知识的动态评价等。这些问题靠传统数据挖掘技术方法是难于处理或无法处理的,必须有与其复杂性相适应的创新性技术方法来解决。第一完成人是国内较早进入知识发现领域的学者,于1997年开始逐步形成如下的解决方案:1) 从根基(机理)研究入手,另辟蹊径地把知识发现过程(系统)视为认知过程(系统),用系统论与认知科学的思想和方法(特别是模型化的方法)来研究复杂的知识发现过程,揭示了作为认知系统的知识发现的潜在本质、规律与复杂性;2) 机理研究导致数据挖掘技术的创新与发明——包括机制的实现技术、过程模型构造方法、技术方法、系统构造方法、作为其技术发明载体的软件系统;3) 将诸发明点(创新技术)集成与系统化,形成技术理论体系;4) 扩展原有的四个应用领域,力求在工业生产中取得硬效益 (这是近一年多新做的工作)。
1.2 发现了三个机制
首次从认知心理学、认知物理学等新理念出发,发现了知识发现系统内在认知机理涵盖的三个机制(原理):双库协同机制(揭示了知识库与数据库间的内在联系)、双基融合机制(揭示了基于数据库和基于知识库两个发现过程的内在联系;与此相联系的还独立提出KDK)、信息扩张机制(揭示了动态挖掘过程中参数的演化规律等);分别相应地给出其核心定理及其实现技术(通过协调器实现)。内在认知机理的研究确保了技术发明的原创性,揭示了知识发现作为认知系统潜在的本质、规律与复杂性;在很大程度上解决了“用户的先验知识与先前发现的知识可以耦合到发现过程中” 、“知识与数据库的同步进化” 、“知识库的实时维护”等主流发展中极富挑战性的问题;对主流发展产生重要的驱动作用。其内容将在以下具体论述。
1.2.1双库协同机制 (知识库与数据库间的内在联系)
认知心理学兴起于20世纪50年代中期,后来Neisser于1967年发表了心理学史上第一部以《认知心理学》命名的专著。认知心理学是以信息加工观点为核心的心理学,所谓信息加工观点就是将人脑与计算机进行类比,将人脑看作类似于计算机的信息加工系统。认知心理学的研究范围主要包括感知觉、注意、表象、学习记忆、思维和言语等心理过程或认知过程,以及模式识别和知识的组织等;其核心是揭示认知过程的内部心理机制,即信息是如何获取、贮存、加工和使用的。在知识发现系统中,模拟“创建意向”和“心理信息修复”这两项认知心理特征进而提高系统的认知自主性,正是我们研究的出发点。
数据挖掘在很大的程度上受领域知识与背景知识的制约,而这两种知识如何真正具体地、可实现地参与到数据挖掘过程中?长期以来只是原则上与直觉心理上意识到这个问题,但始终没得到实实在在的解决。我们模拟认知心理学的两个重要特征,即“创建意向”与“心理信息修复”,为此用“启发型协调器”实现前者(利用有向超图邻接矩阵发现知识短缺——产生创建意向——自主聚焦——定向挖掘);用“维护型协调器”实现后者(判定冗余、重复、矛盾等——定向搜索——实现知识库的实时维护)。为达此目的,必通过建立数据库与知识库间的关系,产生“定向搜索”与“定向挖掘”机制。我们发现了在知识发现过程中,在特定的构造下,数据库与知识库间的对应关系;论证了结构对应定理;设计了启发型协调器与维护型协调器,解决了“定向搜索”、“定向挖掘”、“自主发现”、“实时维护”等难题。该项内容已获国家发明专利《一种基于双库协同机制的KDD*方法及系统》(ZL 01145080.0)(见附件 )。
1) 结构对应定理:论域X的推理范畴Cr(N)与完全数据子类结构可达范畴Cµ<g,Âc(g)>等价。(我们建立了两个证明路径:其一,利用范畴论;其二,利用我们提出的连续映射的同伦理论的拓广——泛同论理论)。
2) 通过结构对应定理,可以建立挖掘数据库中数据子类结构的“层”与挖掘知识库中知识“素结点”的一一对应关系(见图1),以实现“定向搜索”与“定向挖掘”。提出并实现了两个协调算法:一是对领域固有的知识库的实时维护(通过维护型协调算法与构件);二是自主发现知识短缺产生创见意向(通过启发型协调算法与构件)。
图1 知识库中的知识素结点与数据子类结构中的层之间的一一对应
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 下一页
|