项目名称: 复杂文本信息分析与理解的基础理论和应用方法的研究
推荐单位: 教育部
项目简介: 复杂文本信息分析与理解是模式识别的一个重要分支,是将复杂文本信息转换为数字信息并进行计算机自动分析与处理进而理解的基本理论和方法。长期以来,由于缺乏系统的理论基础,这项工作一直进展缓慢,很多研究难以实现。经过十五年的努力,项目小组在该领域几个关键理论难题上合作攻关,深入系统地研究,取得如下进展。
针对半个多世纪来,困扰文本信息分析与理解基本理论问题,即几何与逻辑结构表示与分析、文本结构复杂度定义等,本项目建立了基于参数元素组的文本分析和理解模型,比较完整地揭示文本分析与理解之间的关系。在此基础上,提出了文本信息处理的非层次理论,从理论上解决了复杂几何结构文本信息的分析与理解。突破了传统的上推与下推理论的理论瓶颈,使文本分析与理解理论在智能信息处理与信息安全等方面得以推广与应用。本项目构造了国际上第一个用于文本信息分析与理解的特殊小波函数,创造性地提出了基于小波的文本分析与理解理论,为处理复杂几何结构的文本提供了新的理论和工具。本项目深入探讨发现小波新性质,提出模角分离理论成功分离了两种不同结构奇异信号并给予数学证明,把奇异信号的研究推进一大步。
本项目提出的模型理论被国际权威的《模式识别与计算机视觉手册》收录,已作为现代模式识别理论体系的重要部分。基于小波文本信息分析与理解理论开辟了文本信息分析与理解的新途径,并从分析与理解性能上得到明显改进而被美国著名专家G.Nagy评价该理论"展示了完美的性能"。美国模式识别专家A.K.Jain高度评价研究成果"解决了高度复杂性的文本信息分析问题"。本项目成果先后被美、英、加、意、日、韩、新加坡、香港等地同行大量引用,并作为他们研究的基础理论,部分成果得到推广和应用。本项目发表论文260多篇,SCI检索101篇,他引1168次。项目第一完成人被选为IEEE Fellow和IAPR Fellow,还在国际上创办了第一个小波理论及其应用的国际期刊,并成为SCI检索源。
主要发现点: 1. 首次建立了一个基于参数元素组的文本信息分析和理解模型。该模型揭示了各种复杂文本信息的几何结构与逻辑结构关系,并给出了基于熵理论的文本信息几何结构复杂度的定义,使各种具体文本信息能够通过模型转化为可用于计算机分析与理解的抽象信息元,这一模型建立构成现代文本信息分析与理解的基础理论体系的重要部分 [主要论文1,2]。学科分类:模式识别理论。
2. 在国际上提出了文本信息分析的新理论。从理论上解决了传统的上推理论及下推理论的不能分析与处理复杂几何结构文本信息的致命弱点,使各种文本信息计算机自动分析、处理与理解因这一理论瓶颈的突破,而开始得到广泛实际应用 [主要论文5]。学科分类:模式识别理论、信号与信号处理理论。
3. 把小波分析理论研究与文本信息分析与理解理论研究相结合,创造性地建立了文本信息分析与理解的新理论和方法,并取得下面三项主要成果。学科分类:模式识别理论、信号与信号处理理论。
3.1 首次把多分辨分析思想引入复杂表格文本信息的处理,建立了表格文本信息分析、处理与理解的二维多分辨分析理论。有效地从各种文本信息中提取出表格的几何结构,并给出相应的逻辑理解,使困扰文本分析与理解的一个核心问题――表格分析与理解得到解决 [主要论文6]。
3.2 构造了国际上第一个满足文本信息分析与理解的特殊小波函数,发现了其相应小波变换处理文本信息的良好特性并给出数学证明,在此基础上给出复杂文本信息的小波表示理论,为复杂文本信息的精确表示提供一般理论和方法 [主要论文10]。
3.3 提出模角分析理论,第一次成功把Dirac结构奇异信号从Step型结构中检测并分离出来,并给予完整数学证明,推动了多尺度信号奇异性检测和分析理论的发展 [主要论文7]。
4. 第一次提出了基于非线性变换的变形校正理论,建立了双二次、双三次、半弹性和全弹性变换的的近似公式,并给出了实用的算法,成功地解决了非线性变形校正问题 [主要论文9]。学科分类:模式识别理论。
5. 在国际上提出了若干文本元素理解和识别的理论及算法:
包括基于标志线条和描述语言的的表格文本分析方法 [主要论文4]、基于多特征,多层次分类的手写文字识别方法 [主要论文3]、基于弹性形变的附加正例算法 [主要论文8]。学科分类:模式识别理论、信号与信号处理理论。
主要完成人: 1. 唐远炎
提出了文本信息分析和理解模型,提出了文本信息非层次分析的思想和理论,提出了基于小波分析的文本信息分析与理解的思想和理论,提出了特殊小波函数构建思想和理论,提出模角分析思想和理论,提出了基于非线性变换的变形校正思想和理论,提出了若干文本元素理解和识别的思想和理论,对本项目主要发现点1、2、3、4和5做出了创造性贡献。本人在该项研究中的工作量占本人工作量的90%。
2. 房斌
提出了若干文本元素理解和识别的思想和理论,对本项目主要发现点5做出了创造性贡献。本人在该项研究中的工作量占本人工作量的70%。
3. 尤新革
部分参与了模角分析理论和特殊小波函数构建的工作,对本项目主要发现点3.2及3.3做出了创造性贡献。本人在该项研究中的工作量占本人工作量的60%。
4. 马洪
部分参与了文本信息分析的非层次理论和基于小波的文本分析理论的工作,对本项目主要发现点2和3.1做出了创造性贡献。本人在该项研究中的工作量占本人工作量的40%。
5. 杨力华
部分参与了模角分析理论和特殊小波函数构建的工作,对本项目主要发现点3.2及3.3做出了创造性贡献。本人在该项研究中的工作量占本人工作量的40%。
10篇代表性论文: 1. Automatic Document Processing: A Survey / Pattern Recognition
2. Document processing for automatic knowledge acquisition / IEEE Transactions on Knowledge and Data Engineering
3. Offline recognition of chinese handwriting by multifeature and multilevel classification/ IEEE Transactions on Pattern Analysis and Machine Intelligence
4. Financial document processing based on staff line and description language / IEEE Transactions on Systems, Man, and Cybernetics
5. A new approach to document analysis based on modified fractal signature /ICDAR95
6. Multiresolution analysis in extraction of reference lines from documents with gray level background / IEEE Transactions on Pattern Analysis and Machine Intelligence
7. Characterization and Detection of Edges by Lipschitz Exponents and MASW Wavelet Transform/ICPR 98
8. Off-line Signature Verification with Generated Training Samples / IEE Proceedings - Vision, Image and Signal Processing
9. Image Transformations Approach to NonlinearShape Restoration / IEEE Transactions on Systems, Man, and Cybernetics
10. Skeletonization of Ribbon-like shapes based on a new wavelet function / IEEE Transactions on Pattern Analysis and Machine Intelligence
|