复杂供水系统建模与控制新方法 :
本课题是国家经委资助的节能研究项目。对供水系统按管网、水厂、过程三级进行递阶控制。研究的完整性,此前未见先例。研究虽然针对供水系统,但从中提出的控制理论新概念、新方法却具有普遍意义。
管网级的控制任务是在满足供水负荷要求的条件下,调度各水厂,分配负荷,达到最大限度节能的目的。过去的管网模型,一般是纯统计模型,其回归系数无物理意义,因而只能进行水负荷量的分时预报,不能作分地预报,这又正是管网调度的关键。也有纯机理模型,但它只能用于简单的树状管网,不具普遍意义。本研究提出“宏观统计机理模型”,采用定性合成,定量分析的方法,综合了上述两种模型的优点[1]。针对模型中有约束参数估计的困难,研究了模型统计拟合误差和基本模型拟合误差下降保持一致的条件,并在此基础上提出将参数最小二乘递推估计与“基本误差调试法”相结合求解问题[2],最终解决了建模中的维数高、非线性、信息不充分等难题。此模型每个节点流量可计算得出,它代表一个区域的用水负荷。利用此模型,加上对多层递阶预报的改进,满意地解决了复杂管网水负荷量的分时分地预报[3]。接着,对模型的隐含特征、非凸性等适当处理,采用Tamura目标协调法,得出了更为简便的离线最优控制算法。采用离线算法与实时修正相结合,保证了控制的精度和实时性,满意地实现了管网的动态递阶控制[4]。
水厂水量控制的任务是根据管网级的调度指令,协调厂内各生产过程的运行,达到降低生产成本的目的。研究考虑了利用清水池的储水作用进行电负荷的调峰,并利用其水位变化使泵站得到更有利的组合运行方式,这给各生产过程又加上一个强耦合,问题是一个难于按子系统或按时间作简单分解的复杂系统。研究考虑到水质处理众多过程对水量控制的影响可以集中为一个具有传输滞后τ的水流过程,此过程把取水、清水池储水、送水联系起来,叫作“关联过程”。只要对τ进行在线辩识并适时修正水量控制模型就可将水质控制过程与水量控制过程解耦[5-6]。这样的时延动态过程优化,已有算法尚无法求解。研究中提出“后效型微分动态规划”,推导了算法,证明了一定条件下的收敛性,解决了Bellman以来未曾解决的一般时延动态过程寻优问题[7]。为了追求更高的效益,又对水厂这种概周期过程的周期初态寻优,提出一种“虚拟寻优法”[8]。为了克服模型与实际系统差异带来的不良后果,研究了闭环递阶控制,提出“一种自适应双反馈递阶控制系统”[9-10]。利用运行参数快时变与系统特征参数慢时变的巨大差异,用开环算法得到闭环递阶控制的效果,计算量少,收敛性好,解决了闭环控制实时性问题。
泵站控制决策方面,在一般条件下讨论了泵站选泵与调速问题,其主要困难在于离散变量与连续变量混合作用。为此也采用了递阶思想,分两层寻优。此方法为一般混合规划问题提供了新思路。此外,在信息不充分条件下,提出用校正式线性逼近法对水泵参数进行在线辩识,实现自适应控制[11-12]。
以上理论研究成果部分地在现代化水厂中得到应用,部分解决了只引进硬件没有优化控制软件的问题。论文发表后,大多被别的研究所引用,部分被EI(美)和“科学技术速报”(日)摘引,被众多论文集全文重复转载。整个研究经省级鉴定认为达到国际先进水平,部分居国际前沿地位。2005年,项目整体获“世界优秀学术成果金奖”,部分论文获中国记录年鉴汇编委员会的“中国科学发展优秀学术成果一等奖”等各种奖项。
发表的论文:
[1] 段文泽,刘士荣.城市供水系统建模方法研究[J].系统工程理论与实践,1988,8(3):17-27.
[2] 刘士荣,段文泽.大规模管网系统的有约束参数估计[J].重庆建筑工程学院学报,1987,(3):18-30.
[3]段文泽,刘士荣.城市供水系统负荷量的分时分地预报.中国系统工程学会.发展战略与系统工程[C].北京:学术期刊出版社,1987:573-579.
[4]段文泽,刘士荣.大规模供水系统的动态递阶最优控制[J].系统工程理论与实践,1990,10(6):39-47.
[5]段文泽,杨少林.水厂生产过程最优协调控制[J]. 中国给水排水,1990,6(3):28-31.
[6]段文泽,李远树.大系统控制的关联过程协调模型及优化算法[J].系统工程学报,1992, 7(2): 106-115.
[7]段文泽,杨少林.后效型微分动态规划及其应用[J].控制与决策,1990,Suppl.1:13-18.
[8]李远树,段文泽.无限长概周期过程的虚拟寻优控制[J].信息与控制,1991,20(4):11-15.
[9]段文泽,李远树.一种自适应双反馈递阶控制系统[J].自动化学报,1993,19(2):146-153.
[10]DUAN Wenze, LI Yuanshu. An Adaptive Hierarchical Control System with Dual Feedback [J].Chinese J. of Automation, ALLERTON PRESS,INC. 1994,6(1).
[11]段文泽,李远树.给水泵站最优调度策略与通用程序[J].中国给水排水,1987,3(6):3-9.
[12]段文泽,杨少林.泵站调速节能的自适应控制[J].电气传动,1990,20(5):38-45.
电气传动控制系统及其工程设计—专著特色与创新介绍 :
本书的特色有三:
一是内容的新颖性,力图反映当时电气传动领域的最新进展,同时也包括作者本人的工程实践和研究成果;
二是强调实践性,但又不失系统性,重点放在工程实际问题上,安排作者曾经完成的工程实例[1]贯穿全书;
三是内容的广泛性,不仅研究单机自动化问题,还涉及与电气传动有关的生产过程及大系统自动控制。这种风格的著作在国内尚属少见。
本书目标是作为工业自动化专业高年级大学生、研究生、教师以及工程师从事研究工作的参考。著作出版后被一些名牌大学大量引用于教材中,被一些作者在研究工作中频繁引用。专著于1996年获电子工业部二等奖,相关的一些论文也曾获省市科协、全国电气自动化学术年会优秀论文奖、中国管理科学理论成果特等奖、世界重大学术成果特等奖等多个奖项。有的论文被《中国学术大百科全书》、《世界重大学术成果精选》等多种典籍全文转载。
在“电气传动方案选择与参数计算”一章中,分析了负载与电机配合工作的稳定性、调速特性、过渡过程特性、可靠性和经济指标等基本问题。按照不同负载特性,讨论了机床传动、轧制机械、起重机械、透平机械等典型生产机械的工艺特点、传动方案选择和参数计算问题,其中包括了作者工程实践的总结[1]。这些生产实践知识在国内文献中,还很少看见系统的论述。
在“调速系统”一章里,对“调速范围”提出了更加符合生产实际的定义,不仅从静差率的观点看,还动态地从转速不匀度去考察,给出了计算调速范围的方法[2-3],用以指导调速系统研究。在线性系统工程设计方法的基础上,进一步讨论了非线性校正、变结构系统设计等问题。研究表明,突破线性系统设计的框框,对改进系统性能往往能收到更显著的效果,如基于相平面分析提出的“浮动死区”微分反馈方案,就大大提高了系统的快速性[4],“按速差变换结构”的方案[5],不但提高了系统性能,还简化了结构。书中讨论了数字仿真与计算机辅助设计,提出一些相应的设计方法[6-8] ,对解决非线性系统、多变量系统等问题是有效的。
在“位置随动系统”一章里,对不同构成方案进行了归纳分类,讨论了实现这些方案的特殊部件选择问题。除位置输入、速度输入、加速度输入外,对于一般输入,对于扰动作用下的稳态设计讨论较细。比较了不同系统结构和动态设计方法,并在此基础上提出一种带速差校正的复合控制随动系统设计方法[9],能较好地兼顾运行的平稳性和快速性。提高低速性能是随动系统中的重要特殊问题,本书讨论了力矩扰动、干摩擦影响和减速器弹性影响,综合了已有国外文献和作者的研究结果[2-3]。本章结束了贯穿全书的工程实例[1][9],给出了相应的设计图,具有较强的实践性和解决问题的独创性。这是一些名牌大学编写教材时引用较多的一章。
“生产过程与大系统最优控制”是电气传动系统应用中必然遇到的问题,专列一章进行讨论,涉及最短时间控制、最小能耗控制和多模态控制等。具体讨论了起重机械和风机水泵优化控制的实例。国内外的电梯控制一直把运行时间最短作为优化目标,作者研究了平稳快速起制动条件下的最小能耗控制规律,以后又进一步完善了这一研究,比较了两种控制规律的能耗,形成完整的成果[10]。风机水泵类的能耗占有很大比重,对其最优节能控制规律却一直没有深入的研究。本章“给水泵站最优节能控制”一节总结了作者在这方面的研究[11-13],后来又进一步研究了节能的自适应控制问题[14]。对大系统最优控制,国内还很少成熟的应用,本书选择了作者仿真研究的一个典型实例,用以论述建模、预报和控制中若干复杂问题的处理方法,可参考“复杂供水系统建模与控制新方法”一文,见:
“可靠性设计与系统调试维修”一章在扼要介绍可靠性理论基础上给出了设计的工程实例。以作者的工程实践为主线,对提高可靠性的具体措施进行了讨论,包括:干扰抑制[15]、生产过程检查与质量控制、系统调试、故障诊断与系统保护等。扼要介绍了故障自诊断与自保护问题。作者在实践中形成的调试基本方法后来在引进项目的大型变频装置调试中发挥了重要作用,保证了现代化水厂的生产与节能。
发表的相关论文
[1] 段文泽. 错位无环流调速-电轴系统[J].重型机床,1980,(1):43-50.
[2] 段文泽. 宽调速系统调速范围的分析研究[J].四川机械,1982,(12):18-27.
[3] 段文泽等. 调速系统低速性能的分析研究[J].电气传动,1983,13(4):21-31.
[4] 段文泽,姚加飞.快速系统中电流变化率非线性控制的研究报告[J].重庆建筑工程学院学报,1983,5(2):33-55.
[5] 李远树等(在段文泽指导下完成).按速差变换结构的调速系统[J].电气传动,1987,17(5):1-5.
[6] 童明叔. 关于饱和非线性特性仿真的商榷[J].信息与控制,1985,14(4).
[7] 童明叔. 调压调磁速度控制系统的计算机辅助设计[J].电气传动,1988,18(1).
[8] 童明叔. 在控制系统设计中应用单纯形法寻优时应注意的问题[J].重庆建筑工程学院学报,1988,10(1).
[9] 段文泽. 按速差校正的复合控制随动系统[J].电气传动,1989,19(3):23-29,52.
[10] 段文泽. 电梯两种控制规律设计及其对比研究[J].电气传动,1996,26(3):32-39.
[11] 段文泽. 供水泵站最优节能控制策略研究.第三届全国电气自动化学术年会论文集[C].天津.1986:684-689.
[12] 段文泽等. 给水泵站最优调度策略与通用程序[J].中国给水排水,1987,3(6):3-9.
[13] 姚加飞,李远树,段文泽.供水泵站微机最优实时控制系统[J].重庆建筑工程学院学报,1987,9(4):57-64.
[14] 段文泽等. 泵站调速节能的自适应控制[J].电气传动,1990,20(5):38-45.
[15] 段文泽. 直流电子拖动系统中的抗干扰问题[J].机床通讯,1976,(4):21-40.
JX-1机器翻译系统试验研究报告 :
段文润1 段文泽2 段文滋3
(1 四川大学 2 重庆大学 3 泸洲市六中)
摘要:JX-1 机器翻译系统以“隐词形论”为基础来排除歧义,将自然语言作成一种“梯级表达”形式,用以提高语法和翻译规则的覆盖面。在知识表达方面采用框架式矩阵表达并采用常量和变量相结合来标志语法、语义和语境特征。语法分析采用隐词形分类和句法分析交错进行、相互反馈的方法。在与规则匹配时采用解耦智能搜索解决“组合爆炸”问题。用PROLOG编程时综合出一种程序全局结构优化模式,大大减少了存储空间的消耗;采用了指针重定位防止程序出错的措施。对系统的试验表明,翻译达到了较为理想的准确度。
注: 此项工作中,段文润负责机器翻译的语言学基础及工程框架,段文泽及段文滋负责工程实现及程序编写。参与此项工作的还有段之宓、段琦丽、段鹰,荷芒等人。
1 JX-1机译试验课题的背景
机器翻译始自上世纪四十年代,已有60余年的历史。目前正进入初步实用阶段。其质量只能达到30—40%的合格率。提高质量的瓶颈在于语言知识的粒度不够细。对于“细度”问题,上世纪70年代末—80年代,曾提出过多种语法理论。这些理论重视词汇及短语的“复杂特征”(即“细度”),为机器翻译可预期的商业实用指明了正确的道路。然而,它们过多地把注意力放到了复杂特征知识的表达及相关的演算上。对复杂特征应是一些什么特征及它们的排歧机制本身重视不够。此后流行的语料库语言学及统计方法为机器翻译所需知识的获取开辟了半自动化的道路,近年的机器词典又为词典的义素化打下了基础。然而,它们对复杂特征的全面细化及其排歧机制仍缺乏商用性的贡献。因此,这个问题至今仍是有待突破的瓶颈。我们在上世纪80年代末也曾独立提出了基于复杂特征的“隐词形论”框架 [1-2]。此后,於1994—1998年曾经用以进行过一次受限词典与受限句型的英—汉机译试验(JX—1系统),取得了良好的效果,本文将作简要介绍。JX-1系统采用规则匹配方法,进一步的工作可将它与统计方法相结合,通过机器自学习,以取得规则更大的覆盖面。
2 JX-1采用的语言理论---隐词形论及隐词形语法
2.1什么是隐词形?
简单说,就是带有功能、语义、语境信息的词形。
一般认为,man是一个词。但是,还有man’s, men等形式。这便是词的词形(wordform)。man可以出现在不同的语境中,从而表现出它潜在具有的各种功能和语义,这便是隐词形。例如:wife and man中man的意义是“丈夫”。又如1) It’s a man.和 2)The car is drived by a man 。1) 里man的功能是作表语,而2)中 man的功能是被动主体。此man非彼man。
2.2什么是隐词形语法?
隐词形类别的划分可粗可细。最粗的是一般讲的词类,最细的是能排除词形之一切功能、语义歧义的类别。所谓语法规则,乃是以词形的类作定义域的多元一次代数函数(即以词形的类充当规则的项)。类分得愈细,函数值(短语或句子)的岐义愈少。如果把类划分到最小等价类,歧义便接近於零,这便是我们提出的隐词形语法。现以词man相关的几条短语规则作简单的比较:
2.2.1 Chomsky式短语结构语法基本上以传统的词类作规则的项,故其排歧能力很弱。例如
(1)Det + N -> Np
是一条常见的短语结构规则,适用於短语实例a man (Det表示限定语,a ∈Det)。本来,man ∈N∪Vt∪Int∪Adj。通过这条规则后,删除了Vt和Int ,仍然保留N∪Adj。
2.2.2一般的复杂特征语法以带有若干特征的词类作为规则的项。特征本质上是对词类的进一步分类。故此类语法的排歧能力大大增强。例如,将(1)修改为规则
(2)Det + N(n/adj兼类,语境结构:Det + N +[非N]) ->Np@N(语境结构:Det + N +[非N]),其中@之后的N是短语的中心词,下同;[非N]是短语之外的语境限制条件。短语 a man 通过规则(2)以后,而只余下man∈N。词类歧义全被消除。再将(2)修改为
(3)a + N(n/adj兼类,带不定冠词,泛指,单数,不带限定性定语,语境结构:a + N +[非N] )->Np@N(带不定冠词,泛指,单数,不带限定性定语,语境结构:a + N +[非N] )
此处引进了不定冠词a这一常量作为规则的一个项。通过此规则后,因为有man∈(带不定冠词,泛指,单数,不带限定性定语,语境结构:a + N +[非N]),所以删除了词 man 潜在可能具有的特性:①“无冠词”,②“特指”,③“复数”④带限定性定语。从而,其词义中便可以删除由这四项特性依次决定的以下十多个义项:①人科(如morden man);老兄、老弟(作呼语);代表(如our man in Havana)② 最合适的人(如It’s the man you need. He is the very man);头头、老板、白人、白人社会、毒品贩子等( the man,美语中的俚语);③ 男雇员(如master and men);士兵们(如oficier and men);④校友、大学生(如an Oxford man)。
2.2.3 隐词形语法把最小等价类作为语法规则的项,将会进一步减少歧义。如把(3)修改为
(4) a + N(n/adj兼类,带不定冠词,泛指,单数,不带限定性定语,可数名词,语境结构:①([非系动词,且非as,且非带宾语和宾语补足语的动词] + a + N + [非N] )∧②([非“句号”,且非“句号+Adverbial”] + a + N + [非N∧非Vp之一般现在时] ))→Np @ N(带不定冠词,泛指,单数,不带限定性定语,可数名词,指个体,语境结构:①([非系动词,且非as,且非带宾语和宾语补足语的动词] + a + N + [非N] )∧②([非“句号”,且非“句号+Adverbial”] + a + N + [非N∧非Vp之一般现在时] ))。
a man 通过此规则后,应有man∈(4)中的@N,并继承了它的全部特征。由于名词若是单数且可数且带不定冠词且泛指且出现在上述语境结构(注:此时应删除其中“非N”之外的“非”字,并将①、②之间的∧改为∨,把①和②中的“且”改为“或”)中,乃表示一个类;若不改变语境规定则表示一个个体;故短语实例若通过规则(4),则其名词乃指个体而非类。译成汉语时,个体一般要加“一”字,类则一般不必加“一”字。因此,这条规则排除了以下表示类的用法:①The worker is a man(男人[类])[but not a woman,or a monkey].② He worked there as a teacher(教师[类])[but not an engineer].③ The army will make a man of you(男子汉[类])[won’t be like a woman].④A semi-conductor has some important properties(半导体[类])[but not a conductor]。只余下⑤ there is coming a man by bus ([一个男]人)这类表示个体的用法。再把以上的(4)修改为规则
(5) a + N(n/adj兼类,带不定冠词,泛指,单数,不带限定性定语,可数名词,指个体,非专业词且非口语词且为修辞中性词,语境结构:①([非系动词,且非as,且非带宾语和宾语补足语的动词] + a + N +[非N])∧②([非“句号”,且非“句号+Adverbial”] + a + N + [非Vp之一般现在时] ))->Np@ N(带不定冠词,泛指,单数,不带限定性定语,可数名词,指个体,非专业词且非口语词且为修辞中性词,语境结构:①([非系动词,且非as,且非带宾语和宾语补足语的动词] + a + N+[非N])∧②([非“句号”,且非“句号+Adverbial”] + a + N + [非Vp之一般现在时] ))。
a man 通过此规则后,man∈(5)中的@N,也继承了它的全部特征,因此应排除专业、口语,和带修辞色彩等相关词义,man又可删除以下义项:球队男队员(体),棋子(体),(反映上帝的)人(宗),封臣、佃户(史),情夫(口),16-17岁的男孩(带戏谑色彩)。
短语规则(5)基本上已将词形man 划分入最小等价类,其词汇歧义已全部消除 [3] ,只剩下“(男)人”一个义项,功能已明确为“泛指个体”(暂没有讨论可能的种种“格”功能)。
通过上例可以看出,隐词形语法无论在基于规则匹配的规则制定中,还是在基于统计方法的语料库编制时,其排歧能力都是最强的。
3. JX-1系统的知识表达
JX-1的知识表达框架类似‘功能合—文法’的‘复杂特征—值’框架,仍然用矩阵表示。不过,矩阵的元素一般没有采取‘<特征名>=值’的形式,而是直接记入特征值;但是,事先规定好矩阵中的元应表示何类特征。这样做有利於减少机器的运算量,提高运算速度。下面,我们示意性地给出词形is coming的矩阵表达形式(还应增加fi的数量,以表示数、人称、方式(陈述、假定、疑问)等等特征)如表1。
表1 词形is coming∈Vi的表达式(其中假定其Vi子类有5种,假定其现在进行时的转义有5种,15个义项及其义素乃根据牛津词典)
编号 |
词形 |
义项 |
子类 |
各义项要求的格之承担者应具有的义素x |
各义项对应的义素集 |
各词形的语法意义 |
第一义项 |
… |
第四义项 |
…第15 义项 |
第一义项 |
… |
第四义项 |
直至第15 义项 |
现在进行时(is coming) |
直至最后的形态 |
1 |
is coming |
来,走来 |
Version-sp |
agentive(x) |
… |
degree(x) |
… |
Move |
… |
reach |
… |
直义(正在……) |
0 |
2 |
0 |
2 |
2 |
direction(x) |
… |
0 |
… |
towards to speaker |
… |
fall |
… |
转义1(计划、打算…) |
0 |
3 |
0 |
3 |
3 |
goal(x) |
… |
0 |
… |
0 |
… |
rise |
… |
转义2(将要…) |
0 |
4 |
0 |
达到… |
4 |
instrument(x) |
… |
0 |
… |
0 |
… |
0 |
… |
4 |
0 |
5 |
0 |
5 |
5 |
0 |
… |
0 |
… |
0 |
… |
0 |
… |
5 |
0 |
6 |
0 |
6 |
0 |
0 |
… |
0 |
… |
0 |
… |
0 |
… |
6 |
0 |
7 |
0 |
7 |
0 |
0 |
… |
0 |
… |
0 |
… |
0 |
… |
0 |
0 |
… |
0 |
… |
0 |
0 |
… |
0 |
… |
0 |
… |
0 |
… |
0 |
0 |
15 |
0 |
15 |
0 |
0 |
… |
0 |
… |
0 |
… |
0 |
… |
0 |
0 |
其中:
1、取0值表示某项内词形或特性不存在,因此当词形表达式作为一个项进入规则与实例相匹配(匹配只检查交集是否非空,非空则匹配成功)时,只需要对非零特征进行匹配。
2、这个表格框架已对作为词的come预留了位置,只要把第1列()与第6列()的0补充成为相应的词形及其语法意义,便已是come的表达式。当然,要作为词come的表达式,还应以的形式添加上,n和int(感叹词)等词类的特征,再增加三张表。
3、可以看出自身也是矩阵。把它们转置一下,将列变成行,并只占一列,则将成为一个三维的结构,使义项与义项,词形与词形对上号。
4、若f1,f2,f3中只取一行,f4中只取一列和一至若干行,f5中只取一列,f6中只取一行一列,构成矩阵,便是隐词形的矩阵表达。例如:is coming k=Vi〔is coming , 来 , Version-sp ,〔agentive(x), instrument(x)〕,〔move , towards to speaker〕, 直义(正在…) 〕指的是 is coming 的第k号隐词形,属於Vi,形态是is coming ,词义是“来”,属于Vi的子类Version-sp(可构成主谓倒装句者),要求的格是agentive(主格)和instrument(工具格),承担格的名词应有义素x ,词项“来”具有的义素有move和towards to speaker,“直义”指现在进行时的语法意义是直义。
4. 隐词形语法的弱点和JX-1的对策----自然语言的梯级表示
隐词形语法也有其弱点,一是制定规则很花人力,二是规则的覆盖面窄。考虑到规则之常量愈多,则歧义愈少;我们可以用带有不同数目常量的规则来减轻我们制订隐词形语法规则的工作量;同时也可容许一般的短语结构文法,以保证系统的覆盖面。这样,将自然语言作成一种梯级的表示 [4]。这种方法不失为目前开发机器翻译系统的权宜之计。例如,针对Chengdu sets to control environment pollution适配的句型,我们可以提出规则① N+Vt+Np → S ②N(地名, x, y)+Vt(阶段动词[表示开始、继续、结束等意义] 要求接inf, x, y)+Vt(inf,要求其宾语具有义素z )+Np(N(t)+N([z,t])) → S ③N(地名, x, y)+Vt(阶段动词,x y)+ control environment pollution ∈Vp@Vi(inf)) → S 。①是一般的短语结构文法规则,显然会留下许多歧义;甚至可能把sets to译成“开始大吃”。②是隐词形短语结构规则。其中, x, y可保证主、谓语之间人称和数的一致;z可以保证动、宾之间的可搭配性;t 可以保证N作N的定语时的可搭配性。因此,基本上没有歧义(词典中x,y, z, t定义不当时,仍可能误译)。③由于规则的第3项是短语常量,更可保证译文的正确性。④我们甚至可以定义Happy birthday → S 这样的全常量“规则”,并把它们记入英汉对照词典。这当然是绝对正确的。
上面规则中的常量有两种类型:一是将词组直接写入规则,如规则③的第三项;第二种如规则②、③中的“地名”,它明确规定了隐词形特征,相对于x, y, z, t 而言,也可看成特征常量,x, y,等则看成变量。常量愈多,译文愈准,覆盖面愈窄。显然,②、③中如果把x,y, 改为“第3人称”和“单数”,规则的覆盖面就会变窄。
这种分词汇常量、特征常量和特征变量的表达方法就是“梯级表示”,它有利于逐步地分层地对句子进行分析,避免一揽子的搜索匹配带来的“组合爆炸”。
JX-1系统正是按上述方案进行试验的。试验结果表明:隐词形语法和带常量的语法规则处理的文章和句子全部正确,其余部分正确率仍然较低。
5. JX-1的语法分析过程----切分组合与规则的调用
我们没有采用常用的对短语结构树形图进行搜索的分析方法。我们采用的是隐词形分类和句法分析交错进行、相互反馈的方法。这一方面是为了适应隐词形语法的需要,另一方面也可以减少多余的搜索。现以There is coming a man with a hammer为例,示意性地说明其过程。
1)查词典并调用屈折规则,进行第一次切分,得There / is coming / a / man / with / a / hammer. 切分前,come∈Vi∪Vt∪N∪Int,经过屈折规则的切分,只剩下 is coming∈Vi∪Vt。
2)调用简单名词短语规则,进行第二次切分,得There/ is coming /np( a man) / with /np( a hammer)。切分前,man ∈N∪Vt∪Int∪Adj ,切分后只剩下了man∈N,且man的词汇歧义全部排除(见前文)。切分前,hammer∈N∪Vi∪Vt,切分后hammer∈N(讨论从略)。至此,句中已无词类岐义,已不必再调用词类兼类排歧规则模块,或相应的统计模块。
3)调用介词短语规则,进行第三次切分得There / is coming /np( a man) /pp(with( a hammer))。
4)调用格分类判定规则(讨论从略),进行第四次切分,得There / is coming / np( np( a man)pp( withnp( a hammer)))。切分前pp∈修饰格∪趋向格∪目的格∪工具格,man∈施事格∪宾格,is coming∈Vi∪Vt;切分后pp及np(a hammer)仅余修饰格,pp作np( a man)的定语; np( a man)为施事格,作主语(含大np); is coming 仅余Vi,with仅余义项“带著”。
5)调用现在进行时直义、转义分类规则,和带常量的句型规则“(There + is coming + NP)∈simple sentence”对全句进行组合,得s(There /is coming /np(np(a man) pp(with np(a hammer))),且there的义项是“过来”。至此,句法分析全部完成。
6)调用词义排岐模块 [3],消除句中词汇的一切多余义项。
6. JX-1中的翻译规则
JX-1没有采用“源语分析→目标语生成”两大模块的一般处理模式,而是采取对每个短语和句子的分析结果给出一条翻译规则的方法。例如,首先可以对5)编号如下:
s(aThere /b is coming /c np(a’ np(a’’ a b’’ man) b’ pp(d with e np(f a g hammer))),其中 a b c d e f g a’ b’ a’’ b’’ 等等皆是各成分和单词的编号。
利用分析得出的隐词形及隐词形短语的特性,可制订翻译规则:a+b+c(a(a+b)+b(d+e(f+g)))→ c(a’’+个+d+g+的+b’’)+正+b+a = a’’+个+d+g+的+b’ ’+正+b+a 。调用此规则,并填入各隐词形的义项,得译文“一个带著锤子的人正走过来”
显然,用我们这种方法,省去了一大模块,故可以大大减少机器的工作量。而翻译规则的制定也比较简单,并因为它与句法分析结果一一对应,其准确性也更高。
(注意:(1)pp的短语翻译规则从略,(2)有的短语分析表达式不宜单独给出翻译规则(讨论从略),(3)5.6.两节中从略的部分,可参阅文[2]。
7. JX-1中的规则匹配与搜索策略[5-6]
在机器翻译处理句子时,按文[2]的“隐词形语法”,在短语切分组合过程中,每个部分(项)在专用的机译词典中具有多个语法、语义、语境特征并有相应的译义,如表1所示。在程序中它们可用多个字符串或复合数据结构表达。它们在句子中又可构成更多的组合方案。究竟选择哪个组合方案才能得到正确的译义,就要把各种方案和句法规则相匹配。由此,抽取一类相关对象组合模型表述如下:
模型1:设有m个对象G1,G2,…Gm,它们分别是字符串或复合数据结构的集合。不影响问题的一般性,设它们都各自有n个数据(对应机译中n个特征)。
G1 ={G11,G12,…,G1n}
G2 ={G21,G22,…,G2n} (1)
……
Gm ={Gm1,Gm2,…,Gmn}
按顺序从每个对象中抽出一个数据来进行排列(对应句子),可得nm种,其中之一为
S_={G1_,G2_,…,Gm_} (2)
其中下划线_ 表示某一个号码。现在要从nm 种排列中,搜索出能与规则
T=[T1,T2,…,Tm](3)
相匹相匹配的一种。这里,规则对象数据的特征用不同字符表示。某些字符(特征)是已知的常量,如a,b,c等,它们在(句型)规则中形成固定的搭配;另一些则是未知的,如x,y,z等,它们可以取不同值[(这样可判定词汇和格的搭配关系以便排除词汇和格的歧义;并简化句内的一致关系的处理,使一条短语或句型规则囊括更多的句子)。不同对象的数据之间可能是相关的,在句中,相应字符(与表1中 相对应)应相等(若是表简单特征的字符便要求相等;若是字符指一个集合表示一个复杂特征,则要求“交集非空”。不过,要求集合A与集合B之交集非空,实际上也就是要求A与B有相同的元素,只是运算复杂一点而已。下同)。例如:
T1=“axbycd”
T4=“efxgzh”
T5=“ijklmx”
T7=“nyzopq”
其中,T1的第2位,T4的第3位,T5的第6位都是x,它们应相等;T1的第4位,T7的第2位都是y,又应相等;T4的第5位,T7的第3位都是z,也应相等。因此,T1、T4、T5以参数x相关,T1、T7以参数y相关,T4、T7以参数z相关。与之相匹配的G1_,G4_,G5_,G7_就应满足下面的三个全局相关约束条件(分别相对于x,y,z 三个参数):
g12 = g43 = g56
g14 = g72 (5)
g45 = g73
其中g12 表示G1_(G1中的某个数据)中的第2个字符,其余类推。
对于上面搜索问题采用深度优先策略时,往往产生“组合爆炸”,而启发式智能搜索又难以实现。我们若能解除对象之间的相关关系,即实现解耦,问题就大为简化,如图1所示。
图1 相关对象组合的解耦递解智能搜索
这里,解耦处理后的搜索已变成三个独立的搜索,开销将大为减少,从nm次减为nm次。在JX-1工作中我们提出“闭环消除法”,利用先验知识(相当于机译中的句法规则),消去不满足相关约束的那些数据,剩下的全部满足相关约束。匹配时就只需考虑数据中那些已知项的匹配,也就只需顺序搜索了。由于消去一些数据,顺序搜索次数也更少一些。在文[6]的一个例子中,n=5,m=10,最坏情况下要花 nm = 9765625次搜索;而采用解耦智能搜索后,考虑到分两层处理,只花81次搜索。“深度优先”的操作次数是“解耦递阶智能搜索”的120563倍!!!
文[5-6]证明了方法的有效性。上机试验的结果,在既定条件下操作次数减少12倍。
8. 机译系统的PROLOG程序结构优化与纠错 [7-8]
PROLOG作为人工智能语言,在知识表达、逻辑推理、状态空间搜索等方面都具有明显的优越性,其描述性语言特征也使问题求解大为简化。它把每个谓词作成一个封闭体,除了通过“约束-非约束变量”的渠道与外界进行双向数据交换外,别无它路。这一方面减弱了模块间的耦合性,增强了程序的可移植性,减少了出错概率;另一方面也少了一个数据通道。如果谓词的执行成功,一些被占用的空间就不能释放,常出现堆溢出问题。当程序规模增大时,这一问题尤为突出。
在JX-1的工作中,我们以减少存储空间消耗为主要目标,研究了程序的优化结构[7]。在分析程序基本结构及其优化方法的基础上,提出一种强制失败-数据旁路结构,作为已有优化方法的补充。由此综合出一种全局结构优化模式。
对一篇短文作重复翻译试验的结果,程序优化前只能运行一次,第二次即出现堆溢出。优化后,按计算能运行2580次。这实际上已相当于不受限制,因为翻译多次后总要退出菜单。当重新进入翻译系统时,一切又已恢复如初。可见这一研究为在微机上运行较大型的翻译软件奠定了一个良好的基础。
一些程序语言(PROLOG和C语言等)具有指针定位不确定性的问题,它常使程序出错,严重时甚至无法往下运行。在JX-1的工作中,分析了其产生的条件,提出了用“特征辩识”对指针重定位的对策,保证了程序的正确运行[8]。
参考文献:
1. 段文润.俄语简单句句型的“群”描写——数理语言学的一种代数方法[A],科学的整体化趋势[C]. 成都:四川大学出版社.1989
2.段文润,段之宓,段琦丽.隐词形论及其在机器翻译中的应用. 中国科技创新网,论文在线: /Article/ShowArticle.asp?ArticleID=3173, 2007.10.24.
3. 段绮丽.机器翻译中词义的常识排岐[A].重庆大学学报 [J ],2005,28(3):69-71
4. 段绮丽,段之宓. 机器翻译中自然语言的梯级表示模型[A].机器翻译研究进展[C].北京:电子工业出版社,2002
5. 段鹰,荷芒. 机器翻译中的一种状态空间搜索方法. 重庆大学学报[J],2006,29(3):99-102
6. 段鹰,段文泽. 一类相关对象组合的解耦递阶智能搜索. 中国科技创新网,论文在线: /Article/ShowArticle.asp?ArticleID=2644, 2007.9.3.
7. 段鹰,段文泽. PROLOG逻辑程序设计的结构优化. 重庆建筑大学学报 [J],1998,20 (6) :91-99
8. 段鹰,薛克飞, 段文泽. 逻辑程序设计中指针的重定位.计算机应用研究 [J],1998,15(2):264-265