隐词形论及其在机器翻译中的应用

段文润1 段之宓2 段琦丽3

（1.四川大学外国语学院，610064；2.中国电子科技集团公司第十研究所，成都，610036；

3.中国电信成都分公司 610051）

摘要: 本文提出了隐词形这一计算语言学的新概念，并基于此概念建立了隐词形语法。隐词形理论要求应将作为代数系生成元集的自然语言的词的集合，按照其出现的言语语境，划分为最小等价类子集。因而，作为构句基础元素的隐词形在句法功能和语义上便是无歧义的，而隐词形语法规则便是带有语义和语境信息的语法。这种语法曾用在我们的机器翻译试验系统JX—1上，并证明具有很强的排歧功能。

关键词：隐词形，隐词形语法，等价类子集，言语语境，排歧，机器翻译，统计方法

中图分类号：H03，TP301.2 文献标识码: A

Abctract: In this paper we provided a new formalized conception of computer linguistics—potential wordform, and on the basis of this conception we built a potential wordform grammar. The theory of potential wordform requires that words of national language, as the set of generative elements of a algebraic system, should be divided into minimum equivalence class subsets according to the speech situation where the words appear. Therefore, the potential wordform, as the fundamental element of sentence building, is disambiguous in its syntactic function and semantics, and the potential wordform grammar is a grammar with sematics and situation informations. The grammar was applied in our experimental machine translation system JX—1 and was proved to be a grammar highly effective in disambiguation .

Key words: potential wordform, potential wordform grammar, equivalence class set, speech situation, disambiguation, machine translation, statistical method

1. 机器翻译历史及现状评论

机器翻译始自上世纪四十年代，已有60余年的历史。目前正进入初步实用阶段（如国外的Eurotran系统及国内的若干上市软件）。所谓初步实用,离真正的实用还很远。目前，各系统对简单句及受限文本（如可“对齐”语句）的翻译尚可，而对复杂长句及非受限文本（如不能“对齐”的语句）的处理则仅仅处于起步阶段。后者的质量，若按外语专业的标准打分（目前尚无权威的国际测试标准）只能达到30—40%的合格率。提高质量的瓶颈在于语言知识的粒度不够细，从而不能有效排除歧义。对于“细度”问题，上世纪70年代末—80年代，即曾提出过“格语法”（Fillmore）[1]、“广义短语结构文法”（Gerald Gazdar）、“词汇—功能语法”（Bresnan及Kaplan）、“功能合一语法”（M.Kay）、“多叉多标记树”（冯志伟）[2]以及《现代汉语语法信息辞典详解》（俞士汶等人）[3]等理论和著作。这些理论重视词汇及短语的“复杂特征”（即“细度”），为机器翻译可预期的商业实用指明了正确的道路。然而，它们在具体的理论阐述与工程实施上，过多地把注意力放到了复杂特征知识的表达（如特征矩阵、多叉多标记树等）及相关的演算（如非循环有向图、合一运算等）上。对复杂特征应是一些什么特征及它们的排歧机制本身反倒重视不够。此后流行的语料库语言学及统计方法（马尔科夫随机过程、信息熵等）为机器翻译所需之词汇及语法知识的获取开辟了半自动化的道路，也为机器词典的义素化打下了基础（如普林斯顿的Wordnet[4]、董振东的Hownet）。然而，对复杂特征本身应如何全面细化及各特征的排歧机制仍缺乏商用性的贡献。统计排歧的词类几乎仅是传统语法的词类，而义素词典也还不能完全适应词义排歧的需要，不能有效解决机译中的排歧问题。因此，语言知识粒度的细化及其排歧机理的研究，至今仍是有待突破的瓶颈。我们在上世纪80年代末也曾独立提出了基于复杂特征的“隐词形论”框架[5]，此后在一次受限词典与受限句型的英—汉机译试验（JX—1系统）的实践中又对此理论进行了具体化和充实。实践证明，“隐词形论”在排除歧义、提高机译质量方面取得了明显的效果,有必要进一步研究充实,形成词典和语法,以便用於语言工程。

2．隐词形论简述 3. 隐词形的知识表达，获取与运用

参考文献：

1. Cｈａｒｌｅｓ　Ｊ　Ｆｉｌｌｍｏｒｅ. 格辨［Ａ］．语言学译丛（第2辑）[C].北京：社科院出版社.１９８０.

2．冯志伟. 机器翻译研究 [M]. 中国对外翻译出版公司. ２００４

3．俞士汶等.现代汉语语法信息词典 [M]. 北京：清华大学出版社.１９９８

4．Ｃｏｇｎｉｔｉｖｅ　Ｓｃｉｅｎｃｅ　Ｌａｂｏｒａｔoｒｙ　ａｔ　Ｐｒｉｎｃｅｔｏｎ　Ｕｎｉｖｅｒｓｉｔｙ．ＷｏｒｄＮｅｔ－1.7.1[EB/OL].http://www.cogsci.princeton.edu/~wn/,2004-05-10

5. 段文润.俄语简单句句型的“群”描写——数理语言学的一种代数方法[A]，科学的整体化趋势[C]. 成都:四川大学出版社.1989

6. Richard Montague. Universal grammar[A], ”Formal Philosophy”, Selected Papers of Richard Montague[M].Yale University Press.1979

7. 赵元任.汉语口语语法[M].商务印书馆.1979

8. 段绮丽.机器翻译中词义的常识排岐[A].重庆大学学报 [J ]，2005，28（3）：69-71

9. Русская Грамматика. Академия Наук СССР, Институт Русского Языка, Издательство Наука .1980

10． F. de Saussure,Cours de linguistigue generale,[M] .Paris,1972 .Курс Общей　лингвистики　，Русское издание

11. Chomsky , N. Aspects of the Theory of Syntax [M]. Cambridge,Mass,The MIT Press. 1965

12. 段鹰，荷芒. 机器翻译中的一种状态空间搜索方法[J]. 重庆大学学报，2006，29（3）：99-102

13．段鹰，段文泽. 一类相关对象组合的解耦递阶智能搜索. 中国科技创新网,论文在线: /Article/ShowArticle.asp?ArticleID=2644

14．黄昌宁，夏莹主编. 语言信息处理专论 [M]. 北京：清华大学出版社，广西科学技术出版社.１９９６

15. 段绮丽，段之宓. 机器翻译中自然语言的梯级表示模型[A].机器翻译研究进展[C].北京：电子工业出版社，2002

文章录入：zgkjcx 责任编辑：zgkjcx

上一篇文章：拨开迷雾，说清楚“含氟牙膏”“无氟牙膏”的真相

下一篇文章：化学合成研发多肽蛋白质类创新药物

名称：科技创新网	工信部备案号:京ICP备13040577号-2 京公网安备11010802045251号
版权所有：未经授权禁止复制或建立镜像	E-Mail:zgkjcx08@126.com