浅谈机器翻译之瓶颈及目前的研发趋势

jopen 9年前

(一)简介

所谓的机器翻译(Machine Translation),指的是使用电脑,将以一种原语言(Source Language)书写的文件,转换为另外一种目标语(Target Language)。自1940年代后期开始,机器翻译一直是人工智慧领域的重要研发项目。这主要是因为语言向来被认为是人与动物重要的差异所在,因此能否以电脑进行如翻译等复杂的语言处理,一直是人工智慧学门中相当引人入胜的课题。而且翻译本身即为具有潜质的商业内存块,国际交流的兴盛,更扩大了对翻译的需求。如果能在质量方面有所突破,在专业领域的翻译上取代人工译者,可以预见会有相当大的市场。除此之外,机器翻译牵涉到自然语言(Natural Language,如中文、英文等,用以区别人造的程序语言)的分析、转换与生成,差不多已涵盖了自然语言处理的所有技术,且测试方式较为明确具体,可以作为自然语言处理技术研究的研发平台。因此之故,机器翻译多年来一直吸引着工业界投入相关之研发工作。

但是,机器翻译若要在翻译市场占有一席之地,就必须面对人工译者的竞争。由于机器翻译的成品需以人工润饰和审核,这部分的人力成本将会占实际运作成本的大部分。也就是译后人工润饰和人工直接翻译相比,能够节省的时间必须多到某种程度,机器翻译才能达到实用化的阶段。如果电脑的翻译成品中仍有相当程度之误译,负责润饰的人员就必须花费大量的时间,先阅读原文了解文意,再对照机器翻译稿,分辨正确和错误的翻译,而后才能开始进行校正工作,因而大幅增加机器翻译的成本。所以一个正确率为70%的翻译系统,其价值可能不及一个正确率90%翻译系统的一半。这就好比在采矿时,决定矿脉是否值得开采,不只是看矿物本身的价值,还要考察探矿和采矿的成本是否过高。因此在理想情况下,应让译后润饰者尽量无须参照原文,即可了解文意,仅须对机译稿作辞句上的修饰即可,就像是老师在改作文一样。

由于有人工翻译这项竞争方案,因此机器翻译若要在市场上占有一席之地,其翻译质量必须超过一相当高的临界点,精确度也会面临严格考验。然而因为下文中提到的种种因素,要产生高品质的翻译并不是件容易的事,连带使得机器翻译的研发和实用化遇到障碍。

在下一节中,我们将先简单介绍一般机器翻译的作法,然后叙述研发过程中遭遇的困难。接下来说明可能的解决方式。最后一节中,则会陈述机器翻译研究的未来与展望。

(二)基本流程

机器翻译系统虽然可概分为直接式(Direct)、转换式(Transfer)及中介语(Interlingua)三类,但考察实作上的困难度,目前大部分的机器翻译系统,都是采用转换式的做法。转换式机器翻译的过程,如下图所示,可以大致分为三个部分:分析、转换和生成。

浅谈机器翻译之瓶颈及目前的研发趋势

以“Miss Smith put two books on this dining table.”这句话的英译中为例,首先我们会对这句话进行构词(morphological)和语法的分析,得到下图左侧的英语语法树。到了转换阶段,除了进行两种语言间词汇的转换(如“put”被转换成“放”),还会进行语法的转换,因此原语言的语法树就会被转换为目标语的语法树,如下方右图所示。

浅谈机器翻译之瓶颈及目前的研发趋势

语法树的结构经过更动后,已经排列出正确的中文语序。但是直接把整棵树的各节点排列起来,便成为“史密斯小姐把两书放在这餐桌上面”。这其实并不是合乎中文文法的句子。因此在生成阶段,我们还要再加上中文独有的其他元素(例如量词“本”和“张”),来修饰这个句子。这样我们就可以得到正确的中文翻译:“史密斯小姐把这两本书放在这张餐桌上面”。为了清楚示意,以上流程仅为经过高度简化的程序。在实际的运作中,往往需要经过多层的处理。

(三)问题

自然语言处理最大的难处,在于自然语言本身相当复杂,会不停变迁,常有新词及新的用法加入,而且例外繁多。因此机器翻译遇到的主要问题,可以归纳为两大项:(1)文句中歧义(Ambiguity);(2)语法不合设定(Ill-formedness)现象。自然语言的语法和语意中,不时会出现歧义和不明确之处,需依靠其他的信息加以判断。这些所谓的“其他信息”,有些来自上下文(包括同一个句子或前后的句子),也有些是来自是阅读文字的人之间共有的背景知识。以下将分别说明这两项问题。

3.1. 歧义

所谓歧义,就是一个句子可以有许多不同的可能解释。很多时候我们对歧义的出现浑然不觉。例如“The farmer’s wife sold the cow because she needed money.”这个句子,一般人都可以正确指出此处的“she”代表的是“wife”,但是在句法上,“she”指的也可能是“cow”。虽然人类依照常识能判断出正确的句意,但是对于依照文法规则来理解句子的电脑来说,这是一个含有歧义的句子。

在分析句子时,几乎在每一个层次上(如断词、句法分析、语意分析等),都有可能出现歧义。单字的解释往往会因前后的文字而异。此外,判断句子真义时需要的线索,也可能来自不同的范围。下面这三个句子在单字的字义判断上虽有歧义,但仅依靠句子的其他部分,即可得到进行判断所需的充分信息:

  • Please turn on the light.
  • Please turn the light on.
  • Please turn the light on the table to the right direction.

第一句和第二句很明显,句中的动词就是可分动词片语turn on,因此我们可以轻易判断出第二句句末的 on是动词片语turn on的一部分。但是在开头与第二句完全相同的第三句中,同样位置的on却是介系词片语on the table的一部分,与turn完全无关。由此可知,一个字在句子中扮演的角色,必须要参考完整的信息后才能确定。

但有的句子若是抽离上下文单独来看,则无法判定确切的句意。例如下面两个句子:

  • 他這個人谁都不相信。
  • I saw the boy in the park with a telescope.

第一个句子,说的究竟是“他这个人不相信任何人”,还是“任何人都不相信他”?第二个句子,说的究竟是“我用望远镜看到一个男孩在公园里”、“我看到一个男孩带着望远镜在公园里”、“我在公园里用望远镜看到一个男孩”还是“我在公园里看到一个男孩带着望远镜”?若是没有上下文的信息,应该没有人可以确定。

还有些句子,甚至需要用到文章当中没有明言的信息。它们虽然没有形诸文字,但读者仍然可依循背景知识,察知文句应有的涵义。以下面这两个句子为例:

  • The mother with babies under four is ......
  • The mother with babies under forty is ......

两个句子的句法完全相同,差别仅有“four”和“forty”一字。但是读者却可轻易的了解,第一个句子的“four”是用来修饰“baby”,而第二个句子的“forty”是用来修饰“mother”。读者之所以能下意识地判断出正确答案,凭借的不只是文字的字面意义和语法,还要再加上生活在人类社会中的常识,了解“baby”和“mother”的合理年龄范围。而这种“常识”,正好就是电脑最欠缺,也最难学会的部分。

我们在征求译者时,通常会要求译者对稿件涉及的专业领域拥有一定的素养,为的就是避免在这种“常识”问题上出错。这并不是一本专有名词字典可以解决的。就像上面所举的例子一样,字典并不会列出四岁以下的人不可能是母亲,那是读者早该知道的。机器翻译势必要面对的难题之一,就是如何让电脑得到或学习这些“常识”。我们必须能够用电脑可以理解的方式,把知识呈现出来,包括一般性的常识,和特殊领域的专业知识。

由于在分析过程中,一般是依循断词、语法分析、语意分析等程序进行。但往往在做前一步骤时,就需要后面尚未执行之步骤所产生的信息。例如在断词时,常常也需要使用句法及语意的信息来协助判断。因此在机器翻译的过程中,若采用线性流水式的处理程序(Pipelined Architecture),则前面的模块经常无法作出确定性的(Deterministic)判断,而须尽量多保留候选者,让后面的模块处理。因此,最终判断的时机应尽量延后,待累积足够信息后,再决定要使用的译法。这样才不会在信息尚未完整的时候,就把正确的译法排除到考虑范围之外。

3.2. 不合设定的语法

另外,虽然所有的语言都有语法,但一般我们所谓的语法,其实是一些语言学家,针对目前拥有的语料,所归纳出的一些规则。这些规则不见得完整,往往也有许多例外。再加上语言是一直在变迁的,因此我们无法要求语言的使用者,每字每句都合乎这些人订定的文法,自然也难以避免这些状况发生在我们所要处理的翻译稿件中。这些不合设定语法的例子包括不明的字汇,如拼错的字或新产生的专有名词,和旧有字汇的新用法。例如“Please xerox a copy for me.”这样的句子,即将复印机大厂Xerox的公司名称当作动词“复印”来使用。

这些状况有些来自于单纯的疏失,例如错字、漏字、赘字、转档或传输时产生的乱码,或是不慎混入的标签(tag),也有些是已经获得接受的新字汇和新语法。理想的机器翻译系统,必须能够适当地处理这些不合设定语法的问题。

除了字汇以外,在语句的层次也有可能出现不合文法的情形。例如“Which one?”之类的短句,在句法层次违反了传统的英文文法,因为句中没有动词,不合乎许多文法课本对句子的定义。而“My car drinks gasoline like water.”这样的句子,也违反了一般认为动词“drink”的主词必须是生物的设定。

(四)解决方法

欲解决上述的歧义或语法不合设定问题,在在需要大量且琐碎的知识。这些大量知识的呈现、管理、整合以及获取,将是建立机器翻译系统时的最大挑战。我们不但要将这些包含在语言学之内(intra-linguistic)、跨语言学的(inter-linguistic),以及超乎语言学之外(extra-linguistic)的知识抽取、表达出来,用以解决上述的语法错误和歧义问题,还要维护这个庞大的知识库。

此外,由上文可知,光是依靠专业领域的字典,仍然无法解决各领域的特殊问题。我们真正需要的,是各相关领域的专业知识。因此,我们要建立的知识库必须包罗万象,涵盖各领域、各层面的知识。这些知识不但范围广大,而且杂乱琐碎,要将它建立完善,本身就是一项艰巨的工作。事实上,知识的取得是机器翻译系统开发上最大的瓶颈。也因此,若要解决机器翻译的问题,一定要有成本合宜且全面性的知识获取方式,并兼顾多人合建系统时的一致性(Consistency)问题。

通常知识的获取方式,和我们表现知识的方式有很大的关联。表现知识的方式可以有不同的形式。例如一般的英文常识告诉我们,冠词后面不会出现动词。要表现这项知识,我们可以使用条列式的规则:“若某字是冠词,则下一个字不可能是动词”,也可以使用机率式的描述:“若某字是冠词,则下一个字是动词的机率为零”。这两种不同的知识表达方式,会衍生出以下两种不同的机器翻译策略。当然除此之外,常用的还有储存大量例句的例句式(Example-Based)系统,将不在此详述。有兴趣的读者,可自行查阅等相关文献。

4.1. 规则库方式

规则库系统系由事先以人力建立好的大量规则所构成。进行翻译的时候,电脑即依据这些规则,进行是与否的二择判断,以决定分析、转换和生成步骤中,最后被标明的答案。这种作法也是早期大多数机器翻译系统所采行的作法。

规则库方式的优点在于贴近人类的直觉,因此容易了解,而且可以直接承袭现有的语言学知识和理论,充分运用前人研究的结果。相较于下文中提及的参数化方式,规则库方式耗用的电脑硬件资源也比较少。但是相对的,规则库方式也有它的缺点。规则库系统是一连串是与否的二择,但是自然语言中却处处可以见到违反规则的例外。因此,当遇到复杂且较无规律的状况时,规则库方式往往就需要引用大量繁琐的规则来处理。但规则的总数越多,维护起来就越困难。而且只要出现少部分无法精确区隔的例外情况,就会大幅降低整体的性能。例如若每个规则在进行判断时的正确率可达90%,则经过20次判断之后,错误逐渐累积,其正确率就有可能锐减为12%(0.9的20次方)。因此规则库方式一般说来仅适用于较为常规的状况。

此外,规则库式翻译系统的建立和维护完全须仰赖人力,这也是一项很大的缺点。首先,在现代社会中,大量人力代表昂贵的金钱,而且人的能力有其局限,例如一般人在脑中能同时处理的事项,通常只有5到9项。因此在作修正时,往往无法同时考虑到规则库中所有的规则,和是否适用于所有的语料。可是,若要提升全系统的性能,就必须对系统作整体的考察,否则就很可能会产生所谓的“翘翘板效应”(即某个范围内的性能提升,反而使另一个范围内的性能下降),而无助于提升整个翻译系统的性能。

上述这些缺点,使得规则库翻译系统的建立、维护和扩充十分不便。当系统的复杂度达到一定的水准后,翻译质量往往就很难再行提升。这是因为规则库方式的复杂度,在增加到某个程度后,就很可能会超乎人力所能维护的范围之外。所以其性能常常在达到70%至80%的正确率后即停滞不前,很难更上一层楼。这些难题主要是来自于自然语言的特性,以及规则库方式本身的缺陷。所以要突破这个瓶颈,我们可能得换个方式下手。

4.2. 参数化方式

前文已提到,语言现象也可以用机率式的描述方式来表示。例如要表示冠词不会接在动词前面这个现象,我们也可以采用“冠词的下一个字是动词的机率为零”这个说法。若以数学式表示,即为P(Ci= Verb |Ci-1=Det)= 0,其中Ci代表第i个字被归为何种辞类。至于实际的机率值,则是来自以电脑统计语料库中各种相邻词类组合(如冠词与动词相连)出现次数的结果,如下列公式所示:

浅谈机器翻译之瓶颈及目前的研发趋势

在累积足够的机率参数之后,就可以建立起整个统计语言模型。然后藉由参数之间数值大小的比较,告诉电脑人类在各种不同条件下偏好的解释和用法。

这种机率表示法的最大好处,就是可以将参数估测(统计)的工作交给电脑进行。而且用连续的机率分布,取代规则库方式中是与否的二择,为系统保留了更多弹性。而估测参数时,由于是将语料库中的所有语言现象放在一起通盘考虑,因此可以避免上述的“翘翘板效应”,达到全局最佳化的效果。参数化系统由大量的参数所组成,因此参数的获取需要大量的电脑运算,储存参数也需要相当大的储存空间,超过规则库方式甚多,但是在硬件设备发展一日千里的今天,硬件上的限制已经逐渐不是问题了。

采用参数化的方式,主要是因为自然语言本身具有杂芜繁琐的特性,有些现象无法找出明确的规则作为区隔,或是需要大量的规则才能精确区隔。为了能够处理复杂的自然语言,机器翻译系统也必须拥有能够与之匹敌的复杂度。不过为了驾驭这些繁复的知识,我们还必须找到简单的管理方式。但这是规则库系统不易做到的,因为规则库系统必需由人直接建立、管理,其复杂度受限于人的能力。若要增加复杂度,就必须增加规则数,因而增加系统的复杂度,甚至最后可能超过人类头脑的负荷能力。参数化系统则将复杂度直接交由电脑控制,在增加复杂度时,参数的数量会随之增加,但整个估测及管理的程序,则完全由电脑自动进行,人只需要管理参数的控制机制(即建立模型)即可,而将复杂的直接管理工作交给电脑处理。

在参数化的作法中,是将翻译一个句子,视为替给定之原语句找寻最可能之目标语配对。对每一个可能的目标语句子,我们都会评价其机率值,如下式所示:

浅谈机器翻译之瓶颈及目前的研发趋势

上方的公式为参数化机器翻译系统的示例,其中Si为原语言的句子,Ti为目标语的句子(译句),Ii为原语言-目标语配对的中间形式(Intermediate Forms),PT为语法树(下标s为原语言,t为目标语),NF1为语法的正规化形式(Syntactic Normal Form),NF2为语意的正规化形式(Semantic Normal Form),而(1)、(2)和(3)三个列式,则分别代表生成、转换和分析不同阶段中的机率。

参数化系统还有一项极大的优点,就是可借由参数估测的方式,建立机器学习(Machine Learning)的机制,以方便我们建立、维护系统,和依据个人需求自定义系统。因为一般来说,如果能特别针对某一个特定的领域来设计专属的机器翻译系统,将有助于质量的提升。例如加拿大的TAUM-METEO气象预报系统,其英法翻译的正确率可达90%以上,至今仍运行不辍。但是在以往规则库的做法下,由于规则须以人力归纳,成本相当高昂,所以无法针对各细分的领域逐一量身订做专用的系统。但若采用参数化的做法,就可以使用不同领域的语料库,估测出各式各样的参数集。尔后只要更换参数集,便可将系统切换至不同的领域,以配合不同使用者、不同用途的需求。而且每次翻译作业完成后,还可将使用者的意见纳入新的参数估测程序中,使系统越来越贴近使用者的需要。以下我们将进一步说明如何建立机器学习的机制。

4.2.1 非监督式学习

一般来说,要让电脑进行学习,最直接有效的方式,就是将语料库标注后,让电脑直接从中学习标注的信息,也就是所谓的“监督式学习(Supervised Learning)”。但因标注语料库需要花费大量的专业人力,且不易维持其一致性,所以对我们来说,最理想的机器学习方式,莫过于“非监督式学习(Unsupervised Learning)”,即不须人力参与,让电脑直接从不加标注的语料库中学习。

不过要达到非教导式学习的理想相当困难。因为自然语言本身会有歧义现象,在没有任何标注信息的情况下,电脑很难判断文句的真意。为了降低学习的困难度,我们可以使用双语的语料库(即原语言与其目标语译句并陈的语料库),间接加上制约,以降低其可能之歧义数目。由于双语语料库中并列的原语言和目标语译句,其语意必须是一致的,也就是双方在可能的歧义上,必须求取交集。如此即可减少可能的歧义,让电脑了解到句子的正确意思。

以“This is a crane./这是一只白鹤。”这个原语言/译句配对为例,“crane”一字在英文中有“白鹤”和“起重机”两个意思。若单看句子,在没有标注的情况下,电脑很难判断出这里的“crane”要作何解释。但若给了中文的对应句子,那么很明显此处的“crane”指的一定是白鹤(即两者的交集),才能使中英文句子表达的意思一致,因为中文的“白鹤”一词并无“起重机”的歧义。在不同的语言中,词汇的解释分布通常是不一样的,所以双语语料库中的配对,可以形成一种制约,有助于大幅缩减歧义的数量及可能范围。

4.2.2 不同的参数化作法

在建立原语句和译句的对映关系时,可以使用的方式有纯统计方式(又分word-based和phrase-based这两类),以及使用语言学分析为基础的语法或语意树对映。纯统计方式是目前IBM模型所采用的做法,其特征为不考虑句子的结构,纯粹以单字或词串(phrase,此处的词串可以为任意连续字,不见得具有语言学上的意义)为单位进行比对。这种方式的缺失在于只考虑局部相关性(Local Dependency,通常为bigram或trigram),往往无法顾及句中的长距离相关性(Long-Distance Dependency,例如句中的NP-Head与VP-Head通常会有相关性)。若两个文法上有密切相关的单字之间,夹杂了很多其他的修饰语,就会使它们彼此超出局部相关性的范围,此模式即无法辨识这种相关性。近来的phrase-based方式,已针对上述缺点,改以词串为单位进行比对,这样虽然可以解决词串内单字的相关性问题,然而在相关字超出词串的范围时,还是会产生无法辨认长距离关联性的缺失。

但若使用以语言学知识为基础的做法,不仅可以顾及语句中的长距离关联性,而且句子的分析和生成结果,还可使用在其他用途上(如信息抽取、问答系统等)。如下方图2中所示,将原语句和译句分别进行语法及语意分析,各自产生其语法树及语意树,再对所产生的语法树或语意树之各节点进行配对映像。但由于句子有歧义的可能性,每个句子都有数种可能的语法树或不同的语意解释,因此我们可以依照前文中的例子所述,藉由两者间的对映关系,以采取交集的方式,分别排除原语言语法树和目标语语法树的歧义,如图3所示。

浅谈机器翻译之瓶颈及目前的研发趋势

虽然在分析的过程中,由浅至深有许多不同的层次。理论上,原语言和目标语可在任一层次的结构上建立对映关系,如词串到词串、语法树到词串、语法树到语法树、语意树到语意树等。但事实上,采取不同的对映层次,会影响到对映的难易程度。如下方图4所示,当在语法树上做映像时,由于两边文法结构不同,许多节点无法被对映到(即图中的白色节点)。然而当转到语意层次做对映时,对映不到的节点(白色部分)就会减少很多,如图5中的例子所示。在这个例子中,所有语意树上的节点甚至全部都可以一一对映到。因此同样的句子,采用较深层的语意层次进行双向式学习,可以增加对映的效率。

浅谈机器翻译之瓶颈及目前的研发趋势

上文论及若在语意层次进行映像,对映的效率较高。这主要是因为同样的句子可以有不同的讲法,如主动式、被动式等。所以配对中的两个句子,可能会采用不同的讲法,再加上不同的人写出的原语言和目标语文法,其表达形式也可能有差异。因此如果直接在句法树上作配对,对映效果往往很差。下表的实验结果,也清楚呈现出这种趋势。在1531句的句法树配对(PT)中,只有3.4%的句子拥有完全相符的语法剖析树。但是如果先将这些语法树转成正规化的语意型式(即下表中之NF2),甚至再做些局部的树型调整(如下表之TC-TP,即Target-Case-Topology-Tree),则语意树可完全对映的比例就可以提高到50.3%。

浅谈机器翻译之瓶颈及目前的研发趋势

剩下无法完全对映的句子,经检查后发现大部分其实语意已被译者变更。如“Please check if the fuse is in the appropriate place.”,被译为“请检查是否已插入正确的保险丝”。严格来说这两个句子所含的意思是不相等的。进行翻译时,在多数情况下我们会希望译句保有和原语句相同的语意,因此一般译者会尽量维持语意相同。所以,先转为正规化的语意形式,再行配对节点,可靠性会增加许多。

在将原语句和译句配对后,所谓的自动学习过程,就是去寻找一组参数集ΛMAX,使其能让所有原语句和译句间之配对,有最大的“可能性”(likelihood value)。如下列公式所示(其中S为所有的原语句,T为所有译句,I则为所有分析过程中的中间型式):

浅谈机器翻译之瓶颈及目前的研发趋势

这组参数即为参数化系统的“知识”,可以在翻译的时候,用来决定哪一个目标语句最有可能是特定原语句的翻译。由于参数化系统是以非决定性的方式来呈现语言现象,有别于规则库系统的是/否二择,因此保留了更多的弹性。这项特点在自然语言处理中十分重要,因为自然语言的歧义和语法不合设定问题,本身即具有非决定性的特质,因此较适合以非决定性的知识来解决。同时,参数化系统可藉由电脑的统计语言模型,自动从语料库中学习有关语言的知识(即机率参数),大幅减低了建立和维护过程中需要的人力。随着电脑化和网络的普及,语料库的取得越来越方便,涵盖的领域也越来越广。参数化系统可以充分利用这项资源,作为其知识的来源,而无须太多的人力介入。基于上述的原因,近年在机器翻译系统的研发领域中,参数化系统逐渐取代了过去的规则库系统成为主流。

(五)未来展望

上文中已提及,制作高品质的翻译系统,需要的知识极为琐碎而庞大。这些知识的获取和管理,正是翻译系统研发的重大瓶颈。从过去的经验可知,这项工作的复杂度已超过人类所能直接控制的范围,即使真的可行,其成本也不是大多数研发单位所能负担的。

因此近年来机器翻译系统的研发,已经逐渐由以前的规则库方式转为参数化方式。美国国家标准局(NIST)最近连续几年,都针对中译英的机器翻译举行评比。到目前为止在所有参赛系统中拔得头筹的,都是参数统计式的系统,而且与其他类型的作法有不小的差距。由此可见,机器学习式的统计导向做法,已证明其优越性。目前机器翻译研发的主流,已经逐渐从规则库导向转为参数统计方式。

这种典范转移(Paradigm Shift)现象的产生,不只是因为大家认知到,机器翻译系统的复杂度已超出人所能直接控制的范围,部分原因也在于语料库的发展规模。以往在建立语料库时,是由人工从纸版数据打字键入,因此规模多半不够大,对语言现象的涵盖度也不够高。所以主要是用来提供线索,供研究人员进一步将其概括化(Generalize)为通用的规则,以提高涵盖范围。但由于电子化的时代来临,越来越多的文件是直接以电子档产生,因此建立语料库时仅须直接编辑电子档,无须再经人工键入,建构成本大幅降低。加上网络逐渐普及,与日俱增的网页也可以当作语料库的来源。同时,共享语料库的观念也获得普遍认同,许多大规模的语料库,都可用很低廉的代价从美国LDC(Linguistic Data Consortium,网址为http://www.ldc.upenn.edu)获得。如此一来,语料库对语言现象的涵盖度已大幅增加,对以人工进行举一反三的概括化规则归纳工作的需求,已经大幅降低。

上述这些庞大的语料库,可以用来建立不同领域共享及各领域专属的参数集。过去的翻译系统,大多是以泛用的系统核心搭配不同领域的字典,企图解决专门领域文件的翻译问题,但是结果却不如预期。原因已如上述,在解决歧义和语法不合设定的问题时,必须使用到该领域的领域知识(Domain Knowledge),无法单靠专门用语字典。有了大量的语料库之后,我们可以从中挑选属于各领域范畴的部分,从中抽取相关之参数集,以解决领域知识的问题。

随着硬件性能的大幅跃升,电脑的计算能力和记忆容量已经不再是机器翻译系统研发的限制因素。同时语料库的规模也与日俱增,如果由人来推导模型,让机器在大量的双语语料库上,进行机器学习获取大量参数,将可大幅降低知识获取的复杂度,而这正是以往机器翻译研发的瓶颈所在。展望未来,如果能在统计参数化模型上,融合语言学的知识,并能以更适当的方式从语料库抽取相关知识,则在某些专业领域获得高品质的翻译,也是乐观可期的。如此,则机器翻译在实用化上的障碍,也终将获得解决。

来自: http://www.infoq.com/cn/articles/machine-translation-bottleneck-trend