09邱韵婷
[i=s] 本帖最后由 米虫 于 2009-6-18 09:47 编辑 [/i]09邱韵婷~~~~~~~~~~
[b][size=5]网上机器翻译及其发展新趋势[/size][/b] 传统的机器翻译方法
传统机器翻译从总体模式上可以分为三类:直接翻译法(Direct Translation)、中间语言法(Inetrlingual approach)以及转换法(Transfer approach)。
直接翻译从源语言的表层句子出发,将单词或固定词组直接置换成目标语言的对应成分。这种方法对翻译过程的认识过于简单化,基本上属于一种过时的方法。
中间语言法把源语言经过分析转换成一种对所有语言都适合的一种句法―语义表示,从这种表示可以生成任何一种目标语言。在设计多种语言互译的机器翻译系统时,这种方法在理论上是非常经济的。
转换方法采用两种内部表达并按三个阶段进行翻译,第一个阶段把源语言转换成源语言的内部表达,第二阶段把源语言的内部表达转换成目标语言的内部表达,第三阶段再根据目标语言的内部表达生成目标语言。当今许多实用的系统都采用了这样的总体结构。
从本质上讲,机器翻译系统的不同之处主要是各个系统对翻译所需要的分析(或理解)深度有不同的意见。直接翻译法认为不需要深层次的源语言分析,在源语言句法结构未知的前提下就可以翻译,转换法认为,要进行翻译,源语言的句法结构就应该提前得到,而中间语言法则认为需要更为彻底的源语言分析。实际上,即使采用同一种总体模式的不同实际系统,对分析深度的处理也是有所不同的。 困难和对策
机器翻译的困难主要是语言的歧义消解问题,歧义现象是自然语言的显著特点。语言单位无论从小到大都存在歧义,并且在语法、语义、语用每个层面上都有表现。这些问题决定了目前机器翻译的译文质量必然是不能令人满意的,因此,要想获得高质量的译文,必须采取其它的对策,下面是目前一些机器翻译系统采用的主要策略。
(1)在限定的领域内进行翻译
这种方法一般也称为‘子语言’法(sublanguage)。这种方法不追求系统能在所有领域获得高质量译文,而只希望在翻译某一狭窄的专业领域的文本时获得高质量的译文。实际上,当今许多机器翻译系统属于这一类型,这类系统的词典和规则无需覆盖本领域之外的语言现象。
(2)利用受限语言作为输入
这种方法一般称为‘受控语言’法(controlled-language)或‘受限语言’法(constrained-language,restricted language),这种方法通过在词汇、句法结构方面对自然语言加以限制,以力图避免机译系统难以处理的语言现象,这种方法要求,交付系统翻译的文本必须遵从受控语言的规定,因而,翻译不满足受控语言规定的文本,事先要经过熟悉受控语言知识的人员改写。卡耐基-梅隆大学的基于知识的机器翻译系统KANT 定义的KANT受控英语(简称KCE)也是这种方法的一个实例。KCE引入三方面的限制因素:限制词汇,用以减少词汇歧义、词汇复杂性;限制句子类型,用以限制源语言分析阶段的分析复杂性;使用标准通用置标语言SGML。
(3)人机交互式机器翻译
这种方法是以牺牲全自动的要求而获取较高质量的译文。实际上所有的机器翻译系统都需要人工干预,不过,大部分系统的人工干预仅限于译前编辑、译后编辑,尤其是译后编辑。更为深入的人机交互式翻译研究追求的目标是允许用户在翻译的任何一个阶段都可以参与。这类研究可以根据人机交互发生的阶段分为:
(a)交互式分析,用户帮助系统得出正确的源语言结构,尤其是复杂句子,对多义词进行排歧等。
(b)交互式转换,用户参与选择与源语言结构等价的目标语言结构,排除不适当的转换。
(c)交互式生成,用户协助产生流畅译文,用户在省略、指代、主题化方面对生成提供指导,交互式生成应该包含译后编辑。
实际上,很多系统并不单纯允许一种类型的交互,而是同时使用多种交互类型。交互式系统也称为人助机译(Human Assisted Machine Translation简称HAMT)系统。
子语言、受控语言以及交互式翻译虽然提高了译文质量,但其带来的限制条件在许多应用场合并不满足,有时也并不必要。在许多情况下,译文并不是用于出版,例如,一个科技人员只是想浏览一下自己领域的外文文献,只是想选择自己感兴趣的文章,这时译文内容只要从总体上能够把握即可。许多应用场合对翻译效率要求很高,大量文献要在短时间内完成,这些情况下只好接受低质量的译文。 从广义上来说,网上机器翻译主要有如下几个方面:
(1)基于WWW的网上机器翻译。它是指由软件来实时翻译WWW网页,或是客户将所要翻译的网页的URL地址(Uniform Resource Locator,在Internet的WWW服务程序上用于指定信息位置的表示方法)发送到提供服务的服务器,服务器翻译完后再回送。由于目前在Internet上WWW服务所占的比重越来越大,所以可以认为这种类型的网上机器翻译在目前及今后一段时间内将是最重要的。而其中前一种由于其实时性,将更应快速发展。
(2)基于E-mail的网上机器翻译。它是由用户将需要翻译的资料用E-mail发给提供此项服务的公司,等翻译完以后再用E-mail发回给用户。这实际上是非严格意义上的“网上”机器翻译。
(3)基于语音的网上机器翻译。这在目前还只是在实验室阶段,仅仅做到面对一定主题
域。但由于Internet带宽的不断增长和多媒体技术的快速发展,以及当前对更加友好的人机界面的急迫要求,可以预料,这种类型的网上机器翻译将很快走向应用,这方面的研究也己逐渐成为热点。 三个影响较大的网上机器翻译系统:
SYSTRAN提供的兔费网页翻译服务、Globalink开发的名为Web Translator翻译软件、以及CompuServe的环球公众论坛(World Community Forum) 。
SYSTRAN公司开发机器翻译系统的历史悠久而且硕果累累。今天,欧共体委员会(Commission of the European Community)已使用SYSTRAN开发的机译系统,实现了其六种官方语言:英、法、德、意、西班牙和葡萄牙文的互译。据估计,欧共体每年约有35%到40%的经费用于“语言问题”开销。SYSTRAN这种实现不同语种相互机器翻译的成果对欧共体的运作注入了高效润滑剂。
美国国家情报中心的分支机构遍布全球,对收集到的情报要及时处理,以供决策者作决策依据。依靠 SYSTRAN的机器翻译软件,辅以网络技术,国家情报中心已经实现了线上翻译。国家情报中心拥有一个名为“开放资源信息服务”(Open Source Information Service)的网络。情报工作者只需要把要翻译的文本提交给该网络,该网络使用9种由SYSTRAN开发的不同语言对机器翻译软件完成翻译工作,然后把结果回送给情报提交者。“开放资源信息服务”网络与一个叫 Interlink的高级机密网络连接,而后者则直通五角大楼和中央情报局。1994年,一共有3000个用户、35个情报机构使用“开放资源信息服务”网络,实现了情报的线上翻译。
1996年,SYSTRAN推出了世界上首项线上环球网网页机器翻译服务,目前该项服务只限于英语与德语、法语、葡萄牙语、意大利语和西班牙语的互译,以及俄语到英语的单向翻译。用户只需键入要翻译文件所在的网页地址,选择目标语言语种,键入用户电子邮箱地址。只要被翻译的文本不超过10K字节,此网页机器翻译系统会兔费为用户翻译文本并随后把译文送回给用户。此系统是以客户/服务器( Client/ Server)体系为基础开发的,由一台名为SYSTRAN的翻译服务器 (Translation Server)执行翻译工作。此台服务器同时运行11种语言对翻译软件,接受来自全球各地的翻译服务请求。用户在提交要翻译的文本后,视源文本长度及服务器繁忙程度,会有不同程度的延迟,有时甚至会中断服务请求。 Globalink公司创建于1989年。目前该公司的软件仅实现西班牙语、法语、德语、意大利语与英语的互译。据Globalink发表的资料称,全世界范围内靠机器翻译软件完成的语言翻译总额,Globalink系统占了80% ,可见在机器翻译市场,该公司是一个举足轻重的角色。
Globalink目前提供一种叫做Web Translator的线上机器翻译软件。该软件运行在SUN公司出品的 Netscape和微软的Explorer上,能够实现互联网上的西班牙文、法文、德文与英文信息的线上实时互译。这意味着一个只懂英文的用户在浏览用法文书写的网页信息时,只要运行该软件,便能生成该网页信息的英文译文。另外,Web Translator为用户提供了可对电子词典编辑的功能。用户能够添加电子词典中不存在的单词与短语,从而提高翻译效率。 除了上述两种系统外,CompuServe公司提供了环球公众论坛(World Community Forum)线上翻译服务。CompuServe拥有三百万用户会员,遍布世界150多个国家,是全球最大一家信息服务公司。它于1994年引进Intergraph的软件系统并开拓线上机译服务,1995年2月创立环球大众论坛,为其成员交流政治观点、发表对交互文化的个人见解、以及发布体育旅游信息提供了方便。目前,论坛参与者可用英、法、德、西班牙语中的任何一种语言在网上交谈。
页:
[1]