网上信息的跨语言检索
【作 者】李培/武丽辉
【作者简介】李培,武丽辉,南开大学国际商学院图书馆学系 天津 300071
李培,男,1964年生,南开大学国际商学院图书馆学系副教授,图书馆副馆长。
武丽辉,女,1978年生,南开大学国际商学院图书馆学系2002级硕士研究生。
【内容提要】文章对跨语言信息检索的相关技术和实现方法进行了系统地论述,对跨语言检索中的语言资源、翻译歧义性消解等关键性问题的研究进行了归纳与梳理,指出我国跨语言检索研究距世界先进水平尚有一定差距,应加强该领域的研究。
【摘 要 题】专题探讨
【关 键 词】跨语言检索/网上信息检索/自动翻译/歧义消解
【正 文】
网上的信息资源类型丰富、数量庞大,所使用的语言亦具多样性。当前全球3130亿网页内容所使用的语言依次为英文68.4%、日文5.9%、德文5.8%、中文3.9%、法文3.0%、西班牙文2.4%、俄文1.9%、意大利文1.6%、葡萄牙文1.4%、韩文1.3%、其他文种4.4%[1]。全世界6亿多网络人口的使用语言依次为英文38.3%、中文11.2%、日文10%、德文6.8%、西班牙文5.5%、韩文4.1%、意大利文3.9%、法文3.5%、葡萄牙文3.1%、俄文3%、其他10.6%[2]。网上资源语言的多样性和网民所掌握语言的差异性不可避免地给人们利用网络带来了语言障碍,人们对语言自动翻译的需求越发迫切。据统计,2002年10月在使用英文搜索引擎中提出语言翻译请求的几种主要语种有:西班牙文47.2%、法文17%、拉丁文7.8%、德文6.2%、日文4.7%、意大利文3.2%、俄文2.4%、中文2%[3]。为了消除网络资源利用中的语言障碍,跨语言信息检索技术(Cross-Language Information Retrieval—CLIR)成为目前信息检索领域中重要的研究课题。
1 跨语言检索的相关技术
跨语言信息检索是指用户以一种语言提问,检出另一种语言或多种语言描述的相关信息。例如,输入中文检索式,跨语言检索系统会返回英文、日文等语言描述的信息。这里的信息可以是文本信息也可以是其他形式的信息,目前研究最多的是跨语言文本信息检索和跨语言语音信息检索。在跨语言检索中,提问式所使用的语言通常称为源语言,源语言一般是用户的母语;被检索文档所使用的语言称为目标语言,目标语言可以是用户不熟悉甚至完全陌生的语言。与跨语言检索相对应,提问式语言和文档语言相同的检索称为单语言检索(monolingual retrieval)。
网上信息跨语言检索的过程是:网络蜘蛛(Web spider)搜索网络信息,在统计方法、自动标引技术的支持下编制以语言为基础的索引,服务器接受以一种语言描述的提问式,并返回跨语言检索的结果,这一结果是由不同语言描述的信息集合构成的。在跨语言检索中主要涉及的技术有计算机信息检索技术和机器翻译技术:计算机信息检索技术完成提问式与文档之间的匹配,机器翻译技术完成不同语言之间的语义对等。
1.1 计算机信息检索技术
计算机信息检索技术目前已趋于成熟。在单语言检索中,计算机检索技术主要是自动搜索技术、自动标引技术和自动匹配技术。检索系统利用网络蜘蛛进行网络信息的收集,然后利用自动标引技术对搜集的信息进行标引形成索引数据库。用户输入检索式后,计算机把检索式与数据库中索引项进行匹配,按检索式与标引项相关性大小降序输出检索结果。跨语言检索中实现信息检索的原理和方法与单语言检索是相同的,只是在检索的过程中加入语言处理技术,使一种语言能够与其它语言对应。
1.2 机器翻译技术
机器翻译技术实质上是一种能够将一种语言的文本自动翻译成另一语言文本的计算机程序。机器翻译技术的核心是保持两种文本(源语言文本和目标语言文本)的语义对等,由于在翻译过程中,源语言文本中的词往往对应目标语言描述的几个词,所以要选择最合适的词或其他的处理以达到含义的一致。由于这涉及到复杂的计算机语义分析技术,因此机器翻译的效果还远未达到人们所期望的水平。在跨语言检索中,需要利用自然语言处理与机器翻译相结合的技术提高翻译的准确性,因为在跨语言检索中,翻译的准确性直接决定了检索的准确性。
计算机信息检索技术和机器翻译技术是跨语言检索中所利用的主要技术,由于计算机检索技术已比较成熟,而机器翻译技术的实用性还有待发展和完善,因此跨语言检索所要解决的问题实际上是一个语言处理问题。跨语言检索不同于单语言信息检索和机器翻译,也不是两种技术的简单叠加,它是一种有机的融合,有着自身的特点和专门的研究内容。
2 跨语言检索的实现方法
目前跨语言检索的主要实现方法有:提问式翻译、文献翻译、提问式—文献翻译、中间翻译和非翻译。
2.1 提问式翻译方法(query translation)
提问式翻译的过程是把源语言的提问式利用机器翻译技术翻译成目标语言提问式,再进行单语言检索。利用提问式翻译的方法进行跨语言检索的实质是把源语言提问式做了适当转换,其基本的过程和技术还是单语言检索,而且检索返回的结果是用目标语言描述的,这增加了用户利用信息的难度。当一个源语言提问词有多个目标语言词与其应时,通常选择第一种或全部的释义作为提问式的译法。选择第一种译法自然存在一定的不合理性,选择全部的译法又大大降低了检索的查准率。针对这一问题,Pirkola等人提出了提问式构造法(query structuring)[4],认为主要有三种构造提问式的方法:基于同源词的构造法(syn-based structuring)、基于复合词的构造法(compound-based)、n元匹配法(n-Gram matching)。提问式构造方法的实质是利用同源词、复合词或n元匹配分析提问式中各个词的权重:只有一种或两种释义的词的权重最高,而有多种解释的词用同源词符、复合词符或n元匹配符连接以降低其权重。Pirkola等人通过对三种方法实验,验证了使用提问式构造法会提高跨语言检索的检索性能。
2.2 文献翻译方法(document translation)
文献翻译方法不对提问式进行翻译,而是把数据库中用目标语言描述的文献翻译成与提问描述相一致的源语言形式,再通过提问式与信息库的匹配,完成检索过程。运用文献翻译方法进行跨语言检索,返回给用户的结果是用源语言描述的,用户能够方便地选择利用。文献层次的翻译相比于提问层次的翻译,其语境更加宽泛,进行歧义性分析所能利用的线索比较多。但是这种方法所使用的文本自动翻译技术的正确率目前还难以达到实用水平,而且将数据库中全部文献从目标语言翻译到源语言的工作量也是巨大的。文献翻译方法只有在翻译内容有限的情况下才有意义,如对已确定要浏览的某个网页进行翻译。目前采用这种方法的实验系统尚未见报道。
2.3 提问式-文献翻译方法(query-document translation)
在这一方法中,源语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检出相关信息,然后再把检索结果的全部或部分翻译成源语言描述的信息。检索结果的翻译一般选择部分翻译,因为跟全部翻译相比,部分翻译的工作量较少,容易提高翻译的效率和质量。部分翻译一般是对结果文本的前两行、文摘、或文本中重要的词进行翻译。在重要词的翻译中,如何找出确定重要词是决定这种方法效果的关键。目前的研究主要是根据词频并结合禁用词表和功能词表来决定词的重要性。利用提问式-文献翻译方法进行检索,返回给用户的结果是用用户所熟悉的源语言描述的,用户能够容易地选择利用检索出的信息,减少了用户的翻译成本,提高了检索服务的质量。
2.4 中间翻译方法(triangulated translation)