中文版

计算机译诗的前景
首都经贸大学
朱曼华


  “一千多年前我国曾经做了书面语印刷术的首创者,后来却成了书面语机械化的落伍者,现在还称不上书面语电脑化的先进者。如果搞中文教育科学化,不去考虑书面语电脑化——而去搞那些烦琐无用的毫无价值的所谓语文研究,恐怕无益于我们的中文社会。”随着当代计算机科学的飞速发展,一个艰巨的历史任务已悄悄地落在语言学家们的身上。这就是如何叫机器能看懂或能听懂人类的自然语言。如果解决了用计算机译诗的问题,就意味着向机器输入自然语言中最难突破的一关被突破了。其意义之重大,简直可以使人想到爱因斯坦当年提出的相对论。这一突破将标志着第五代计算机的真正诞生。
  若干年前,人们尚不敢设想用机器译诗。而今天有些学者,却已开始进行这方面的科学实验了。这里,我们应首先感谢创立模糊数学的鼻祖L.Zadeh,正是他首先对一些数学概念进行了本质上的改造,从而使数学在描写或模拟人的思维活动方面,向前迈进了坚实的一步,现在一般的数学,无法全部、真实地反映人脑的思维活动;而采用模糊数学模型编制程序,却可以使计算机“灵活”起来。就这种意义来说,计算机科学既是模糊数学的催生婆,又是促其发展的摇篮。而模糊数学的不断发展与完善,又恰是计算机科学能否继续取得长足进步的关键。当代的计算机科学,正在不断地把自己的本行专家,造就成新型的语言学家;而当代的语言学家,又不得不向计算机科学,以及模糊数学等曾是“与已无关”的学科进军。至今固守着旧有的阵地或学科的志士仁人,如果还想有较大的作为的话,就必然要勇敢拆除所有旧的学术藩篱,把“边缘科学”写在自己的楹门上。对这一点认识得越自觉,越有益于我们的共同事业。
  语言学家或文学家认为“诗是文学的一种样式。它要求高度集中地反映社会生活,饱和着作者的阶级感情和丰富的想象,语言精炼而形象性强,并具有一定的节奏前律,一般都分行排列。”这个定义是非常正确的,但它不是计算机所能接受的语言;它倒可以考虑接受这样的数学定义,即“诗是有限的关键词的有序集合,并加以适当的量词、联结词后再修饰模糊化而成的谓词逻辑范式。”诗的这类数学定义的给出,反映了科学家们企图把人类的自然语言,变成机器可以接受的形式语言。自觉地用数学方法描述模糊概念,这无疑是一个开创性工作,是意义深远的工作。如果我们搞语言的人,面对着描述自然语言的数学定义一无所知,甚至不知其所云,也不关心,那末,又怎么能发挥我们在语言学方面的优势呢?
  下边让我们介绍一点计算机译诗的实验情况。
  “逻辑范式”这一术语是用来概括诗(词)的格律、对仗、词调等构成诗的标准形式。按照上述给定的关于诗的数学定义,那末
  P1Z4一→A(x)^B(x)
  Q1Z4一→C(x)^D(x)
  就是一首诗,其中
  P表示下雨
  Q表示刮风
  A(x)表示x是鱼
  B(x)表示x出来
  C(x)表示x是燕子
  D(x)表示x斜飞
  其中1/4次方为散漫化算子,表示“微”或“细”。
  上边两行数学化的代码,即计算机可以识别的语言,是企图译出:
  细雨鱼儿出
  微风燕子斜
  当然,用计算机语言表示更复杂、充满更多感情色彩的诗词,是十分不容易的。目前,有一系列的问题需要解决。这些问题都有待于相关学科共同努力探索,只有实行“诸兵种联合作战”,方能取胜。例如,汉语(其他语种也同样))))可以用不同的词(或语句),表示大致相同的内容,计算机要求选用最少量的谓词去表达,而又不能使翻译失真。这在目前仍是个很大的难题。而这也正是我们语言学家们可以大显身手的学术领域。比如,他们可以从浩如烟海漫无边际的辞林中开辟一条捷径,把相关的词语理顺出一定的头绪来,为计算机的“大脑”提供可行的线索并存贮起来。在计算机的“心目”中,“沧海一粟”、“微不足道”、“渺小得很”,甚至“九牛一毛”与“昆仑山一棵草”等概念或定义,在一定条件下,最好也可以是“同一”的东西(以减轻“电脑”在处理检索时的负担)。然而,我们决不能为迁就使用现有的电子计算机而使思维迂腐起来。因此,还必须不断寻找科学而又实用的新途径,来解决类似的难题。在这里,语言学们有耕耘不完的试验田。目前,我们单靠谓词演算,还只能生硬地表示诗的大意,却不能表达诗的感情色彩。为此,人们提出了引入美化算子、比喻算子、联想算子,即
  (1)Bt(x),t?[0]
  (2)Au(x,y),u?[O,1]
  (3)Fv(x→y),v?[0,1]
  引入这几种算子,再结合模糊语言中的算子,便可以用谓词表示有一定感情色彩的诗文了。但是引入这几种算子,均涉及到II型甚至更高模糊集,以及高型模糊集的理论,难度是很大的,有待于进一步探索。
  目前令人忧虑的是熟悉人类自然语言的,不太熟悉计算机的形式语言,而熟悉形式语言的,又不太熟悉自然语言。例如,一位专家在研究如何用计算机译出
  “黄河远上白云间
  一片孤城万仞山
  羌笛何须怨杨柳
  春风不度玉门关”
  曾设谓词如下:
  P(x)表示在x上面
  Q(x)表示在x之中
  R(x)表示x是城市
  S(x)表示x是高的
  U(x,y)表示x怨恨y
  W(x,y)表示x经过y
  个体:a表示黄河,b表示白云,X1表示这一个,d表示山,e表示羌笛,f表示杨柳,g表示春风,h表示玉门关。
  结果上边这首诗便译为
  (P(a)^Q(b)^(R(Xl)^S(d)
  ^U(e,f)一→WL(g,h)
  仔细观察这位专家的设计,便不难发现他的毛病,而这种毛病却并非属于计算机科学或数学方面。由于他把诗中的“怨”字理解或(译为)动词“怨恨”,结果便把大意为“何必用羌笛吹奏‘折杨柳'曲调”,译成了“羌笛何必怨恨杨柳(树)了”。这个疏忽证明个人的能力终归是有限的,尺有所短,寸有所长,凡事只靠单学科孤军作战是不行的,一定“要充分发挥多学科交叉和智力群体优势”。


第一页     第二页
合 作 信 息
服 务 条 款
部 分 客 户
内 部 消 息
内 容 翻 译

© 1997-2007 北京星辉翻译中心,版权所有
© 1997-2007 Beijing Star-light Translation Center. All Rights Reserved.
The Logo, STARLIGHT, STAR-LIGHT, XINGHUI和星辉是北京星辉翻译中心的注册商标