公務員期刊網 論文中心 正文

計算語言學視野下翻譯平臺的建設

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算語言學視野下翻譯平臺的建設范文,希望能給你帶來靈感和參考,敬請閱讀。

計算語言學視野下翻譯平臺的建設

以往研究多為討論計算語言學對語言學的影響,馮志偉(1992)用人類對自然語言符號認識水平的新理論,探討計算語言學對傳統語言學的挑戰。[2]布買熱木•阿布拉(2004)認為計算語言學對語言學分支帶來了不同的沖擊和挑戰的同時又推進了語言學的發展。[3]計算語言學對傳統的句法學、形態學、語義學、邏輯語法、詞匯學等方面有著重要的影響作用。同時計算統計學的發展也給語言學帶來新的視角,例如,冀鐵亮等(2007)將語言學與統計方法結合建立漢語動詞子類框架類型集。[4]姚敏鋒(2010)描述了一種基于短語譯文組合的漢英機器翻譯系統,對構建一個漢英機器翻譯平臺有積極影響。[5]計算語言學與語言學之間的影響作用應該是相互的。這些研究中側重討論了計算語言學對語言學的影響,接下來筆者將重點探討語言學對計算語言學的影響,以及計算語言學在翻譯方面的應用。

計算語言學與語言學

隨著計算語言學在語言處理的理論與應用方面研究不斷演化發展,語言學與計算語言學之間模糊的多面性關系逐漸形成。語言學在計算語言學的發展過程中,發揮著重要作用。計算語言學將計算科學與語言學結合并形成了對兩者分工明確的混合系統,這個混合系統對翻譯平臺的建設具有很強的實踐指導作用。

(一)語言學對計算語言學的影響作用

計算語言學并非探討計算機語言的學科,[6]不是分解出來的關于數學語言學或者應用語言學新的語言學分支,其研究對象既不是二進制的機器語言,也不是編寫計算機程序所用的程序設計語言,而是在人類認識世界和創造文明的過程中形成的自然語言。上世紀80年代,Lauri Kart-tunen發現應用計算語言學與理論計算語言學共存且相互促進,同時理論計算語言學的分支也為理解人類語言結構和使用發揮了重要作用。然而語言學和計算語言學之間關系隨著時間發生了很多變化。這些變化通過計算語言學的五個范式體現出來,在每一個范式中,語言學理論都發揮一定的作用,都對計算語言學研究產生不同的影響。第一個范式是直接啟用程序處理語言。操作者接受了相關的語言學理論教育,直接啟用如FORTRAN,COBOL等計算機程序或者匯編程序等進行語言處理。這個階段對語言學知識和處理方法之間沒有系統性分別。第二個范式是語言處理專業算法與方法的發展,如解析算法,限定性分析以及擴大的短語結構語法。這種范式下發現了語言學知識和處理程序之間的分別,但研究方法的改進離不開語言學理論的指導,需要一定程度地運用語言學理論知識。第三個范式是語言學形式體系的出現。

20世紀80年代出現了一系列新的語法形式體系,如HPSG(Head-DrivenPhrase Structure Grammar,中心語驅動短語結構語法,吳云芳,2003),[7]LFG(Lexical-Functional Grammar,詞匯功能語法)等理論體系對計算語言學產生了影響,出現了形式與語義系統集合的語法模式體系,其形式模型與語言學理論緊密相連,因此許多模型體系被安排在語言學課程里教授探討。當這些語言學的形式主義模型不能滿足實際應用時,第四種范式很快運用于自然語言處理當中并成為主導方法,即自然語言處理的專業方法。這樣研究者們將注意力集中于處理技術的提高,對語言及語言學的重視程度降低。第五種范式的出現是在計算語言學中的統計學方法在一些應用領域難以進行時,自然語言處理開始重新考慮語言學的方法和知識源泉。自然語言處理中的統計學方法專家試著回歸語言學中的詞匯學或是試著建立基于短語結構的統計模式。統計學和語言學方法模式的結合促成了計算語言學第五種范式的生成,即統計的和非統計的機器學習方法與語言學方法的創新性結合。隨著計算機技術的發展與語言理論的深入研究,前三種范式漸漸退出研究的中心地位,后兩種范式將計算語言學的重要方法統計學與語言學結合起來,成為自然語言處理的一個新的進步范式。語言學與計算語言學中的統計學方法的合理應用才能促進語言研究的深入開展。因此,對二者的分工與結合形成的混合系統進行探討就顯得格外重要。

(二)計算語言學和語言學的分工與結合———混合系統研究

統計學的發展不斷改變著計算語言學與語言學之間的關系。統計學運用于計算語言學方面,與語言學理論相結合,其促進作用體現在混合系統研究中。在語言處理的一些領域中,設計混合系統的方法已經顯示出了前景性的成果。第一個設計混合系統既包含語言學也包括計算機技術成分,使這兩種語言分析方法共同完成對詞匯短語句子等的處理任務。在混和機器翻譯研究中,混合系統的任務就是系統地為輸入的語言探索統計學與語言規則最理想的結合結果。由經驗豐富的語言學家對輸入的語言進行一個詳細的語義分析,由最好的統計系統發現相對應的輸出語言的詞匯短語或者句子鏈,并決定哪一類的輸出結果是最恰當的翻譯。系統利用事先給定的語言學語法轉換規則對這些詞匯短語句子鏈集合進行譯文選擇組合,從而得到對應的輸出語言語句。這種利用計算語言學技術與語言規則結合系統對詞匯短語句子進行翻譯探索的方法只是對混合處理系統的嘗試。另一個混合系統的設計方法就是基于對于整個語篇的研究理論。這種語篇混合系統是對第一個混合系統的補充,它不僅研究短語結構,更將短語結構的匹配上升到了語篇的高度,是一個更高層次的探索。這樣,計算語言學與語言學的發展對于混合系統研究、混合機器翻譯與翻譯平臺的建設發揮著重要的作用。

計算語言學視角下的翻譯平臺建設

在中國對外貿易、文化以及科技交流的蓬勃發展對翻譯行業需求高漲的背景下,語言信息處理技術的進步給翻譯事業帶來的巨大變革和沖擊。環境的變化要求語言服務企業發現新的商業模式、采用新的戰略和新的管理模式,提高生產效率[8](俞敬松,2010)。很多語言服務企業每月百萬字級別的翻譯項目已經屢見不鮮,要求在很短的時間按照預定的質量標準完成大量的翻譯。對語言服務工作者提出全新的要求。然而傳統小作坊模式的“譯、審、校”手工翻譯流程顯然已經不再適應當今大批量的、團隊協作的翻譯業務流程。現代語言信息處理等行業需要精通機器輔助翻譯的原理和應用技術的人才及相關的自然語言處理技術的發展提高,因此探討在計算語言學視角下的翻譯平臺建設顯得格外重要,尤其是混合系統研究下的混合機器翻譯系統。

(一)語言規則是翻譯平臺建設中混合系統研究的前提條件

機器翻譯是當前計算語言學研究的熱點和難點。要提高機譯的質量,首先要解決的是語言本身問題而非程序設計問題;單靠程序來做機譯系統,無法提高機譯質量。目前的機器學習方法就是從相似的文本中獲得統計翻譯模型,但是對很多句法現象卻難以像傳統的語言學語法一樣正確地分析。如果語言學家們已經理解并形成了對語言文本特殊情況的潛在分析,那么從句法和語義注解語篇學習中總結復雜規則是可能的。每種人類語言的語法都包括一小部分高度復雜的規則和一大部分相對簡單的現象。這一小部分高度復雜的現象要比那部分相對簡單的現象出現的多。這種傾斜的分布體現了的學習語言規則的價值和重要性。至今為止,我們還沒有自動的機器學習方法,正確的產出復雜的語言現象。這樣就提出疑問,如果沒有人類語言學習者開發的句法———語義正確方法的指導,這些機器學習規則是否能夠被運用?另一方面,詞典和簡單篩選匹配的限定能夠容易地理解,很大程度上是因為其復雜性在于詞匯本身類別的結構,而不是詞語類別之間的簡單劃分。理解語言規則,設計這種混合機器翻譯系統的平臺顯得尤為重要。

(二)語料庫資源建設與語言信息處理技術

的提高為翻譯平臺建設中混合系統研究提供了資源與技術保證語言信息處理技術是新一代知識工程處理的核心支撐技術,[9]更是機器翻譯中重要的技術保證。近年來,在自然語言處理技術等方面的研究中,語料庫資源的巨大價值已經受到越來越多學者的關注和認可,特別是包含兩種語言互譯文本的語料庫,如雙語語料庫已經成為機器翻譯、翻譯知識獲取、數據挖掘以及雙語詞典編纂研究不可或缺的重要資源。關于國內漢外雙語語料庫的建設以及對齊加工和標注多級自動對齊技術以及雙語平行語料庫在機器翻譯和翻譯知識獲取等方面的應用技術目前已經取得了很大進展。機器翻譯新技術的發展得益于雙語語料庫的出現,有效改善了翻譯質量。同時,雙語語料庫又是汲取翻譯知識的重要源泉,如翻譯詞典和翻譯模板等,從而進一步改進傳統的機器翻譯技術。

(三)混合機器翻譯系統是翻譯平臺建設的核心動力

目前翻譯平臺有很多,如網絡翻譯譯言網、谷歌翻譯等。但是翻譯平臺建設的核心動力在于機器翻譯系統。機譯系統可劃分為基于規則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者由詞典和規則庫構成知識源;后者由經過劃分并具有標注的語料庫構成知識源,既不需要詞典也不需要規則,以統計規律為主。機器翻譯的研究是建立在語言學、數學和計算機科學這三門學科的基礎之上的。語言學家提供適合于計算機進行加工的詞典和語法規則,數學家把語言學家提供的材料形式化和代碼化,計算機科學家給機器翻譯提供軟件手段和硬件設備,并進行程序設計。缺少上述任何一方面,機器翻譯就不能實現,機器翻譯效果的好壞,也取決于這三個方面,而且直接關系到翻譯平臺的建設。計算語言學提供了一個新的視角,研究將計算語言學技術、語言學規則與大型語料庫有效結合,構成一個語言處理的混合系統。利用計算機技術實現雙語對齊,結合語言學規則及專業術語語料庫,將計算機技術、語言規則與語料庫結合構成全新的語言翻譯的標準庫,形成相對完善的語言資源庫,進一步促進翻譯平臺的建設和完備。計算語言學視角下的翻譯平臺建設可以應用于語言服務產業,不僅能夠快速有效地提高翻譯的效率及準確率,而且有利于綜合性語資源庫的建設,如大型語料庫建設等,以適應國際間多層次全方位的交流及信息化時代語言服務的要求。

結語

計算語言學與語言學的發展及其相關理論研究為翻譯平臺建設提供了技術支持與理論保障。翻譯平臺建設的核心動力是混合機器翻譯系統的設計。語言規則為翻譯平臺建設中的混合系統設計提供了前提條件。語料庫資源建設與語言信息處理技術的提高是混合系統研究的重要資源與技術保證。計算語言學與語言學之間的相互促進對翻譯平臺的建設發揮著重要作用。目前雖然計算語言學在一些語言學研究領域取得了不錯的進展,但隨著互聯網的廣泛普及,語言信息處理需求越來越大,人們迫切需要用自動化的手段處理語言信息,仍需要語言工作者的深入研究。因此,未來的研究中應重視理論語言學與計算語言學的影響作用,進一步探索計算語言學在語言研究、語言信息處理等領域的重要應用。(本文作者:張曉艷、宋鐵花 單位:太原理工大學外國語學院、山西農業大學文理學院)

主站蜘蛛池模板: 国产好吊妞视频在线观看| 欧美孕妇与黑人巨交| 小说专区图片专区| 吃奶呻吟打开双腿做受在线视频 | AV无码精品一区二区三区宅噜噜 | 国产成人久久久精品二区三区| 亚洲国产成人在线视频| 2022天天躁夜夜燥| 99久久免费精品国产72精品九九| 精品久久久久久国产91| 巨大挺进湿润黑人粗大视频| 午夜两性色视频免费网站| 三个黑人上我一个经过| 精品无码一区二区三区爱欲| 性欧美人与动物| 伸进大胸老师里面挤奶吃奶的频| chinese乱子伦xxxx国语对白| 狠狠躁狠狠躁东京热无码专区| 夜夜春宵伴娇全文阅读| 亚洲精品成人片在线播放| 77777_亚洲午夜久久多人| 欧美另类69xxxx| 国产成人无码精品一区在线观看| 久久免费动漫品精老司机| 色婷婷精品免费视频| 欧美日韩国产精品自在自线| 国产精品日韩欧美在线| 亚洲av永久无码精品古装片| 高清一级淫片a级中文字幕| 日本VA欧美VA精品发布| 午夜老司机福利| 99精品欧美一区二区三区美图| 欧美精品在线观看| 国产欧美日韩视频在线观看一区二区| 九九久久精品国产免费看小说| 豪妇荡乳1一5白玉兰免费下载| 成年女人永久免费观看片| 免费v片在线观看| 69av视频在线观看| 日韩在线视频免费| 午夜福利一区二区三区在线观看|