前言:本站為你精心整理了模具畢業(yè)論文模板設(shè)計(jì)開(kāi)題報(bào)告范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
模具畢業(yè)論文
本文的主要圍繞兩方面內(nèi)容:
提出一個(gè)基于模板的統(tǒng)計(jì)翻譯模型以及相應(yīng)的訓(xùn)練和翻譯算法;
根據(jù)這種算法模型實(shí)現(xiàn)一個(gè)漢英機(jī)器翻譯系統(tǒng).
首先,我們將提出一個(gè)基于模板的統(tǒng)計(jì)機(jī)器翻譯算法.這種算法是傳統(tǒng)的基于轉(zhuǎn)換的方法和統(tǒng)計(jì)機(jī)器翻譯方法的有效結(jié)合.克服了現(xiàn)有的統(tǒng)計(jì)機(jī)器翻譯方法忽視語(yǔ)言結(jié)構(gòu)的缺點(diǎn),同時(shí)又繼承了其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好的優(yōu)點(diǎn).
然后,在我們已有工作的基礎(chǔ)上,我們將根據(jù)以上算法,提出一個(gè)完整漢英機(jī)器翻譯系統(tǒng)及其測(cè)試系統(tǒng)的實(shí)現(xiàn)方案.
本文第一章是對(duì)已有的各種基于語(yǔ)料庫(kù)的機(jī)器翻譯方法以及機(jī)器翻譯評(píng)測(cè)方法的一個(gè)綜述,第二章結(jié)合我們已有的工作,提出我們自己的研究思路——基于深層結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,第三章給出一個(gè)具體的漢英機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)方案,第四章是總結(jié).
綜述
機(jī)器翻譯方法概述
和自然語(yǔ)言處理的其他技術(shù)一樣,機(jī)器翻譯方法也主要分為兩類:人工編寫規(guī)則的方法和從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí)(規(guī)則或參數(shù))的方法.從目前的趨勢(shì)看,從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí)的方法已經(jīng)占到了主流.當(dāng)然從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí)并不排斥人類語(yǔ)言學(xué)知識(shí)的應(yīng)用,不過(guò)這種語(yǔ)言學(xué)知識(shí)的應(yīng)用一般不再表現(xiàn)為直接為某個(gè)系統(tǒng)手工編寫規(guī)則,而更多的是通過(guò)語(yǔ)料庫(kù)標(biāo)注,詞典建設(shè)等大規(guī)模語(yǔ)言工程的方式體現(xiàn)出來(lái),應(yīng)該說(shuō),這是一種計(jì)算機(jī)研究者和語(yǔ)言學(xué)研究者互相合作的一種更為有效的方式.
基于語(yǔ)料庫(kù)的機(jī)器翻譯方法主要有:基于實(shí)例的機(jī)器翻譯方法,基于統(tǒng)計(jì)的機(jī)器翻譯方法,混合(Hybrid)的方法.這幾種方法各有特點(diǎn).其中,統(tǒng)計(jì)機(jī)器翻譯方法由于其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好,可以自動(dòng)學(xué)習(xí),魯棒性強(qiáng)等優(yōu)點(diǎn),越來(lái)越受到人們的重視.本文中提出的機(jī)器翻譯方法就是統(tǒng)計(jì)機(jī)器翻譯方法中的一種.
根據(jù)我所查閱的文獻(xiàn),我把基于統(tǒng)計(jì)的機(jī)器翻譯方法大體上分為以下三類:第一類是基于平行概率語(yǔ)法的統(tǒng)計(jì)機(jī)器翻譯方法,其基本思想是,用一個(gè)雙語(yǔ)平行的概率語(yǔ)法模型,同時(shí)生成兩種語(yǔ)言的句子,在對(duì)源語(yǔ)言句子進(jìn)行理解的同時(shí),就可以得到對(duì)應(yīng)的目標(biāo)語(yǔ)言句子.這種方法的主要代表有Alshawi的HeadTransducer模型和吳德愷的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT.第二類是基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法是由IBM公司的PeterBrown等人在1990年代初提出的,后來(lái)很多人都在這種方法的基礎(chǔ)上做了很多改進(jìn)工作,這也是目前最有影響的統(tǒng)計(jì)機(jī)器翻譯方法,一般說(shuō)的統(tǒng)計(jì)機(jī)器翻譯方法都是指的這一類方法.第三類是德國(guó)Och等人最近提出基于最大熵的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法是比信源信道模型更一般化的一種模型.
機(jī)器翻譯的范式
機(jī)器翻譯經(jīng)過(guò)50多年的發(fā)展,產(chǎn)生了很多種不同的范式(Paradigm),大致歸納起來(lái),可以分為以下幾類,如下圖所示:
直接翻譯方法:早期的不經(jīng)過(guò)句法分析直接進(jìn)行詞語(yǔ)翻譯和詞序調(diào)整的方法;
基于轉(zhuǎn)換的方法:基于某種深層表示形式進(jìn)行轉(zhuǎn)換的方法,典型的轉(zhuǎn)換方法要求獨(dú)立分析,獨(dú)立生成;注意,這里的深層表示既可以是句法表示,也可以是語(yǔ)義表示;
基于中間語(yǔ)言的方法:利用某種獨(dú)立于語(yǔ)言的中間表示形式(稱為中間語(yǔ)言)實(shí)現(xiàn)兩種語(yǔ)言之間的翻譯.
基于平行概率語(yǔ)法的統(tǒng)計(jì)機(jī)器翻譯方法
這一類方法的基本思想是,用一個(gè)雙語(yǔ)平行的概率語(yǔ)法模型,即兩套相互對(duì)應(yīng)的帶概率的規(guī)則體系,同時(shí)生成兩種語(yǔ)言的句子,在對(duì)源語(yǔ)言句子進(jìn)行理解的同時(shí),就可以得到對(duì)應(yīng)的目標(biāo)語(yǔ)言句子的生成過(guò)程.
這一類方法有幾個(gè)共同的特點(diǎn):有明確的規(guī)則形式;源語(yǔ)言規(guī)則和目標(biāo)語(yǔ)言規(guī)則一一對(duì)應(yīng);源語(yǔ)言與目標(biāo)語(yǔ)言共享一套概率語(yǔ)法模型,對(duì)于兩種語(yǔ)言的轉(zhuǎn)換過(guò)程不使用概率模型進(jìn)行描述.
以下我們分別介紹這一類方法的有代表性的幾種形式.
Alshawi的基于加權(quán)中心詞轉(zhuǎn)錄機(jī)的統(tǒng)計(jì)機(jī)器翻譯方法
有限狀態(tài)轉(zhuǎn)錄機(jī)(Finite-StateTransducer)和有限狀態(tài)識(shí)別器(Finite-StateRecognizer)是有限狀態(tài)自動(dòng)機(jī)(Finite-StateAutomata)的兩種基本形式.其主要區(qū)別在于有限狀態(tài)轉(zhuǎn)錄機(jī)在識(shí)別的過(guò)程中同時(shí)可以產(chǎn)生一個(gè)輸出,其每一條邊上面同時(shí)有輸入符號(hào)和輸出符號(hào)兩個(gè)標(biāo)記,而有限狀態(tài)識(shí)別器只能識(shí)別,不能輸出,其每一條邊上只有一個(gè)輸入符號(hào)標(biāo)記.
中心詞轉(zhuǎn)錄機(jī)(HeadTransducer)是對(duì)有限狀態(tài)轉(zhuǎn)錄機(jī)的一種改進(jìn).對(duì)于中心詞轉(zhuǎn)錄機(jī),識(shí)別的過(guò)程不是自左向右進(jìn)行,而是從中心詞開(kāi)始向兩邊執(zhí)行.所以在每條邊上,除了輸入輸出信息外,還有語(yǔ)序調(diào)整的信息,用兩個(gè)整數(shù)表示.下圖是一個(gè)能夠?qū)⑷我鈇,b組成的串逆向輸出的一個(gè)HT的示意圖:
基于加權(quán)中心詞轉(zhuǎn)錄機(jī)(WeightedHeadTransducer)的統(tǒng)計(jì)機(jī)器翻譯方法是由AT&T實(shí)驗(yàn)室的Alshawi等人提出的,用于AT&T的語(yǔ)音機(jī)器翻譯系統(tǒng).該系統(tǒng)由語(yǔ)音識(shí)別,機(jī)器翻譯,語(yǔ)音合成三部分組成.其中機(jī)器翻譯系統(tǒng)的總體工作流程如下圖所示:
在加權(quán)中心詞轉(zhuǎn)錄機(jī)模型中,中心詞轉(zhuǎn)錄機(jī)是唯一的知識(shí)表示方法,所有的機(jī)器翻譯知識(shí),包括詞典,都表示為一個(gè)帶概率的HeadTransducer的集合.知識(shí)獲取的過(guò)程是全自動(dòng)的,從語(yǔ)料庫(kù)中訓(xùn)練得到,但獲取的結(jié)果(就是中心詞轉(zhuǎn)錄機(jī))很直觀,可以由人進(jìn)行調(diào)整.中心詞轉(zhuǎn)錄機(jī)的表示是完全基于詞的,不采用任何詞法,句法或語(yǔ)義標(biāo)記.
整個(gè)知識(shí)獲取的過(guò)程實(shí)際上就是一個(gè)雙語(yǔ)語(yǔ)料庫(kù)結(jié)構(gòu)對(duì)齊的過(guò)程.句子的結(jié)構(gòu)用依存樹(shù)表示(但依存關(guān)系不作任何標(biāo)記).他們經(jīng)過(guò)一番公式推導(dǎo),把一個(gè)完整的雙語(yǔ)語(yǔ)料庫(kù)的分析樹(shù)構(gòu)造并對(duì)齊的過(guò)程轉(zhuǎn)化成了一個(gè)數(shù)學(xué)問(wèn)題的求解過(guò)程.這個(gè)過(guò)程可用一個(gè)算法高效實(shí)現(xiàn).得到對(duì)齊的依存樹(shù)后,很容易就訓(xùn)練出一組帶概率的中心詞轉(zhuǎn)錄機(jī),也就得到了一個(gè)機(jī)器翻譯系統(tǒng).不過(guò)要說(shuō)明的是,通過(guò)這種純統(tǒng)計(jì)方法得到的依存樹(shù),與語(yǔ)言學(xué)意義上的依存樹(shù)并不符合,而且相差甚遠(yuǎn).
這種方法的主要特點(diǎn)是:1.訓(xùn)練可以全自動(dòng)進(jìn)行,效率很高,由一個(gè)雙語(yǔ)句子對(duì)齊的語(yǔ)料庫(kù)可以很快訓(xùn)練出一個(gè)機(jī)器翻譯系統(tǒng);2.不使用任何人為定義的語(yǔ)言學(xué)標(biāo)記(如詞性,短語(yǔ)類,語(yǔ)義類等等),無(wú)需任何語(yǔ)言學(xué)知識(shí);3.訓(xùn)練得到的參數(shù)包含了句子的深層結(jié)構(gòu)信息,這一點(diǎn)比IBM的統(tǒng)計(jì)語(yǔ)言模型更好.
這種方法比較適合于語(yǔ)音翻譯這種領(lǐng)域比較受限,詞匯集較小的場(chǎng)合.
吳德愷的ITG模型
InversionTransductionGrammar(ITG)是香港科技大學(xué)吳德愷(DekaiWu)提出的一種供機(jī)器翻譯使用的語(yǔ)法形式[Wu1997].
這種語(yǔ)法的特點(diǎn)是,源語(yǔ)言和目標(biāo)語(yǔ)言共用一套規(guī)則系統(tǒng).
具體來(lái)說(shuō),ITG規(guī)則有三種形式:
A→[BC]
A→
A→x/y
其中A,B,C都是非終結(jié)符,x,y是終結(jié)符.而且B,C,x,y都可以是空(用e表示).
對(duì)于源語(yǔ)言來(lái)說(shuō),這三條規(guī)則產(chǎn)生的串分別是:
BCBCx
對(duì)于目標(biāo)語(yǔ)言來(lái)說(shuō),這三條規(guī)則產(chǎn)生的串分別是:
BCCBy
可以看到,第三條規(guī)則主要用于產(chǎn)生兩種語(yǔ)言的詞語(yǔ),第一條規(guī)則和第二條規(guī)則的區(qū)別在于,前者產(chǎn)生兩個(gè)串語(yǔ)序相同,后者產(chǎn)生的串語(yǔ)序相反.例如,兩個(gè)互為翻譯的漢語(yǔ)和英語(yǔ)句子分別是:
比賽星期三開(kāi)始.
ThegamewillstartonWednesday.
采用ITG分析后得到的句法樹(shù)就是:
其中,VP結(jié)點(diǎn)上的紅色標(biāo)記表示該結(jié)點(diǎn)對(duì)應(yīng)的漢語(yǔ)句子中兩個(gè)子結(jié)點(diǎn)的順序需要交換.
通過(guò)雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù)對(duì)這種形式的規(guī)則進(jìn)行訓(xùn)練就可以直接用來(lái)做機(jī)器翻譯.
呂雅娟[Lü2001,2002]基于ITG模型實(shí)現(xiàn)一個(gè)小規(guī)模(2000個(gè)例句)的英漢機(jī)器翻譯系統(tǒng),取得了較好的實(shí)驗(yàn)結(jié)果.這個(gè)系統(tǒng)利用的英語(yǔ)的單語(yǔ)分析器和英漢雙語(yǔ)詞對(duì)齊的結(jié)果來(lái)獲取ITG.系統(tǒng)結(jié)構(gòu)如下圖所示:
Takeda的Pattern-basedCFGforMT
[Takeda96]提出了基于模式的機(jī)器翻譯上下文無(wú)關(guān)語(yǔ)法(Pattern-basedCFGforMT).該模型對(duì)于翻譯模板定義如下:
每個(gè)翻譯模板由一個(gè)源語(yǔ)言上下文無(wú)關(guān)規(guī)則和一個(gè)目標(biāo)語(yǔ)言上下文無(wú)關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對(duì)這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成;
中心詞約束:對(duì)于上下文無(wú)關(guān)語(yǔ)法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非終結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過(guò)使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞;
鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子結(jié)點(diǎn)通過(guò)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符互為翻譯.
舉例來(lái)說(shuō),一個(gè)漢英機(jī)器翻譯模板可以表示如下:
S:2→NP:1歲:MP:2了
————————————
S:be→NP:1beyear:NP:2old
可以看到,這種規(guī)則比上下文無(wú)關(guān)規(guī)則表達(dá)上更為細(xì)膩.例如上述模板中如果去掉中心詞約束,考慮一般的情況,顯然這兩條規(guī)則不能互為翻譯.與實(shí)例相比,這個(gè)模板又具有更強(qiáng)的表達(dá)能力,因?yàn)檫@兩個(gè)句子的主語(yǔ)(NP:1)和具體的歲數(shù)值都是可替換的.
該文還證明了這種模板的識(shí)別能力等價(jià)于CFG,提出了使用這種模板進(jìn)行翻譯的算法,討論了如何將屬性運(yùn)算引入翻譯模板當(dāng)中,并研究了如何從實(shí)例庫(kù)中提取翻譯模板的算法.該文作者在小規(guī)模范圍內(nèi)進(jìn)行了實(shí)驗(yàn),取得了較好的效果.
基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法
基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法源于Weaver在1947年提出的把翻譯看成是一種解碼的過(guò)程.其正式的數(shù)學(xué)框架是由IBM公司的Brown等人建立的[Brown1990,1993].這一類方法的影響非常大,甚至成了統(tǒng)計(jì)機(jī)器翻譯方法的同義詞.不過(guò)在本文中,我們只把它作為統(tǒng)計(jì)機(jī)器翻譯方法中的一類.
IBM的統(tǒng)計(jì)機(jī)器翻譯方法
基本原理
基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法的基本思想是,把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^(guò)程,用一種信源信道模型對(duì)機(jī)器翻譯進(jìn)行解釋.假設(shè)一段源語(yǔ)言文本S,經(jīng)過(guò)某一噪聲信道后變成目標(biāo)語(yǔ)言T,也就是說(shuō),假設(shè)目標(biāo)語(yǔ)言文本T是由一段源語(yǔ)言文本S經(jīng)過(guò)某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將T還原成S,這也就是就是一個(gè)解碼的過(guò)程.
有兩個(gè)容易混淆的術(shù)語(yǔ)在這里需要解釋一下.一般談到機(jī)器翻譯時(shí),我們都稱被翻譯的文本語(yǔ)言是源語(yǔ)言,要翻譯到的文本語(yǔ)言是目標(biāo)語(yǔ)言.而在基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法中,源語(yǔ)言和目標(biāo)語(yǔ)言是相對(duì)于噪聲信道而言的,噪聲信道的輸入端是源語(yǔ)言,噪聲信道的輸出端是目標(biāo)語(yǔ)言,翻譯的過(guò)程被理解為"已知目標(biāo)語(yǔ)言,猜測(cè)源語(yǔ)言"的解碼過(guò)程.這與傳統(tǒng)的說(shuō)法剛好相反.
根據(jù)Bayes公式可推導(dǎo)得到:
這個(gè)公式在Brown等人的文章中稱為統(tǒng)計(jì)機(jī)器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation).在這個(gè)公式中,P(S)是源語(yǔ)言的文本S出現(xiàn)的概率,稱為語(yǔ)言模型.P(T|S)是由源語(yǔ)言文本S翻譯成目標(biāo)語(yǔ)言文本T的概率,稱為翻譯模型.語(yǔ)言模型只與源語(yǔ)言相關(guān),與目標(biāo)語(yǔ)言無(wú)關(guān),反映的是一個(gè)句子在源語(yǔ)言中出現(xiàn)的可能性,實(shí)際上就是該句子在句法語(yǔ)義等方面的合理程度;翻譯模型與源語(yǔ)言和目標(biāo)語(yǔ)言都有關(guān)系,反映的是兩個(gè)句子互為翻譯的可能性.
也許有人會(huì)問(wèn),為什么不直接使用P(S|T),而要使用P(S)P(T|S)這樣一個(gè)更加復(fù)雜的公式來(lái)估計(jì)譯文的概率呢其原因在于,如果直接使用P(S|T)來(lái)選擇合適的S,那么得到的S很可能是不符合譯文語(yǔ)法的(ill-formed),而語(yǔ)言模型P(S)就可以保證得到的譯文盡可能的符合語(yǔ)法.
這樣,機(jī)器翻譯問(wèn)題被分解為三個(gè)問(wèn)題:
1.語(yǔ)言模型Pr(s)的參數(shù)估計(jì);
2.翻譯模型Pr(t|s)的參數(shù)估計(jì);
3.搜索問(wèn)題:尋找最優(yōu)的譯文;
模具設(shè)計(jì) 模具實(shí)訓(xùn)總結(jié) 模具設(shè)計(jì)教學(xué) 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀