在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

模具畢業(yè)論文模板設(shè)計(jì)開(kāi)題報(bào)告

前言:本站為你精心整理了模具畢業(yè)論文模板設(shè)計(jì)開(kāi)題報(bào)告范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

模具畢業(yè)論文模板設(shè)計(jì)開(kāi)題報(bào)告

模具畢業(yè)論文

模具畢業(yè)論文

本文的主要圍繞兩方面內(nèi)容:

提出一個(gè)基于模板的統(tǒng)計(jì)翻譯模型以及相應(yīng)的訓(xùn)練和翻譯算法;

根據(jù)這種算法模型實(shí)現(xiàn)一個(gè)漢英機(jī)器翻譯系統(tǒng).

首先,我們將提出一個(gè)基于模板的統(tǒng)計(jì)機(jī)器翻譯算法.這種算法是傳統(tǒng)的基于轉(zhuǎn)換的方法和統(tǒng)計(jì)機(jī)器翻譯方法的有效結(jié)合.克服了現(xiàn)有的統(tǒng)計(jì)機(jī)器翻譯方法忽視語(yǔ)言結(jié)構(gòu)的缺點(diǎn),同時(shí)又繼承了其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好的優(yōu)點(diǎn).

然后,在我們已有工作的基礎(chǔ)上,我們將根據(jù)以上算法,提出一個(gè)完整漢英機(jī)器翻譯系統(tǒng)及其測(cè)試系統(tǒng)的實(shí)現(xiàn)方案.

本文第一章是對(duì)已有的各種基于語(yǔ)料庫(kù)的機(jī)器翻譯方法以及機(jī)器翻譯評(píng)測(cè)方法的一個(gè)綜述,第二章結(jié)合我們已有的工作,提出我們自己的研究思路——基于深層結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,第三章給出一個(gè)具體的漢英機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)方案,第四章是總結(jié).

綜述

機(jī)器翻譯方法概述

和自然語(yǔ)言處理的其他技術(shù)一樣,機(jī)器翻譯方法也主要分為兩類:人工編寫規(guī)則的方法和從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí)(規(guī)則或參數(shù))的方法.從目前的趨勢(shì)看,從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí)的方法已經(jīng)占到了主流.當(dāng)然從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí)并不排斥人類語(yǔ)言學(xué)知識(shí)的應(yīng)用,不過(guò)這種語(yǔ)言學(xué)知識(shí)的應(yīng)用一般不再表現(xiàn)為直接為某個(gè)系統(tǒng)手工編寫規(guī)則,而更多的是通過(guò)語(yǔ)料庫(kù)標(biāo)注,詞典建設(shè)等大規(guī)模語(yǔ)言工程的方式體現(xiàn)出來(lái),應(yīng)該說(shuō),這是一種計(jì)算機(jī)研究者和語(yǔ)言學(xué)研究者互相合作的一種更為有效的方式.

基于語(yǔ)料庫(kù)的機(jī)器翻譯方法主要有:基于實(shí)例的機(jī)器翻譯方法,基于統(tǒng)計(jì)的機(jī)器翻譯方法,混合(Hybrid)的方法.這幾種方法各有特點(diǎn).其中,統(tǒng)計(jì)機(jī)器翻譯方法由于其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好,可以自動(dòng)學(xué)習(xí),魯棒性強(qiáng)等優(yōu)點(diǎn),越來(lái)越受到人們的重視.本文中提出的機(jī)器翻譯方法就是統(tǒng)計(jì)機(jī)器翻譯方法中的一種.

根據(jù)我所查閱的文獻(xiàn),我把基于統(tǒng)計(jì)的機(jī)器翻譯方法大體上分為以下三類:第一類是基于平行概率語(yǔ)法的統(tǒng)計(jì)機(jī)器翻譯方法,其基本思想是,用一個(gè)雙語(yǔ)平行的概率語(yǔ)法模型,同時(shí)生成兩種語(yǔ)言的句子,在對(duì)源語(yǔ)言句子進(jìn)行理解的同時(shí),就可以得到對(duì)應(yīng)的目標(biāo)語(yǔ)言句子.這種方法的主要代表有Alshawi的HeadTransducer模型和吳德愷的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT.第二類是基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法是由IBM公司的PeterBrown等人在1990年代初提出的,后來(lái)很多人都在這種方法的基礎(chǔ)上做了很多改進(jìn)工作,這也是目前最有影響的統(tǒng)計(jì)機(jī)器翻譯方法,一般說(shuō)的統(tǒng)計(jì)機(jī)器翻譯方法都是指的這一類方法.第三類是德國(guó)Och等人最近提出基于最大熵的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法是比信源信道模型更一般化的一種模型.

機(jī)器翻譯的范式

機(jī)器翻譯經(jīng)過(guò)50多年的發(fā)展,產(chǎn)生了很多種不同的范式(Paradigm),大致歸納起來(lái),可以分為以下幾類,如下圖所示:

直接翻譯方法:早期的不經(jīng)過(guò)句法分析直接進(jìn)行詞語(yǔ)翻譯和詞序調(diào)整的方法;

基于轉(zhuǎn)換的方法:基于某種深層表示形式進(jìn)行轉(zhuǎn)換的方法,典型的轉(zhuǎn)換方法要求獨(dú)立分析,獨(dú)立生成;注意,這里的深層表示既可以是句法表示,也可以是語(yǔ)義表示;

基于中間語(yǔ)言的方法:利用某種獨(dú)立于語(yǔ)言的中間表示形式(稱為中間語(yǔ)言)實(shí)現(xiàn)兩種語(yǔ)言之間的翻譯.

基于平行概率語(yǔ)法的統(tǒng)計(jì)機(jī)器翻譯方法

這一類方法的基本思想是,用一個(gè)雙語(yǔ)平行的概率語(yǔ)法模型,即兩套相互對(duì)應(yīng)的帶概率的規(guī)則體系,同時(shí)生成兩種語(yǔ)言的句子,在對(duì)源語(yǔ)言句子進(jìn)行理解的同時(shí),就可以得到對(duì)應(yīng)的目標(biāo)語(yǔ)言句子的生成過(guò)程.

這一類方法有幾個(gè)共同的特點(diǎn):有明確的規(guī)則形式;源語(yǔ)言規(guī)則和目標(biāo)語(yǔ)言規(guī)則一一對(duì)應(yīng);源語(yǔ)言與目標(biāo)語(yǔ)言共享一套概率語(yǔ)法模型,對(duì)于兩種語(yǔ)言的轉(zhuǎn)換過(guò)程不使用概率模型進(jìn)行描述.

以下我們分別介紹這一類方法的有代表性的幾種形式.

Alshawi的基于加權(quán)中心詞轉(zhuǎn)錄機(jī)的統(tǒng)計(jì)機(jī)器翻譯方法

有限狀態(tài)轉(zhuǎn)錄機(jī)(Finite-StateTransducer)和有限狀態(tài)識(shí)別器(Finite-StateRecognizer)是有限狀態(tài)自動(dòng)機(jī)(Finite-StateAutomata)的兩種基本形式.其主要區(qū)別在于有限狀態(tài)轉(zhuǎn)錄機(jī)在識(shí)別的過(guò)程中同時(shí)可以產(chǎn)生一個(gè)輸出,其每一條邊上面同時(shí)有輸入符號(hào)和輸出符號(hào)兩個(gè)標(biāo)記,而有限狀態(tài)識(shí)別器只能識(shí)別,不能輸出,其每一條邊上只有一個(gè)輸入符號(hào)標(biāo)記.

中心詞轉(zhuǎn)錄機(jī)(HeadTransducer)是對(duì)有限狀態(tài)轉(zhuǎn)錄機(jī)的一種改進(jìn).對(duì)于中心詞轉(zhuǎn)錄機(jī),識(shí)別的過(guò)程不是自左向右進(jìn)行,而是從中心詞開(kāi)始向兩邊執(zhí)行.所以在每條邊上,除了輸入輸出信息外,還有語(yǔ)序調(diào)整的信息,用兩個(gè)整數(shù)表示.下圖是一個(gè)能夠?qū)⑷我鈇,b組成的串逆向輸出的一個(gè)HT的示意圖:

基于加權(quán)中心詞轉(zhuǎn)錄機(jī)(WeightedHeadTransducer)的統(tǒng)計(jì)機(jī)器翻譯方法是由AT&T實(shí)驗(yàn)室的Alshawi等人提出的,用于AT&T的語(yǔ)音機(jī)器翻譯系統(tǒng).該系統(tǒng)由語(yǔ)音識(shí)別,機(jī)器翻譯,語(yǔ)音合成三部分組成.其中機(jī)器翻譯系統(tǒng)的總體工作流程如下圖所示:

在加權(quán)中心詞轉(zhuǎn)錄機(jī)模型中,中心詞轉(zhuǎn)錄機(jī)是唯一的知識(shí)表示方法,所有的機(jī)器翻譯知識(shí),包括詞典,都表示為一個(gè)帶概率的HeadTransducer的集合.知識(shí)獲取的過(guò)程是全自動(dòng)的,從語(yǔ)料庫(kù)中訓(xùn)練得到,但獲取的結(jié)果(就是中心詞轉(zhuǎn)錄機(jī))很直觀,可以由人進(jìn)行調(diào)整.中心詞轉(zhuǎn)錄機(jī)的表示是完全基于詞的,不采用任何詞法,句法或語(yǔ)義標(biāo)記.

整個(gè)知識(shí)獲取的過(guò)程實(shí)際上就是一個(gè)雙語(yǔ)語(yǔ)料庫(kù)結(jié)構(gòu)對(duì)齊的過(guò)程.句子的結(jié)構(gòu)用依存樹(shù)表示(但依存關(guān)系不作任何標(biāo)記).他們經(jīng)過(guò)一番公式推導(dǎo),把一個(gè)完整的雙語(yǔ)語(yǔ)料庫(kù)的分析樹(shù)構(gòu)造并對(duì)齊的過(guò)程轉(zhuǎn)化成了一個(gè)數(shù)學(xué)問(wèn)題的求解過(guò)程.這個(gè)過(guò)程可用一個(gè)算法高效實(shí)現(xiàn).得到對(duì)齊的依存樹(shù)后,很容易就訓(xùn)練出一組帶概率的中心詞轉(zhuǎn)錄機(jī),也就得到了一個(gè)機(jī)器翻譯系統(tǒng).不過(guò)要說(shuō)明的是,通過(guò)這種純統(tǒng)計(jì)方法得到的依存樹(shù),與語(yǔ)言學(xué)意義上的依存樹(shù)并不符合,而且相差甚遠(yuǎn).

這種方法的主要特點(diǎn)是:1.訓(xùn)練可以全自動(dòng)進(jìn)行,效率很高,由一個(gè)雙語(yǔ)句子對(duì)齊的語(yǔ)料庫(kù)可以很快訓(xùn)練出一個(gè)機(jī)器翻譯系統(tǒng);2.不使用任何人為定義的語(yǔ)言學(xué)標(biāo)記(如詞性,短語(yǔ)類,語(yǔ)義類等等),無(wú)需任何語(yǔ)言學(xué)知識(shí);3.訓(xùn)練得到的參數(shù)包含了句子的深層結(jié)構(gòu)信息,這一點(diǎn)比IBM的統(tǒng)計(jì)語(yǔ)言模型更好.

這種方法比較適合于語(yǔ)音翻譯這種領(lǐng)域比較受限,詞匯集較小的場(chǎng)合.

吳德愷的ITG模型

InversionTransductionGrammar(ITG)是香港科技大學(xué)吳德愷(DekaiWu)提出的一種供機(jī)器翻譯使用的語(yǔ)法形式[Wu1997].

這種語(yǔ)法的特點(diǎn)是,源語(yǔ)言和目標(biāo)語(yǔ)言共用一套規(guī)則系統(tǒng).

具體來(lái)說(shuō),ITG規(guī)則有三種形式:

A→[BC]

A→

A→x/y

其中A,B,C都是非終結(jié)符,x,y是終結(jié)符.而且B,C,x,y都可以是空(用e表示).

對(duì)于源語(yǔ)言來(lái)說(shuō),這三條規(guī)則產(chǎn)生的串分別是:

BCBCx

對(duì)于目標(biāo)語(yǔ)言來(lái)說(shuō),這三條規(guī)則產(chǎn)生的串分別是:

BCCBy

可以看到,第三條規(guī)則主要用于產(chǎn)生兩種語(yǔ)言的詞語(yǔ),第一條規(guī)則和第二條規(guī)則的區(qū)別在于,前者產(chǎn)生兩個(gè)串語(yǔ)序相同,后者產(chǎn)生的串語(yǔ)序相反.例如,兩個(gè)互為翻譯的漢語(yǔ)和英語(yǔ)句子分別是:

比賽星期三開(kāi)始.

ThegamewillstartonWednesday.

采用ITG分析后得到的句法樹(shù)就是:

其中,VP結(jié)點(diǎn)上的紅色標(biāo)記表示該結(jié)點(diǎn)對(duì)應(yīng)的漢語(yǔ)句子中兩個(gè)子結(jié)點(diǎn)的順序需要交換.

通過(guò)雙語(yǔ)對(duì)齊的語(yǔ)料庫(kù)對(duì)這種形式的規(guī)則進(jìn)行訓(xùn)練就可以直接用來(lái)做機(jī)器翻譯.

呂雅娟[Lü2001,2002]基于ITG模型實(shí)現(xiàn)一個(gè)小規(guī)模(2000個(gè)例句)的英漢機(jī)器翻譯系統(tǒng),取得了較好的實(shí)驗(yàn)結(jié)果.這個(gè)系統(tǒng)利用的英語(yǔ)的單語(yǔ)分析器和英漢雙語(yǔ)詞對(duì)齊的結(jié)果來(lái)獲取ITG.系統(tǒng)結(jié)構(gòu)如下圖所示:

Takeda的Pattern-basedCFGforMT

[Takeda96]提出了基于模式的機(jī)器翻譯上下文無(wú)關(guān)語(yǔ)法(Pattern-basedCFGforMT).該模型對(duì)于翻譯模板定義如下:

每個(gè)翻譯模板由一個(gè)源語(yǔ)言上下文無(wú)關(guān)規(guī)則和一個(gè)目標(biāo)語(yǔ)言上下文無(wú)關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對(duì)這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成;

中心詞約束:對(duì)于上下文無(wú)關(guān)語(yǔ)法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非終結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過(guò)使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞;

鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子結(jié)點(diǎn)通過(guò)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符互為翻譯.

舉例來(lái)說(shuō),一個(gè)漢英機(jī)器翻譯模板可以表示如下:

S:2→NP:1歲:MP:2了

————————————

S:be→NP:1beyear:NP:2old

可以看到,這種規(guī)則比上下文無(wú)關(guān)規(guī)則表達(dá)上更為細(xì)膩.例如上述模板中如果去掉中心詞約束,考慮一般的情況,顯然這兩條規(guī)則不能互為翻譯.與實(shí)例相比,這個(gè)模板又具有更強(qiáng)的表達(dá)能力,因?yàn)檫@兩個(gè)句子的主語(yǔ)(NP:1)和具體的歲數(shù)值都是可替換的.

該文還證明了這種模板的識(shí)別能力等價(jià)于CFG,提出了使用這種模板進(jìn)行翻譯的算法,討論了如何將屬性運(yùn)算引入翻譯模板當(dāng)中,并研究了如何從實(shí)例庫(kù)中提取翻譯模板的算法.該文作者在小規(guī)模范圍內(nèi)進(jìn)行了實(shí)驗(yàn),取得了較好的效果.

基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法

基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法源于Weaver在1947年提出的把翻譯看成是一種解碼的過(guò)程.其正式的數(shù)學(xué)框架是由IBM公司的Brown等人建立的[Brown1990,1993].這一類方法的影響非常大,甚至成了統(tǒng)計(jì)機(jī)器翻譯方法的同義詞.不過(guò)在本文中,我們只把它作為統(tǒng)計(jì)機(jī)器翻譯方法中的一類.

IBM的統(tǒng)計(jì)機(jī)器翻譯方法

基本原理

基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法的基本思想是,把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^(guò)程,用一種信源信道模型對(duì)機(jī)器翻譯進(jìn)行解釋.假設(shè)一段源語(yǔ)言文本S,經(jīng)過(guò)某一噪聲信道后變成目標(biāo)語(yǔ)言T,也就是說(shuō),假設(shè)目標(biāo)語(yǔ)言文本T是由一段源語(yǔ)言文本S經(jīng)過(guò)某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將T還原成S,這也就是就是一個(gè)解碼的過(guò)程.

有兩個(gè)容易混淆的術(shù)語(yǔ)在這里需要解釋一下.一般談到機(jī)器翻譯時(shí),我們都稱被翻譯的文本語(yǔ)言是源語(yǔ)言,要翻譯到的文本語(yǔ)言是目標(biāo)語(yǔ)言.而在基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法中,源語(yǔ)言和目標(biāo)語(yǔ)言是相對(duì)于噪聲信道而言的,噪聲信道的輸入端是源語(yǔ)言,噪聲信道的輸出端是目標(biāo)語(yǔ)言,翻譯的過(guò)程被理解為"已知目標(biāo)語(yǔ)言,猜測(cè)源語(yǔ)言"的解碼過(guò)程.這與傳統(tǒng)的說(shuō)法剛好相反.

根據(jù)Bayes公式可推導(dǎo)得到:

這個(gè)公式在Brown等人的文章中稱為統(tǒng)計(jì)機(jī)器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation).在這個(gè)公式中,P(S)是源語(yǔ)言的文本S出現(xiàn)的概率,稱為語(yǔ)言模型.P(T|S)是由源語(yǔ)言文本S翻譯成目標(biāo)語(yǔ)言文本T的概率,稱為翻譯模型.語(yǔ)言模型只與源語(yǔ)言相關(guān),與目標(biāo)語(yǔ)言無(wú)關(guān),反映的是一個(gè)句子在源語(yǔ)言中出現(xiàn)的可能性,實(shí)際上就是該句子在句法語(yǔ)義等方面的合理程度;翻譯模型與源語(yǔ)言和目標(biāo)語(yǔ)言都有關(guān)系,反映的是兩個(gè)句子互為翻譯的可能性.

也許有人會(huì)問(wèn),為什么不直接使用P(S|T),而要使用P(S)P(T|S)這樣一個(gè)更加復(fù)雜的公式來(lái)估計(jì)譯文的概率呢其原因在于,如果直接使用P(S|T)來(lái)選擇合適的S,那么得到的S很可能是不符合譯文語(yǔ)法的(ill-formed),而語(yǔ)言模型P(S)就可以保證得到的譯文盡可能的符合語(yǔ)法.

這樣,機(jī)器翻譯問(wèn)題被分解為三個(gè)問(wèn)題:

1.語(yǔ)言模型Pr(s)的參數(shù)估計(jì);

2.翻譯模型Pr(t|s)的參數(shù)估計(jì);

3.搜索問(wèn)題:尋找最優(yōu)的譯文;

汝阳县| 会昌县| 永济市| 三门县| 富川| 隆子县| 垫江县| 津南区| 万州区| 景宁| 潜山县| 噶尔县| 巴马| 永定县| 中山市| 三穗县| 营口市| 永春县| 龙门县| 思南县| 都匀市| 塘沽区| 通化县| 依兰县| 常熟市| 宣恩县| 垦利县| 梅州市| 精河县| 陇西县| 太白县| 亚东县| 容城县| 镇巴县| 广东省| 江源县| 即墨市| 库尔勒市| 扶风县| 西和县| 无棣县|