前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇自然語言處理范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
Abstract: This paper analyzes the role and status of morphological analysis in natural language processing from the view of the features and difficulties. Then, the author lists some typical automated segmentation algorithm in Chinese lexical analysis.
關(guān)鍵詞: 自然語言理解;詞法分析;自動(dòng)分詞算法
Key words: natural language understanding;morphological analysis;automatic segmentation algorithm
中圖分類號(hào):TP27 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2010)10-0157-01
0引言
自然語言理解是語言信息處理技術(shù)的重要研究方向之一,一直以來都是人工智能領(lǐng)域中的核心研究課題。計(jì)算機(jī)的出現(xiàn)使得自然語言研究成為可能。語言是以詞為基本單位的,詞匯在語法的支配下構(gòu)成有意義的和可理解的句子則進(jìn)一步地按一定的形式再構(gòu)成篇章。詞法分析是理解單詞的基礎(chǔ),因而也是自然語言理解和處理的基礎(chǔ),其主要目的是從句子中切分出單詞,找出詞匯中的詞素,從中獲得單詞的語言學(xué)信息并由此確定單詞的詞義。
1自然語言理解的難點(diǎn)及處理層次
自然語言也就是人類本身所使用的語言。廣義上講,自然語言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能,如回答問題、文摘生成、釋義、翻譯等。由于自然語言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等眾多因素,使得對(duì)自然語言的理解成為非常困難的研究課題[1]。語言雖然被表示成一連串的文字符號(hào)或者是一串聲音流,但實(shí)質(zhì)上,語言的內(nèi)部是一個(gè)層次化的結(jié)構(gòu)。因此,自然語言的分析理解和處理過程也應(yīng)當(dāng)是一個(gè)層次化的過程。許多現(xiàn)代語言學(xué)家將自然語言理解的過程劃分為語音分析、詞法分析、句法分析、語義分析和語用分析五個(gè)層次。
2詞法分析的在自然語言理解中的地位和作用
2.1 詞法分析的特點(diǎn)和任務(wù)詞法分析是理解自然語言中最小的語法單位――單詞的基礎(chǔ)。語言是以詞為基本單位的,而詞又是由詞素構(gòu)成的,即詞素是構(gòu)成詞的最小的有意義的單位。詞法分析包括兩方面的任務(wù)[2]:第一:要能正確地把一串連續(xù)的字符切分成一個(gè)一個(gè)的詞;第二:要能正確地判斷每個(gè)詞的詞性,以便于后續(xù)的句法分析的實(shí)現(xiàn)。以上兩個(gè)方面的處理的正確性和準(zhǔn)確度將對(duì)后續(xù)的句法分析產(chǎn)生決定性的影響,并最終決定語言理解的正確與否。
2.2 不同自然語言中詞法分析的特點(diǎn)和難點(diǎn)不同的語言對(duì)詞法分析有不同的要求。例如,英語和漢語在詞法分析處理方面就存在著很大的差異。英語語言中,由于單詞之間是以空格自然分開的,而漢語則不具備英語以空格劃分單詞的特點(diǎn),其單詞的切分是非常困難的,不僅需要構(gòu)詞的知識(shí),還需要解決可能遇到的切分歧義。對(duì)于詞性分析和判斷,由于英語單詞有詞性、數(shù)、時(shí)態(tài)、派生、變形等繁雜的變化,再加上英語的單詞往往有多種解釋,詞義的判斷非常困難,僅僅依靠查詞典常常是無法實(shí)現(xiàn)的。而漢語中的每個(gè)字就是一個(gè)詞素,所以找出詞素是相當(dāng)容易的??梢?在自然語言理解的詞法分析處理中,漢語、日語、韓語等語言的詞法分析的難點(diǎn)在于分詞切詞,而英語、法語等語言的難點(diǎn)則是詞素區(qū)分。漢語自動(dòng)分詞是漢語語言處理和理解中的關(guān)鍵技術(shù),也是中文信息處理發(fā)展的瓶頸,其困難主要在“詞”的概念缺乏清晰的界定、未登錄詞的識(shí)別、歧義切分字段的處理三個(gè)方面。
2.3 典型的中文自動(dòng)分詞算法漢語連續(xù)書寫導(dǎo)致了漢語自動(dòng)分詞中的歧義問題將始終存在。在漢語自動(dòng)分詞算法的研究中,歧義字段的處理是各種算法研究的重點(diǎn)。至今專家學(xué)者們研究出了一系列的自動(dòng)分詞算法,如:最大匹配法(Maximum Matching Method:簡(jiǎn)稱MM)[3]、基于標(biāo)記法[4]、約束矩陣法[5]、句模切分法[6]、基于統(tǒng)計(jì)語言模型(Statistical Language Models:簡(jiǎn)稱SLM)的中文自動(dòng)分詞算法[7]、神經(jīng)網(wǎng)絡(luò)分詞算法、專家系統(tǒng)分詞算法、基于詞典的中文分詞算法等。MM法是最早出現(xiàn)的自動(dòng)分詞算法,是一種機(jī)械分詞方法。該算法首先建立詞庫,將所有可能出現(xiàn)的詞都事先存放在詞庫中,對(duì)于給定的待分詞漢字串,采用某種策略進(jìn)行匹配分詞。策略有兩種:一是最大匹配法,每次匹配時(shí)優(yōu)先考慮長(zhǎng)詞;另一種則是最小匹配法,每次匹配時(shí)優(yōu)先考慮短詞。在機(jī)械分詞的基礎(chǔ)上,利用各種語言信息(如規(guī)則、語法、語義、標(biāo)點(diǎn)、數(shù)字等)進(jìn)行歧義校正,從而提高其分詞的正確性。上文中提到的基于標(biāo)記法、約束矩陣法、句模切分法等就屬于機(jī)械匹配與切分歧義處理方法相結(jié)合的算法?;赟LM的中文自動(dòng)分詞方法又稱為無詞表分詞算法。所謂無詞表是指分詞匹配的詞表并不是事先建立的,而是利用機(jī)器學(xué)習(xí)手段從生語料庫中直接獲取分詞所需要的某些適用知識(shí)作為分詞依據(jù)的重要補(bǔ)充手段。該算法的核心思想是:詞是穩(wěn)定的漢字的組合,上下文中漢字與漢字相鄰出現(xiàn)的概率能夠較好地反映成詞的可信度,因此,將相鄰共現(xiàn)的漢字組合的頻率進(jìn)行統(tǒng)計(jì)并將其統(tǒng)計(jì)信息作為分詞的依據(jù)。神經(jīng)網(wǎng)絡(luò)分詞算法和專家系統(tǒng)分詞算法都屬于基于人工智能技術(shù)的自動(dòng)分詞方法。該類方法應(yīng)用人工智能中的神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)來進(jìn)行中文自動(dòng)分詞。周程遠(yuǎn)等人提出的基于詞典的中文分詞算法是在機(jī)械分詞算法基礎(chǔ)上的改進(jìn)。他們綜合TRIE樹和逐字二分分詞的特點(diǎn)提出分層逐字二分算法,以較小的開銷來實(shí)現(xiàn)較快的匹配速度,從而提高自動(dòng)分詞的綜合性能,其本質(zhì)還是機(jī)械分詞。
3總結(jié)
詞法分析是自然語言理解的基礎(chǔ)。本文在介紹自然語言理解處理層次的基礎(chǔ)上,討論了詞法分析的重要性和難點(diǎn),特別是漢語的詞法分析中切詞的難度,并列舉了一些著名的自動(dòng)分詞算法。
參考文獻(xiàn):
[1]王文杰,史忠植.人工智能原理輔導(dǎo)與練習(xí)[M].北京:清華大學(xué)出版社,2007,12:250.
[2]田霓光.自然語言的詞法分析[J].咸寧學(xué)院學(xué)報(bào),2008,(06):70-73.
[3]劉遷,賈惠波.中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J].計(jì)算機(jī)工程與應(yīng)用,2006,(03):175-177+182.
[4]亢臨生,張永奎.基于標(biāo)記的分詞算法[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),1995,17(3).
[5]雷西川,余靖維,盧曉鈴.基于相鄰知識(shí)的漢語自動(dòng)分詞系統(tǒng)研究[J].情報(bào)科學(xué),1994,(2).
關(guān)鍵詞:自然語言處理 語言翻譯 人工智能
一、引言
近年來隨著計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展,自然語言信息處理技術(shù)已取得了長(zhǎng)足的發(fā)展。于此同時(shí)人們?cè)诳焖傩畔z索、語言翻譯、語音控制等方面的需求越來越迫切。如何將自然語言處理中取得的研究成果應(yīng)用于文本、語音等方面已成為目前應(yīng)用研究的一個(gè)關(guān)鍵。論文將從自然語言信息處理的基礎(chǔ)出發(fā),系統(tǒng)的論述它在語音和文本方面的廣泛應(yīng)用。
二、自然語言信息處理技術(shù)簡(jiǎn)介
自然語言信息處理技術(shù)產(chǎn)生于上個(gè)世紀(jì)40年代末期,它是通過采用計(jì)算機(jī)技術(shù)來對(duì)自然語言進(jìn)行加工處理的一項(xiàng)技術(shù)。該技術(shù)主要是為了方便人與計(jì)算機(jī)之間的交流而產(chǎn)生的。由于計(jì)算機(jī)嚴(yán)密規(guī)范的邏輯特性與自然語言的靈活多變使得自然語言處理技術(shù)較復(fù)雜。通過多年的發(fā)展,該項(xiàng)技術(shù)已取得了巨大的進(jìn)步。其處理過程可歸納為:語言形式化描述、處理算法設(shè)計(jì)、處理算法實(shí)現(xiàn)和評(píng)估。其中,語言形式化描述就是通過對(duì)自然語言自身規(guī)律進(jìn)行研究,進(jìn)而采用數(shù)學(xué)的方法將其描述出來,以便于計(jì)算機(jī)處理,也可認(rèn)為是對(duì)自然語言進(jìn)行數(shù)學(xué)建模。處理的算法設(shè)計(jì)就是將數(shù)學(xué)形式化描述的語言變換為計(jì)算機(jī)可操作、控制的對(duì)象。處理算法實(shí)現(xiàn)和評(píng)估就是通過程序設(shè)計(jì)語言(如C語言)將算法實(shí)現(xiàn)出來,并對(duì)其性能和功能進(jìn)行評(píng)估。它主要涉及到計(jì)算機(jī)技術(shù)、數(shù)學(xué)(主要是建模)、統(tǒng)計(jì)學(xué)、語言學(xué)等多個(gè)方面。
三、智能應(yīng)用
通過多年的研究,自然語言信息處理技術(shù)已經(jīng)取得了巨大的進(jìn)步,特別是在應(yīng)用方面。它主要被應(yīng)用于文本和語音兩個(gè)方面。
(一)自然語言信息處理在文本方面的智能應(yīng)用
在文本方面,自然語言處理技術(shù)主要應(yīng)用在語言翻譯、字符識(shí)別、文本信息過濾、信息檢索與重組等方面。其中,語言自動(dòng)翻譯是一個(gè)十分重要并具有極大現(xiàn)實(shí)意義的項(xiàng)目。它涉及到計(jì)算機(jī)技術(shù)、數(shù)學(xué)建模技術(shù)、心理學(xué)以及語言學(xué)等多個(gè)方面的學(xué)科。通過近些年的努力已得到了一定的發(fā)展。自然語言處理技術(shù)已在多個(gè)方面提升了翻譯的效率和準(zhǔn)確性。如自然語言處理中的語言形態(tài)分析與歧義分析對(duì)翻譯技術(shù)來說十分重要,可以很好的處理翻譯中的多意現(xiàn)象和歧義問題,從而提高翻譯的準(zhǔn)確性。字符識(shí)別具有廣泛的商業(yè)應(yīng)用前景,它是模式識(shí)別的一個(gè)分支。字符識(shí)別的主要過程可分為預(yù)處理、識(shí)別以及后期處理。目前,字符識(shí)別已得到了廣泛的應(yīng)用,并且效果良好,但還存在識(shí)別不準(zhǔn)確的問題,其主要問題就出在合理性上,其中后期處理就涉及到采用詞義或語料庫等對(duì)識(shí)別結(jié)果進(jìn)行合理性驗(yàn)證,通過該技術(shù)就能很好的解決識(shí)別不準(zhǔn)確的問題,當(dāng)出現(xiàn)識(shí)別不準(zhǔn)確、出現(xiàn)多個(gè)識(shí)別結(jié)果時(shí)可以通過合理性驗(yàn)證技術(shù)高效的過濾掉異常選項(xiàng),從而實(shí)現(xiàn)快速、準(zhǔn)確的識(shí)別。目前自然語言信息處理技術(shù)在文本方面應(yīng)用最廣的就是文本檢索。通過采用自然語言信息處理技術(shù),一方面能快速分析用戶輸入信息并進(jìn)行準(zhǔn)確理解為檢索提供更加準(zhǔn)確的關(guān)鍵詞,并且可以擴(kuò)展檢索輸入的范圍,讓其不僅僅局限在文本輸入方面,如采用語音輸入或基于圖像的輸入;另一方面,通過采用自然語言信息處理技術(shù)可以對(duì)搜索到的信息進(jìn)行處理讓用戶獲取的是更加有效、準(zhǔn)確的信息而不是海量的信息源(如許多網(wǎng)頁)。因?yàn)閷⒆匀徽Z言處理技術(shù)與文本重組技術(shù)相結(jié)合就可以極大的提高檢索的效果,縮小答案的范圍,提高準(zhǔn)確性。當(dāng)然,還可以提高檢索的效率。目前,在中文全文檢索中已得到了廣泛的應(yīng)用,并且效果良好。
如果能進(jìn)一步的研究自然語言信息處理技術(shù),將能實(shí)現(xiàn)信息的自動(dòng)獲取與重組,這樣將能實(shí)現(xiàn)自動(dòng)摘要生成、智能文本生成、文件自動(dòng)分類與自動(dòng)整理。若能進(jìn)一步結(jié)合人工智能技術(shù),將能實(shí)現(xiàn)文學(xué)規(guī)律探索、自動(dòng)程序設(shè)計(jì)、智能決策等諸多方面的應(yīng)用。這樣可以減輕人類的工作強(qiáng)度,讓我們從繁瑣的基礎(chǔ)工作中走出來,擁有更多思考的時(shí)間,從而能更加有效的推動(dòng)技術(shù)的進(jìn)步。
關(guān)鍵詞:3S技術(shù) 水污染 自動(dòng)監(jiān)測(cè) 應(yīng)急處理
1引言
近年來,隨著各種傳感器的上天,許多國家十分重視水體的衛(wèi)星遙感監(jiān)測(cè)技術(shù)研究。采用計(jì)算機(jī)技術(shù)、通信網(wǎng)絡(luò)技術(shù)、微電子技術(shù)、計(jì)算機(jī)輔助設(shè)計(jì)技術(shù)和3S(GIS、GPS、RS)等一系列高新技術(shù)對(duì)水環(huán)境綜合管理的技術(shù)手段,建立水環(huán)境和部分重點(diǎn)污染源的在線監(jiān)測(cè)系統(tǒng),結(jié)合環(huán)境保護(hù)管理信息系統(tǒng),并運(yùn)用污染源解析的科學(xué)成果,對(duì)水環(huán)境和污染源實(shí)施有效監(jiān)控。荷蘭采用TM衛(wèi)星數(shù)據(jù)、SPOT衛(wèi)星數(shù)據(jù)以及多種水體監(jiān)測(cè)數(shù)據(jù)、機(jī)載多光譜掃描數(shù)據(jù),對(duì)水質(zhì)進(jìn)行了綜合遙感研究;以色列通過分析100多個(gè)水體污染的SPOT衛(wèi)星數(shù)據(jù),實(shí)現(xiàn)了對(duì)水體污染的識(shí)別。
本項(xiàng)目采用3S信息技術(shù)手段,建立以遠(yuǎn)程控制及自動(dòng)化技術(shù)為依托對(duì)水流域內(nèi)的重點(diǎn)污染源進(jìn)行自動(dòng)監(jiān)控系統(tǒng),對(duì)水污染事故問題進(jìn)行模擬預(yù)測(cè)分析;可以定性和定量分析在水源區(qū)域內(nèi)工業(yè)開發(fā)對(duì)區(qū)域環(huán)境,尤其是對(duì)區(qū)域內(nèi)的飲用水源地敏感目標(biāo)的環(huán)境影響和潛在風(fēng)險(xiǎn),并識(shí)別出區(qū)域環(huán)境風(fēng)險(xiǎn)的主導(dǎo)因子。同時(shí)采用環(huán)境監(jiān)測(cè)、環(huán)境預(yù)測(cè)、計(jì)算機(jī)軟件集成和遠(yuǎn)程通訊等技術(shù)研究開發(fā)環(huán)境風(fēng)險(xiǎn)監(jiān)控預(yù)警體系,建立可視化管理信息系統(tǒng)。通過3S技術(shù)可以實(shí)現(xiàn)對(duì)水污染的全方位監(jiān)測(cè)。
2污染水體遙感監(jiān)測(cè)研究
2.1采用的研究方法
2.1.1對(duì)比分析法
收集長(zhǎng)江、遼河、鴨綠江、大連沿海諸河四個(gè)流域典型示范區(qū)域,已有各類衛(wèi)星遙感及相關(guān)資料,進(jìn)行綜合分析研究,確立環(huán)境與水污染遙感解譯標(biāo)志,與已有遙感資料進(jìn)行對(duì)比、分析,推斷國產(chǎn)衛(wèi)星的解譯力、可行程度及精度,與其它衛(wèi)星數(shù)據(jù)圖像進(jìn)行對(duì)比,分析國產(chǎn)衛(wèi)星的優(yōu)勢(shì)及差距。
2.1.2同步或準(zhǔn)同步監(jiān)測(cè)
為實(shí)現(xiàn)天地一體化動(dòng)態(tài)模擬試驗(yàn),必須開展星地同步或準(zhǔn)同步監(jiān)測(cè)。在統(tǒng)一監(jiān)測(cè)規(guī)范和分析方法基礎(chǔ)上,對(duì)各模擬試驗(yàn)進(jìn)行星、地高光譜特性測(cè)量和分析實(shí)驗(yàn)同步或準(zhǔn)同步監(jiān)測(cè),并求得規(guī)律特性,找出相關(guān)關(guān)系,確定適用范圍。
2.1.3天地一體化模擬試驗(yàn)
衛(wèi)星有效載荷天地一體化模擬試驗(yàn)是本項(xiàng)目的重要步驟。要確定CCD相機(jī)的不同監(jiān)測(cè)對(duì)像輻射能量范圍、動(dòng)態(tài)范圍;提出紅外多光譜不同分辨率對(duì)地面的響應(yīng)系數(shù)、最佳響應(yīng)波段或組合波段,確定監(jiān)測(cè)方法。
2.2采用的技術(shù)路線
3.構(gòu)建基于GIS/GPS/RS技術(shù)的江河流域水污染事故應(yīng)急處理決策支持系統(tǒng)
3.1系統(tǒng)構(gòu)成與運(yùn)行流程
依照運(yùn)行的過程,系統(tǒng)主要包括數(shù)據(jù)層、模型層、評(píng)價(jià)層和用戶層四個(gè)層面,各層次構(gòu)成及系統(tǒng)運(yùn)行流程見圖。
3.2水污染事故模型庫設(shè)計(jì)
模型庫設(shè)計(jì)與開發(fā)分為三個(gè)層次,即指標(biāo)管理模型、評(píng)價(jià)對(duì)象模型和評(píng)價(jià)方法模型。
3.2.1指標(biāo)管理模型
系統(tǒng)針對(duì)一系列評(píng)價(jià)對(duì)象給出默認(rèn)的、經(jīng)過優(yōu)化的評(píng)價(jià)指標(biāo)體系,包括指標(biāo)的組成、結(jié)構(gòu)與權(quán)重向量等,但由于評(píng)價(jià)指標(biāo)對(duì)于評(píng)價(jià)對(duì)象的影響程度在不同地區(qū)和不同時(shí)間均會(huì)有所差異。因此,評(píng)價(jià)指標(biāo)體系是動(dòng)態(tài)的,指標(biāo)管理模型就是針對(duì)指標(biāo)的這一特性進(jìn)行動(dòng)態(tài)管理。
3.2.2評(píng)價(jià)對(duì)象模型
評(píng)價(jià)對(duì)象模型是針對(duì)具體評(píng)價(jià)內(nèi)容涉及的評(píng)價(jià)模型。按照評(píng)價(jià)內(nèi)容分為江河污染現(xiàn)狀評(píng)價(jià)、水體污染嚴(yán)重性評(píng)價(jià)、影響區(qū)域評(píng)價(jià)、事故災(zāi)害損失評(píng)價(jià)和污染災(zāi)害預(yù)警預(yù)報(bào)等5個(gè)方面。按照評(píng)價(jià)的深度和層次可以分為但因素評(píng)價(jià)和多因素評(píng)價(jià)兩種。單因素評(píng)價(jià)主要是對(duì)單一點(diǎn)源污染擴(kuò)散速度的現(xiàn)勢(shì)和趨勢(shì)性的評(píng)價(jià)等。多因素評(píng)價(jià)主要針對(duì)一些復(fù)雜的評(píng)價(jià)對(duì)象,利用多種指標(biāo)綜合反映其總體特征,挖掘隱藏與諸多數(shù)據(jù)之后的重要信息。
3.2.3水污染事故報(bào)警系統(tǒng)
采用航天衛(wèi)星、低空遙感及地面監(jiān)測(cè)相結(jié)合的技術(shù)手段,及時(shí)發(fā)現(xiàn)水污染事故隱患,實(shí)時(shí)提供事故污染動(dòng)態(tài)變化。當(dāng)發(fā)現(xiàn)事故時(shí),一般通過無線對(duì)講機(jī)或附近的有線電話向污染防治管理部門匯報(bào),對(duì)事故發(fā)生位置的描述可采用“手持巡查報(bào)警系統(tǒng)”,它集成了GPS技術(shù)和GSM無線通訊技術(shù),能夠快速地將發(fā)生事故的地點(diǎn)和事故類別發(fā)送到指揮中心的監(jiān)控系統(tǒng),及時(shí)作出反應(yīng)。事故報(bào)警系統(tǒng)采用GPS定位技術(shù),可以精確地定位事故發(fā)生的地點(diǎn)(誤差不超過10M),系統(tǒng)持有者只需輕輕一個(gè)按鍵,系統(tǒng)就會(huì)通過GSM短信息將報(bào)警信息和位置信息發(fā)送到指揮中心,同時(shí)系統(tǒng)還具備通話功能,可以實(shí)現(xiàn)現(xiàn)場(chǎng)和指揮中心的自由對(duì)話,方便進(jìn)一步溝通。在事故發(fā)生一小時(shí)之內(nèi),事故應(yīng)急流動(dòng)監(jiān)測(cè)站,監(jiān)測(cè)車(船)、微航低空遙感監(jiān)測(cè)均要趕赴現(xiàn)場(chǎng),及時(shí)開展監(jiān)測(cè)攝影。及時(shí)掌握水體動(dòng)態(tài)變化狀況,及時(shí)事故變化信息。
4 結(jié)論
該項(xiàng)目利用3S信息技術(shù),實(shí)現(xiàn)了江河流域水污染自動(dòng)預(yù)防和應(yīng)急處理決策系統(tǒng)的研發(fā)與應(yīng)用,其采用自主研發(fā)和二次開發(fā)的事故應(yīng)急監(jiān)視、監(jiān)測(cè)系統(tǒng),及時(shí)掌握水體動(dòng)態(tài)變化狀況,及時(shí)事故動(dòng)態(tài)變化信息,及時(shí)采取應(yīng)急處理措施;采用衛(wèi)星遙感與江河流域水質(zhì)準(zhǔn)同步監(jiān)測(cè)技術(shù),實(shí)現(xiàn)天地一體化模擬實(shí)驗(yàn)??茖W(xué)地求得衛(wèi)星遙感數(shù)據(jù)與污染水體的相關(guān)關(guān)系,快速、準(zhǔn)確的確定污染范圍和污染程度,建立水質(zhì)污染擴(kuò)散模型,確定衛(wèi)星遙感數(shù)據(jù)在水質(zhì)自動(dòng)監(jiān)測(cè)中的適用范圍;在國產(chǎn)軟件MAPGIS平臺(tái)支持下,采用GPRS無線傳輸技術(shù),創(chuàng)建了基于3S技術(shù)的江河流域的水質(zhì)自動(dòng)在線實(shí)時(shí)監(jiān)控系統(tǒng),實(shí)現(xiàn)跨流域江河水質(zhì)污染自動(dòng)監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)傳輸;實(shí)現(xiàn)了對(duì)江河流域污染事故的應(yīng)急預(yù)警。對(duì)污染事故的及時(shí)發(fā)現(xiàn),提供輔助決策依據(jù);提供了水污染事故應(yīng)急處理決策支持的通用的、跨流域的計(jì)算機(jī)仿真系統(tǒng),建立水污染事故、污染物輸移擴(kuò)散模型,為突發(fā)事件預(yù)測(cè)、預(yù)警提供快捷的技術(shù)支持,提高事故的應(yīng)急處理水平,有力的輔助污染事故的監(jiān)測(cè)管理。
Abstract: In natural language processing, syntactic analysis is the analysis of deep processing. The lexical analysis technology has been basically mature, semantic analysis based on the basis of syntactic analysis. Therefore, the syntactic analysis’s position is very important. At present, parsing of natural language processing becomes a bottleneck. This paper gives a simple comment about the method of syntactic analysis.
關(guān)鍵詞: 漢語自然語言處理;句法分析
Key words: Chinese natural language processing;parsing
中圖分類號(hào):G202文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2010)17-0162-02
0引言
自然語言理解是語言信息處理技術(shù)的重要研究方向之一,一直以來都是人工智能領(lǐng)域中的核心研究課題。自然語言理解是指機(jī)器能夠執(zhí)行人類所期望的某些語言功能,如回答問題、文摘生成、釋義、翻譯等。由于自然語言的多義性、上下文有關(guān)性、模糊性、非系統(tǒng)性和環(huán)境密切相關(guān)性、涉及的知識(shí)面廣等眾多因素,使得對(duì)自然語言的理解成為非常困難的研究課題[1]。
語言雖然被表示成一連串的文字符號(hào)或者是一串聲音流,但實(shí)質(zhì)上,語言的內(nèi)部是一個(gè)層次化的結(jié)構(gòu)。自然語言的分析理解和處理過程也應(yīng)當(dāng)是一個(gè)層次化的過程。許多現(xiàn)代語言學(xué)家將自然語言理解的過程劃分為語音分析、詞法分析、句法分析、語義分析和語用分析五個(gè)層次,分別完成音素區(qū)分、詞素劃分、句子或短語的結(jié)構(gòu)分析、確定語言所表達(dá)的真正含義或概念以及語言在特定環(huán)境中所產(chǎn)生的影響等分析工作。句法分析師自然語言處理的一個(gè)基本問題,是在句法分析的基礎(chǔ)之上的語言層次結(jié)構(gòu)分析。其目的是確定句子所包含的譜系結(jié)構(gòu)和句子各組成成分之間的關(guān)系。關(guān)于漢語語言處理中的句法分析方法的研究,從20世紀(jì)80年代初以來,一直都沒有停止過,先后出現(xiàn)了大量的分析方法。
1漢語句法分析方法及演變過程
1.1 漢語句法分析的基本理論自然語言處理中,按照處理深度的不同,大致可以將自然語言處理中的語言分析技術(shù)劃分為淺層分析和深層分析兩大類[2]。深層分析技術(shù)是對(duì)語言進(jìn)行語法、語義和語用的分析,包括句法分析、語義角色標(biāo)注等。與淺層的詞法分析不同,深層的分析需要對(duì)句子進(jìn)行全局分析才能得到正確的結(jié)果。句法分析在深層分析技術(shù)中處于十分關(guān)鍵的位置。
所謂句法分析,就是根據(jù)給定的語法體系,自動(dòng)推導(dǎo)出句子的語法結(jié)構(gòu),分析句子所包含的語法單位和這些語法單位之間的關(guān)系,將線型的句子轉(zhuǎn)化成一種結(jié)構(gòu)化、層次化的結(jié)構(gòu),是自然語言理解的一個(gè)關(guān)鍵組成部分。句法分析的主要作用是消除單詞的歧義,為后續(xù)的語義分析提供層次結(jié)構(gòu)上的技術(shù)支撐,其結(jié)果可直接用于及其翻譯、問答系統(tǒng)、信息挖掘、信息抽取等應(yīng)用。
1.2 漢語句法分析方法句子是由詞構(gòu)成的。從結(jié)構(gòu)上來說,漢語句子中的詞是詞根詞,詞內(nèi)沒有專門表示語法意義的附加成分,而且,漢語還缺少英語語句里面的形態(tài)變化,因此,漢語句子中詞與詞的語法關(guān)系依靠詞序和虛詞來表示。
句法分析的研究大體分為兩種途徑:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法[3]?;谝?guī)則的方法是以知識(shí)為主體的理性主義方法,以語言學(xué)理論為基礎(chǔ),強(qiáng)調(diào)語言學(xué)家對(duì)語言現(xiàn)象的認(rèn)識(shí),采用非歧義的規(guī)則行事描述或解釋歧義行為或歧義特征。基于統(tǒng)計(jì)的句法分析則以某種方式對(duì)語言的形成和語法規(guī)則進(jìn)行描述,形成句法分析模型。漢語語言的句法分析方法自研究以來,先后出現(xiàn)了中心詞分析法與層次分析法相結(jié)合的方法、配價(jià)分析法、語義指向分析法等多種漢語句法分析方法[4]。
1.2.1 中心詞分析法與層次分析法的結(jié)合中心詞分析法也稱為句子成分分析法,是漢語句法分析中傳統(tǒng)的分析方法。該方法將句子分成主、謂、賓、定、狀、補(bǔ)六大成分。該方法能很容易地分析出句子的格局,確定句子的句型,但無法體現(xiàn)出句子的結(jié)構(gòu)層次。層次分析法則是基于句子語法結(jié)構(gòu)的一種句法分析方法,它不注重句子成分,而是在層次的控制下切分句法結(jié)構(gòu)的直接成分。該方法很容易顯示和分析句子的結(jié)構(gòu)層次,但卻不能很好地顯示句法結(jié)構(gòu)的格局。將中心詞分析法與層次分析法結(jié)合起來,就形成了一種優(yōu)勢(shì)互補(bǔ)的分析方法。
1.2.2 短語結(jié)構(gòu)句法分析與西方語言中長(zhǎng)句非常常見的情況不同,漢語句子以短句為主。從漢語的句法上來說,短語是不會(huì)跨越句子的分界的。因此,漢語這種句子短小的特點(diǎn)為提取句子中的短語減輕了難度。
短語體系的句法分析是在漢語數(shù)庫(Chinese Penn Treebank:CTB)上開展的。CTB與英文Penn Treebank屬于同一語法體系。漢語的短語結(jié)構(gòu)句法分析方法在改進(jìn)后的CTB的基礎(chǔ)上進(jìn)行,并進(jìn)一步地通過EM算法獲取樹庫中的規(guī)則來進(jìn)行。由于語言上的差異,在CTB上的漢語句法分析水平與英文Penn Treebank上的分析結(jié)果還存在一定的差距。
1.2.3 基于依存關(guān)系的句法分析統(tǒng)計(jì)句法分析方法中需要解決的關(guān)鍵問題是如何發(fā)現(xiàn)和利用具有強(qiáng)消岐能力的語言特征姿勢(shì),同時(shí)保證語言知識(shí)的應(yīng)用不會(huì)使模型的參數(shù)急劇膨脹而導(dǎo)致嚴(yán)重的數(shù)據(jù)稀疏問題。
在漢語的基本句型中,絕大多數(shù)句子的中心語是由動(dòng)詞或動(dòng)詞短語來擔(dān)當(dāng)?shù)?而句子的中心語則支配著句子中的其他成分。通過對(duì)動(dòng)詞、名詞和形容詞等各種詞的語義知識(shí)進(jìn)行分析并加以分類,進(jìn)而從中總結(jié)出中心詞與各被支配成分之間的語義依存關(guān)系,利用這種依存關(guān)系來很好地解決上述問題。
1.2.4 基于語法功能匹配的句法分析方法一般的詞性標(biāo)注都是對(duì)單詞或短語的詞性進(jìn)行標(biāo)注。然后,通常情況下,一個(gè)詞類是具有很多種語法功能的,并且,同一詞類的不同詞的語法功能的差異有可能非常大,而有的情況下,不同詞類的詞,其語法功能卻有可能相同?;谡Z法功能匹配的漢語句法分析方法通過使用詞和短語的語法功能集來代替現(xiàn)有的詞類標(biāo)記和短語標(biāo)記,以語法功能匹配(Grammar Function Match:GFM)作為句法分析的基本方法來實(shí)現(xiàn)漢語的句法分析[5]。
1.2.5 基于句法語義特征的句法分析方法所謂語義特征分析法,是一種借用語義學(xué)分解語義特征的方法來解釋在漢語語句中,某個(gè)格式為什么可以用這一類詞語而不能用另一類詞語的原因,其主要目的是解釋歧義現(xiàn)象產(chǎn)生的原因。基于句法語義特征的句法分析方法通過在句法分析中加入語義信息,將句法分析與語義分析綜合起來進(jìn)行,從而解決句法分析中的歧義消解問題。
此外,變換分析法、配價(jià)分析法、語義指向分析法等也是比較典型的漢語句法分析方法。
1.3 漢語句法分析方法的演變過程及原因漢語句法分析的方法主要是通過國外語言學(xué)理論引進(jìn)而來的,20余年來,漢語句法分析方法隨著漢語語法研究的發(fā)展而不斷發(fā)展。
漢語語言自然處理研究中最早的句法分析方法是上文所述的中心詞分析法。這種分析法來源于西方的傳統(tǒng)語法。后來,熙先生率先采用了變換分析法來進(jìn)行漢語的句法分析。語義特征分析則是對(duì)變換分析法的改進(jìn)和彌補(bǔ)。語義指向分析法也是隨著人們開始對(duì)語義平面研究的重視而產(chǎn)生的一種句法分析方法,它根據(jù)句中某個(gè)成分或詞語的語義指向來研究與它相關(guān)成分或詞語之間的語義聯(lián)系,從而將句法分析和語義分析結(jié)合起來。
相對(duì)于英語等分析語型的西方語言來說,漢語是一種孤立型的語言,兩者的內(nèi)部結(jié)構(gòu)存在著很大的差異。從上述漢語句法分析的發(fā)展不難看出,漢語的句法分析方法的發(fā)展一直都受著西方語言學(xué)的影響。而簡(jiǎn)單地套用西方語言學(xué)的分析方法是不可取的。最近幾十年來,我國的專家和學(xué)者開始將西方語言學(xué)與漢語語法研究相結(jié)合,走符合漢語自身特點(diǎn)的道路。
2總結(jié)
漢語自然語言處理中的句法分析是一種層次結(jié)構(gòu)上的深層分析。漢語語言句法分析研究一直是漢語自然語言處理中的一個(gè)熱點(diǎn)問題,出現(xiàn)了眾多的分析方法。早期的句法分析器大多是簡(jiǎn)單的符號(hào)推理,然而,句法分析不是簡(jiǎn)單的符號(hào)推理,而是一種實(shí)體推理,漢語句法分析方法在漢語自身特有的孤立型特點(diǎn)和分析方法本身的局限性的影響下不斷發(fā)展演變,使得漢語語言處理及漢語語法的研究正不斷地深化,對(duì)漢語語言的分析方法也提出了更高的要求。總的來說,漢語語言的句法分析方法越來越精密、細(xì)致和科學(xué)。同時(shí),語義分析和語法分析的結(jié)合也越來越緊密,這是漢語語法學(xué)朝著現(xiàn)代化科學(xué)化方向發(fā)展的必然趨勢(shì)。
參考文獻(xiàn):
[1]王文杰,史忠植.人工智能原理輔導(dǎo)與練習(xí)[M].北京:清華大學(xué)出版社,2007,(12):250.
[2]劉挺,馬金山.漢語自動(dòng)句法分析的理論與方法[J].當(dāng)代語言學(xué),2009,(02):100-112.
[3]袁里馳.基于依存關(guān)系的句法分析統(tǒng)計(jì)模型[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,(06):1630-1635.
[關(guān)鍵詞] 數(shù)字出版 外文原著 自然語言處理 云平臺(tái) 詞匯提取 難句抽取
[中圖分類號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2014) 01-0079-05
1 引 言
隨著電子計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展, 以電子書(electronic book,ebook)為代表的數(shù)字出版物已經(jīng)廣泛興起和發(fā)展起來,并由此形成了數(shù)字出版產(chǎn)業(yè)。數(shù)字出版平臺(tái)和電子讀物自身的數(shù)字化特點(diǎn),使利用各種現(xiàn)代技術(shù)為讀者提供包括娛樂和輔助學(xué)習(xí)功能在內(nèi)的各種新型有效服務(wù)成為可能。多媒體技術(shù)與人工智能研究領(lǐng)域成果如自然語言處理等的應(yīng)用,將使數(shù)字出版不僅帶來信息載體、讀物來源和閱讀方式方面的變化,而且會(huì)使閱讀過程中的學(xué)習(xí)方式、學(xué)習(xí)效果等都發(fā)生很多變化[1]。
與此同時(shí),人類進(jìn)入信息時(shí)代后,國際間的科學(xué)文化交流日益增多,了解學(xué)習(xí)不同國家的文化習(xí)俗、掌握世界新的科學(xué)技術(shù)發(fā)展動(dòng)態(tài)成為個(gè)人與國家發(fā)展的前提。因此,外語的學(xué)習(xí)和使用比以往任何時(shí)代更顯重要?,F(xiàn)代社會(huì)很多人都需要閱讀外文原版文學(xué)讀物、學(xué)術(shù)專著和教材。但外文原版讀物閱讀的難點(diǎn)是剛開始時(shí)生詞較多,有些句子不容易理解,容易產(chǎn)生閱讀挫折,當(dāng)所選讀物的閱讀難度和內(nèi)容不合適時(shí)就更明顯。對(duì)于專業(yè)文獻(xiàn),除了一般詞匯問題外,由于強(qiáng)調(diào)語言的縝密性、準(zhǔn)確性,經(jīng)常會(huì)使用長(zhǎng)句和大量專業(yè)術(shù)語,所以較一般文學(xué)讀物更不容易理解。能否解決閱讀中的詞匯和難句障礙,是能否克服外文原版讀物閱讀初期的困難,進(jìn)入熟練閱讀過程的關(guān)鍵。雖然我國在外語教學(xué)方面投入很大,但效果并不理想,原因之一是許多讀者沒能真正進(jìn)入外文原版文獻(xiàn)的熟練閱讀狀態(tài),未形成外語學(xué)習(xí)和使用實(shí)踐相互促進(jìn)、緊密結(jié)合的良性循環(huán)過程。缺乏應(yīng)用實(shí)踐,過多停留在應(yīng)試和學(xué)習(xí)過程本身的外語學(xué)習(xí)嚴(yán)重影響了外語繼續(xù)學(xué)習(xí)和終身學(xué)習(xí),以及在實(shí)踐中應(yīng)用外語的動(dòng)力。外文文獻(xiàn)對(duì)擴(kuò)大科研人員的研究視野、確定研究策略和方向、提高科研水平等發(fā)揮著非常重要的作用,但我國花費(fèi)大量經(jīng)費(fèi)購買的外文文獻(xiàn)數(shù)據(jù)庫利用率較低,主要原因就是語言障礙。
目前數(shù)字出版技術(shù)、自然語言處理技術(shù)和云技術(shù)的發(fā)展,為人們改進(jìn)或解決上述問題帶來了可能。本文首先介紹在數(shù)字出版中應(yīng)用自然語言處理技術(shù),通過詞匯抽取服務(wù)輔助外文閱讀的問題,同時(shí)進(jìn)一步提出在數(shù)字出版中提供難句抽取服務(wù)的建議,并對(duì)可行性進(jìn)行分析及給出可供參考的抽取策略。
2 數(shù)字出版中的詞匯抽取服務(wù)
在數(shù)字出版中提供詞匯提取服務(wù)是把外文原著中讀者可能不認(rèn)識(shí)的生詞提前抽取出來,給出解釋,生成按詞頻分段,能按照頁碼和章節(jié)進(jìn)行篩選的詞匯表放到出版平臺(tái)上供下載;對(duì)于專業(yè)外文書籍,不僅提供常規(guī)詞匯表,還包括專業(yè)詞匯表。在數(shù)字出版提供詞匯抽取的最初理念由本文作者在2012年美國《出版研究季刊》中第一次提到[2],下面在介紹原理念的基礎(chǔ)上,總結(jié)擴(kuò)展分析如下。
2.1 提供詞匯抽取服務(wù)有助于提高外文閱讀效率
閱讀外文原著一直被認(rèn)為是學(xué)習(xí)外語的有效方法。認(rèn)知語言學(xué)的研究表明,語言是在具體的社會(huì)環(huán)境中、在真實(shí)互動(dòng)中學(xué)會(huì)的,因此強(qiáng)調(diào)學(xué)習(xí)者的自身參與,對(duì)于常用的表達(dá)要設(shè)法引起學(xué)習(xí)者的充分注意,讓他們結(jié)合語境多加練習(xí)[3]。而文學(xué)原著閱讀為學(xué)習(xí)者提供了語言習(xí)得的真實(shí)語境,可以與單詞大量、密切接觸,而且讀上手之后不會(huì)令人心煩,因此在讀者了解和學(xué)習(xí)文化知識(shí)、開發(fā)智力的同時(shí),實(shí)現(xiàn)了學(xué)習(xí)單詞、強(qiáng)化語言學(xué)習(xí)的目的。通過把詞匯表下載到不同設(shè)備上顯示,如電腦顯示器、手機(jī),或打印、抄寫等,可以使讀者在閱讀過程中方便快捷地查找生詞解釋,如果能先以頁碼或章節(jié)為單位抄寫生詞,強(qiáng)化記憶,然后再閱讀對(duì)應(yīng)的頁或章節(jié)原文,不僅容易理解原著內(nèi)容,享受閱讀樂趣,而且這個(gè)過程本身就是一種有效的外語學(xué)習(xí)途徑。因?yàn)檎Z言學(xué)者已經(jīng)驗(yàn)證,要想在短時(shí)間內(nèi)大幅度提高詞匯量,有計(jì)劃地利用單詞表來學(xué)習(xí)并記憶新單詞是較好的、也是最直接的辦法[4-5]。外文原著的閱讀有兩種形式——紙質(zhì)書閱讀和電子書閱讀,而詞匯抽取服務(wù)可以使電子書和紙質(zhì)書讀者獲得同樣的幫助。
2.2 提供詞匯抽取的技術(shù)基礎(chǔ)
數(shù)字出版提供詞匯抽取服務(wù)的主要技術(shù)基礎(chǔ)是自然語言處理、云計(jì)算和數(shù)字出版。
首先,自然語言處理(Natural Language Processing,NLP)技術(shù)是用計(jì)算機(jī)來研究和處理自然語言的技術(shù),始于20世紀(jì)40年代末50年代初,已成為當(dāng)代計(jì)算機(jī)科學(xué)中一門重要的新型學(xué)科。詞匯抽取和各種詞典建設(shè)是自然語言處理技術(shù)的基礎(chǔ),屬于成熟的技術(shù)。英語的自然語言處理水平處于世界先進(jìn)水平,對(duì)英語實(shí)現(xiàn)詞匯抽取服務(wù)很容易實(shí)現(xiàn)。對(duì)于漢語這樣的表意文字,計(jì)算機(jī)自動(dòng)分詞的準(zhǔn)確率還不能令人滿意(大約90%)[6],影響了各種電子詞典的建設(shè)速度,目前大規(guī)模地實(shí)現(xiàn)詞匯抽取服務(wù)還有困難;但是,依靠在漢語自然語言處理技術(shù)方面幾十年的研究成果和建設(shè)的各種資源,在一定范圍內(nèi)實(shí)施詞匯抽取還是可以的。
其次,云計(jì)算是一種運(yùn)算模式,能實(shí)現(xiàn)無處不在、便捷按需的網(wǎng)絡(luò)訪問,信息處理和存儲(chǔ)在云數(shù)據(jù)中心完成。由于數(shù)字出版技術(shù)更新和管理費(fèi)用等問題,數(shù)字出版采用云技術(shù)成為一種必然趨勢(shì)[7]。數(shù)字出版提供詞匯抽取服務(wù)需要云計(jì)算技術(shù)的原因在于詞典建設(shè)是龐大和困難的工作?,F(xiàn)代社會(huì)發(fā)展迅速,新詞不斷出現(xiàn),詞典的更新維護(hù)是一個(gè)重要課題,也是單個(gè)出版社無法承擔(dān)的;由云平成詞典建設(shè)、更新維護(hù)及詞匯抽取軟件的建設(shè),以資源共享的形式提供給各出版社使用,則能夠保證其有效管理和經(jīng)濟(jì)可行性。
再次,數(shù)字出版決定了著作原稿在各個(gè)階段都是以電子文檔形式存在的,對(duì)于任何一本原著,只需在編輯完成后把對(duì)應(yīng)電子文檔的格式轉(zhuǎn)換成純文本,然后利用基于自然語言處理技術(shù)設(shè)計(jì)的詞匯抽取軟件和電子詞典即可完成詞匯抽取工作。
2.3 詞匯抽取策略
外文原著中的詞匯量很大,專業(yè)著作或原版教材則不僅包括普通詞匯,而且包含很多只能在專業(yè)詞典中查到的專業(yè)術(shù)語。每個(gè)讀者的外語水平也不同,遇到的生詞差異很大,所以要有效地抽取符合個(gè)人情況的生詞,并以方便學(xué)習(xí)的形式顯示,需考慮采用合適的抽取策略。
2.3.1 普通詞匯抽取
提供詞匯抽取服務(wù)主要基于這樣一個(gè)統(tǒng)計(jì)事實(shí),即一本書包含很多詞匯,但常用單詞占了絕大部分。據(jù)弗蘭西斯(Francis)和庫切拉(Kucera)(1982)統(tǒng)計(jì),在一百多萬詞的Brown語料庫中,頻率居前的1000單詞就可以覆蓋72%的語料庫;頻率居前的2000單詞可以覆蓋79.7%;頻率居前的5000單詞可以覆蓋88.7%;頻率居前的6000單詞可以覆蓋89.9%;而頻率居前的15851個(gè)單詞才覆蓋97.8%[8]。教育心理學(xué)家、心理測(cè)量專家、語言學(xué)家和其他研究人員多年來一直使用文本樣本中的單詞頻率統(tǒng)計(jì)作為估算單詞難度的方法,其基本假設(shè)是文本中出現(xiàn)頻率低的單詞是難度大的單詞[9]。一個(gè)讀者的外語水平越高,所認(rèn)識(shí)的難詞、或者說低頻詞就越多。如果把一種語言的詞匯按詞頻分段,語言水平高的讀者生詞少且趨于低頻詞段;外語水平較低的讀者生詞較多,詞頻段跨度較大。因此,數(shù)字出版平臺(tái)可以通過采用不同的抽取策略提供不同頻段的詞匯表來滿足不同外語水平讀者的需要[10]。
2.3.2 專業(yè)術(shù)語抽取
專業(yè)外文文獻(xiàn)中有很多專業(yè)術(shù)語,即某一學(xué)科領(lǐng)域所特有或?qū)S玫恼Z匯,其詞義常不為專業(yè)外讀者所明白。盡管術(shù)語只占全文的 5%—10%,但它們卻構(gòu)成科技英語翻譯與其他文體翻譯的根本區(qū)別[11],需要通過專業(yè)詞典解決專業(yè)術(shù)語的抽取問題。對(duì)于只涉及某一個(gè)專業(yè)的外文專著,可通過軟件工具在原稿編輯完成后轉(zhuǎn)換成純文本格式,進(jìn)入對(duì)應(yīng)的專業(yè)詞典,抽取出其中的專業(yè)術(shù)語,形成專業(yè)詞匯表供讀者下載。由于專業(yè)詞匯也可分為常用高頻詞匯、核心專業(yè)詞匯和低頻詞匯,所以,專業(yè)術(shù)語抽取時(shí)也可參考常規(guī)詞匯按詞頻分段的方法,列出不同頻段的專業(yè)詞匯,讀者可考慮先記住高頻詞匯,減少閱讀困難。為了與常規(guī)詞匯表相區(qū)別,每個(gè)專業(yè)術(shù)語后應(yīng)添加專業(yè)標(biāo)記[12]。
如果是涉及多門專業(yè)知識(shí)的綜合類專著,則需要分別進(jìn)入不同的專業(yè)詞典進(jìn)行專業(yè)術(shù)語抽取。由于專業(yè)詞典一般存在一詞多域多義和一詞多域同義的現(xiàn)象,即同一詞匯可能會(huì)出現(xiàn)在不同的專業(yè)詞典中,在不同專業(yè)領(lǐng)域有不同的意義,也可能具有相同的意義[13]。所以,必要時(shí)需對(duì)從不同的專業(yè)詞典中抽取出來的詞匯進(jìn)行合并,減少數(shù)據(jù)冗余,方便讀者學(xué)習(xí)。
目前,對(duì)于數(shù)字出版中提供詞匯抽取的探討,還只限于文學(xué)原著或?qū)I(yè)文獻(xiàn)。實(shí)際上,通過考慮不同類型讀物的特點(diǎn),通過采取合適的抽取策略,各種類型的外文讀物,包括報(bào)紙、雜志等都可以實(shí)現(xiàn)詞匯提取,為提高外語學(xué)習(xí)效率發(fā)揮積極作用。
3 數(shù)字出版中的難句抽取服務(wù)
前面介紹了數(shù)字出版中提供詞匯抽取服務(wù)的問題,實(shí)際上,還可以進(jìn)一步深化這種服務(wù),在提供詞匯抽取服務(wù)的同時(shí),提供難句抽取服務(wù)。
3.1 提供難句抽取服務(wù)的意義
外文閱讀中最主要的困難是詞匯問題,而句式結(jié)構(gòu)復(fù)雜、成分關(guān)系多樣、具有高度邏輯性的長(zhǎng)難句是另一障礙,能否解決長(zhǎng)難句的理解是提高閱讀能力的另一個(gè)關(guān)鍵。對(duì)語篇整體結(jié)構(gòu)、深層含義、作者態(tài)度等信息的理解非常重要,提高學(xué)生對(duì)于閱讀材料的宏觀把握能力已成為語言學(xué)家及語言教師們研究的重要課題之一,但是詞匯和句子理解仍然是外語學(xué)習(xí)的基礎(chǔ)。特別在學(xué)習(xí)一門外語的早期,如初、高中及至大學(xué)階段,長(zhǎng)難句理解都是學(xué)習(xí)中常見的困難[14-15]。如果長(zhǎng)難句的理解能力提高,則外文閱讀速度和質(zhì)量將會(huì)得到極大提高。如果在讀者閱讀外文原著時(shí),不僅限于生詞,同時(shí)也能提前把讀者不容易理解的難句抽取出來,給出解釋和分析,生成能按頁碼、章節(jié)和字母順序自由排序和篩選的難句表放到出版平臺(tái)上供下載,則能幫助讀者更好地理解這些難句。按頁碼、章節(jié)自由篩選,能迅速恢復(fù)其上下文語境,不僅對(duì)語言學(xué)習(xí)本身有利,同時(shí)有助于更好地理解原著。讀者可以選擇喜愛的章節(jié)里的生詞和難句,經(jīng)過有意識(shí)分析和學(xué)習(xí),然后對(duì)那部分更好地閱讀理解。
此外,在各種類別的外語日常閱讀訓(xùn)練中,如果能集中選擇一些學(xué)習(xí)者熟悉內(nèi)容且感興趣的、具有代表性的長(zhǎng)難句,如選擇一些影響較大的文學(xué)名著中的長(zhǎng)難句進(jìn)行分析和強(qiáng)化翻譯訓(xùn)練,掌握規(guī)律就可以事半功倍。所以外文數(shù)字出版中提供難句抽取服務(wù)具有積極的意義。
3.2 提供難句抽取服務(wù)的可行性分析
雖然外文出版中的難句抽取服務(wù)對(duì)外語學(xué)習(xí)有積極的意義,但目前技術(shù)條件下還存在一些具體困難,需要通過某些特殊方法,采取合適策略來解決。
3.2.1 自動(dòng)化難句抽取中的困難
在數(shù)字出版中實(shí)現(xiàn)外文難句抽取的完全自動(dòng)化,從理論上說,需要涉及語篇的預(yù)處理、難句識(shí)別及抽取算法和機(jī)器翻譯。這些在目前都還存在一些困難。
首先,要在外文數(shù)字出版中把難句抽取出來并通過機(jī)器翻譯自動(dòng)給出翻譯結(jié)果,不僅涉及詞長(zhǎng)、詞頻和句長(zhǎng)的計(jì)算,還需要對(duì)句子結(jié)構(gòu)等進(jìn)行多方面的識(shí)別和判定,因此,需要對(duì)生語料(完成編輯后的書籍原稿文檔)進(jìn)行預(yù)處理,即進(jìn)行詞匯、句法、語義等的分析,添加相應(yīng)標(biāo)注,把生語料變成熟語料。雖然語料庫的自動(dòng)標(biāo)注技術(shù)已經(jīng)研究多年,有一些效果較好的語料庫自動(dòng)標(biāo)注工具軟件,但該過程一般仍然需要人工干預(yù)校正。語料庫標(biāo)注是一項(xiàng)代價(jià)昂貴的工作[16],需要大量人力、物力和資金,所以在目前的技術(shù)條件下,對(duì)出版的外文讀物生語料庫進(jìn)行標(biāo)注還是不現(xiàn)實(shí)的。
其次, 除了語料的標(biāo)注,難句抽取還需要根據(jù)高效準(zhǔn)確的難句識(shí)別和抽取算法,開發(fā)相應(yīng)的難句抽取軟件工具。目前為止,對(duì)語篇難度(文本難度)進(jìn)行的研究很多,但多數(shù)都是基于文本難度的宏觀度量,對(duì)微觀的諸如語篇的基本組成部分——句子難度度量研究的較少[17],缺乏精確高效的難句抽取算法[18]。
第三,對(duì)于抽取出來的難句,需要用機(jī)器翻譯方法給出翻譯,而目前的機(jī)器翻譯水平無法保證難句翻譯的準(zhǔn)確性。
3.2.2 參考傳統(tǒng)文本難度算法及通過人工干預(yù)實(shí)現(xiàn)難句提取
首先,為了解決語篇預(yù)處理和缺乏準(zhǔn)確高效的難句識(shí)別和抽取算法等問題,可以考慮在參考傳統(tǒng)的確定文本難度算法的基礎(chǔ)上,在純文本格式文件中實(shí)現(xiàn)自動(dòng)難句提取,這樣就可以避開語篇預(yù)處理問題。文本難度(也稱為易讀性),是指文本易于閱讀和理解的程度和性質(zhì)。易讀性依賴于多種因素, 主要包括文章的句子平均長(zhǎng)度、生詞數(shù)和語法復(fù)雜度。英文易讀性的研究始于1920年代,研究者通過不懈的努力開發(fā)出了上百個(gè)易讀性公式[19]。通常易讀性公式使用文本的詞匯難度和句法難度來判定文本難度,詞匯難度以詞頻和詞長(zhǎng)來衡量,句子難度以句子的長(zhǎng)度來衡量。此外,近年來統(tǒng)計(jì)語言模型被引入易讀性研究中[20],但是在對(duì)語料庫進(jìn)行預(yù)處理的基礎(chǔ)上進(jìn)行的,這里無法采用。而傳統(tǒng)的文本難度計(jì)算中的詞匯難度、詞頻和詞長(zhǎng)計(jì)算都可以在純文本格式文件中完成。由云平臺(tái)提供基于傳統(tǒng)文本難度算法的難句抽取軟件工具比較容易,雖然不能達(dá)到完全的抽取率,但大部分難句可提取出來。
其次,在基于傳統(tǒng)文本難度算法進(jìn)行難句提取時(shí),應(yīng)該注意成語和俗語問題。難句一般比較長(zhǎng),但長(zhǎng)句不一定是難句;而含有成語和俗語的句子,有時(shí)雖然短,卻難以理解。因此,可從兩個(gè)方面考慮:首先是句長(zhǎng)和句子中的詞頻因素。句子越長(zhǎng)、其中詞匯難度越大(詞長(zhǎng)、詞頻低),則句子是難句的可能性越大。其次是句中是否包含成語和俗語因素。在文學(xué)類讀物中,成語和俗語較多;在專業(yè)讀物中,也可能用到成語和俗語,但非常少。隨著自然語言處理技術(shù)和語料庫技術(shù)的發(fā)展,成語或俗語電子詞典的建立日趨完善,鑒于成語和俗語對(duì)讀者帶來的不便,在對(duì)文學(xué)讀物原著進(jìn)行難句抽取時(shí),可增加對(duì)成語和俗語因素的考慮。目前,英語是國際通用語言,對(duì)文本難度研究最成熟的也是英語,因而可嘗試首先在英文讀物中實(shí)現(xiàn)難句的自動(dòng)提取。
第三,對(duì)于通過文本難度算法提取出來的難句,由于不能通過機(jī)器翻譯方法給出準(zhǔn)確的翻譯結(jié)果和句子分析,可根據(jù)讀物特點(diǎn),從減少人力、物力需求的角度選擇不同的人工翻譯策略。對(duì)于文學(xué)作品中抽取出來的難句,可通過讀者論壇等方法討論解決;原版教材中的難句可由授課教師或教材引進(jìn)部門組織專家翻譯放到服務(wù)器上提供給學(xué)生,同時(shí)可參考通過雙語平行語料庫的信息服務(wù)平臺(tái)等輔助完成翻譯[21]。
第四,從語言水平級(jí)別劃分,外文讀物有很多種類,難句抽取應(yīng)注意從讀物本身的文本難度出發(fā)來設(shè)計(jì)難句抽取算法,以滿足不同語言水平讀者群的需求。
4 結(jié) 語
人類已經(jīng)進(jìn)入數(shù)字出版時(shí)代,自然語言處理技術(shù)在云平臺(tái)的支持下將能為人們的語言學(xué)習(xí)提供多種服務(wù)。本文僅介紹和探討了最基礎(chǔ)的詞匯和難句抽取服務(wù),且主要是從理念上加以討論,具體實(shí)施還需要出版社、語言學(xué)家和軟件技術(shù)人員的共同努力,并在實(shí)踐中持續(xù)改善。需要注意的是,雖然詞匯和難句提取能對(duì)讀者的閱讀提供幫助,但內(nèi)容和文本難度仍然是外文原著閱讀能否成功的重要因素,出版社平臺(tái)應(yīng)提供外文書籍的內(nèi)容和閱讀難度分級(jí)信息。實(shí)踐證明,外文原著閱讀可以全方位地提高閱讀者的外語水平,教師許連贊 2001年通過讓學(xué)生閱讀原著的方法使學(xué)生的口語能力受到了外交官的好評(píng)[22],所以,我國數(shù)字出版如能提供外文原著的詞匯和難句抽取服務(wù),將會(huì)對(duì)我國外語水平的整體提高產(chǎn)生積極影響。
注 釋
[1][2][10]Jilan Sun. Popularizing vocabulary extraction service on digital publishing platforms[J]. Publishing Research Quarterly, 2012,28:65-72. DOI 10.1007/s12109-012-9255-6
[3]蔡金亭,朱立霞. 認(rèn)知語言學(xué)角度的二語習(xí)得研究:觀點(diǎn)、現(xiàn)狀與展望[J]. 外語研究,2010(1):1-7
[4]李慶燊. 論英語詞匯教學(xué)中的誤區(qū)[J]. 教育與職業(yè),2010(2): 176-177
[5]王淼. 中初水平學(xué)習(xí)者在外語學(xué)習(xí)環(huán)境下的偶遇詞匯學(xué)習(xí)[D]. 上海:上海外國語大學(xué),2004
[6]李興珊,劉萍萍,馬國杰. 中文閱讀中詞切分的認(rèn)知機(jī)理述評(píng)[J]. 心理學(xué)進(jìn)展,2011,19(4):459-470
[7]Ted Hill. The Inevitable Shift to Cloud-Based Book Publishing: The Next Step in the Digital Transformation of Book Publishing May be Closer than You Think[J].Publishing Research Quarterly,2012,28:1-7.DOI 10.1007/s12109-011-9249-9
[8]Francis WN,Kucera H. Frequency analysis of English usage: Lex-icon and grammar[M]. Boston: Houghton Mifflin,1982
[9]Breland,H. M. word frequency and word difficulty: A comparison of counts on four corpora[J]. Psychological Science,1996(2):96-99
[11]蔡子亮. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù)[J]. 英語科技術(shù)語的翻譯,2005(2):31-32
[12]孫繼蘭. 外文原版教材出版提供詞匯抽取服務(wù)可行性分析[J]. 科技與出版,2013(4):54-57
[13]黃河燕,張克亮,張孝飛. 基于本體的專業(yè)機(jī)器翻譯術(shù)語詞典研究[J].中文信息學(xué)報(bào),2007,21(1): 17-22
[14]劉婷婷. 云南省高職高專非英語專業(yè)學(xué)生英語閱讀理解長(zhǎng)難句的障礙研究及解決方法[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,29(1,上):251-253
[15]何正胤. 高中英語閱讀教學(xué)策略探析[J]. 湘潭師范學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2006,28(2):179-180
[16]常寶寶,俞士汶. 語料庫技術(shù)及其應(yīng)用[J]. 外語研究,2009(5):43-51
[17]江少敏. 句子難度度量研究[D]. 廈門:廈門大學(xué),2009
[18]Kim,Young-Bum; Kim,Youngjo; Kim,Yu-Seop. Sentence difficulty analysis with local feature space and global distributional difference. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C].v 7425 LNCS,p 716-722,2012,Convergence and Hybrid Information Technology - 6th International Conference,ICHIT 2012,Proceedings.
[19]章辭. 英文易讀性研究: 回顧與反思[J]. 湖南工程學(xué)院學(xué)報(bào),2010,20(3):47-51
[20]邢富坤,程?hào)|元. 基于統(tǒng)計(jì)語言模型的英語易讀性研究[J]. 外國語學(xué)院學(xué)報(bào),2010,33 (6): 19-24
[21]王傳英. 基于雙語平行語料庫的信息服務(wù)平臺(tái)建設(shè)[J]. 圖書館工作與研究,2010(12):79-82