前言:本站為你精心整理了古代農(nóng)業(yè)編纂設計探究范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1古代農(nóng)業(yè)專題資料自動編纂的意義
古代農(nóng)業(yè)專題資料俗稱古農(nóng)書,是指古代論述農(nóng)業(yè)生產(chǎn)及與農(nóng)業(yè)生產(chǎn)有直接關系的知識著作[1],范圍相當廣泛,包括農(nóng)、林、牧、副、魚以及農(nóng)產(chǎn)品加工等。簡單地說,古代農(nóng)業(yè)專題資料自動編纂是利用計算機自動從古代農(nóng)業(yè)專題資料中發(fā)現(xiàn)并摘錄某一主題的農(nóng)業(yè)資料,并編纂成冊。南京農(nóng)業(yè)大學中華農(nóng)業(yè)文明研究院是國家級農(nóng)史文獻信息中心,收藏了大量的古代農(nóng)業(yè)專題資料。以前本院手工編輯了很多農(nóng)業(yè)遺產(chǎn)選集資料,手工編輯這些資料不僅投入了大量的人力、物力,而且編纂周期很長,所以研究古代農(nóng)業(yè)專題資料自動編纂技術非常重要,主要表現(xiàn)在以下兩個方面:首先可以提高本院農(nóng)業(yè)遺產(chǎn)選集編纂的效率,其次由于到目前為止還未有人進行過這項研究,所以該研究填補了古代農(nóng)業(yè)專題資料自動編纂方面的空白。本院的中國農(nóng)業(yè)遺產(chǎn)研究室正承擔著“中國農(nóng)業(yè)科技遺產(chǎn)信息數(shù)據(jù)庫”建設項目,不僅在中華農(nóng)業(yè)文明網(wǎng)上成功地搭建了“中國農(nóng)業(yè)遺產(chǎn)信息平臺”,而且該數(shù)據(jù)庫的建設工作已經(jīng)取得階段性的成績,主要建成了以下幾個數(shù)據(jù)庫:農(nóng)史論文題錄庫、古代農(nóng)業(yè)專題資料目錄庫、農(nóng)史論文全文庫、專題文庫、古代農(nóng)業(yè)專題資料全文庫、農(nóng)業(yè)遺產(chǎn)選集圖文庫、農(nóng)業(yè)典籍善本圖文庫和方志資料圖文庫,其中古代農(nóng)業(yè)專題資料全文庫收集了214種古代農(nóng)業(yè)專題資料全文資料。作為本院的研究生,不僅要參加古代農(nóng)業(yè)專題資料數(shù)據(jù)庫的建設工作,而且要開展古代農(nóng)業(yè)專題資料自動化、智能化處理的研究工作,古農(nóng)書選集自動編纂就是研究任務之一。
2古代農(nóng)業(yè)專題資料自動編纂與自動文摘的關系
在研究古代農(nóng)業(yè)專題資料自動編纂技術前,我們首先要弄清古代農(nóng)業(yè)專題資料自動編纂與自動文摘的關系,否則這兩個概念很容易混淆。文摘是指準確全面地反映某一文獻中心內(nèi)容的簡潔連貫的短文,所謂自動文摘就是利用計算機自動地從原始文獻中提取文摘[2]。古代農(nóng)業(yè)專題資料自動編纂和自動文摘不是同一種技術,二者之間有區(qū)別也有聯(lián)系。首先,處理的對象不同。前者是針對古漢語語料展開的研究,后者主要是面向現(xiàn)代文本的技術。古漢語與現(xiàn)代漢語在詞匯和語法上的區(qū)別如下:古漢語中,單音詞占多數(shù),現(xiàn)代漢語則以雙音詞為主;古漢語使用了豐富的文言虛詞[3],如“之、乎、者、也”等,現(xiàn)代漢語放棄了所有的文言虛詞,轉而使用結構助詞,如“的,啊,嗎,呢”等;古漢語存在大量的詞類活用、賓語前置、省略句等形式,這和現(xiàn)在漢語的語法有很大的區(qū)別,所以古漢語比現(xiàn)代漢語難理解。在這一點上,古農(nóng)書選集自動編纂比自動文摘更具挑戰(zhàn)性。其次,處理的過程不同。前者主要是一種摘錄的過程,而后者不僅是摘錄,更重要的還是一種理解的過程。古代農(nóng)業(yè)專題資料自動編纂是根據(jù)事先確定好的編纂主題,一般是先給出編纂關鍵詞,然后自動到古代農(nóng)業(yè)專題資料數(shù)據(jù)庫中查找并摘錄相應的內(nèi)容,而自動文摘的中心內(nèi)容是根據(jù)原文歸納提取出來的,所以就這個方面來看,自動文摘比古農(nóng)書選集自動編纂的要求更高。再次,處理的技術不同。古漢語與現(xiàn)代漢語存在很大的差別,目前已有的很多中文信息處理技術,由于是面向現(xiàn)代漢語的,所以不能直接應用到對古漢語的處理中。比如,就自動分詞技術而言,已有的分詞詞典對于古漢語并不適用。最后,二者的聯(lián)系。無論是古農(nóng)書選集自動編纂還是自動文摘,漢語詞間沒有空格,因而都存在著自動分詞問題。由于二者都有自動摘錄的過程,所以它們都需要通過識別句意的轉換,來確定摘錄的范圍。雖然現(xiàn)有的中文信息處理技術不能直接應用到對古漢語的處理中,但是很多經(jīng)驗和算法是可以借鑒。自動文摘已走過了40年歷史,積累了豐富的經(jīng)驗,為本研究奠定了一定的基礎。
3古代農(nóng)業(yè)專題資料自動編纂的流程設計
古代農(nóng)業(yè)專題資料自動編纂的首要條件是將古農(nóng)書資料電子化,我院通過購買《中國基本古籍》光盤數(shù)據(jù)庫和掃描識別本院保存的農(nóng)業(yè)典籍,目前已經(jīng)積累了214種古代農(nóng)業(yè)專題資料的數(shù)字化資料,為本研究的展開提供了基礎。古代農(nóng)業(yè)專題資料自動編纂的過程主要包含以下幾個步驟:首先,確定編纂的主題,即給出編纂關鍵詞;其次,在數(shù)據(jù)庫中查找古代農(nóng)業(yè)專題資料;再次,摘錄與該主題有關的古農(nóng)書信息;最后,整理排版,編纂成冊。(1)給出用于描述編纂主題的關鍵詞。如“麥”。(2)根據(jù)關鍵詞查找并記錄編纂主題所在文檔的名稱。如,檢索出“麥”在《齊民要術》、《王禎農(nóng)書》等古代農(nóng)業(yè)專題資料的文檔中有描述。(3)提取關鍵詞所在文檔的章節(jié)或者段落。如果關鍵詞出現(xiàn)在某個章節(jié)中,首先需要分割這個章節(jié),然后再提取與本主題有關的內(nèi)容,提取的可能是整個章節(jié),也可能是其中的某些段落。如《齊民要術》第二卷的“大小麥第十”,這一章內(nèi)容都是有關“麥”的,應該全部提取出來,又如《齊民要術》第二卷的“小豆第七”中提到“小豆大率用麥底然恐小晚……”,這只有一段相關,應該就提取這一段類容。(4)將提取的內(nèi)容按照“編號,書名,作者,朝代,注釋,篇名,篇內(nèi)正文”的格式整理排版。
4古代農(nóng)業(yè)專題資料自動編纂的算法設計
由上文可知,古代農(nóng)業(yè)專題資料自動編纂分為四個步驟,其中涉及了信息檢索、自動分詞、篇章分割和句意主題轉換識別等技術。本研究的核心步驟是第三步,即提取編纂主題所在古農(nóng)書文檔的章節(jié)或者段落。在中文信息處理技術中,篇章分割的主要任務在于通過對文檔結構進行分析,尋找和查詢有關的段落,并把找到的段落而不是整篇文檔返回給用戶[4],因此篇章分割技術可用于確定摘錄的范圍,是本研究的關鍵技術。通常,文章并非僅僅是一系列句子的并排,而是組織完善、有中心思想的文字鋪陳,提供讀者閱覽、欣賞、獲得信息,或者與作者溝通等的功能[5]。在正常情況下,由一組句子構成一個主題單位,稱為主題段落,一篇文檔又由幾個主題段落構成。但是,很多文檔并沒有明顯的段落標記,所以必須找到一種方法將文章分段,每一段都涉及相同的主題內(nèi)容。許多學者專家提出各種不同的看法,嘗試建構主題段落里句子的關系以及主題段落彼此間的關系來進行文檔分割。
例如,Youmans提出了新詞引入法[6],即記錄文章某跨度內(nèi)作者引入新詞匯的數(shù)目,然后根據(jù)這樣的統(tǒng)計數(shù)據(jù),決定主題段落的邊界。Morris與Hirst提出詞匯鏈的方法[7],企圖找出詞匯上的關連,然后使用這些關連性找出文章的結構。Hearst則提出了TextTiling算法[8],這是一種比較新穎的算法。TextTiling使用詞頻與逆向文件頻率,先將文章切成一片片馬賽克(Tile),然后通過計算文本塊(block)之間的分界值,確定句意主題轉換的邊界。這三種算法都存在著一定的局限:新詞引入法僅僅考慮詞匯重復出現(xiàn)的因素;詞匯鏈的方法僅僅找出詞匯間有沒有相近關系,然而卻不規(guī)范關系的強弱;TextTiling算法只考慮名詞,忽略其余類型的詞匯,同時也忽略詞匯共現(xiàn)的關系。本院的電子化古代農(nóng)業(yè)專題資料都是文言文,筆者擬將一本古農(nóng)書當作一篇文檔來處理,這樣一篇文檔往往涉及了很多主題,所以古農(nóng)書選集自動編纂就需要清理這些文檔的結構,按照編纂的主題分割文檔,定位摘錄與編纂主題有關的內(nèi)容。針對這一要求,本研究借鑒TextTiling算法設計出古代農(nóng)業(yè)專題資料自動編纂的算法,其中TextTiling算法主要是用來確定摘錄的范圍,其基本思想是在一篇文檔中尋找從一個主題轉到另一個主題的“過渡”部分。下文將對其主要步驟:分割章節(jié)、提取子句關鍵詞、計算緊湊度、計算深度值和確定分割點,分別進行說明。
(1)分割章節(jié)。剔除標點符號,將章節(jié)劃分成固定長度的子句,子句之間的點稱為間隔點。假設子句的長度為w,如何適當選定w是本算法重要的考量因素。w不能太小,因為這樣包含的主題信息太少;也不能太大,這樣對于主題邊界的判定會比較不準確。
(2)提取子句關鍵詞。首先用停用詞典過濾子句,然后采用最大匹配算法進行自動分詞,處理所得的詞語即視為子句的關鍵詞。停用詞典主要由文言虛詞構成,分詞詞典主要由古代人名、地名、官名、書名、作物名、節(jié)氣等專有名詞構成。
(3)計算緊湊度。緊湊度是指編纂主題在各個子句間隔點上的連續(xù)性。緊湊度低意味著前后的連續(xù)性差,可以作為分割的候選點。計算緊湊度的方法有新詞引入法、詞匯鏈法、文本塊比較法、向量空間計分法等。本研究采用文本塊比較法,即使用包含m個子句的移動窗,由第一個子句逐步往后移動,一次一個句子,計算移動窗內(nèi)由子句構成的文本塊的相關系數(shù)。文本塊用向量表示,通常將每個單詞在該文本塊中出現(xiàn)的頻次作為該向量的值。兩個向量的規(guī)一化內(nèi)積就是文本塊的相關系數(shù),即子句間隔點的得分。如果兩個文本塊中包含相同的單詞越多,子句間隔點的得分越高。假設存在文本塊b1和b2,每個文本塊都包含k個關鍵詞,b1={keywordi-k,…,keywordi},b2={keywordi+1,…,keywor-di+k+1},那么子句間隔點的緊湊度為:score(i)=∑twt,b1wt,b2∑twt,b12∑twt,b22其中,t表示兩個文本塊中所包含關鍵詞的總個數(shù),w,tb表示該詞的權值,通常用該詞在文本塊中的出現(xiàn)的頻次表示。由于得分值已經(jīng)進行了規(guī)一化處理,所以score(i)介于0和1之間。有8個子句,每兩個子句組成一個文本塊。即子句1和2是第1個文本塊(b1),子句3和4是第2個文本塊(b2),依此類推。計算b1和b2的相關系數(shù),就得到子句2和3的間隔點的緊湊度,同樣可以得到子句4和5、子句6和7的間隔點的緊湊度。首先,計算每兩個文本塊向量的內(nèi)積。b1和b2內(nèi)積:2*1(forA)+2*2(forB)+1*1(forC)+2*1(forD)+1*1(forE)=10b2和b3內(nèi)積:1*0(forA)+2*0(forB)+1*1(forC)+1*0(forD)+1*1(forE)+0*2(forF)+0*2(forG)+0*1(forH)=2b3和b4內(nèi)積:0*1(forB)+1*0(forC)+1*0(forE)+2*2(forF)+2*2(forG)+1*1(forH)=9其次,進行規(guī)一化處理,得到子句間隔點的緊湊度。子句2和3:score(1)=10/10.58=0.945子句4和5:score(2)=2/8.77=0.228子句6和7:score(3)=9/10.49=0.858按照同樣的方法,進行第二輪處理,即將子句2和3、子句4和5、子句6和7,分別作為一個文本塊,計算得到子句3和4、子句5和6的間隔點的得分。子句3和4:score(4)=6/8.77=0.684子句5和6:score(5)=4/7.94=0.504
(4)計算深度值。將某個間隔點的緊湊度和周圍間隔點的緊湊度進行比較,相對值越低,那么該點的深度值就越大。具體計算方法是,將當前間隔點和左右相鄰的間隔點緊湊度的高度差相加,作為深度值。例如,已知間隔點g1,g2,g3的緊湊度分別為s1,s2,s3,那么g2點的深度值為:(s1-s2)+(s3-s2)。并不是每個間隔點都有深度值,只有當某點的緊湊度低于左右相鄰點的緊湊度時,才計算該點的深度值。所謂的緊湊度概念是相對的,在某些文本中,其內(nèi)容的主題可能變化很大,例如文檔的引言部分,覆蓋了文檔的全部內(nèi)容。而與此相對應的是,一篇文章可能一連幾頁的主題變化都很細微,這時就需要選擇那些雖然緊湊度值比較高,但是和周圍點相比值又偏低的點,即采用深度計算。
(5)確定分割點。計算深度值的均值μ和標準方差σ,選擇所有深度值高于μ-c*σ(c為常數(shù),通常取0.5或1.0)的間隔點作為邊界。μ=0.315,σ=0.183,取c=0.5,閾值μ-c*σ=0.22,由于0.60>0.22,0.24>0.22,0.27>0.22,所以緊湊度為0.07、0.13和0.12的子句間隔點可以選作分割邊界。在實際處理文本的過程中,本算法需要進一步調(diào)整和細化,以取得最佳編纂效果。例如,計算緊湊度和深度值的參數(shù)(子句詞次序列的大小、文本塊的大小等)得根據(jù)正在處理的文檔進行調(diào)整。
5結語
我國對于古籍數(shù)字化的研究才剛剛起步,很多工作都沒來得及開展。有的學者指出數(shù)字化的古籍資源除了實現(xiàn)文本字符的數(shù)字化,具有基于超鏈接的瀏覽閱讀環(huán)境和強大的檢索功能外,還需具有研究支持功能[9]。也有學者提出希望建立古籍整理的專家系統(tǒng),以實現(xiàn)古籍版本的自動??薄⒆詣泳幾?、自動斷句標點、自動注釋、自動翻譯為白話等等[10]。到目前為止還未有人進行過古農(nóng)書自動編纂的研究,加上古漢語自身的特點,所以這項工作存在一定的難度。筆者在這方面做了初步的嘗試,目前古代農(nóng)業(yè)專題資料自動編纂的實驗系統(tǒng)已基本完成,并整理了《齊民要術》標點版全文資料作為該系統(tǒng)的實驗數(shù)據(jù),經(jīng)過初步測試發(fā)現(xiàn):當子句和文本的大小分別取15和2時,提取主題的符合程度較高。下一步的工作包括:在已有的古代農(nóng)業(yè)專題資料數(shù)據(jù)庫中進行大規(guī)模的測試,檢驗本算法的調(diào)適性;改進和完善古代農(nóng)業(yè)專題資料自動編纂的實驗系統(tǒng)。希望這項工作對他人的研究有些微的貢獻,同時也起到拋磚引玉的作用。