前言:本站為你精心整理了淺談高校網(wǎng)站檢測系統(tǒng)的設(shè)計范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1近似鏡像網(wǎng)頁與檢測概述
(1)在某些相同的時間點,比如五四青年節(jié),容易在眾多的二級部門出現(xiàn)很多相似的網(wǎng)頁信息,比如各部門一起參加了學(xué)校的五四青年節(jié)晚會,得到的網(wǎng)站新聞信息就會近似,甚至雷同。
(2)相同的引用網(wǎng)頁內(nèi)容。比如財務(wù)處了新的財務(wù)管理制度,如果下面二級部門做了引用,那么財務(wù)處的這些管理制度方面的網(wǎng)頁內(nèi)容就會造成重復(fù)。
(3)新舊網(wǎng)站改版或者遷移的時候,如果老網(wǎng)站沒有及時在網(wǎng)絡(luò)上去除,就容易出現(xiàn)重復(fù)的網(wǎng)站和重復(fù)的信息。
(4)相同內(nèi)容,不同格式的網(wǎng)頁文件,也會一定程度上造成近似網(wǎng)頁的形成。比如一些網(wǎng)頁是html格式的,另外一些網(wǎng)頁是jsp格式的,這樣重復(fù)的內(nèi)容,就造成了近似網(wǎng)頁的增加。
1.2近似鏡像網(wǎng)頁的檢測綜述
近似網(wǎng)頁檢測算法是全文分段簽名的近似鏡像網(wǎng)頁檢測算法,通過檢測網(wǎng)頁分段的簽名來識別近似網(wǎng)頁。Google搜索引擎發(fā)現(xiàn),全世界35%的網(wǎng)頁是近似的。伯德等人提出了網(wǎng)頁的相似度和包容度等指標(biāo)與定義,通過計算不通網(wǎng)頁之間相似度與包容度來判別網(wǎng)頁的重合程度。中國的天網(wǎng)搜索系統(tǒng),提出了文檔的向量化表示方式,并借此來對近似網(wǎng)頁進(jìn)行區(qū)分,也取得了很好的效果。另外,一種網(wǎng)頁預(yù)處理的方法,其預(yù)處理包含以下幾個步驟:網(wǎng)頁預(yù)凈化,網(wǎng)頁特征值消重和網(wǎng)頁最終整合,并最后將所有網(wǎng)頁都轉(zhuǎn)化為一種通用的文檔格式,這種算法已經(jīng)在天網(wǎng)搜索引擎系統(tǒng)的網(wǎng)頁消重和網(wǎng)頁自動分類系統(tǒng)中得到應(yīng)用,并已經(jīng)逐步得到推廣。
2高校網(wǎng)站群近似網(wǎng)頁檢測系統(tǒng)的設(shè)計
2.1分析
高校網(wǎng)站群的推廣已經(jīng)有數(shù)年了,網(wǎng)站群由于其使用方便、便捷,獲得了廣大師生的認(rèn)同,也極大的推動了高校信息化的發(fā)展。但從高校網(wǎng)站群建立開始,由于歷史數(shù)據(jù)不斷沉積,近似網(wǎng)頁的數(shù)量也在不斷增加,若是人工去查找、判別,難免費時費力,如何能快速檢測識別,具有一定的現(xiàn)實意義。
2.2近似網(wǎng)頁檢測功能模塊設(shè)計
(1)近似網(wǎng)頁標(biāo)準(zhǔn)定義模塊,此模塊負(fù)責(zé)整個近似網(wǎng)頁的評判標(biāo)準(zhǔn)。提供給用戶一個清晰明了的輸入界面,頁面布局具有很好的友好性。用戶將按照系統(tǒng)提示,去對需要檢測主題進(jìn)行一個嚴(yán)格的定義。比如針對信息公開的內(nèi)容,除了要輸入信息公開需要抽取的一些關(guān)鍵字之外,還需要提供網(wǎng)頁檢測的條件,比如信息來源、作者、發(fā)表時間、發(fā)表部門、所在網(wǎng)站等,根據(jù)這些條件對重復(fù)的網(wǎng)頁進(jìn)行過濾,最后能得到用戶所需要的信息。
(2)近似網(wǎng)頁檢測模塊,這個模塊承擔(dān)著整個系統(tǒng)的實際工作,它必須要完成近似網(wǎng)頁的檢測與評判。結(jié)合近似網(wǎng)頁的研究現(xiàn)狀,本系統(tǒng)采用基于生物特征(比如指紋等)識別的文檔識別算法,原理就是將每個文檔,都計算出各自的特征值,然后再根據(jù)網(wǎng)頁的特征值去定義每個網(wǎng)頁。如果根據(jù)關(guān)鍵字搜索得到的網(wǎng)頁有多個,然后就會用計算得到的向量去比對,如果各個網(wǎng)頁的向量值都比較接近,即可認(rèn)為這兩個網(wǎng)頁是近似的,予以排除。在這里我們可以用信息抽取技術(shù)先將網(wǎng)頁抽取出來,然后再聚類分析,再定義每個組中的網(wǎng)頁對比,判別是否為相似網(wǎng)頁。
(3)網(wǎng)頁信息抽取展示模塊,是相似網(wǎng)頁檢測系統(tǒng)的最后一個模塊,也就是將正確,無重復(fù)的網(wǎng)頁抽取出來之后,再在一個統(tǒng)一的平臺上。這個一般通過和網(wǎng)站群的接口進(jìn)行交互,即網(wǎng)站群給網(wǎng)頁抽取系統(tǒng)開放接口,網(wǎng)頁信息抽取展示模塊即可將抽取到的網(wǎng)頁遠(yuǎn)程到網(wǎng)站群的專門網(wǎng)站上。
2.3使用效果評價
本文選取了一個高校網(wǎng)站群系統(tǒng)做為測試網(wǎng)站,總共搜索到了3400多個網(wǎng)頁,這么多的網(wǎng)頁來源于五十多個二級部門網(wǎng)站及教學(xué)網(wǎng)站。這些網(wǎng)頁都用計算機(jī)程序預(yù)先進(jìn)行了處理,并得到了每個網(wǎng)頁的特征值。本系統(tǒng)安裝在windows2003的服務(wù)器上,內(nèi)存為4G。在特定的活動里面,選定“文明創(chuàng)建”為選取標(biāo)準(zhǔn),最后搜索到了98條與文明創(chuàng)建有關(guān)的,并且無重復(fù)的網(wǎng)頁,按照的時間新舊進(jìn)行排序,自動生成了學(xué)校文明創(chuàng)建網(wǎng)站新聞條目,省去了大量的人工。
3結(jié)束語
本文設(shè)計了一個基于高校網(wǎng)站群的近似鏡像網(wǎng)頁檢測系統(tǒng),改進(jìn)了以往近似鏡像網(wǎng)頁鑒別方式,設(shè)計了基于高校網(wǎng)站群的近似網(wǎng)頁檢測系統(tǒng)。系統(tǒng)分三個主要模塊:近似網(wǎng)頁標(biāo)準(zhǔn)定義模塊、近似網(wǎng)頁檢測模塊和網(wǎng)頁信息抽取展示模塊。通過搭建實驗平臺,并經(jīng)過學(xué)校文明創(chuàng)建活動的檢驗,實驗結(jié)果表明,系統(tǒng)能自動檢測相似網(wǎng)頁,能自動展示內(nèi)容,省去了很多的管理工作量。
作者:樓俊君單位:上海電力學(xué)院