在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 正文

淺談高校網(wǎng)站檢測系統(tǒng)的設(shè)計

前言:本站為你精心整理了淺談高校網(wǎng)站檢測系統(tǒng)的設(shè)計范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

淺談高校網(wǎng)站檢測系統(tǒng)的設(shè)計

1近似鏡像網(wǎng)頁與檢測概述

1.1高校網(wǎng)站群近似鏡像網(wǎng)頁的分類

(1)在某些相同的時間點,比如五四青年節(jié),容易在眾多的二級部門出現(xiàn)很多相似的網(wǎng)頁信息,比如各部門一起參加了學(xué)校的五四青年節(jié)晚會,得到的網(wǎng)站新聞信息就會近似,甚至雷同。

(2)相同的引用網(wǎng)頁內(nèi)容。比如財務(wù)處了新的財務(wù)管理制度,如果下面二級部門做了引用,那么財務(wù)處的這些管理制度方面的網(wǎng)頁內(nèi)容就會造成重復(fù)。

(3)新舊網(wǎng)站改版或者遷移的時候,如果老網(wǎng)站沒有及時在網(wǎng)絡(luò)上去除,就容易出現(xiàn)重復(fù)的網(wǎng)站和重復(fù)的信息。

(4)相同內(nèi)容,不同格式的網(wǎng)頁文件,也會一定程度上造成近似網(wǎng)頁的形成。比如一些網(wǎng)頁是html格式的,另外一些網(wǎng)頁是jsp格式的,這樣重復(fù)的內(nèi)容,就造成了近似網(wǎng)頁的增加。

1.2近似鏡像網(wǎng)頁的檢測綜述

近似網(wǎng)頁檢測算法是全文分段簽名的近似鏡像網(wǎng)頁檢測算法,通過檢測網(wǎng)頁分段的簽名來識別近似網(wǎng)頁。Google搜索引擎發(fā)現(xiàn),全世界35%的網(wǎng)頁是近似的。伯德等人提出了網(wǎng)頁的相似度和包容度等指標(biāo)與定義,通過計算不通網(wǎng)頁之間相似度與包容度來判別網(wǎng)頁的重合程度。中國的天網(wǎng)搜索系統(tǒng),提出了文檔的向量化表示方式,并借此來對近似網(wǎng)頁進(jìn)行區(qū)分,也取得了很好的效果。另外,一種網(wǎng)頁預(yù)處理的方法,其預(yù)處理包含以下幾個步驟:網(wǎng)頁預(yù)凈化,網(wǎng)頁特征值消重和網(wǎng)頁最終整合,并最后將所有網(wǎng)頁都轉(zhuǎn)化為一種通用的文檔格式,這種算法已經(jīng)在天網(wǎng)搜索引擎系統(tǒng)的網(wǎng)頁消重和網(wǎng)頁自動分類系統(tǒng)中得到應(yīng)用,并已經(jīng)逐步得到推廣。

2高校網(wǎng)站群近似網(wǎng)頁檢測系統(tǒng)設(shè)計

2.1分析

高校網(wǎng)站群的推廣已經(jīng)有數(shù)年了,網(wǎng)站群由于其使用方便、便捷,獲得了廣大師生的認(rèn)同,也極大的推動了高校信息化的發(fā)展。但從高校網(wǎng)站群建立開始,由于歷史數(shù)據(jù)不斷沉積,近似網(wǎng)頁的數(shù)量也在不斷增加,若是人工去查找、判別,難免費時費力,如何能快速檢測識別,具有一定的現(xiàn)實意義。

2.2近似網(wǎng)頁檢測功能模塊設(shè)計

(1)近似網(wǎng)頁標(biāo)準(zhǔn)定義模塊,此模塊負(fù)責(zé)整個近似網(wǎng)頁的評判標(biāo)準(zhǔn)。提供給用戶一個清晰明了的輸入界面,頁面布局具有很好的友好性。用戶將按照系統(tǒng)提示,去對需要檢測主題進(jìn)行一個嚴(yán)格的定義。比如針對信息公開的內(nèi)容,除了要輸入信息公開需要抽取的一些關(guān)鍵字之外,還需要提供網(wǎng)頁檢測的條件,比如信息來源、作者、發(fā)表時間、發(fā)表部門、所在網(wǎng)站等,根據(jù)這些條件對重復(fù)的網(wǎng)頁進(jìn)行過濾,最后能得到用戶所需要的信息。

(2)近似網(wǎng)頁檢測模塊,這個模塊承擔(dān)著整個系統(tǒng)的實際工作,它必須要完成近似網(wǎng)頁的檢測與評判。結(jié)合近似網(wǎng)頁的研究現(xiàn)狀,本系統(tǒng)采用基于生物特征(比如指紋等)識別的文檔識別算法,原理就是將每個文檔,都計算出各自的特征值,然后再根據(jù)網(wǎng)頁的特征值去定義每個網(wǎng)頁。如果根據(jù)關(guān)鍵字搜索得到的網(wǎng)頁有多個,然后就會用計算得到的向量去比對,如果各個網(wǎng)頁的向量值都比較接近,即可認(rèn)為這兩個網(wǎng)頁是近似的,予以排除。在這里我們可以用信息抽取技術(shù)先將網(wǎng)頁抽取出來,然后再聚類分析,再定義每個組中的網(wǎng)頁對比,判別是否為相似網(wǎng)頁。

(3)網(wǎng)頁信息抽取展示模塊,是相似網(wǎng)頁檢測系統(tǒng)的最后一個模塊,也就是將正確,無重復(fù)的網(wǎng)頁抽取出來之后,再在一個統(tǒng)一的平臺上。這個一般通過和網(wǎng)站群的接口進(jìn)行交互,即網(wǎng)站群給網(wǎng)頁抽取系統(tǒng)開放接口,網(wǎng)頁信息抽取展示模塊即可將抽取到的網(wǎng)頁遠(yuǎn)程到網(wǎng)站群的專門網(wǎng)站上。

2.3使用效果評價

本文選取了一個高校網(wǎng)站群系統(tǒng)做為測試網(wǎng)站,總共搜索到了3400多個網(wǎng)頁,這么多的網(wǎng)頁來源于五十多個二級部門網(wǎng)站及教學(xué)網(wǎng)站。這些網(wǎng)頁都用計算機(jī)程序預(yù)先進(jìn)行了處理,并得到了每個網(wǎng)頁的特征值。本系統(tǒng)安裝在windows2003的服務(wù)器上,內(nèi)存為4G。在特定的活動里面,選定“文明創(chuàng)建”為選取標(biāo)準(zhǔn),最后搜索到了98條與文明創(chuàng)建有關(guān)的,并且無重復(fù)的網(wǎng)頁,按照的時間新舊進(jìn)行排序,自動生成了學(xué)校文明創(chuàng)建網(wǎng)站新聞條目,省去了大量的人工。

3結(jié)束語

本文設(shè)計了一個基于高校網(wǎng)站群的近似鏡像網(wǎng)頁檢測系統(tǒng),改進(jìn)了以往近似鏡像網(wǎng)頁鑒別方式,設(shè)計了基于高校網(wǎng)站群的近似網(wǎng)頁檢測系統(tǒng)。系統(tǒng)分三個主要模塊:近似網(wǎng)頁標(biāo)準(zhǔn)定義模塊、近似網(wǎng)頁檢測模塊和網(wǎng)頁信息抽取展示模塊。通過搭建實驗平臺,并經(jīng)過學(xué)校文明創(chuàng)建活動的檢驗,實驗結(jié)果表明,系統(tǒng)能自動檢測相似網(wǎng)頁,能自動展示內(nèi)容,省去了很多的管理工作量。

作者:樓俊君單位:上海電力學(xué)院

东乡族自治县| 泸水县| 兰西县| 长宁县| 禹州市| 岳阳县| 神池县| 长沙县| 新乐市| 扶沟县| 连山| 大悟县| 西城区| 莱西市| 甘泉县| 延庆县| 平和县| 百色市| 若羌县| 托克托县| 临沭县| 都安| 喀喇沁旗| 乌恰县| 泊头市| 尚志市| 龙南县| 金乡县| 和林格尔县| 南召县| 玉田县| 福泉市| 松原市| 五大连池市| 钟祥市| 吴忠市| 永康市| 丹棱县| 武宁县| 鄂伦春自治旗| 延庆县|