前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇海量數(shù)據(jù)范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。
以前,我們習(xí)慣稱大量數(shù)據(jù)為海量數(shù)據(jù)。從2010年下半年開(kāi)始,大數(shù)據(jù)這個(gè)概念逐漸為人們所熟知。那么,大數(shù)據(jù)比海量數(shù)據(jù)到底多了些什么呢?EMC中國(guó)卓越研發(fā)集團(tuán)首席技術(shù)官陶波表示:“大數(shù)據(jù)與海量數(shù)據(jù)從本質(zhì)上講并沒(méi)有不同,兩者都反映出數(shù)據(jù)快速增長(zhǎng)的趨勢(shì)。但是,海量數(shù)據(jù)主要是從存儲(chǔ)的角度去考慮問(wèn)題,而大數(shù)據(jù)除了包括數(shù)據(jù)存儲(chǔ),還包括商務(wù)智能和數(shù)據(jù)分析?!闭腔谶@種認(rèn)識(shí),EMC收購(gòu)了數(shù)據(jù)倉(cāng)庫(kù)廠商Greenplum。其實(shí),在大數(shù)據(jù)時(shí)代,企業(yè)對(duì)存儲(chǔ)的要求也有變化,具備橫向擴(kuò)展(Scale-out)能力的存儲(chǔ)越來(lái)越受到用戶的歡迎。EMC收購(gòu)Scale-out NAS廠商Isilon就是為了順應(yīng)這種趨勢(shì)。Isilon與Greenplum的組合成了EMC進(jìn)入大數(shù)據(jù)市場(chǎng)的敲門(mén)磚。
存儲(chǔ)隨需而變
美國(guó)一家知名的DVD租賃企業(yè)每年都會(huì)邀請(qǐng)一些協(xié)同處理算法的專家對(duì)其用戶數(shù)據(jù)進(jìn)行分析,從而了解租賃客戶的需求。一些美國(guó)金融企業(yè)甚至提出了分析即服務(wù)的理念。陶波表示,金融、電信、互聯(lián)網(wǎng)等企業(yè)對(duì)大數(shù)據(jù)的處理和分析有迫切的需求。與傳統(tǒng)的商務(wù)智能應(yīng)用相比,大數(shù)據(jù)對(duì)企業(yè)數(shù)據(jù)的處理能力和商務(wù)智能軟件提出了更高要求:首先,企業(yè)必須具備處理大量數(shù)據(jù)的能力,因?yàn)橛械钠髽I(yè)可能一天之內(nèi)就要多次處理PB級(jí)的數(shù)據(jù),這是一些傳統(tǒng)的存儲(chǔ)設(shè)備所不能勝任的;其次,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)軟件是針對(duì)結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì)的,而大數(shù)據(jù)包含的主要是非結(jié)構(gòu)化的數(shù)據(jù),因此傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)軟件必須改變。
談到大數(shù)據(jù)對(duì)存儲(chǔ)的影響,陶波表示,具有橫向擴(kuò)展能力的存儲(chǔ)才能更好地處理大量文件。Isilon集群NAS產(chǎn)品的主要技術(shù)優(yōu)勢(shì)就是橫向擴(kuò)展能力。最新的EMC Isilon IQ 108NL采用3TB企業(yè)級(jí)Hitachi Ultrastar驅(qū)動(dòng)器,在單一文件系統(tǒng)和單個(gè)卷中,其容量可超過(guò)15PB。EMC還推出了Isilon SmartLock數(shù)據(jù)保留軟件應(yīng)用,可保證大數(shù)據(jù)從收集到歸檔的完整性和連續(xù)性。隨著大數(shù)據(jù)時(shí)代的到來(lái),NAS存儲(chǔ)將大行其道。為了提高系統(tǒng)的處理性能,SSD在存儲(chǔ)中的應(yīng)用也會(huì)越來(lái)越普遍。
云計(jì)算和大數(shù)據(jù)相輔相成
為了滿足大數(shù)據(jù)的需求,商務(wù)智能軟件必須改變。陶波舉例說(shuō):“隨著多核處理器的普及,商務(wù)智能軟件也要從針對(duì)單線程的應(yīng)用轉(zhuǎn)為針對(duì)多線程的應(yīng)用,因此商務(wù)智能軟件的代碼可能要改變。”EMC已與許多商務(wù)智能軟件廠商開(kāi)展了緊密合作。EMC的硬件平臺(tái)不僅針對(duì)Greenplum軟件進(jìn)行了優(yōu)化,而且還能廣泛地支持第三方的商務(wù)智能軟件。
今年5月,EMC針對(duì)常用于數(shù)據(jù)密集型分布式應(yīng)用的Hadoop開(kāi)源軟件推出了一個(gè)定制的、高性能的Hadoop專用數(shù)據(jù)協(xié)同處理設(shè)備――Greenplum HD數(shù)據(jù)計(jì)算設(shè)備(Data Computing Appliance)。該設(shè)備結(jié)合了Hadoop和EMC Greenplum數(shù)據(jù)庫(kù),在一個(gè)單一、無(wú)縫的解決方案中實(shí)現(xiàn)了對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的協(xié)同處理。此外,EMC還推出了面向Hadoop的EMC Greenplum HD社區(qū)版和EMC Greenplum HD企業(yè)版軟件。
John R. Talburt教授是國(guó)際信息與質(zhì)量協(xié)會(huì)技術(shù)顧問(wèn)委員會(huì)成員。該組織是信息與數(shù)據(jù)研究領(lǐng)域唯一專業(yè)國(guó)際組織。Talburt教授認(rèn)為,中國(guó)正面臨海量數(shù)據(jù)爆發(fā),信息與數(shù)據(jù)質(zhì)量?jī)?yōu)化將成企業(yè)競(jìng)爭(zhēng)力。
在西安交大與安客誠(chéng)的IQ/DQ最佳實(shí)踐論壇中,Talburt教授不但與安客誠(chéng)大中華區(qū)業(yè)務(wù)發(fā)展副總裁孔宇先生一起深度剖析如何管理與優(yōu)化信息、提高數(shù)據(jù)質(zhì)量以及減少運(yùn)營(yíng)風(fēng)險(xiǎn)的實(shí)踐經(jīng)驗(yàn)。論壇特邀中國(guó)郵政集團(tuán)數(shù)據(jù)管理處處長(zhǎng)趙岫楓女士介紹了中國(guó)郵政郵編地址的數(shù)據(jù)質(zhì)量提升服務(wù),并針對(duì)數(shù)據(jù)管理與優(yōu)化的主題與參會(huì)者做深度分享。
Gomez中國(guó)門(mén)戶 2.0版
Compuware總裁兼首席運(yùn)營(yíng)官(CEO)Bob Paul在會(huì)上做主題演講.jpg
日前,專注于從事技術(shù)性能服務(wù),全球領(lǐng)先的應(yīng)用性能管理(APM)供應(yīng)商Compuware公司(Compuware Corporation,NASDAQ:CPWR)宣布推出針對(duì)中國(guó)市場(chǎng)的統(tǒng)一應(yīng)用性能管理解決方案――Compuware Gomez中國(guó)門(mén)戶 2.0版。該新版本由經(jīng)驗(yàn)豐富的中國(guó)研發(fā)團(tuán)隊(duì)開(kāi)發(fā),使中國(guó)用戶能夠用本地語(yǔ)言訪問(wèn)業(yè)界獨(dú)一無(wú)二的“First Mile”(數(shù)據(jù)中心)到 “Last Mile”(終端用戶)APM 解決方案,為中國(guó)用戶提供全面的終端用戶性能的全球化視圖。
近年來(lái),隨著中國(guó)APM市場(chǎng)的不斷增長(zhǎng),中國(guó)已經(jīng)成為Compuware全球APM市場(chǎng)重要地區(qū)之一,Compuware也對(duì)中國(guó)市場(chǎng)寄予了很高重視。Compuware總裁兼首席運(yùn)營(yíng)官(CEO)Bob Paul先生、Compuware 亞洲與印度區(qū)副總裁Nick Evered先生、Compuware APM業(yè)務(wù)部首席技術(shù)官Steve Tack先生、Compuware APM 中國(guó)區(qū)研發(fā)和運(yùn)營(yíng)副總裁李啟蓉女士、Compuware大中華區(qū)解決方案銷售總監(jiān)李翔以及網(wǎng)宿科技股份有限公司(ChinaNetCenter)行政副總裁劉洪濤先生等公司高層共同出席了此次會(huì),向與會(huì)者們介紹了Compuware Gomez產(chǎn)品業(yè)界領(lǐng)先的技術(shù)亮點(diǎn),分享了Compuware Gomez產(chǎn)品帶給中國(guó)企業(yè)的核心價(jià)值,并與現(xiàn)場(chǎng)用戶和媒體展開(kāi)深入交流。
云客戶端計(jì)算革新夢(mèng)想 迎接IT消費(fèi)化時(shí)代到來(lái)
迎接IT消費(fèi)化時(shí)代到來(lái)
Gartner于2005年提出的“IT消費(fèi)化”預(yù)測(cè)已變成現(xiàn)實(shí)。所謂“IT消費(fèi)化”,即是信息技術(shù)的消費(fèi)化,它的產(chǎn)生來(lái)源于個(gè)人科技消費(fèi)商用化而產(chǎn)生的對(duì)科技產(chǎn)品及服務(wù)的新一代需求;是消費(fèi)技術(shù)浪潮深入企業(yè)的產(chǎn)物。在商業(yè)世界中,企業(yè)要求隨時(shí)獲得速度、質(zhì)量、安全及靈活的技術(shù)支持,而云、虛擬化和移動(dòng)設(shè)備正在使這種需求成為可能。最新IDC調(diào)查也顯示,IT消費(fèi)化是信息技術(shù)改變?nèi)祟惞ぷ髋c生活方式的最新體現(xiàn)。現(xiàn)如今,在后PC時(shí)代,IT消費(fèi)者化概念變得愈加的火熱。每個(gè)人都會(huì)感受到它的影響力,而IT界更是必須找到支持IT消費(fèi)者化的方式,來(lái)留住雇員并保持企業(yè)的生產(chǎn)力。
1計(jì)算機(jī)海量數(shù)據(jù)SLIQ算法對(duì)云計(jì)算技術(shù)的應(yīng)用
云計(jì)算下SLIQ算法中,根據(jù)MDL剪枝原理,對(duì)計(jì)算機(jī)海量數(shù)據(jù)數(shù)據(jù)進(jìn)行編碼,對(duì)于生成的初始樹(shù),發(fā)現(xiàn)最好的描述訓(xùn)練集S的子樹(shù)T。同時(shí),SLIQ算法還具備一些不足,首先是,云計(jì)算技術(shù)的SLIQ算法中,在云計(jì)算計(jì)算機(jī)中把類別列表存在內(nèi)存中,對(duì)數(shù)據(jù)集大小具有一定限制作用。其次是云計(jì)算技術(shù)的SLIQ算法中,采用的是預(yù)排序技術(shù),由于實(shí)際排序算法復(fù)雜度,不是和記錄個(gè)數(shù)成線性關(guān)系的,因此實(shí)際中,也不能通過(guò)記錄數(shù)目增長(zhǎng),而使數(shù)據(jù)結(jié)構(gòu)發(fā)生線性可伸縮性。要實(shí)現(xiàn)數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)的轉(zhuǎn)換,首先確定數(shù)據(jù)分析中所具備的的參數(shù),定義統(tǒng)計(jì)數(shù)據(jù)以及刪除統(tǒng)計(jì)數(shù)據(jù),確定統(tǒng)計(jì)時(shí)間段以及參與SLIQ計(jì)算的字段?;赟LIQ算法中,針對(duì)實(shí)際計(jì)算機(jī)海量數(shù)據(jù)處理中改進(jìn)SLIQ算法,避免SLIQ算法大量計(jì)算云計(jì)算決策樹(shù)中每個(gè)節(jié)點(diǎn)的指數(shù),從而可以獲得每個(gè)節(jié)點(diǎn)的分裂屬性,減少計(jì)算復(fù)雜性,提升分類效果,類圖如下:Maketree(data)//建立其云計(jì)算技術(shù)的決策樹(shù){創(chuàng)建數(shù)據(jù)的屬性表12malists,alistsΛ,alists且在每個(gè)屬性表中ialists包含屬性iA作為計(jì)算機(jī)海量數(shù)據(jù)的記錄可以建立其直方圖fori=1tonval=(alists[i][m]alists[i][0])/numcount=0whilecount<num7.split=alists[i][0]+count*val然后遍歷計(jì)算機(jī)海量數(shù)據(jù)的屬性iA,并計(jì)算Gini指數(shù)值,重復(fù)操作并確定出最佳分裂點(diǎn)//計(jì)算數(shù)據(jù)的Gini指數(shù)gini=calc(l[c],r[c])ifginival>giniginival=ginisplitval=splitattr=Icount++ifgini=0return//當(dāng)Asplivalattr當(dāng)Asplivalattr<,maketree(data1)maketree(data2)}云計(jì)算技術(shù)的SLIQ算法中,計(jì)算最佳分割的算法代碼如下所示:EvaluateSplits()foreachattributeAdotraverseattributelistofAforeachvaluevintheattributelistdofindthecorrespondingentryintheclasslist,andhencethecorrespondingclassandtheleafnode(sayl)updatetheclasshistogramintheleaflifAisanumericattributethencomputesplittingindexfortest(A<=v)forleaflifAisacategoricalattributethenforeachleafofthetreedofindsubsetofAwithbestsplit建樹(shù)階段中,應(yīng)該提高“確定最佳分裂(BestSplit)”的可伸縮性,計(jì)算開(kāi)銷不大,確定數(shù)值型字段,尋找最佳的子集,遍歷所有子集,時(shí)間復(fù)雜度為指數(shù)級(jí)。其次,選擇導(dǎo)致最低錯(cuò)誤率的子樹(shù);使用獨(dú)立的數(shù)據(jù)集,快速得到簡(jiǎn)潔而且準(zhǔn)確的決策樹(shù)。最后得出決策樹(shù),經(jīng)過(guò)程序?qū)Q策樹(shù)進(jìn)行普及之后,得出計(jì)算機(jī)海量數(shù)據(jù)處理結(jié)果。
2結(jié)論
綜上所述,針對(duì)計(jì)算機(jī)海量數(shù)據(jù),應(yīng)用基于云計(jì)算技術(shù)的SLIQ算法,可以有效有效解決計(jì)算機(jī)海量數(shù)據(jù)計(jì)算問(wèn)題,處理海計(jì)算機(jī)量數(shù)據(jù),不僅可以解決計(jì)算機(jī)海量數(shù)據(jù)存儲(chǔ)中節(jié)點(diǎn)失效的問(wèn)題,大大提高計(jì)算海量數(shù)據(jù)的效率,具有實(shí)際應(yīng)用價(jià)值。
作者:崔學(xué)敏 張傳勇
關(guān)鍵詞: 數(shù)據(jù)挖掘; 粗糙集; 大數(shù)據(jù)處理; 并行計(jì)算
中圖分類號(hào): TN911?34; TQ028.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)07?0115?05
Abstract: Since the traditional data mining algorithm has the limitation in the aspect of data magnitude, on the basis of rough set theory, the class distribution list structure is used to improve the traditional data discretization algorithm based on attribute importance, attribute reduction algorithm and heuristic?based value reduction algorithm. The two?step discrete algorithm based on dynamic clustering is discussed. When the algorithm adapts to the big data processing, the parallel computing method is used to improve the execution efficiency of the algorithm. The test results of the algorithm show that the improved algorithm can effectively process the big data size. The parallel computing can solve the efficiency problem causing by big data size processing.
Keywords: data mining; rough set; big data processing; parallel computing
0 引 言
信息時(shí)代,數(shù)據(jù)(尤其是海量數(shù)據(jù))已被各企業(yè)、各研究機(jī)構(gòu)當(dāng)成重大的知識(shí)來(lái)源、決策的重要依據(jù)[1],對(duì)于數(shù)據(jù)的急速增長(zhǎng),如何有效地解決數(shù)據(jù)挖掘過(guò)程中空間和時(shí)間的可伸縮性已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域中迫切需要解決的難題[2]。從知識(shí)發(fā)現(xiàn)的過(guò)程中可以看到,數(shù)據(jù)挖掘不僅面臨著數(shù)據(jù)庫(kù)中的龐大數(shù)據(jù)問(wèn)題[3],而且這些數(shù)據(jù)有可能是不整齊的、不完全的、隨機(jī)的、有噪聲的、復(fù)雜的數(shù)據(jù)結(jié)構(gòu)且維數(shù)大[4]。傳統(tǒng)的數(shù)據(jù)挖掘算法還限制于單機(jī)內(nèi)存的容量[5],當(dāng)一次性需要分析的數(shù)據(jù)不能全部進(jìn)入內(nèi)存時(shí),算法的性能就會(huì)嚴(yán)重降低[6],甚至得不到預(yù)期的結(jié)果,使用基于粗糙集理論的算法策略將有效解決這個(gè)問(wèn)題[7]。
本文針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法在數(shù)據(jù)量級(jí)方面的局限性,提出了結(jié)合類分布鏈表,把數(shù)據(jù)挖掘算法推廣到可以處理更高數(shù)據(jù)量級(jí),最后采用并行計(jì)算的方法提高基于動(dòng)態(tài)聚類的兩步離散化算法適應(yīng)大數(shù)據(jù)處理之后的執(zhí)行效率。
1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法
許多經(jīng)典的Rough Set知識(shí)約簡(jiǎn)算法都可以通過(guò)引進(jìn)CDL(類分布鏈表)改進(jìn),CDL可以反映某個(gè)條件屬性組合對(duì)論域的分類情況。CDL分為不相容類分布鏈表(ICDL)和相容類分布鏈表(CCDL)兩部分,CCDL根據(jù)鏈表中每個(gè)分類的樣本數(shù)目又可分為單例相容類分布鏈表(SSCDL)和多例相容類分布鏈表(MSCDL)[7]。引進(jìn)CDL后相對(duì)于原始的經(jīng)典算法,改進(jìn)后的算法將具有更好的可伸縮性,能夠更好地處理海量數(shù)據(jù)集。以下通過(guò)引入CDL對(duì)包括離散化、屬性約簡(jiǎn)和值約簡(jiǎn)的一組Rough Set知識(shí)約簡(jiǎn)算法進(jìn)行改進(jìn)。
1.1 改進(jìn)的離散化算法
數(shù)據(jù)離散化是Rough Set知識(shí)獲取方法中的重要組成部分。在此采用基于屬性重要性的離散化算法,在原算法的基礎(chǔ)上通過(guò)引入CDL,使得該算法能夠處理海量數(shù)據(jù)。
算法1.1 基于屬性重要性的離散化算法
算法輸入:一個(gè)完備的決策表信息系統(tǒng)DT
算法輸出:離散化后的決策表信息系統(tǒng)DT
算法步驟如下:
(1) 循環(huán)遍歷每一個(gè)連續(xù)的條件屬性,并且通過(guò)生成[ICDLai]計(jì)算屬性[ai]的條件信息熵。
(2) 根據(jù)條件信息熵降序排序,排列所有連續(xù)的條件屬性。
(3) 針對(duì)排序后的DT,循環(huán)遍歷每一個(gè)連續(xù)的條件屬性[ai,]生成[ICDLC\ai;]設(shè)置[Szone=null,]其中[Szone]是屬性[ai]的值域的一個(gè)子集。
(4) 循環(huán)遍歷區(qū)間[Sa,Sb]上的每一個(gè)斷點(diǎn)。其中[Sa]和[Sb]是屬性[ai]上兩個(gè)連續(xù)的屬性值;令[Szone=Szone+Sa。]
(5) 循環(huán)遍歷DT中滿足[SVjai=Sh]的每個(gè)樣本[SVj,]其中[Sh∈Szone。]
(6) 循環(huán)遍歷DT中滿足[SVkai=Sb]的每個(gè)樣本[SVk;]如果樣本[SVj]和[SVk]出現(xiàn)在[ICDLai]中的同一個(gè)條件分類中而且它們之間存在符號(hào)“@”,則選擇[Sa,Sb]的斷點(diǎn),并把 [Szone]重新置為空。
1.2 改進(jìn)的屬性約簡(jiǎn)算法
使用基于信息熵的CEBARKNC算法。根據(jù)類分布鏈表求取條件信息熵的方法[8],通過(guò)某個(gè)條件屬性組合的ICDL很容易求得決策屬性相對(duì)于該條件屬性組合的條件信息熵。因此可以通過(guò)ICDL改進(jìn)CEBARKNC算法的可伸縮性,改進(jìn)的算法與原算法在計(jì)算信息熵的過(guò)程不一樣。
1.3 改進(jìn)的值約簡(jiǎn)算法
在此改進(jìn)啟發(fā)式值約簡(jiǎn)算法,該算法在原算法的基礎(chǔ)上加上CDL,使得該算法能夠處理海量數(shù)據(jù)。原算法在執(zhí)行第一步的時(shí)候按照[CDL(a)]中的三部分更新決策表S。
(1) 把[SSCDL(a)]中的樣本在屬性[a]上的值標(biāo)記為“?”;
(2) 把[MSCDL(a)]中的樣本在屬性[a]上的值標(biāo)記為“*”;
(3) [ICDL(a)]中的樣本在屬性[a]上的值不變。
由(3)可知[ICDL(a)]中的樣本不需要處理,而在處理[SSCDL(a)]和[MSCDL(a)]的樣本時(shí),不把生成實(shí)際的鏈表放在內(nèi)存中處理而是直接在數(shù)據(jù)庫(kù)中進(jìn)行處理。具體的算法描述如下:
算法1.2 改進(jìn)啟發(fā)式值約簡(jiǎn)算法
輸入:一個(gè)完備的離散的決策表信息系統(tǒng)DT
輸出:規(guī)則集RT
假設(shè)樣本標(biāo)號(hào)為Index,決策屬性為DA,條件屬性集合[C,]則算法步驟如下:
(1) 把RT初始化為DT。
(2) 循環(huán)遍歷每一個(gè)條件屬性[ai,]把[SSCDL(ai)]中的所有樣本在[ai]上的屬性值標(biāo)記為“?”。
(3) 把[MSCDL(ai)]中的所有樣本在[ai]上的屬性值標(biāo)記為“*”。此外剩下的樣本都在[ICDL(ai)]中,它們?cè)赱ai]上的屬性值不需要改變。
(4) 接下的操作步驟與原始的值約簡(jiǎn)算法相同。
2 基于動(dòng)態(tài)聚類的兩步離散化算法的并行化
基于動(dòng)態(tài)聚類的兩步離散化算法的第一步是利用動(dòng)態(tài)聚類算法對(duì)決策表第一次進(jìn)行離散化,然后利用斷點(diǎn)重要性離散化算法進(jìn)行再次離散化,從而得到最終的斷點(diǎn)集。
算法2.1 基于動(dòng)態(tài)聚類的離散化算法
輸入:決策表[S=]
輸出:決策表[S]首次篩選后的斷點(diǎn)集[CUTfirst]循環(huán)遍歷[S]的每一個(gè)條件屬性[k,]執(zhí)行以下步驟:
(1) 計(jì)算屬性[k]每一斷點(diǎn)的重要性,并按斷點(diǎn)值從小到大排序,計(jì)算結(jié)果保存在數(shù)組[Importantk[]]中,數(shù)組的索引[m]表示最重要的斷點(diǎn)在數(shù)組中的位置,即:
決策表經(jīng)過(guò)上述的算法離散化之后,其效果僅相當(dāng)于基于屬性重要性離散化算法的局部離散化效果。下面通過(guò)把斷點(diǎn)集[CUTfirst]輸入到斷點(diǎn)重要性算法中進(jìn)行一次全局離散化便得到基于動(dòng)態(tài)聚類的兩步離散化算法。
算法2.3對(duì)算法2.2進(jìn)行了并行化處理,得到的離散化結(jié)果與算法2.2是一致的,但算法2.3帶來(lái)的好處是提高了離散化算法的運(yùn)行效率。
3 算法測(cè)試
3.1 改進(jìn)的Rough Set知識(shí)約簡(jiǎn)算法測(cè)試
3.1.1 算法正確性測(cè)試
選擇UCI數(shù)據(jù)庫(kù)中的5個(gè)數(shù)據(jù)集(見(jiàn)表1)來(lái)比較經(jīng)過(guò)CDL改進(jìn)的知識(shí)約簡(jiǎn)算法與原始經(jīng)典Rough Set算法的正確性,雙方都應(yīng)用了相同的算法組合。比較的結(jié)果見(jiàn)表2,從結(jié)果中可得出:使用經(jīng)過(guò)CDL改造后的知識(shí)約簡(jiǎn)算法不影響原始的經(jīng)典Rough Set算法的正確率及識(shí)別率等性能。
3.2 基于動(dòng)態(tài)聚類的兩步離散化算法的并行化處理算法測(cè)試
從UCI數(shù)據(jù)庫(kù)中選取6組數(shù)據(jù)集對(duì)算法2.2進(jìn)行測(cè)試。表3是實(shí)驗(yàn)使用的數(shù)據(jù)集。表4,表5展示了基于動(dòng)態(tài)聚類的離散化算法、基于動(dòng)態(tài)聚類的兩步離散化算法、貪心算法、基于斷點(diǎn)重要性的離散化算法等5種算法的運(yùn)算對(duì)比結(jié)果。其中,算法的運(yùn)行時(shí)間用符號(hào)[T]表示,規(guī)則集的正確識(shí)別率用符號(hào)[P]表示。
4 結(jié) 論
從目前常用的數(shù)據(jù)挖掘算法出發(fā),采用類分布鏈表來(lái)改進(jìn)傳統(tǒng)的數(shù)據(jù)挖掘算法,使該算法能直接處理海量數(shù)據(jù)集,實(shí)現(xiàn)處理超大規(guī)模數(shù)據(jù)集的目標(biāo)。系統(tǒng)采用并行計(jì)算的核心思想,基于動(dòng)態(tài)聚類的并行離散化算法,提出分布確定類分布鏈表的方法,有效解決了系統(tǒng)內(nèi)存限制的問(wèn)題。同時(shí),提高了基于動(dòng)態(tài)聚類的兩步離散化算法的運(yùn)行效率。
參考文獻(xiàn)
[1] 黃朝輝.基于變精度粗糙集的數(shù)據(jù)挖掘方法研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014(8):3?4.
[2] 要照華,閆宏印.基于粗糙集的海量數(shù)據(jù)挖掘[J].機(jī)械管理開(kāi)發(fā),2010,25(1):17?18.
[3] 石凱.基于粗糙集理論的屬性約簡(jiǎn)與決策樹(shù)分類算法研究[D].大連:大連海事大學(xué),2014:22?25.
[4] 劉華元,袁琴琴,王保保.并行數(shù)據(jù)挖掘算法綜述[J].電子科技,2006(1):65?68.
[5] 陳貞,邢笑雪.粗糙集連續(xù)屬性離散化的K均值方法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2015(5):642?646.
[6] CORNELIS C, KRYSZKIEWICZ M, SLEZAK D, et al. Rough sets and current trends in soft computing [M]. Berlin: Springer, 2014: 11?15.
[關(guān)鍵詞]海量數(shù)據(jù);“預(yù)防”思維;校園;公共安全管理機(jī)制
doi:10.3969/j.issn.1673 - 0194.2016.24.154
[中圖分類號(hào)]G647 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2016)24-0-02
0 引 言
校園的安全與穩(wěn)定是學(xué)校教書(shū)育人等各項(xiàng)工作開(kāi)展的重要前提與保證,校園管理人員應(yīng)提高對(duì)校園安全的認(rèn)識(shí),提升校園公共安全管理水平。但目前我國(guó)各校在公共安全方面或多或少存在著諸多隱患:林生指出社會(huì)多元思想的交集、宗教勢(shì)力以及網(wǎng)絡(luò)技術(shù)的推動(dòng)、網(wǎng)絡(luò)犯罪等給校園安全帶來(lái)巨大威脅;陸偉認(rèn)為學(xué)校安全教育不足,治安管理落后,心理健康狀況不佳、網(wǎng)絡(luò)負(fù)面信息傳播以及社會(huì)外部環(huán)境都是校園安全問(wèn)題多發(fā)的重要因素。校園安全防范工作重點(diǎn)集中于治安管理、安全教育、心理健康與交通安全等多方面內(nèi)容,涉及學(xué)校的教研、日常管理和后勤服務(wù)的各個(gè)環(huán)節(jié)。
大數(shù)據(jù)時(shí)代來(lái)臨,海量數(shù)據(jù)的存儲(chǔ)與處理技術(shù)的日趨成熟,可以消除數(shù)據(jù)信息的不確定性,在信息產(chǎn)業(yè)、交通運(yùn)輸及公共安全等領(lǐng)域已得到廣泛的應(yīng)用(張春艷,2014)。大數(shù)據(jù)具有規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)等特點(diǎn),云存儲(chǔ)與云計(jì)算技術(shù)的發(fā)展讓這些數(shù)據(jù)得以轉(zhuǎn)化為有價(jià)值的信息。本文將依托大數(shù)據(jù)思維和技術(shù),基于海量數(shù)據(jù)的應(yīng)用研究校園公共安全管理問(wèn)題,構(gòu)建海量數(shù)據(jù)應(yīng)用下的校園公共安全管理機(jī)制,分析存在的難點(diǎn)問(wèn)題,并提出應(yīng)對(duì)措施。
1 海量數(shù)據(jù)下校園公共管理管理機(jī)制的建立
1.1 大數(shù)據(jù)環(huán)境下海量數(shù)據(jù)應(yīng)用的內(nèi)涵
任何數(shù)字化管理領(lǐng)域的海量數(shù)據(jù)本身都具有巨大的數(shù)據(jù)價(jià)值,但是人們探究某一具體數(shù)據(jù)時(shí),它自身的數(shù)據(jù)價(jià)值密度卻相對(duì)較低。多樣性的數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)呈現(xiàn)形式的多樣性加大了數(shù)據(jù)處理的復(fù)雜性。
海量數(shù)據(jù)的應(yīng)用有兩個(gè)內(nèi)涵,一是技術(shù)的應(yīng)用,二是思維的轉(zhuǎn)變。海量數(shù)據(jù)應(yīng)用技術(shù)既包括諸如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和數(shù)據(jù)可視化等舊技術(shù),也包括云存儲(chǔ)和云計(jì)算等新技術(shù);而海量數(shù)據(jù)應(yīng)用思維則是從海量數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題,用全樣本的思維來(lái)思考問(wèn)題,形成了模糊化、相關(guān)性和整體化的考慮方式。海量數(shù)據(jù)應(yīng)用技術(shù)和思維的創(chuàng)新的融合發(fā)展,給很多領(lǐng)域帶來(lái)了革命性的改變,科教文衛(wèi)各個(gè)領(lǐng)域的發(fā)展都與數(shù)據(jù)緊密結(jié)合,校園公共安全管理也不例外。
1.2 海量數(shù)據(jù)應(yīng)用下校園公共安全管理的特點(diǎn)
1.2.1 校園安全管理中新技術(shù)手段得以應(yīng)用
海量數(shù)據(jù)的應(yīng)用在校園公共安全管理中所發(fā)揮作用,可以從技術(shù)手段和思維模式轉(zhuǎn)變角度理解。校園環(huán)境內(nèi)發(fā)生的種種事情,都是校園安全危機(jī)潛在發(fā)生的基礎(chǔ),同時(shí)這也是一個(gè)巨大的數(shù)據(jù)集合。龐大的數(shù)據(jù)需要有相應(yīng)的數(shù)據(jù)處理技術(shù)對(duì)其進(jìn)行收集、存儲(chǔ)、分析、統(tǒng)計(jì)與應(yīng)用等操作,大數(shù)據(jù)新的技術(shù)手段不再局限于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)表格的整齊排列,而是實(shí)現(xiàn)了向“消除僵化的層次結(jié)構(gòu)和一致性”技術(shù)的革新,實(shí)現(xiàn)了非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的處理。
1.2.2 校園安全管理從“應(yīng)對(duì)”到“預(yù)防”的思維轉(zhuǎn)變
在能夠?qū)A繑?shù)據(jù)進(jìn)行分析處理之前,人們面對(duì)少量數(shù)據(jù)結(jié)果習(xí)慣于“因果關(guān)系”思考,由“因”到結(jié)果進(jìn)行探究,這是一種傳統(tǒng)安全管理的“思維”。大數(shù)據(jù)技術(shù),可以對(duì)海量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與應(yīng)用,實(shí)時(shí)實(shí)現(xiàn)數(shù)據(jù)的更新與監(jiān)控,可以實(shí)現(xiàn)校園環(huán)境動(dòng)態(tài)可視性,關(guān)注事物之間相關(guān)關(guān)系。在海量數(shù)據(jù)分析基礎(chǔ)上,對(duì)校園公共安全影響因子的考量不僅僅需要知道為什么,更需要知道是什么,從而進(jìn)一步預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)及時(shí)發(fā)現(xiàn)安全風(fēng)險(xiǎn),采取防控措施。
1.2.3 海量數(shù)據(jù)應(yīng)用推動(dòng)多部門(mén)協(xié)同聯(lián)動(dòng)
傳統(tǒng)的校園安全管理缺乏海量數(shù)據(jù)支持,往往局限于單一部門(mén)防范措施的推動(dòng)。一方面單一的安全防范措施不能夠有效整體排查與應(yīng)對(duì)校園公共安全風(fēng)險(xiǎn),另一方面不同部門(mén)掌握不同的資源與數(shù)據(jù),無(wú)法實(shí)現(xiàn)有效協(xié)同配置,造成資源浪費(fèi)和效率底下。海量數(shù)據(jù)應(yīng)用需要校園安全管理的保衛(wèi)科、警衛(wèi)處、物業(yè)管理、醫(yī)療保健與心理健康教育等多部門(mén)的聯(lián)動(dòng),實(shí)現(xiàn)各部門(mén)數(shù)據(jù)的開(kāi)放共享。
1.3 海量數(shù)據(jù)應(yīng)用下校園安全管理機(jī)制
海量數(shù)據(jù)應(yīng)用于校園安全管理務(wù)必需要一個(gè)完整的數(shù)據(jù)庫(kù)系統(tǒng),這個(gè)系統(tǒng)包含校園環(huán)境內(nèi)各種與安全風(fēng)險(xiǎn)相關(guān)的數(shù)據(jù)信息。校園安全管理數(shù)據(jù)庫(kù)包含人口基本信息數(shù)據(jù)庫(kù)(校內(nèi)或校外周邊常住人口的年齡、戶籍、宗教、教育與病歷等)、網(wǎng)絡(luò)信息傳輸數(shù)據(jù)庫(kù)(網(wǎng)絡(luò)信息記錄、通信記錄等)、地理信息系統(tǒng)數(shù)據(jù)庫(kù)(建筑布局、氣候、交通道路、人口布局、安全隱患布局與安全設(shè)施布局等)、心理健康狀況數(shù)據(jù)庫(kù)(校內(nèi)外流動(dòng)人口心理健康測(cè)評(píng)數(shù)據(jù)或心理健康跟蹤數(shù)據(jù))、醫(yī)療衛(wèi)生監(jiān)控?cái)?shù)據(jù)庫(kù)(校內(nèi)外流動(dòng)人口醫(yī)療記錄、校內(nèi)食堂等設(shè)施衛(wèi)生監(jiān)管數(shù)據(jù)、校外娛樂(lè)餐飲服務(wù)衛(wèi)生數(shù)據(jù)等)、校園安全事件案例庫(kù)(校內(nèi)歷史安全案件記錄或典型安全案例)等。