欧美精品久久久久久久电影,欧美刺激午夜性久久久久久久,男同黄片免费观看视频,亚洲午夜久久久久久中文字幕,在线观看免费黄色不卡视频

前言：本站為你精心整理了數(shù)據(jù)挖掘的計算機用戶行為分析與識別范文，希望能為你的創(chuàng)作提供參考價值，我們的客服老師可以幫助你提供個性化的參考范文，歡迎咨詢。

數(shù)據(jù)挖掘的計算機用戶行為分析與識別

摘要:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，網(wǎng)絡(luò)已經(jīng)成為人們生活及工作中不可或缺的一部分，本文通過對網(wǎng)絡(luò)用戶上網(wǎng)時所表現(xiàn)出來的行為進行分析研究，探索其行為特征及行為模式，建立計算機用戶行為模型，利用聚類分析技術(shù)及相關(guān)算法建立了一個計算機用戶行為分析識別系統(tǒng)，通過對網(wǎng)絡(luò)用戶日志數(shù)據(jù)所表現(xiàn)出來的行為進行預(yù)處理、模式挖掘及聚類分析實現(xiàn)了用戶身份識別功能。并對系統(tǒng)的準確率和誤差進行了分析，最后對該模型的完善和改進提出了若干設(shè)想。

關(guān)鍵詞:數(shù)據(jù)挖掘；K-均值聚類分析；分析識別；行為模式

1引言

本文通過數(shù)據(jù)挖掘技術(shù)從海量的用戶網(wǎng)絡(luò)日志數(shù)據(jù)中分析用戶行為的有效特征信息，建立了用戶行為分析模型，通過ANOVA進行了模型可行性論證，基于C#和SPSS統(tǒng)計分析軟件設(shè)計了一套計算機用戶行為分析系統(tǒng)，建立了數(shù)據(jù)預(yù)處理、聚類分析等模型，通過K-MEANS算法對用戶行為特征信息進行分析、處理和分類，完成用戶特征識別，并對識別誤差進行研究分析，提出了若干改進方法，該模式的分析應(yīng)用對今后大數(shù)據(jù)的分析以及處理技術(shù)的發(fā)展具有重要意義。

2數(shù)據(jù)挖掘原理

2.1數(shù)據(jù)挖掘概念和流程

數(shù)據(jù)挖掘(DataMining)，是數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)過程中的高級分析步驟，是計算機科學(xué)的跨學(xué)科子領(lǐng)域，是在海量的數(shù)據(jù)中發(fā)現(xiàn)模式的計算過程，涉及到數(shù)據(jù)庫系統(tǒng)(DataSystem)、統(tǒng)計學(xué)(Statistic)、分布式計算(Ha-doop)、并行計算(Parallel)、機器學(xué)習(xí)(MachineLearn-ing)、人工智能(ArtificialIntelligence)等多個交叉的學(xué)科[1]。數(shù)據(jù)挖掘流程如圖1[2]所示。

2.2聚類分析原理及算法

聚類分析是研究樣品或指標分類問題的一種多元統(tǒng)計方法，類就是指相似元素的集合。根據(jù)分類對象的不同，聚類分析可以分為樣品聚類和變量聚類，在統(tǒng)計學(xué)中，樣品聚類又被稱為Q型聚類，是對事件或觀測量進行聚類，而變量聚類則被稱為R型聚類，反映同一事物特征的變量很多，通常根據(jù)研究的問題選擇部分變量對事物的某一方面進行研究[4]。聚類分析的算法可以分為劃分法（PartitioningMe-thods）、層次法（HierarchicalMethods）、基于密度的方法（density-basedmethods）、基于網(wǎng)格的方法（grid-basedmethods）、基于模型的方法（Model-BasedMet-hods）[5]。本文主要采用基于距離的劃分法，給定要構(gòu)建的分區(qū)數(shù)k，創(chuàng)建一個初始化劃分，采用迭代重定位技術(shù)，通過把對象從一個組移動到另一個組來進行劃分。同一個簇中的對象盡可能相互接近或相關(guān)，而不同的簇中的對象盡可能遠離或不同。使用這種思想的算法主要有K-MEANS算法[5]和K-MEDOIDS算法[6]等。K-均值聚類（K-MEANS）算法又被稱為快速聚類法，可對大量數(shù)據(jù)進行聚類分析，屬于非層次聚類方法，計算量小、占用內(nèi)存少、處理速度快，非常適用于大樣本聚類分析。

3計算機用戶行為分析模型設(shè)計

3.1模型目標功能及整體結(jié)構(gòu)

本文主要目的是通過用戶上網(wǎng)生成的網(wǎng)絡(luò)日志數(shù)據(jù)來實現(xiàn)對計算機用戶的識別，因此對模型的設(shè)計主要考慮算法的使用以及類別的劃分。本文使用K-均值聚類算法對預(yù)處理后的數(shù)據(jù)進行聚類分析，將數(shù)據(jù)進行不斷聚類，提取聚類中心，直到分出用戶的具體職業(yè)以及學(xué)歷。樣本用戶職業(yè)類別分為學(xué)生、農(nóng)村外出務(wù)工人員和產(chǎn)業(yè)、服務(wù)業(yè)工人3類，而學(xué)歷則是在后兩種職業(yè)中進行劃分，其中產(chǎn)業(yè)、服務(wù)業(yè)工人學(xué)歷劃分包括高中、本科和大專3種，農(nóng)村外出務(wù)工人員學(xué)歷劃分則只包含初中和高中兩種。學(xué)歷的聚類分析在職業(yè)劃分結(jié)束后進行，并且在同一類職業(yè)當中進行聚類。模型整體架構(gòu)如圖3所示，模型主要分為2個模塊，包括數(shù)據(jù)預(yù)處理模塊和聚類分析模塊。

3.2數(shù)據(jù)預(yù)處理模型

數(shù)據(jù)預(yù)處理是整個設(shè)計的基礎(chǔ)，對其進行研究需要分析出能反映用戶行為特征的屬性，完成對原始數(shù)據(jù)的處理分析，提取有價值的信息作為新的樣本分析數(shù)據(jù)，這是計算機用戶行為分析與識別的前提。

3.3數(shù)據(jù)處理分類模型

K-均值聚類算法是一種非常簡潔和高效率的聚類算法，現(xiàn)階段的應(yīng)用是最廣泛的，因此利用此算法來完成最后的分類模塊。通過上圖可知本設(shè)計是利用K-均值聚類算法對預(yù)處理后的數(shù)據(jù)以及通過聚類分析提取出的聚類中心進行匹配計算，主要計算預(yù)處理后的用戶行為數(shù)據(jù)和聚類中心之間的歐式距離，比較與不同聚類中心之間距離的大小，將用戶歸為距離最小的那一類當中。

4模型設(shè)計論證

聚類分析的主要目的是通過對用戶行為數(shù)據(jù)進行多次聚類，不斷提取聚類中心，直到將不同職業(yè)以及學(xué)歷用戶區(qū)分開來，聚類過程中的初始聚類中心和最終聚類中心結(jié)果分別如表1和表2所示。表1和表2的數(shù)據(jù)是對預(yù)處理后的數(shù)據(jù)做第一次聚類分析時的聚類中心結(jié)果，通過其可知最終聚類中心相對于初始聚類中心來說發(fā)生了較大的變化，每次變化都是對數(shù)字進行了一次重新聚類，直到出現(xiàn)最合適的聚類中心，聚類分析會在聚類中心不再發(fā)生變化或誤差平方和局部最小時終止。在最終聚類中心結(jié)果中，不同類別間的聚類中心也有一定的差異，最終聚類中心距離結(jié)果如表3所示。通過最終聚類中心間的距離結(jié)果可知，第二類和第三類之間的距離最大，第一類和第二類之間的距離最小，這個結(jié)果和最終聚類中心的實際情況是符合的，說明K值為3時的聚類分析合理可行。在進行聚類分析的過程中，K-均值聚類需要對用戶數(shù)據(jù)進行迭代與分類處理，在迭代過程中不斷更新聚類中心，把觀測量分派到與之最近的以類中心為標志的類中去，當滿足收斂判據(jù)或迭代次數(shù)上限時，迭代會停止。聚類中心內(nèi)的更改在聚類中心內(nèi)沒有改動或改動較小時達到收斂，任何中心的最大絕對坐標更改為.000，當前迭代為5，初始中心間的最小距離為24470.703。通過聚類分析的迭代歷史記錄可知，第一次迭代的變化值是最大的，之后就開始逐漸減少，直到最后第五次迭代時，聚類中心就不再發(fā)生變化，此時就完成了聚類分析模塊中提取聚類中心的工作，在此基礎(chǔ)上通過ANVOA表進行模型可行性分析，統(tǒng)計量臨界值和顯著性檢驗的大小如表5所示。通過對聚類分析結(jié)果進行方差分析，主要觀察其中列出F值即統(tǒng)計量臨界值和Sig.值即顯著性檢驗的大小，從表中可以看到，各個指標在不同類之間的差異是非常明顯的，用戶行為有效信息類的差異性可以滿足模型分類要求，由此進一步驗證聚類分析模型的有效性。

5系統(tǒng)實現(xiàn)

5.1模型功能實現(xiàn)

整個系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、聚類分析、K-均值算法處理分類等三個模塊，系統(tǒng)實現(xiàn)主要基于C#語言和SPSS統(tǒng)計分析軟件來完成，將一名大學(xué)本科用戶ID為99BFDBE657AC81470256210593973290的產(chǎn)業(yè)、服務(wù)業(yè)工人數(shù)據(jù)被輸入到系統(tǒng)中，實現(xiàn)結(jié)果樣式如圖6所示。但并不是100%的用戶數(shù)據(jù)都能夠被完全準確的識別出來，通過非建模使用的數(shù)據(jù)對系統(tǒng)功能進行進一步分析驗證，系統(tǒng)對用戶職業(yè)分類識別的準確率為55.6%，而對用戶學(xué)歷分類識別的準確率為42.5%。

5.2誤差分析

系統(tǒng)通過對網(wǎng)絡(luò)日志數(shù)據(jù)對用戶職業(yè)以及學(xué)歷的分析識別錯誤率分別為44.4%和57.5%。產(chǎn)生誤差的因素主要有原始數(shù)據(jù)的合理有效性、聚類算法所存在的缺陷、識別用戶時日志數(shù)據(jù)的選取等三方面。（1）原始數(shù)據(jù)的有效性。原始數(shù)據(jù)是從公開的數(shù)據(jù)源中查找出來并應(yīng)用到對本系統(tǒng)的設(shè)計實現(xiàn)當中，根據(jù)對數(shù)據(jù)的觀察分析，數(shù)據(jù)本身存在一定的不合理性，雖然對原始數(shù)據(jù)做了處理分析，但仍然有一定的問題存在，比如在對用戶上網(wǎng)時所瀏覽網(wǎng)址進行分類時，有些數(shù)據(jù)中的URL和窗口進程存在不完整或缺失的情況，導(dǎo)致無法對用戶的上網(wǎng)行為進行完全的統(tǒng)計分析，而且有些用戶上網(wǎng)行為較同類用戶整體相比存在異常，無法對其進行最終的聚類分析，導(dǎo)致最后此類用戶在聚類結(jié)束時仍未被分類出來，最終對設(shè)計結(jié)果產(chǎn)生相應(yīng)的影響并增大錯誤分析的概率。（2）K-均值聚類算法存在的缺陷。K-均值聚類算法主要是對預(yù)處理后的數(shù)據(jù)進行分析，此算法中的K值需要提前設(shè)定，因無法確切知道需要分析的數(shù)據(jù)應(yīng)該劃分成幾類，所以K值的選擇很難判斷，一旦分類不合理就有可能對最終系統(tǒng)的實現(xiàn)造成影響。同時初始聚類中心的選擇對于聚類的劃分也存在一定的影響。（3）識別用戶時用戶日志數(shù)據(jù)的選取。本設(shè)計中原始數(shù)據(jù)包括用戶連續(xù)28天的網(wǎng)絡(luò)行為日志，在實現(xiàn)過程中所用數(shù)據(jù)使用的是每個用戶擁有最大數(shù)據(jù)量的網(wǎng)絡(luò)日志，這種選取方法適用于對不同類用戶的所有整體進行分析聚類，提取用戶群體的行為模式，但對單個用戶來說，數(shù)據(jù)量再大的網(wǎng)絡(luò)日志也無法完全體現(xiàn)其所有行為特征，只有對其進行長期的分析研究才能將其行為特征最大化，所以這種選取方式對系統(tǒng)的實現(xiàn)也有一定的影響。

5.3關(guān)于改進系統(tǒng)設(shè)計的若干設(shè)想

通過誤差分析發(fā)現(xiàn)本系統(tǒng)設(shè)計還有一定的改進空間，為此提出以下改進設(shè)想：（1）建立異常檢測機制，對用戶行為數(shù)據(jù)進行分析時，將異常用戶行為數(shù)據(jù)標記出來，獨立輸出相應(yīng)結(jié)果。初始聚類中心的選取則可以通過遺傳算法來實現(xiàn)。（2）嘗試其它不同算法對用戶網(wǎng)絡(luò)日志數(shù)據(jù)進行處理分析，比如ISODATA算法、RPCL算法等，并將其處理結(jié)果的準確率與本設(shè)計中的結(jié)果準確率進行比較，選出最優(yōu)算法。（3）對用戶連續(xù)28天的網(wǎng)絡(luò)日志數(shù)據(jù)進行處理分析取均值，作為聚類分析所需數(shù)據(jù)，進行系統(tǒng)實現(xiàn)，與本系統(tǒng)結(jié)果進行比較，觀察準確率變化情況。

6結(jié)束語

本文介紹了數(shù)據(jù)挖掘概念特征和聚類分析原理，通過分析計算機用戶網(wǎng)絡(luò)日志數(shù)據(jù)建立了分析和識別模型，與以往的匹配識別不同，該模型是通過大數(shù)據(jù)分析用戶特征，利用K-means算法進行聚類，進而實現(xiàn)用戶識別功能。該系統(tǒng)的實現(xiàn)對于網(wǎng)絡(luò)智能化服務(wù)及大數(shù)據(jù)運用的發(fā)展有著重要意義。然而該系統(tǒng)的識別成功率還有待提高，收集更加完善且不同類型的數(shù)據(jù)，建立異常檢測機制以及改進更新識別算法，進一步提高識別準確率將是今后研究的重點。

作者:胡富增王勇軍單位:解放軍91404部隊

數(shù)據(jù)挖掘的計算機用戶行為分析與識別

AI文章写作

文檔上傳者

相關(guān)推薦

熱門文章排行

相關(guān)期刊

數(shù)據(jù)

大數(shù)據(jù)

中國數(shù)據(jù)通信

相關(guān)精選范文更多

在线服务