前言:本站為你精心整理了聚類分析在遠程教育的作用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
聚類分析在遠程教學(xué)中的應(yīng)用
基于聚類的數(shù)據(jù)挖掘技術(shù)則可以根據(jù)學(xué)生的平時及期末考試成績,挖掘出內(nèi)在的影響因素,如學(xué)生的學(xué)習(xí)態(tài)度、學(xué)習(xí)習(xí)慣、薄弱章節(jié)、課后練習(xí)等環(huán)節(jié)。得到的總結(jié)分析應(yīng)用于指導(dǎo)學(xué)生學(xué)習(xí)及日常教學(xué),既節(jié)省了大量的練習(xí)時間又能夠獲得良好的學(xué)習(xí)效果。圖2描述了一個基于聚類分析算法的遠程教育系統(tǒng)的基本結(jié)構(gòu)。其中在成績分析模塊中,加入了基于聚類的智能輔導(dǎo)功能模塊,用于對學(xué)生的測試成績進行分析。分析結(jié)果包括選課建議,推薦書目,組卷參數(shù),所在類別特性及成績特性等。系統(tǒng)根據(jù)上述結(jié)果給出學(xué)習(xí)建議和指導(dǎo),同時修改組卷參數(shù)以給出符合學(xué)生學(xué)習(xí)水平和特性的試題;學(xué)生也可以根據(jù)分析結(jié)果進行有針對性的學(xué)習(xí),從而提高了整個系統(tǒng)的智能性。
K-均值聚類分析算法改進研究
為加快聚類算法的計算速度,在K均值聚類算法中加入了基于密度閾值的網(wǎng)格聚類方法,利用網(wǎng)格聚類的速度優(yōu)勢,先對樣本空間進行網(wǎng)格劃分,通過平滑過濾噪聲,完成第一次聚類。密度閾值較小的離散數(shù)據(jù)應(yīng)用K均值聚類法實施二次聚類直至條件滿足。
基于網(wǎng)格聚類的K均值算法改進令有界定義域集合P={X1,X2,…,Xn},n維空間S=X1×X2×…×Xn,算法的輸入則是一個n維空間的點集Q{q1,q2,…qn},q1={qi1,qi2,…,qin},qij表示第i個點的第j維分量。每個網(wǎng)格單元的密度值D(Ci)設(shè)定為單元中所有點的數(shù)量;在密度閾值的設(shè)定上,文獻[4]中對傳統(tǒng)DB-SCAN算法的改進,選取網(wǎng)格單元中密度最高的N個點的密度值D(Ci)。通常情況下聚類按照D(Ci)降序排列,如果D(Ci+1)與D(Ci)之間的差值較大則認為發(fā)生了跳變,此時設(shè)N=i。算法具體步驟為:(1)將n維空間的每個維劃分成r個不相交且大小相等的區(qū)間,形成Rn個網(wǎng)格單元。每個網(wǎng)格單元在第i維的長度計算δi=(hi-li)/p,則有第j個區(qū)間段Iij=[li+(j-1)δi,li+jδi]。(2)將數(shù)據(jù)集中的點映射到單元集中,計算每個網(wǎng)格單元的密度D(Ci)。(3)根據(jù)設(shè)定的密度閾值對網(wǎng)格單元進行分類:密度大于Minpts的高密度單元被直接標記,密度小于Minpts的低密度單元中的點作為孤立的離散數(shù)據(jù)等待下一步處理。(4)重復(fù)選取聚類未結(jié)束網(wǎng)格單元與其相鄰單元進行合并直至所有高密度單元聚類完畢,按照公式(2)計算出K個聚類中心的值Gi(0)作為初始聚類中心。(5)對于低密度單元中的離散數(shù)據(jù),分別計算其與初始聚類中心的距離dis(a,Ci),當(dāng)其獲得最小值時有a∈Ci,重復(fù)這一操作至所有離散數(shù)據(jù)聚類完成。(6)重新計算二次聚類重心Gi(1),如滿足|Gi(1)-Gi(0)|<ε則聚類完畢,否則再次循環(huán)K均值聚類方法直到滿足條件|Gi(m)-Gi(m+1)|<ε。
實驗分析及結(jié)論實驗采用UCIMachineLearningRepository中的經(jīng)典數(shù)據(jù)集Iris,每個樣本有4個屬性,分為3個類別共150個樣本。本文算法GKC(Grid-basedandK-meansClusteringMethod)與DBSCAN和傳統(tǒng)K均值聚類法分別進行測試。GKC算法的時間主要為定位數(shù)據(jù)密集區(qū)域以及初始聚類中心的計算。其時間復(fù)雜度分別為O(2d×r)和O(K×I×M),I和M代表迭代次數(shù)和離散數(shù)據(jù)數(shù)量。表1顯示了3種算法在聚類運行時間上的比較,可以看出本文方案在收斂速度上優(yōu)于另外兩種算法。聚類性能采用純度值進行衡量,某一簇的純度值Eij等于簇i與類j的交集。從圖3中可以看出,GKC在純度上優(yōu)于K-means及DBSCAN算法,且純度值曲線波動較小,具更好的穩(wěn)定性。
結(jié)束語
為使遠程教育的教學(xué)資源得到更好利用,達到按需教學(xué)的目的,深入研究了聚類分析算法以及該技術(shù)在學(xué)習(xí)評價中的作用,給出了一個聚類算法在遠程教育教學(xué)中具體應(yīng)用實例。利用網(wǎng)格聚類的思想對K均值聚類算法進行改進,克服了K值隨機性帶來的不確定性以及傳統(tǒng)網(wǎng)格聚類方法造成的簇丟失缺陷。該技術(shù)的應(yīng)用有利于提高遠程教學(xué)系統(tǒng)的智能性,取得良好的教學(xué)效果。
作者:張曉芳單位:武漢民政職業(yè)學(xué)院