前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡總結范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關鍵詞:機器學習;深度學習;推薦算法;遠程教育
深度學習(DeepLearning),也叫階層學習,是機器學習領域研究的分支,它是學習樣本數(shù)據(jù)的表示層次和內在規(guī)律,在學習的過程中獲取某些信息,對于數(shù)據(jù)的解釋有巨大幫助。比如對文字數(shù)據(jù)的學習,在網(wǎng)絡上獲取關鍵字,對圖像數(shù)據(jù)的學習,進行人臉識別等等。
一、深度學習發(fā)展概述
深度學習是機器學習領域里一種對數(shù)據(jù)進行表征學習的方法。一句話總結三者之間的關系就是:“機器學習,實現(xiàn)人工智能的方法;深度學習,實現(xiàn)機器學習的技術。深度學習目前是機器學習和人工智能領域研究的主要方向,為計算機圖形學、計算機視覺等領域帶來了革命性的進步。機器學習最早在1980年被提出,1984年分類與回歸樹出現(xiàn),直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現(xiàn)的卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發(fā)展。在1990年至2012年,機器學習逐漸成熟并施以應用,GeoffreyHinton在2006年設計出了深度信念網(wǎng)絡,解決了反向傳播算法神經(jīng)網(wǎng)絡中梯度消失的問題,正式提出了深度學習的概念,逐漸走向深度學習飛速發(fā)展的時期。隨后,各種具有獨特神經(jīng)處理單元和復雜層次結構的神經(jīng)網(wǎng)絡不斷涌現(xiàn),深度學習技術不斷提高人工智能領域應用方面的極限。
二、深度學習主要模型
1、卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN)是指有著深度結構又包含著卷積計算的前饋神經(jīng)網(wǎng)絡。卷積物理上理解為系統(tǒng)某一時刻的輸出是有多個輸入共同疊加的結果,就是相當于對一個原圖像的二次轉化,提取特點的過程。卷積神經(jīng)網(wǎng)絡實際上就是一個不斷提取特征,進行特征選擇,然后進行分類的過程,卷積在CNN里,首先對原始圖像進行特征提取。所以卷積神經(jīng)網(wǎng)絡能夠得到數(shù)據(jù)的特征,在模式識別、圖像處理等方面應用廣泛。一個卷積神經(jīng)網(wǎng)絡主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經(jīng)網(wǎng)絡的核心部分,通過一系列對圖像像素值進行的卷積運算,得到圖像的特征信息,同時不斷地加深節(jié)點矩陣的深度,從而獲得圖像的深層特征;池化層的本質是對特征圖像進行采樣,除去冗雜信息,增加運算效率,不改變特征矩陣的深度;全連接將層間所有神經(jīng)元兩兩連接在一起,對之前兩層的數(shù)據(jù)進行分類處理。CNN的訓練過程是有監(jiān)督的,各種參數(shù)在訓練的過程中不斷優(yōu)化,直到得到最好的結果。目前,卷積神經(jīng)網(wǎng)絡的改進模型也被廣泛研究,如全卷積神經(jīng)網(wǎng)絡(FullyConvolutionalNeuralNetworks,F(xiàn)CN)和深度卷積神經(jīng)網(wǎng)絡(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環(huán)神經(jīng)網(wǎng)絡區(qū)別于卷積神經(jīng)網(wǎng)絡在圖片處理領域的應用,循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetwork,RNN)主要應用在自然語言處理領域。RNN最大的特點就是神經(jīng)元的輸出可以繼續(xù)作為輸入,再次利用到神經(jīng)元中循環(huán)使用。RNN是以序列的方式對數(shù)據(jù)進行讀取,這也是RNN最為獨特的特征。RNN的串聯(lián)式結構適用于時間序列的數(shù)據(jù),可以完好保持數(shù)據(jù)中的依賴關系。循環(huán)神經(jīng)網(wǎng)絡主要有三層結構,輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進來的數(shù)據(jù)進行一系列的運算,并將結果傳遞給輸出層進行輸出。RNN可用于許多不同的地方。下面是RNN應用最多的領域:1.語言建模和文本生成,給出一個詞語序列,試著預測下一個詞語的可能性。這在翻譯任務中是很有用的,因為最有可能的句子將是可能性最高的單詞組成的句子;2.語音識別;3.生成圖像描述,RNN一個非常廣泛的應用是理解圖像中發(fā)生了什么,從而做出合理的描述。這是CNN和RNN相結合的作用。CNN做圖像分割,RNN用分割后的數(shù)據(jù)重建描述。這種應用雖然基本,但可能性是無窮的;4.視頻標記,可以通過一幀一幀地標記視頻進行視頻搜索。3、深度神經(jīng)網(wǎng)絡深度神經(jīng)網(wǎng)絡(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡。多層神經(jīng)網(wǎng)絡和深度神經(jīng)網(wǎng)絡DNN其實也是指的一個東西,DNN有時也叫做多層感知機(Mul-ti-Layerperceptron,MLP)。DNN內部的神經(jīng)網(wǎng)絡層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。深度神經(jīng)網(wǎng)絡(DNN)目前作為許多人工智能應用的基礎,并且在語音識別和圖像識別上有突破性應用。DNN的發(fā)展也非常迅猛,被應用到工業(yè)自動駕駛汽車、醫(yī)療癌癥檢測等領域。在這許多領域中,深度神經(jīng)網(wǎng)絡技術能夠超越人類的準確率,但同時也存在著計算復雜度高的問題。因此,那些能夠解決深度神經(jīng)網(wǎng)絡表現(xiàn)準確度或不會增加硬件成本高效處理的同時,又能提升效率和吞吐量的技術是現(xiàn)在人工智能領域能夠廣泛應用DNN技術的關鍵。
三、深度學習在教育領域的影響
1、學生學習方面通過網(wǎng)上學習的實時反饋數(shù)據(jù)對學生的學習模式進行研究,并修正現(xiàn)有教學模式存在的不足。分析網(wǎng)絡大數(shù)據(jù),相對于傳統(tǒng)在線學習本質區(qū)別在于捕捉學生學習過程,有針對性,實現(xiàn)學生個性化學習。舉個例子,在學習過程中,可以通過學習平臺對學生學習課程所花費的時間,參與的程度,知識的偏好等等數(shù)據(jù)加以分析。也可以通過學生學習某門課程的次數(shù),鼠標點擊次數(shù)、停留的時間等,來推斷學生學習情況。通過以上或類似數(shù)據(jù)匯總分析,可以正向引導學生學習,并給予積極的學習評價。這種利用計算機收集分析出來的客觀數(shù)據(jù),很好展示了學生學習行為的結果,總結學習規(guī)律,而不需要教師多年的教學經(jīng)驗來判斷。對于教育研究者而言,利用深度學習技術可以更客觀準確地了解學生,使教學工作良好發(fā)展更進一步。2、教學方面學習平臺的數(shù)據(jù)能夠對教學模式的適應度進行預測,通過學生的考試成績和對教師的線上評價等加以分析,能夠預測出某一階段的教學方式發(fā)發(fā)是否可行,影響如何。通過學生與教師的在線互動,學生測驗時完成的時間與完成的結果,都會產生大量的有效的數(shù)據(jù),都可以為教師教學支持服務的更好開展提供幫助,從而避免低效率的教學模式造成教學資源的浪費。
四、成人遠程教育中深度學習技術的可應用性
深度學習方面的應用在眾多領域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠程教育方面,深度學習的技術還有很大的發(fā)揮空間,智能網(wǎng)絡教育的實現(xiàn)是人們的眾望所盼。若要將深度學習技術應用到遠程教育平臺,首先要清楚學生的需求和教學資源如何分配。1、針對學生的學習需求與學習特征進行分析美國斯坦福大學克里斯皮希研究團隊的研究成果顯示,通過對學生知識學習進行時間建模,可以精確預測出學生對知識點的掌握情況,以及學生在下一次學習中的表現(xiàn)。深度學習的應用可以幫助教師推測出學生的學習能力發(fā)展水平。通過學生與教學環(huán)境的交互行為,分析其學習風格,避免教師用經(jīng)驗進行推斷而產生的誤差。2、教學資源的利用與分配深度學習技術能夠形成智能的分析結論。計算機實時采集數(shù)據(jù)集,對學生的學習情況加以分析,使教師對學生的學習狀態(tài)、情緒狀態(tài)等有更加清晰、準確的了解。有了上面良好的教學模式,教師對學生的學習狀態(tài)有了更準確的掌握,對學生的學習結果就有了更科學的教學評價?;谏疃葘W習的人工智能技術,還可以輔助教師實現(xiàn)智能閱卷,通過智能閱卷自動總結出學習中出現(xiàn)的問題,幫助教師減少重復性勞動,減輕教師負擔。作為成人高校,遠程教育是我們的主要教學手段,也是核心教學方式,學校的教學必定是在學生方便學習的同時,以學生的學習效果為重。通過深度學習技術,可以科學地分析出學生的學習效果,對后續(xù)教與學給予科學、可靠的數(shù)據(jù)支撐。我們可以在平臺上為每位同學建立學習模型,根據(jù)學生的學習習慣為其定制個性化方案,按他們的興趣進行培養(yǎng),發(fā)揮他們專業(yè)的潛能。同時,可以將學生正式在線參加學習和考試的學習行為和非學習時間瀏覽網(wǎng)站的行為結合到一起,更加科學地分析出學生在學習網(wǎng)站上感興趣的地方。采用深度學習算法,根據(jù)學生學習行為產生的海量數(shù)據(jù)推算出學生當前狀態(tài)與目標狀態(tài)之間的差距,做到精準及時的學習需求反饋。有助于幫助學生明確學習目標,教師確立教學目標,真正做好因材施教。基于深度學習各種智能識別技術,可以為教師的線上教學活動增光添彩,在反饋學生學習狀態(tài)的同時,采用多種形式的教學方法吸引學生的注意力,增強教學活動的互動性,達到良好的教學效果。
Abstract:the mechanical transmission system is widely used in national defense, aerospace, production and other fields of industry. Among them, the gear transmission system is the most frequently used mechanical transmission mechanism. However, because of long time of mechanical work, gear wear and tear parts easily happened, and lead to the occurrence of a variety of mechanical failure. In this paper, the author analyzes the gear transmission process, the system fault diagnosis methods and solutions.
關鍵詞:機械傳動系統(tǒng);故障診斷及解決
Keywords: mechanical transmission system; Troubleshooting and solutions
1. 引言
機械傳動系統(tǒng)廣泛運用于國防、航天航空、生產等各個領域及行業(yè)中,因此,確保其安全性和可靠性具有非常重要的意義。齒輪傳動系統(tǒng),作為當今世界上運用頻率最高的機械傳動系統(tǒng)之一,對其故障的早期、及時診斷和解決,不僅有利于經(jīng)濟合理地安排設備維修的時間,更能有效避免重大人身或設備傷亡事故的發(fā)生。
2. 齒輪傳動系統(tǒng)故障的診斷方法
2.1 常見齒輪傳動系統(tǒng)故障
根據(jù)經(jīng)驗總結,常見的齒輪傳動故障一般可分為兩種:一種是分布在一個齒輪的各個輪齒上的分布式故障;另一種則是只集中于一個齒輪的某一個或者某幾個輪齒上的局部故障。以下就具體的系統(tǒng)故障做診斷方法分析。
2.2 齒輪故障的診斷方法
2.2.1 小波分析方法
小波變換是一種多分辨率的時頻分析方法。目前,齒輪傳動故障分析中使用最廣泛的小波分析方法是二進離散小波變換法。而隨著小波分析技術的不斷發(fā)展,和計算機容量、運算能力的飛速提高,連續(xù)小波變換也開始逐步應用于齒輪傳動故障的診斷分析。而且,與二進離散小波變換相比,連續(xù)小波具有時間和尺度網(wǎng)格劃分更細致、小波基無需正交和具有“時(移)不變”特性等多方面優(yōu)勢,更適合機械動態(tài)信號的檢測和故障診斷。
2.2.2 神經(jīng)網(wǎng)絡分析方法
神經(jīng)網(wǎng)絡,在充分學習經(jīng)驗樣本的基礎上,將知識轉換成為神經(jīng)網(wǎng)絡的權值和閾值,并將其存儲在整個神經(jīng)網(wǎng)絡中。雖然神經(jīng)網(wǎng)絡模型可以映射出故障征兆的特征空間和模式空間,但是它不能解釋故障診斷的技術內容和實質,因此又相當于知識表達的“黑箱結構”。人工神經(jīng)元網(wǎng)絡,是基于對人大腦中神經(jīng)元結構特性的模仿,而建立起來的一種簡單的非線性動力學互聯(lián)網(wǎng)絡。人工神經(jīng)元網(wǎng)絡的優(yōu)點很多,例如:具有大規(guī)模并行處理能力、適應性學習和處理復雜多模式。BP網(wǎng)絡、Hopfield網(wǎng)絡和BAM網(wǎng)絡是齒輪傳動系統(tǒng)故障診斷領域常用的3種神經(jīng)網(wǎng)絡。其中,BP網(wǎng)絡可以看作是一個靜態(tài)的系統(tǒng),具有模式分類能力。
2.2.3 獨立變量分解法
之所以使用獨立變量分別是存在兩方面原因的。一方面,由于齒輪箱體表面測量到的振動信號是齒輪傳動系統(tǒng)的振源信號與系統(tǒng)結構的脈沖響應函數(shù)的卷積,直接對齒輪傳動的振源信號進行故障診斷非常困難;另一方面,獨立分量分析法(ICA)是具有盲源分離和盲反卷積功能的新型多變量數(shù)據(jù)統(tǒng)計方法。因此,獨立分量分析法在齒輪傳動系統(tǒng)故障的診斷中具有非常重要的作用。根據(jù)ICA盲源分離原理進行齒輪傳動故障診斷的方法主要可分為3類:①振動信號的盲源分離;②振動信號的單向分解;③利用部分已知信息進行盲源分離。ICA反卷積運算方法也是多種多樣,例如:窄帶信號卷積模型法。
3. 齒輪故障的解決方法
3.1 正確安裝和使用齒輪傳動系統(tǒng),是預防系統(tǒng)故障發(fā)生的重要環(huán)節(jié)
只有嚴格遵守相應的安裝程序和操作技能要求,對齒輪傳動系統(tǒng)進行正確的安裝和使用,才能確保機械設備的正常運行。首先,要注意齒輪安裝的精度要求。齒輪安置精度的肯定,要在連系傳動齒輪的承載本領和使用壽命的基礎上舉行肯定。其次,不管是新安置、改換齒輪,仍是檢驗安置齒輪,都應該嚴格依照技術標準請求執(zhí)行。最后,為了防止過度損壞齒輪的軸承或出現(xiàn)斷輪,安裝時切忌用鐵錐敲打。
3.2 正確使用和管理劑,是延長機械傳動齒輪使用壽命,減少故障發(fā)生的關鍵環(huán)節(jié)
劑的正確使用和管理,對避免齒輪傳動系統(tǒng)故障的發(fā)生,延長其使用壽命具有至關重要的作用。一方面,為了防止齒輪的加速老化磨損和使用壽命的不正??s短,應該結合齒輪的運轉情況、工作條件和環(huán)境等因素,正確使用劑。首先要科學記錄傳動齒輪的工作情況、每個部位使用的劑型號、使用時間等。然后根據(jù)出廠標準制定維修計劃,并結合實際工作環(huán)境和季節(jié)的變化,及時、適當?shù)馗鼡Q和加裝劑,保證機械傳動齒輪的正常工作。另一方面,還應該嚴格以科學的技術標準為指導,對劑的選擇、使用和更換過程進行嚴格把關。
3.3 完善生產技術和管理,對避免機械傳動齒輪故障也有重要意義
雖然機械傳動齒輪只是一個生產部件,但它與機械的軸和軸承都是相互聯(lián)系、相互作用的,每個部件的精度對生產都有重要影響作用。因此,必須嚴格按照出廠標準,對每一個部件進行安裝調試,以保證傳動齒輪和相關設備的精度,從而確保生產。日常生產管理過程中,也要在嚴格按照技術要求進行的基礎上,對其進行綜合的科學化管理,避免超負荷、故障生產。
4. 結論
齒輪傳動系統(tǒng)在國防、農業(yè)、工業(yè)和生產等領域的機械設備中都有廣泛的運用。因此,及時、早期的診斷和解決齒輪傳動系統(tǒng)中的故障,確保其安全性和可靠性具有非常重要的意義。首先,本文以小波分析方法、神經(jīng)網(wǎng)絡分析方法和獨立變量分解法為例,詳細分析了齒輪故障的的診斷方法,并對故障的解決提出了3點建議:①正確安裝和使用齒輪傳動系統(tǒng);②正確使用和管理劑;③完善生產技術和管理。
參考文獻:
[1]李濤.探析機械傳動系統(tǒng)關鍵零部件故障預測技術[J].中小企業(yè)管理與科技,2014(8).
[2]閆慧.關于采煤機械傳動齒輪失效問題的探討[J].科技創(chuàng)新與應用,2011(19).
關鍵詞:視覺注視;移動端;數(shù)據(jù)集;行為推測
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴S著計算機軟硬件性能和互聯(lián)網(wǎng)技術的迅猛發(fā)展,大規(guī)模的并行計算技術突飛猛進,不斷地發(fā)展使各種現(xiàn)有技術變得越來越成熟,同時機器學習和計算機視覺領域也都得到了飛速發(fā)展。視覺技術的發(fā)展變得越來越重要,并且可以應用到實際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計算機來輔助處理,并完成相關的一些工作。相對于生物信息識別技術這一計算機視覺領域的熱點技術來說,也已廣泛應用于日常生活中[1]。比如指紋識別器,人臉考勤器等平時在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報警系統(tǒng)以及近期炒得火熱的運用支付寶進行刷臉而完成的支付技術等,這些都是運用了生物信息識別技術。現(xiàn)實中的種種跡象已經(jīng)表明運用生物信息識別的計算機技術已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個體差異性和自身穩(wěn)定性特點,從用戶的角度來看該特征具有便攜和低侵入等一些優(yōu)點。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因為眼睛中蘊含著表情、意圖等多種信息。因此,眼睛注視的行為預測受到了國內外眾多學者的廣泛關注,同時在生物信息識別領域中也具有重要的研究意義[2]。
2 注視預測問題
2.1 問題的背景
在心理、認知和用戶交互研究中的注視跟蹤最近已朝向移動解決方案發(fā)展,因為它們使得可以直接評估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關于用戶的動作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態(tài)下非結構化的任務中注視行為是相當復雜的,并且不能使用在受控的實驗室環(huán)境中創(chuàng)建的模型來得到令人滿意的解釋。自然條件下和實驗室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對注視行為的推斷,需要一種更加整體的方法,將從認知科學到機器學習的許多學科結合在一起[3]。
從人機交互技術到醫(yī)學診斷到心理學研究再到計算機視覺,眼睛注視跟蹤在許多領域都有應用。注視是外部可觀察的人類視覺注意的指標,許多人試圖記錄它。對于眼睛視線方面的研究可以追溯到十八世紀后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個或多個方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實中的自然條件下,這些因素對實際的應用會造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(例如,智能手機或網(wǎng)絡攝像頭)的人應該可以使用的普及技術。如何才能使得這種技術普及并且得到應用,提出了一種解決方案。
2.2問題的提出
研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數(shù)據(jù)推斷用戶動作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實時交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動設置中設置各種條件進行補救。商業(yè)化定制化的解決方案都有其獨自的閉合性質,因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復雜的現(xiàn)象,涉及認知過程的相互作用。這些過程在設置計算上的建模是非常困難的,尤其是涉及一些未知因素,使得構建實驗設置成為一個很大的挑戰(zhàn)。此外,來自跟蹤實驗的數(shù)據(jù)因為其商業(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨立的實驗條件。這些方面的問題都阻礙了跨學科方法在分析和利用注視數(shù)據(jù)和實驗的相關研究與發(fā)展。
2.3 解決問題的研究方向
對基于注視的推斷的個體貢獻通常保持孤立,不能形成更大的整體以促進對注視動作行為的研究。隨著這方面的技術發(fā)展和應用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應用和用戶界面中使用注視已經(jīng)相當有限,但是移動注視跟蹤的新穎應用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動注視跟蹤來推斷用戶動作的問題是高度多學科的,需要深入理解各個研究領域,包括人眼的功能,數(shù)學建模,計算機視覺,機器學習,信息技術,認知過程,用戶交互以及心理學。任何一個研究員或甚至任何研究小組都不可能擁有所有研究領域的專家,因此需要相互的協(xié)作共同推進技術的發(fā)展[5]。
目前的研究主要是從以下幾個方面進行:
1)研究移動注視跟蹤的認知方面,例如增強對任務中的注視行為的理解或識別不同任務的特征和階段;
2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動作的計算方法,諸如應用機器學習用于行為推斷,優(yōu)選地實時地;
3)增強用于改善移動注視跟蹤方法和性能的技術軟件/硬件解決方案,并使得設備更容易訪問;
4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強現(xiàn)實應用中的潛在用途,以及定義任務,其中注視可以是用戶動作的有用的預測器。
3 解決方案
首先選擇移動端進行研究,因為目前比較普遍的移動設備比如智能手機、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動設備相對于其他平臺具有以下優(yōu)勢:
1)使用的廣泛性。據(jù)估計,到2019年,世界上超過三分之一的人口擁有智能手機,遠遠超過臺式機/筆記本電腦用戶;
2)軟硬件技術升級的采用率較高。大部分的移動設備具有允許使用擁有計算復雜數(shù)據(jù)方法的實時的最新軟硬件;
3)移動設備上相機的大量使用已經(jīng)導致相機技術的快速開發(fā)和部署;
4)相機相對于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準跟蹤應用。
3.1 注視類型分析
注視估計方法可以分為基于模型或基于外觀[6]?;谀P偷姆椒ㄊ褂醚劬Φ膸缀文P?,并且可以被細分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質量和可變的照明條件。基于外觀的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認為需要更大量的用戶特定的訓練數(shù)據(jù)。通過使用深度學習和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實現(xiàn)準確的無校準注視估計。這種方案提出建立一個基于外觀的數(shù)據(jù)模型,而不使用任何手工設計的功能,例如頭部姿勢或眼球中心位置。
3.2 技術方案
深度學習的最近成功在計算機視覺的各種領域中是顯而易見的,但是它對改善眼睛跟蹤性能的影響還是相當有限。因為深度學習是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的稻菁比較有限,最大的數(shù)據(jù)集通常只是具有50個受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學習進行研究的一套方案,就是構造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡資源構造一個大規(guī)模的基于移動的眼動跟蹤數(shù)據(jù)集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運動下記錄[7]。運用現(xiàn)有的智能算法得到一個可以進行卷積神經(jīng)網(wǎng)絡學習端到端的注視預測的后臺決策網(wǎng)絡。不依賴任何預先存在的系統(tǒng),不需要頭部姿態(tài)估計或其他手動設計的特征用于預測。使用只有雙眼和臉部的特征訓練網(wǎng)絡,在這個領域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡在精度方面實現(xiàn)了很先進的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動設備上實時使用。 為了解決這個問題,需要培養(yǎng)學習得到一個更小更快的網(wǎng)絡,在移動設備上實現(xiàn)實時性能,使得精度損失進一步降低。
3.3 大規(guī)模數(shù)據(jù)集
為了達到這一方案的預測效果,首先要進行的是數(shù)據(jù)集的建立。網(wǎng)絡上相關的研究中有許多公開的注視數(shù)據(jù)集[8]。總結對比這些相關的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢變化或具有粗略的注視點采樣密度。需要對這些數(shù)據(jù)進行篩選,使得到的數(shù)據(jù)具有隨機分布特點。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當有限。大多數(shù)現(xiàn)有的眼動追蹤數(shù)據(jù)集已經(jīng)由邀請實驗室參與者的研究人員收集,這一過程導致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過卷積神經(jīng)網(wǎng)絡有效地識別人臉(他們的眼睛)上的細粒度差異,從而做出準確的預測。
收集眼動跟蹤數(shù)據(jù)應該注意的方面:
1)可擴展性。數(shù)據(jù)應該是自然條件下的使得用戶具有靈活性;
2)可靠性。運用現(xiàn)有的智能移動設備真實的應用圖像而非設計處理過的圖像;
3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應各種環(huán)境下的操作。
4 結束語
文章介紹了一種針對移動設備的用戶注視行為推測解決方案。首先建立一個大規(guī)模眼動跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓練用于眼睛跟蹤的魯棒模型。然后,訓練得到一個深層卷積神經(jīng)網(wǎng)絡,用于預測注視。通過仔細的評估,利用深度學習可以魯棒地預測注視,達到一個較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個世紀,相信這種新方案的策略可以作為下一代眼動跟蹤解決方案的關鍵基準。希望能通過這方面的研究,使人機交互得到更好的發(fā)展。
參考文獻:
[1] 崔耀 視控人機交互系統(tǒng)技術研究與實現(xiàn)[D].西安,西安電子科技大學,2013.
[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機械工業(yè)出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術研究 [D].山東:山東大學,2012.
關鍵詞:堆疊去噪自編碼器;垃圾郵件;分類;支持向量機;貝葉斯方法
中圖分類號: TP393.098
文獻標志碼:A
0引言
電子郵件因為易于使用、速度快、溝通方便等原因,已經(jīng)成為人們重要的聯(lián)系方式,但與此同時,垃圾郵件的數(shù)量卻急劇地增加:卡巴斯基實驗室的研究發(fā)現(xiàn),2014年第1季度的垃圾郵件數(shù)目占總郵件的66.34%;McAfee實驗室2015年2月的威脅報告表明,2014年,垃圾郵件數(shù)量大概為31.2萬億,占該年郵件總量的69.02%。其中大部分垃圾郵件帶有商業(yè)性質,但有些郵件可能會包含病毒和其他具有危害性質的內容,給用戶帶來精力的損耗和財力上的損失,文獻[1]表明,由于垃圾郵件的原因,美國接近360萬用戶的損失高達32億美元。大量的垃圾郵件同時造成帶寬浪費和郵件系統(tǒng)超載。
垃圾郵件過濾方法用來解決上述問題。垃圾郵件過濾的目的是為了隔離垃圾郵件和合法郵件。一般的過濾方式包括:郵件客戶端擴展和郵件服務終端過濾過程,簡單郵件傳送協(xié)議(Simple Mail Transfer Protocol,SMTP)和基于機器學習算法的方法是最常用的垃圾郵件過濾方法。一般來說,基于SMTP的過濾方法通常是指SMTP流量的檢測、電子郵件交換路由驗證和經(jīng)過身份驗證的SMTP會話?;趩l(fā)式規(guī)則的方法、黑名單/白名單的方法、協(xié)同垃圾郵件過濾也可以用來過濾垃圾郵件。機器學習方法包括郵件的分析和分類算法的部署。
文獻[2]表明在諸多過濾方法中,機器學習算法獲得更多的應用和更好的性能。貝葉斯過濾器因為計算效率高、過濾性能良好得到了廣泛的應用,文獻[3]比較了7個版本的貝葉斯過濾器,得出布爾樸素貝葉斯(Boolean Naive Bayes)、多項式布爾樸素貝葉斯(Multinomial Boolean Naive Bayes)、基本樸素貝葉斯(Basic Naive Bayes)具有較好的性能;文獻[4]提出了一些方法用來改進樸素貝葉斯過濾器,提高了過濾器的準確率; 文獻[5]將不同種類核函數(shù)和數(shù)據(jù)表示的支持向量機應用到垃圾郵件過濾中;文獻[6]提出了混合Taguchi方法、Staelin方法來優(yōu)化支持向量機參數(shù)的選擇過程,并且提高了準確率。其他的諸如隨機隨林、人工神經(jīng)網(wǎng)絡、提升方法(boosting)和裝袋(bagging)等方法也被應用到了垃圾郵件過濾。近年來隨著社交網(wǎng)絡、云計算、網(wǎng)格計算、語義網(wǎng)絡等技術的發(fā)展,出現(xiàn)了許多基于上述技術的垃圾郵件分類器;隨著垃圾郵件中圖像的增加,出現(xiàn)了基于圖像的垃圾郵件分類器,文獻[7]對新技術和圖像分類應用進行了介紹。文獻[8]比較了不同的特征選擇和降維技術對垃圾郵件過濾的影響。文獻[9]研究表明:相對支持向量機(Support Vector Machine, SVM)、提升方法(boosting)、最大熵方法等“淺層學習”方法而言,深度學習所學得的模型中,非線性操作的層級數(shù)更多。 淺層學習依靠人工經(jīng)驗抽取樣本特征,網(wǎng)絡模型學習后獲得的是沒有層次結構的單層特征;而深度學習通過對原始信號進行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間,自動地學習得到層次化的特征表示。
去噪自編碼器(Denoising Autoencoder, DA)是深度學習中的變形結構,和受限玻爾茲曼機、自編碼器[9](Autoencoder)一樣作為深度學習架構中的訓練模塊,具有良好的學習數(shù)據(jù)集特征的能力。通過多個DA的堆疊可形成堆疊去噪自編碼器(Stacked Denoising Autoencoder,SDA) [10]。SDA訓練過程中的無監(jiān)督學習過程和對數(shù)據(jù)的破壞過程,能進一步學習到數(shù)據(jù)集中的特征和數(shù)據(jù)結構,同時學習得到的隱含表示更適用于有監(jiān)督分類。文獻[11]的研究表明,在大部分情況下,SDA要優(yōu)于深度置信網(wǎng)絡[9](Deep Belief Network, DBN),并且因為SDA不需要吉布斯采樣,所以訓練更加容易。
本文將一個5層神經(jīng)網(wǎng)絡結構的堆疊去噪自編碼器應用到垃圾郵件過濾,在6個公開數(shù)據(jù)集上進行測試,使用準確率、召回率和馬修斯相關系數(shù)作為測量標準,與在垃圾郵件過濾中應用最為廣泛的支持向量機算法、3種貝葉斯算法和DBN進行比較。結果表明,相對于其他幾種算法:堆疊去噪自編碼具有最好的平均性能和較好的預測能力。
1堆疊去噪自編碼器
1.1去噪自編碼器
自編碼器 (Autoencoder) [9]的學習只是簡單地保留原始輸入數(shù)據(jù)的信息,并不能確保獲得一種有用的特征表示。因為自編碼器可能僅僅簡單地拷貝原始輸入,或者簡單地選取能夠稍微改變重構誤差,卻不包含特別有用信息的特征。為了避免上述情況,并且能夠學習更好的特征表示,需要給數(shù)據(jù)表示一定的約束。去噪自編碼器可以通過重構含有噪聲的輸入數(shù)據(jù)來解決該問題。
去噪自編碼器所要實現(xiàn)的功能就是學習疊加噪聲的原始數(shù)據(jù),而它學習到的特征與從未疊加噪聲的數(shù)據(jù)學到的特征幾乎一樣, 但去噪自編碼器從疊加噪聲的輸入中學習得到的特征更具魯棒性,并且可以避免自編碼器遇到的上述問題,簡單地學習相同的特征值。
去噪自編碼器通過一個隨機的映射變換x~qD(x′|x),對原始輸入數(shù)據(jù)x進行“破壞”,從而得到一個有部分損壞的數(shù)據(jù)x′, 其中D表示數(shù)據(jù)集。
去噪自編碼器由編碼器(encoder)、解碼器(decoder)和隱含層組成。編碼器是輸入x∈[0,1]d 的”破壞”版本x′到隱含表示 y∈[0,1]d′的映射,表示為:
y=fθ(x)=s(Wx′+b)(1
這個映射的參數(shù)集合是θ={W,b},s是一個非線性的函數(shù),例如sigmoid,W是一個的d×d′權值矩陣, b是一個偏置向量。
解碼器函數(shù)gθ′(y)將隱含表示映射回重構表示z∈[0,1]d,表示為:
z=gθ′(y)=s(W′y+b′)(2
這個映射的參數(shù)集合是θ′={W′,b′},逆映射的權值矩陣W′可被約束為權值矩陣W的轉置:即W′=WT,被稱為去噪自編碼器捆綁權重。b′是一個偏置向量。
這樣每個訓練樣例x(i)被映射成一個y(i)和一個重構表示z(i),然后通過不斷地調準優(yōu)化這個模型的所有參數(shù),從而獲得最小平均重構誤差:
L(x,z)=x-z2(3)
使z盡可能地接近初始輸入x,并且z是x′的函數(shù)。 定義聯(lián)合分布函數(shù)為:
q0(X,X′,Y)=q0(X)qD(X′X)δfθ(X′)(Y)(4)
其中:X,X′,Y是隨機變量,Y是X′的映射函數(shù), q0(X,X′,Y)以θ為參數(shù)。這時就可以通過梯度下降算法最小化目標函數(shù):
arg minθ,θ′ Eq0(X,X′)[L(X,gθ′(fθ(X′)))](5
去噪自編碼器的結構圖如圖1所示。
圖片
圖1去噪自編碼器結構
1.2堆疊去噪自編碼器
深度神經(jīng)網(wǎng)絡可以分為3類:1)生成性深度結構,描述數(shù)據(jù)和相應類別的聯(lián)合概率分布,如DBN; 2)區(qū)分性深度結構,提供對模式分類的區(qū)分性能力,通常描述數(shù)據(jù)的后驗分布,如卷積網(wǎng)絡和堆疊去噪自編碼器; 3)混合型結構,目標是區(qū)分性的,但通常利用生成型結構的輸出會更易優(yōu)化。
通常情況下,由于網(wǎng)絡權值的隨機初始化,基于梯度的優(yōu)化容易陷入局部最小值。文獻[12]提出了一種新的貪婪逐層非監(jiān)督算法來初始化深度學習網(wǎng)絡,文獻[10]使用此算法來初始化基于降噪自編碼器的堆疊去噪自編碼器。訓練整個網(wǎng)絡的參數(shù)后,在使用基于梯度的算法如梯度下降法來微調網(wǎng)絡參數(shù)。SDA初始化方法的有效性[13]在多個數(shù)據(jù)集中得到驗證。正如受限玻爾茲曼機的堆疊形成深度置信網(wǎng)絡,去噪自編碼器的堆疊可形成堆疊去噪自編碼器。用疊加噪聲輸入訓練每層網(wǎng)絡的去噪能力,這樣訓練出來的每層編碼器可作為一個具有容錯性能的特征提取器,同時學習得到的特征表示具有更好的健壯性。
SDA 的網(wǎng)絡結構如圖2 所示。通過圖1中的步驟首先破壞原始數(shù)據(jù),然后最小化重構誤差,訓練第1層去噪自編碼器,從而學習得到了編碼器函數(shù)fθ。接下來使用此函數(shù)學習原始的數(shù)據(jù)(如圖2(a)所示),得到的結果作為第2層去噪自編碼器的輸入,用來訓練第2層的去噪自編碼器(如圖2(b)所示),從而學習到第2層的編碼器函數(shù)f(2)θ。然后重復這一過程(如圖2(c)所示),直至所有的去噪編碼器層都已經(jīng)訓練完成為止。
圖片
圖2堆疊去噪自編碼器的結構
為了讓堆疊去噪編碼器具有分類識別的功能,需要在堆疊自編碼器神經(jīng)網(wǎng)絡的最后一個隱藏層之后加個sigmoid分類器,將整個神經(jīng)網(wǎng)絡訓練成能完成分層特征提取和數(shù)據(jù)分類任務的多重感知器。然后利用有監(jiān)督學習規(guī)則,在監(jiān)督學習損失函數(shù)上使用梯度下降算法,實施微調,最小化預測目標的誤差,不斷調整整個網(wǎng)絡的參數(shù)。微調結構如圖3所示。
圖片
圖3分類深度網(wǎng)絡的微調結構
2堆疊去噪自編碼器實現(xiàn)
2.1堆疊去噪自編碼器的參數(shù)更新
去噪自編碼器的最終目的是找出模型最合適的參數(shù),可以按照如下步驟更新參數(shù)。
初始化模型參數(shù):輸入數(shù)據(jù)、可視節(jié)點個數(shù)、隱層節(jié)點個數(shù)、輸入數(shù)據(jù)破壞比例和更新的學習率(learning rate),權值矩陣和偏置向量;根據(jù)數(shù)據(jù)破壞比例,隨機選取原始數(shù)據(jù),將其值設置為0,達到破壞數(shù)據(jù)的目的;使用sigmoid函數(shù)計算輸入數(shù)據(jù)的隱藏表示和重構表示;計算輸入數(shù)據(jù)的重構誤差;對重構誤差使用梯度下降算法,更新參數(shù)。具體過程如算法1。
算法1Denoising AutoEncoder。
程序前
輸入: X, n_vis, n_hid, c_r, l_r;
輸出: W, b, b′。
X′=get_corrupted_input(X, c_r)
1
for iter from 1 to iteration
2)
Y=get_hidden_units(X′, W, b)
3)
Z=get_reconstruction_units(Y, W, b′)
4)
cost=get_cost(X, Z)
5)
for param in parameters(W, b, b′)
6)
gparam=get_gradient(cost, param)
7)
param=param-l_r * gparam
8)
end for
9)
end for
程序后
2.2堆疊去噪自編碼器的預訓練
在堆疊去噪自編碼器的預訓練步驟中,首先應該確定隱藏層的數(shù)目,一般情況下,使用3層的去噪自編碼器構成深度學習網(wǎng)絡來訓練堆疊去噪自編碼器;每一層都訓練成去噪自編碼器,并且通過最小化重構誤差,更新參數(shù)10次以上。第i-1層的輸出即為第i層的輸入,這樣通過自底向上的方式訓練堆疊去噪自編碼器。每一層的數(shù)據(jù)破壞比例和隱藏節(jié)點個數(shù)可以互不相同;最后獲取整個網(wǎng)絡的參數(shù)。訓練步驟如算法2。
算法2Pretrain Step。
程序前
輸入:X,n_layers, n_vis, n_hid[n_layers],c_r[n_layers], l_r[n_layers];
輸出:dA_layers[n_layers], Y_out=X。
1
for i from 1 to n_layers
2)
X′=get_corrupted_input(Y_out,c_r[i])
3)
for iter from 1 to iteration
4)
Y=get_hidden_units(X′,W[i],b[i])
5)
Z=get_reconstruction_units(Y,W[i], b′[i])
6)
cost=get_cost(Y_out, Z)
7)
for param in parameters(W[i], b[i], b′[i])
8)
gparam=get_gradient(cost,param)
9)
param=param-l_r[i] * gparam
10)
end for
11)
end for
12)
Y_out=Y
13)
end for
程序后
2.3堆疊去噪自編碼器的微調
在堆疊去噪自編碼器的微調過程中,使用有監(jiān)督學習方法優(yōu)化從預訓練步驟中獲得的模型參數(shù)。由于最后一個隱含層只能輸出原始數(shù)據(jù)的重構,因而不具有分類識別功能。為了讓堆疊去噪編碼器具有分類識別的功能,需要在完成微調的神經(jīng)網(wǎng)絡的輸出層之后加入sigmoid分類器,將整個神經(jīng)網(wǎng)絡訓練成能完成分層特征提取和數(shù)據(jù)分類任務的多重感知器。多重感知器的sigmoid層的參數(shù)和預訓練步驟中去噪自編碼器的sigmoid函數(shù)具有相同的參數(shù),因此可以通過最小化多重感知器的預測錯誤來不斷微調模型的參數(shù)。微調步驟作用在整個堆疊去噪自編碼器過程。微調的過程如算法3。
算法3Fine Tuning Step。
程序前
input: train_batches, test_batches, iteration, l_r
1
while iter < iteration do
2)
for batch in train_batches
3)
cost=get_finetuning_cost(X)
4)
for i from 1 to n_layers
5)
for param in parameters(W[i], b[i], b′[i])
6)
gparam=get_gradient(cost, param)
7)
param=param-l_r[i]*gparam
8)
end for
9)
end for
10)
valid_error=get_valid_error(batch)
11)
if valid_error
12)
update best_valid_error
13)
test_error=get_test_error(test_batches)
14)
if test_error
15)
update best_test_error
16)
end if
17)
end if
18)
end for
19)
end while
程序后
3實驗與分析
3.1數(shù)據(jù)集
3.1.1數(shù)據(jù)集描述
實驗中使用了6個著名的、數(shù)據(jù)量比較大的、公開的數(shù)據(jù)集Enron[14]。其中Enron1、Enron2和Enron3的合法郵件占多數(shù),而Enron4、Enron5和Enron6的垃圾郵件占多數(shù)。Enron數(shù)據(jù)集中正常郵件是從Enron公司的前員工的郵箱中收集的,垃圾郵件則有不同的來源。6個數(shù)據(jù)集的具體組成如表1。
3.1.2數(shù)據(jù)集預處理
1)分別從垃圾郵件文件夾和合法郵件文件夾,按照30%的比例隨機選取文件,然后合起來作為測試集,剩余的70%合起來作為訓練集。
2)分別對訓練集和測試集進行分詞處理,字母小寫化和去除停用詞。
3)將訓練集和測試集表示為詞頻逆文檔(Term FrequencyInverse Document Frequency, TFIDF)的向量形式。
4)使用特征值提取技術對特征值進行提取,選取3000個特征值作為實驗特征。
3.2實驗性能測量標準
比較出名的性能指標有垃圾郵件準確率(Spamming precision, Spr),垃圾郵件召回率(Spamming recall, Sre),合法郵件準確率(Legitimate email precision, Lpr),合法郵件召回率(Legitimate email recall, Lre),準確率(Accuracy, Acc)。在分類時,垃圾郵件的類標設置為1(正例),合法郵件的類標設置為0(負例)。其中分類的混淆矩陣(confusion matrix)如表2所示,真正例(True Positive, TP),假負例(False Negtive, FN),假正例(False Positive, FP),真負例(True Negtive, TN)。
表格(有表名)
文獻[15]的研究表明,在機器學習的分類問題中,馬修斯相關系數(shù)(Matthews Correlation Coefficient,MCC)是最好的性能測試指標之一。相比其他的指標,MCC對于準確率提供了更為平衡的測量。MCC值的返回值介于-1和+1之間:+1,表明是完美的預測;0,表明是隨機的預測;-1,則表明是一個相反的預測。MCC的計算式如下:
MCC=TP*TN-FP*FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)(6
MCC同時提供了相對合理的評價:現(xiàn)實情況下,垃圾郵件的數(shù)目要比合法郵件的數(shù)目更高,因此MCC可以自動調整一個假正例(即合法郵件分類為垃圾郵件)錯誤相對于一個假負例錯誤的嚴重程度,隨著垃圾郵件相對于合法郵件的比例的上升,一個假正例錯誤會比一個假負例錯誤更加嚴重,即MCC值會降低。
3.3實驗結果與分析
3.3.1隱藏層節(jié)點數(shù)目選擇對實驗的影響
由文獻[10-11]中一系列的參數(shù)實驗可以總結出,在大部分數(shù)據(jù)集上,SDA一般使用三層隱藏層就可以達到較優(yōu)的效果,因此本文中使用三層的隱藏層。
首先指出,圖4和圖5中的最低點Acc值是0.7101。這種情況是SDA把所有的郵件都分類為垃圾郵件。圖4中,350,650,950是第一層隱藏層的節(jié)點數(shù)目,30表示第三層隱藏層的節(jié)點數(shù)目;圖5中,350,650,950是第一層隱藏層的節(jié)點數(shù)目,500表示第二層隱藏層的節(jié)點數(shù)目。
圖4中,固定第一、三隱藏層的節(jié)點數(shù)目,SDA在數(shù)據(jù)集Enron 5上的Acc值隨著第二層隱藏層節(jié)點數(shù)目的改變而變化。從圖4中可看出,固定第一、三隱藏層節(jié)點數(shù)目時,當?shù)诙庸?jié)點個數(shù)過小或者過大時,Acc值會達到最低點0.7101,而第二層節(jié)點個數(shù)處于兩者之間時,Acc值正常波動。第二、三隱藏層節(jié)點固定時,可以看出,當?shù)谝粚拥墓?jié)點數(shù)目越大時,第二層隱藏層節(jié)點的數(shù)目受到的限制更大。
對于圖4中出現(xiàn)的隨著第二層隱藏層節(jié)點數(shù)目的增加,Acc值會降至最低,可以通過改變第三層隱藏層節(jié)點數(shù)目來改變。圖5中,固定第一、二隱藏層節(jié)點的數(shù)目,SDA在數(shù)據(jù)集Enron 5上的Acc值隨著第三層節(jié)點數(shù)目的改變而變化。可以看出,為了取得較優(yōu)的結果,第一層隱藏層的節(jié)點數(shù)越多,第三隱藏層需要的節(jié)點數(shù)也越多。
3.3.2在6個數(shù)據(jù)集上的實驗結果
為了書寫方便,下面描述中,Basic表示基本樸素貝葉斯方法、Bool表示布爾樸素貝葉斯方法、MN Bool表示多項式布爾樸素貝葉斯方法。
在6個Enron 數(shù)據(jù)集上的實驗結果如表3~8所示,其中加下劃線的數(shù)據(jù)表示該實驗中最大的MCC值。
表格(有表名)
表3Enron1上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic91.3385.0993.4896.3692.860.831
Bool96.0051.6163.3297.4972.780.540
MN Bool82.6762.0079.3591.8280.310.578
SVM83.3387.4195.1193.7091.700.796
DBN91.5690.7596.1996.5494.850.875
SDA90.2292.9197.1896.0595.160.882
表格(有表名)
表4Enron2上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic80.0097.5799.3193.5394.380.850
Bool95.3381.2592.4598.3093.190.836
MN Bool74.0098.2399.5491.7793.020.814
SVM90.6790.6796.8096.8095.230.875
DBN95.9891.6897.0298.6096.750.916
SDA95.9895.5698.4798.6297.830.943
表格(有表名)
表5Enron3上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic57.33100.00100.0086.2788.410.703
Bool99.3399.3399.7599.7599.640.991
MN Bool62.00100.00100.0087.5889.670.737
SVM91.3396.4898.7696.8396.740.917
DBN96.4489.6795.8498.6396.000.903
SDA92.6799.2999.7597.3297.820.945
表格(有表名)
表6Enron4上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic94.67100.00100.0086.2196.000.903
Bool98.00100.00100.0094.3498.500.962
MN Bool96.89100.00100.0091.4697.670.941
SVM98.89100.00100.0096.7799.170.978
DBN96.9697.9894.0091.1696.220.901
SDA99.9397.2691.5699.7697.840.942
表格(有表名)
表7Enron5上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic89.6798.8097.3379.3591.890.825
Bool87.23100.00100.0076.1490.930.815
MN Bool94.29100.00100.0087.7295.950.909
SVM89.4099.7099.3379.2692.280.837
DBN96.3799.4498.6791.7497.040.931
SDA98.7399.4598.6796.9498.710.969
表格(有表名)
表8Enron6上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic86.0098.9897.3369.8688.330.757
Bool66.8999.6799.3350.0075.000.574
MN Bool92.8997.2192.0081.1892.670.816
SVM89.7895.2886.6773.8690.050.727
DBN96.3798.5695.7589.7996.210.902
SDA99.0498.4595.3397.0698.110.949
通過觀察6個數(shù)據(jù)集6種分類器的實驗數(shù)據(jù)可以分析:在實驗的大部分數(shù)據(jù)集上,SDA垃圾郵件過濾器的性能超過了其他幾種分類器。同時在有些情況下SDA的過濾效果遠遠地優(yōu)于SVM和NB分類器:比如在Enron6數(shù)據(jù)集上的結果表明,SDA的垃圾郵件召回率達到了99.04%,而SVM卻只達到了89.78%。這意味著在Enron6數(shù)據(jù)集上,SDA要比SVM多識別9.26%的垃圾郵件,同時因為具有比SVM更好的合法郵件召回率,所以相對于SVM,SDA垃圾郵件過濾的總體性能提升要大于9%。在實際的應用中,這些差異將會非常重要。這種對比現(xiàn)象在數(shù)據(jù)集Enron1、Enron2、Enron3和Enron5也可以得到。在數(shù)據(jù)集Enron4上,SDA過濾效果稍遜于SVM,但是相差不大。
對于實驗中所有樸素貝葉斯過濾器,實驗數(shù)據(jù)表明它們之間達到了相似的結果,并且不具有太大的差異性。相對堆疊去噪自編碼器過濾器和支持向量機過濾器在所有的數(shù)據(jù)集上的準確率(Acc)達到90%以上,而基于樸素貝葉斯方法的過濾效果要差些。
實驗中的DBN的分類效果,總體上要優(yōu)于其他4幾種分類器,但是SDA的分類效果要稍微優(yōu)于DBN。
表中的實驗數(shù)據(jù)表明堆疊去噪自編碼器在垃圾郵件過濾中具有更好的效果:在實驗的所有數(shù)據(jù)集上,堆疊去噪自編碼器的準確率(Acc)都高于95%;在實驗的所有數(shù)據(jù)集上,堆疊去噪自編碼器的MCC值都高于0.88,這表明堆疊去噪自編碼器應用于垃圾郵件過濾中取得相對完美的預測。上述結果表明將堆疊去噪自編碼器應用到垃圾郵件過濾中是可行的。
4結語
本文提出了一種新的基于堆疊去噪自編碼器的垃圾郵件分類器。在6個著名的、數(shù)據(jù)量較大的、公開的數(shù)據(jù)集上進行測試,將實驗結果同基于支持向量機和貝葉斯方法的垃圾郵件過濾器的結果進行比較。對比分析表明,本文所提出的垃圾郵件過濾器表現(xiàn)出更好的性能。特別是基于堆疊去噪自編碼器的垃圾郵件分類器在6個數(shù)據(jù)集上具有最好的平均性能并且準確率(Acc)都高于95%。這些表明將堆疊去噪自編碼器應用到垃圾郵件過濾中是可行的。
未來的工作將會集中在以下3個方面:1)如何更好地選擇深度置信網(wǎng)絡隱藏層數(shù)以及每層的單元個數(shù),如何選擇學習率等參數(shù)來提高算法的性能。2)在諸如TRE05、TRE06、TRE07等更大的數(shù)據(jù)集上進行更多的實驗來驗證實驗結果,同時也希望同一些諸如Bogo filter、Spam Assassin等開源和商業(yè)垃圾郵件過濾器進行比較。3)應把垃圾郵件過濾看作是共同進化問題,因為垃圾郵件過濾器努力提高預測能力的同時,垃圾郵件遞送者也不斷地改變垃圾郵件內容的表現(xiàn)形式以達到欺騙過濾器的目的,因此一個有效的垃圾郵件過濾器應該能夠有效地檢測垃圾郵件特征的變化,從而不斷地調整自身的規(guī)則。
參考文獻:
[1]GARTNER. Gartner survey shows phishing attacks escalated in 2007; more than $3 billion lost to these attacks[EB/OL].[20150220].http:///it/page.jsp?id=565125.
關鍵詞:句子相似度計算;Word2Vector;編輯距離;Edit Distance
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2017)05-0146-02
1 背景
句子的相似度計算在自然語言處理中有著十分廣泛的運用。例如,機器翻譯中相似性文檔的判斷和提取,在問答系統(tǒng)中相似性問題的匹配或者問題與答案之間的匹配判斷等。對于這個相似度的刻畫,主要分為幾個不同的等級,具體為語法層面的相似度,語義層面的相似度,與語用層面的相似度。其計算難度也是層層遞進。在具體的應用中,只要能達到語義層面的判斷基本上就可以達到基本的需求了。目前對句子的語義層面的相似度計算方法主要有基于相同詞匯的方法,使用語義詞典的方法、使用編輯距離的方法,以及基于統(tǒng)計的方法等。其中,基于相同詞匯的方法比較簡單,但是其缺點也十分的明顯,就是對于句子中同義詞的判斷存在不足。相對于基于相同詞匯的方法,使用語義詞典可以很好的處理句子中同義詞的情形,但是語義詞典也存在著需要不斷地更新和維護詞典庫的缺點,而且如果只是單一的使用語義詞典會缺乏對句子本身結構的分析,對最后的計算結果也有較大的影響。編輯距離一般使用在對句子的快速模糊匹配上,由于其規(guī)定的編輯操作有限,而且對于同義詞的替換也缺乏判斷,因此最后的準確率也不是很理想。本文基于編輯距離的方法,利用深度學習模型Word2Vector來增強其編輯操作的靈活程度,從而克服了單純使用編輯距離對句子的語義理解不足的缺點。本文的第一部分主要介紹了相關的算法和基礎知識。第二部分主要描述了基于Word2Vector與編輯距離的句子相似度計算方法,第三部分給出了測試結果以及對該方法的優(yōu)缺點討論,最后第四部分是結語。
編輯距離方法是指兩個句子間,由一個句子轉換到另一個句子所需的最少的編輯操作次數(shù)。這里的編輯操作共有“插入”、“刪除”和“替換”三種。例如:
我是中國人 -> 你是中國人 (把“我”替換為“你”)
我是中國人 -> 我愛中國人 (把“是”替換為“愛”)
我是中國人 -> 是中國人(把”我”刪除)
利用這種方法對兩個句子進行相似度比較就像引言中分析的,其優(yōu)點是簡單,速度快。但是缺點也十分明顯,由于編輯操作缺乏一定的靈活性,使得其無法進一步的判斷語義層面的含義,比如同義詞,同類、異類詞等,因此,該方法適合于句子間的模糊匹配。
2.2 Word2Vector
Word2Vector是一種將詞匯表示轉化為空間向量的技術,主要利用了深度學習的思想對語料進行訓練,通過將句子進行分詞,然后將每個詞匯映射成N維的向量,這樣可以將兩個詞匯的相似度比較轉化為對兩個向量的相似度比較,可以利用cosine 相似度、歐氏距離等數(shù)學工具對詞匯進行語義分析,其采用了一個具有三層的神經(jīng)網(wǎng)絡,并且根據(jù)詞頻用Huffman編碼技術將相似詞頻詞匯的隱藏層激活的內容出于大致相同的位置,如果哪個詞匯出現(xiàn)的頻率很高,那么它激活的隱藏層的數(shù)目就很少,通過這樣處理可以使得計算的復雜度大幅度的降低。最后,通過Kmeans聚類方法,將相似的詞向量聚在一起,最后形成了Word2Vector的詞聚類模型。
Word2Vector的輸出結果可以利用在NLP的很多地方,比如聚類,查找一個詞的同義詞,或者進行詞性的分析等。
3 基于Word2Vector與編輯距離的句子相似度計算方法
3.1 問題描述
3.3 按照Word2Vector的詞向量距離來定義編輯操作的系數(shù)
由Word2Vector訓練好的模型會將各個詞匯生成一個與其相對應的詞向量,計算兩個詞匯對應的詞向量便可以知道這兩個詞匯的相似度。如果值為1,說明這兩個詞匯完全一致,如果為0,則表示完全沒有關系。
這里考慮一種情形,當利用替換操作進行兩個詞匯的替換時,如果兩個詞匯意思是相近的,那么它的替換代價會相應的低一點,反之,則會相應的高。舉個例子:
我愛故宮
我愛天安門
我愛蘋果
這三個句子我們可以知道1,2兩句更加的接近,因為它代表的都是景點。因此待匹配的句子1應該會匹配上句子2。為了將詞語的相似度考慮進去,這里引入Word2Vector的詞向量來改進替換操作的系數(shù)。
假設兩個詞匯的向量距離為k,k∈[0,1]??紤]到k的值的大小與編輯距離的大小是相反的,這里將更新后的替換操作的系數(shù)設定為1/(1+k)。這樣更新后的替換操作會根據(jù)不同詞匯之間的距離發(fā)生變化,變化范圍在[0.5,1]之間。而且這個值的范圍不會打破編輯操作里面的平衡,即替換=插入+刪除。更新后的編輯距離公式L=a+1/(1+k)*b + c。
4 實驗及結果分析
為了驗證改進的編輯距離算法的有效性,本文自行構造了實驗所需的句子集合,本文所用的測試句子一共有400句。其中380句為來自各個不同領域類型的句子。比如,體育,娛樂,軍事,文化,科技,教育等。另外20句為沒有意義的干擾句。這里從380個句子中挑選100句作為參考句子,通過人工評價,比較測試結果。這里評價按照結果的質量分為3類:1、準確,2、相關,3、不相關。其中查準率P的定義如下所示:
通過實驗可以發(fā)現(xiàn),經(jīng)過改進的編輯距離句子相似度匹配算法在準確度上有了一定的提高和改進,其中原因便是調整后的編輯距離算法將同義詞近義詞等通過詞向量給計算出來。但是在實驗中也發(fā)現(xiàn)了一個現(xiàn)象,就是相對來說判斷準確的句子都是一些短小句,即長度不是很長的句子,而判斷不相關的句子明顯長度要更長一些。事實也是如此,當句子的長度較長時,通過分詞將一個句子分為一個個短的詞匯來利用詞向量來理解會破壞句子的整體含義。
5 結束語
本文通過利用Word2Vector模型將詞向量計算引入到編輯距離算法的編輯操作中,從而使得改進后的編輯算法對句子具有一定的語義理解能力。通過實驗也比較好的驗證了此方法的有效性,尤其是對近義詞與同義詞的理解上有了很大的提升,而算法本身的時間復雜度相較于編輯距離算法則沒有改變多少。
另外,通過實驗也發(fā)現(xiàn),此方法對短句子的效果非常的明顯,而對于一些長句則還是具有較大的誤差。從對句子本身的分析角度上看,還需要通過對句子進行建模才可以達到比較好的理解匹配。
參考文獻:
[1] 李彬, 劉挺, 秦兵, 等. 基于語義依存的漢語句子相似度計算[J]. 計算機應用研究, 2003, 20(12): 15-17.
[2] 孔勝, 王宇. 基于句子相似度的文本主題句提取算法研究[J]. 情報學報, 2011, 30(6): 605-609.
[3] 賈明靜, 董日壯, 段良濤. 問句相似度計算綜述[J]. 電腦知識與技術: 學術交流, 2014 (11): 7434-7437.
[4] 賈熹濱, 李寧, 靳亞. 用于文本情感極性分析的動態(tài)卷積神經(jīng)網(wǎng)絡超限學習算法[J]. 北京工業(yè)大學學報, 2017, 43(1): 28-35.
[5] Xu G, Cao Y, Zhang Y, et al. TRM: Computing Reputation Score by Mining Reviews[J]. 2015.
[6] 萬翔, 劉挺, 秦兵, 等. 基于改進編輯距離的中文相似句子檢索[J]. 高技術通訊, 2004, 14(7): 15-19.
[7] 汪衛(wèi)明, 梁東鶯. 基于語義依存關系匹配的漢語句子相似度計算[J]. 深圳信息職業(yè)技術學院學報, 2014 (1): 56-61.
[8] 裴婧, 包宏. 漢語句子相似度計算在 FAQ 中的應用[J]. 計算機工程, 2009, 35(17): 46-48.
免责声明:以上文章内容均来源于本站老师原创或网友上传,不代表本站观点,与本站立场无关,仅供学习和参考。本站不是任何杂志的官方网站,直投稿件和出版请联系出版社。
工信部备案:蜀ICP备18023296号-3 川公网安备:51010802001409 出版物经营许可证:新出发蓉零字第CH-B061号 统一信用码:91510108MA6CHFDC3Q © 版权所有:四川好花科技有限公司
免责声明:本站持有《出版物经营许可证》,主要从事期刊杂志零售,不是任何杂志官网,不涉及出版事务,特此申明。