前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)方法范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò) 現(xiàn)場可編程門陣列 并行結(jié)構(gòu)
中圖分類號:TP183 文獻標識碼:A 文章編號:1007-9416(2015)12-0000-00
1 引言
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)具有良好的處理能力、自學(xué)能力及容錯能力,可以用來處理復(fù)雜的環(huán)境信息,例如,背景情況不明,推理規(guī)則不明,樣品存有一定程度的缺陷或畸變的情況。所以,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于目標檢測、物體識別和語音分析等方面[1]?,F(xiàn)場可編程門陣列(Field Programmable Gate Array, FPGA),作為可編程使用的信號處理器件,其具有高集成度、運行高速、可靠性高及采用并行結(jié)構(gòu)的特點,易于配合CNN處理數(shù)據(jù)。
2 國內(nèi)外研究現(xiàn)狀
2.1 神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)
根據(jù)研究角度、數(shù)據(jù)傳遞方式、數(shù)據(jù)處理模式、學(xué)習(xí)方法等的不同,多種神經(jīng)網(wǎng)絡(luò)模型被構(gòu)建出來。目前主要有四種模型被廣泛應(yīng)用中[2][3]:
(1)前饋型神經(jīng)網(wǎng)絡(luò)。此類神經(jīng)元網(wǎng)絡(luò)是由觸突將神經(jīng)原進行連接的,所以網(wǎng)絡(luò)群體由全部神經(jīng)元構(gòu)成,可實現(xiàn)記憶、思維和學(xué)習(xí)。此種類型的網(wǎng)絡(luò)是有監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。(2)遞歸型神經(jīng)網(wǎng)絡(luò)。此種神經(jīng)網(wǎng)絡(luò)又稱為反饋網(wǎng)絡(luò),以多個神經(jīng)元互相連接,組織成一個互連的神經(jīng)網(wǎng)絡(luò),使得電流和信號能夠通過正向和反向進行流通。(3)隨機型神經(jīng)網(wǎng)絡(luò)。此種神經(jīng)網(wǎng)絡(luò)的運行規(guī)律是隨機的,通過有監(jiān)督學(xué)習(xí)方法進行網(wǎng)絡(luò)訓(xùn)練。(4)自組織競爭型神經(jīng)網(wǎng)絡(luò)。此種神經(jīng)網(wǎng)絡(luò)通過無監(jiān)督的學(xué)習(xí)方法進行網(wǎng)絡(luò)訓(xùn)練,一般具有兩層網(wǎng)絡(luò)結(jié)構(gòu),輸入層和競爭層。兩層間的各神經(jīng)元實現(xiàn)雙向全連接。
2.2 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法用來解決調(diào)整網(wǎng)絡(luò)權(quán)重的問題,是指完成輸入特征向量映射到輸出變量之間的算法,可以歸納為三類[4-7]:
(1)有監(jiān)督的學(xué)習(xí)。在學(xué)習(xí)開始前,向神經(jīng)網(wǎng)絡(luò)提供若干已知輸入向量和相應(yīng)目標變量構(gòu)成的樣本訓(xùn)練集,通過給定輸入值與輸出期望值和實際網(wǎng)絡(luò)輸出值之間的差來調(diào)整神經(jīng)元之間的連接權(quán)重。(2)無監(jiān)督的學(xué)習(xí)。此種學(xué)習(xí)方法只需要向神經(jīng)網(wǎng)絡(luò)提供輸入,不需要期望輸出值,神經(jīng)網(wǎng)絡(luò)能自適應(yīng)連接權(quán)重,無需外界的指導(dǎo)信息。(3)強化學(xué)習(xí)。此種算法不需要給出明確的期望輸出,而是采用評價機制來評價給定輸入所對應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出的質(zhì)量因數(shù)。外界環(huán)境對輸出結(jié)果僅給出評價結(jié)果,通過強化授獎動作來改善系統(tǒng)性能。此種學(xué)習(xí)方法是有監(jiān)督學(xué)習(xí)的特例。
2.3 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)為識別二維或三維信號而設(shè)計的一個多層次的感知器,其基本結(jié)構(gòu)包括兩種特殊的神經(jīng)元層,一為卷積層,每個神經(jīng)元的輸入與前一層的局部相連,并提取該局部的特征[8];二是池化層,用來求局部敏感性與二次特征提取的計算層[8]。作為部分連接的網(wǎng)絡(luò),最底層是卷積層(特征提取層),上層是池化層,可以繼續(xù)疊加卷積、池化或者是全連接層。
3 FPGA實現(xiàn)神經(jīng)網(wǎng)絡(luò)的并行體系結(jié)構(gòu)
(1)卷積神經(jīng)網(wǎng)絡(luò)的計算架構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)可以使用“主機”與“FPGA”相結(jié)合的體系模型,主機用來控制計算的開始和結(jié)束,并在神經(jīng)網(wǎng)絡(luò)前向傳播計算過程中,提供輸入圖像等數(shù)據(jù)。主機與FPGA之間的通信可以通過標準接口,在主機進行任務(wù)分配的過程中可以對FPGA上的卷積神經(jīng)網(wǎng)絡(luò)進行硬件加速。當(dāng)卷積神經(jīng)網(wǎng)絡(luò)開始啟動計算,通過標準接口接收到主機傳輸?shù)膱D像時,F(xiàn)PGA開始進行計算,并且使用FPGA中的存儲器來存儲卷積核權(quán)值。FPGA將會先完成卷積神經(jīng)網(wǎng)絡(luò)前向傳播過程的計算,然后將其最后一層計算得到的結(jié)果輸出給主機。(2)卷積神經(jīng)網(wǎng)絡(luò)并行體系架構(gòu)。一、單輸出并行結(jié)構(gòu):每次計算一個輸出圖像,其中會將多個輸入圖像和多個卷積核基本計算單元同時進行卷積運算,然后將全部卷積運算的結(jié)果與偏置值進行累加,再將結(jié)果輸入非線性函數(shù)和自抽樣子層進行計算。二、多輸出并行結(jié)構(gòu):若卷積神經(jīng)網(wǎng)絡(luò)的計算單元中含有多個單輸出的并行結(jié)構(gòu),那么輸入數(shù)據(jù)可同時傳送到多個單輸出計算單元的輸入端,從而組成多個單輸出計算單元組成的并行結(jié)構(gòu)。在卷積神經(jīng)網(wǎng)絡(luò)的并行計算結(jié)構(gòu)中,每個卷積核計算單元在進行卷積操作時都要進行乘加運算,所以,有必要將單個的卷積運算拆分實現(xiàn)并行化,并且可以嘗試將同一層內(nèi)的多個卷積運算進行并行化。
4 結(jié)語
本文對卷積神經(jīng)網(wǎng)絡(luò)進行了介紹,總結(jié)了國內(nèi)外的研究現(xiàn)狀,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)運算的特點與FPGA的快速計算單元數(shù)量及功能方面的優(yōu)勢,嘗試闡述了在FPGA映射過程的卷積神經(jīng)網(wǎng)絡(luò)的并行體系結(jié)構(gòu)。
參考文獻
[1] Fan J,Xu W,Wu Y,et al. Human tracking using convolutional neural networks[J].IEEE Transactions on Neural Networks,2010(10):1610-1623.
[2] 楊治明,王曉蓉,彭軍.BP神經(jīng)網(wǎng)絡(luò)在圖像分割中的應(yīng)用.計算機科學(xué)[J].2007(03):234-236.
[3] Simon Haykin . Neural networks ,a comprehensive foundation[M].second edition,Prentice Hall,1998.
[4] Herta J , et al.Introduction to Theory of Neural Compution[M].Sant Fee Complexity Science Series,1991.156.
[5] 戴奎.神經(jīng)網(wǎng)絡(luò)實現(xiàn)技術(shù)[M].長沙:國防科技大學(xué)出版社,1998.
[6] 焦李成.神經(jīng)網(wǎng)絡(luò)系統(tǒng)理論[M].西安:西安電子科技大學(xué)出版社,1996.
關(guān)鍵詞:手寫數(shù)字識別;卷積神經(jīng)網(wǎng)絡(luò);應(yīng)用
手寫體數(shù)字識別在郵政、金融等領(lǐng)域應(yīng)用廣泛。對于數(shù)字識別,人們往往要求識別器有很高的識別可靠性,數(shù)字識別的錯誤所帶來的影響比文字識別等其他識別所帶來的影響更大,特別是有關(guān)金融方面的數(shù)字識別錯誤所帶來的后果是無法想象的,識別錯一個數(shù)字,這其中的差距可能是幾的差距,也可能是幾十、幾百的差距,這些都還是小問題;但更有可能這一個數(shù)字代表的差距是幾萬、幾千萬甚至幾億乃至更多,那么這個錯誤造成的損失就無法估量了。因此,O計出有著高可靠性與高識別率的數(shù)字識別系統(tǒng)已經(jīng)成為了字符識別領(lǐng)域一個非常重要的環(huán)節(jié)。
1 網(wǎng)絡(luò)模型和數(shù)據(jù)庫及學(xué)習(xí)算法的選擇
1.1 關(guān)于Mnist數(shù)據(jù)庫的介紹
首先,Mnist是NIST數(shù)據(jù)庫的一個優(yōu)化子集。它是一個有著60000個訓(xùn)練樣本集與10000個測試樣本集的手寫體數(shù)字數(shù)據(jù)庫。此數(shù)字庫一共有4個文件。
此數(shù)字庫的所有樣本集都有圖像文件以及標簽文件。標簽文件的作用是用來儲存樣本集中的每個樣本的數(shù)值標簽,而每一個樣本的圖像數(shù)據(jù)信息則是由圖像文件存儲著。此數(shù)據(jù)庫的圖像數(shù)據(jù)均保存在二進制文件之中,且每個樣本圖像的大小均為28*28。
1.2 數(shù)字識別的模型選擇
手寫體數(shù)字雖然只有0~9十個數(shù)字,但由于寫法因人而異,不同地域同樣一個數(shù)字有多種不同的寫法,每個人都有自己的書寫習(xí)慣。且一些紙質(zhì)差異、筆畫粗細、光線問題、位置、尺度大小等等多種因素都能對輸入產(chǎn)生影響??紤]到這些因素,為讓網(wǎng)絡(luò)有良好的識別能力,我們這里采用在圖像識別領(lǐng)域有著優(yōu)秀表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)作為此數(shù)字識別系統(tǒng)的訓(xùn)練模型。
1.3 學(xué)習(xí)算法的選擇
一個優(yōu)秀的網(wǎng)絡(luò)模型必須具備良好的學(xué)習(xí)算法,每個學(xué)習(xí)網(wǎng)絡(luò)都有著相對來說較為合適自己的學(xué)習(xí)算法,而并不是說越高端的算法就越好。在此文中,我選擇的學(xué)習(xí)算法是較為成熟的BP算法。此算法在文字前面有些許介紹,此處不再多做說明。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識別系統(tǒng)的設(shè)計
2.1 輸入層以及輸出層設(shè)定
根據(jù)樣本的特征與此網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),可以大概判斷出輸入層與輸出層該如何設(shè)置。隱含層的個數(shù)可以是一個,也可以是多個,這與要分類的問題有關(guān)。
前文提及到在mnist數(shù)據(jù)庫中,所有的圖像都是28*28大小的,且以整個圖片的像素形式存儲在數(shù)據(jù)文件之中。每張圖像大小為28*28,故一個圖片像素點個數(shù)為784個。這里,卷積神經(jīng)網(wǎng)絡(luò)的輸入即為這784個像素點。
因為數(shù)字識別需要識別的是0~9這十個數(shù)字,即需要識別十種字符類別,所以將這個神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元節(jié)點數(shù)設(shè)置為10。
2.2 網(wǎng)絡(luò)的中間層設(shè)置
卷積神經(jīng)網(wǎng)絡(luò)的中間層有兩個部分,即卷積層(特征提取層)與下采樣層(特征映射層),由第二章中圖2-1所示,C1、C3為卷積層,S2、S4為降采樣層。
1)激活函數(shù)選擇
激活函數(shù)選擇sigmoid函數(shù)。同樣,在第二章有所提及。Sigmoid函數(shù)是嚴格遞增函數(shù),能較好的平衡線性與非線性之間的行為,比較貼近生物神經(jīng)元的工作。相比于其他函數(shù),sigmoid函數(shù)還存在著許多優(yōu)勢,比如光滑性、魯棒性以及它的導(dǎo)數(shù)可以用它自身來表示。
sigmoid函數(shù)為:
(1)
其中,x為神經(jīng)元凈輸入。
激活函數(shù)導(dǎo)數(shù)為:
(2)
2)卷積層設(shè)計
圖像經(jīng)過卷積核對特征圖進行卷積,之后再經(jīng)過sigmoid函數(shù)處理在卷積層得到特征映射圖。特征映射圖相比于原圖像,其特征更為明顯突出。
卷積運算其實就是一個加權(quán)求和的過程。離散卷積是本文所選取的方法,規(guī)定卷積核在水平和豎直兩個方向每次都是移動一個像素,即卷積的步長為1。
3)下采樣層的設(shè)計
根據(jù)圖像局部相關(guān)性這一原理,為了降低網(wǎng)絡(luò)的學(xué)習(xí)維度、減少需要處理的數(shù)據(jù)量且保留圖像的有用信息,可以對卷積后的圖像進行下采樣。這里,我們采取的是取卷積層4個像素點平均值為下采樣層的一個像素點的方法。這樣可以降低網(wǎng)絡(luò)規(guī)模。
2.3 網(wǎng)絡(luò)總體結(jié)構(gòu)CNN-0
根據(jù)LeNet-5結(jié)構(gòu),再結(jié)合上文中的對輸入層、輸出層、中間層的設(shè)計,完成了如圖3-1所示的基本網(wǎng)絡(luò)結(jié)構(gòu):
相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)模型。Sigmoid函數(shù)是本網(wǎng)絡(luò)中的激活函數(shù),選擇這個函數(shù)的好處在于可以讓所有層得到的輸出都在區(qū)間[-1,1]之內(nèi)。網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率固定值為1或者是衰減的學(xué)習(xí)速率。經(jīng)過卷積后的一維向量與輸出層沒有沿用LeNet-5的徑向基函數(shù)網(wǎng)絡(luò),而是采取全連接方式,省去了F6層。
3.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程
在模式識別中,學(xué)習(xí)網(wǎng)絡(luò)有無指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)與有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)兩個類別。無指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)一般是用來進行聚類分析,本文采取的是有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)其實就是從輸入到輸出的一種映射,它可以學(xué)量的映射關(guān)系,只需要用現(xiàn)有的模式對網(wǎng)絡(luò)進行訓(xùn)練,網(wǎng)絡(luò)就能具備映射能力。而不需要輸入與輸出之間的精確的關(guān)系。
訓(xùn)練算法與傳統(tǒng)的BP算法相差無幾(BP算法在第二章有做概述),主要可分為四個步驟,而這四個步驟可以歸為向前傳播階段與向后傳播階段:相前傳播:
1)隨機的從樣本集中獲取一個樣本(A, ),然后將A輸入至網(wǎng)絡(luò)中;
2)根據(jù)公式(3)計算出實際輸出:
(3)
向后傳播:
1)計算和理想輸出之間的差;
2)根據(jù)極小化誤差方法調(diào)整權(quán)值矩陣。
結(jié)語
在手寫數(shù)字識別這一塊,相對來說比較有難度的應(yīng)該就是脫機自由手寫字符識別了,不過本文所研究的并不是這一系統(tǒng),本設(shè)計是一個基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別系統(tǒng),因卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和降采樣以及權(quán)值共享、隱性特征提取等優(yōu)點,它在圖像識別領(lǐng)域得到了非常廣泛的應(yīng)用。此程序是在Caffe這個框架上進行運行的,操作系統(tǒng)為Linux系統(tǒng)ubuntu14.04版本。Caffe是一個開源的深度學(xué)習(xí)框架,也可以說是一個編程框架或者模板框架,它提供一套編程機制。因此,本文所需要實際的卷積神經(jīng)網(wǎng)絡(luò)就可以根據(jù)這個框架來進行構(gòu)建。
參考文獻:
[1]張偉,王克儉,秦臻.基于神經(jīng)網(wǎng)絡(luò)的數(shù)字識別的研究[J].微電子學(xué)與計算,2006年第23卷第8期.
關(guān)鍵詞: 列車車號; 車號識別; 卷積神經(jīng)網(wǎng)絡(luò); LeNet?5
中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)13?0063?04
Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.
Keywords: train license; license recognition; convolutional neural network; LeNet?5
0 引 言
目前貨運列車車號識別系統(tǒng)[1?2]主要是基于RFID技術(shù)實現(xiàn)的,但是,由于該系統(tǒng)的準確性依賴于列車底部安裝的RFID標簽,而RFID標簽容易損壞、丟失,因此,此類系統(tǒng)無法保證車號識別的準確性。為此,研究者開發(fā)了基于圖像的貨運列車車號識別系統(tǒng),系統(tǒng)根據(jù)視頻采集到的圖像,利用模糊集合論[1?2]、人工神經(jīng)網(wǎng)絡(luò)[3]、支持向量機[4]以及隱馬爾可夫模型[4]等技術(shù)進行車號字符的識別。但是,由于貨運列車車號存在因噴涂方式而導(dǎo)致的單個字符斷裂,或者列車長期的野外運行導(dǎo)致的車廂污損,車號字符的殘缺等現(xiàn)象,這使得目前的基于圖像的貨運列車車號識別系統(tǒng)的魯棒性與識別率還有待進一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)避免了人工提取特征依賴于主觀意識的缺點,只需要將歸一化大小的原始圖像輸入網(wǎng)絡(luò),該網(wǎng)絡(luò)就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結(jié)合起來,通過綜合評價和學(xué)習(xí),并在不斷的反向傳播過程中選擇和優(yōu)化這些特征,將特征提取變?yōu)橐粋€自學(xué)習(xí)的過程,通過這種方法找到分類性能最優(yōu)的特征。LeNet?5已經(jīng)成功應(yīng)用于銀行對支票手寫數(shù)字的識別中。
為此,本文將卷積神經(jīng)網(wǎng)絡(luò)LeNet?5應(yīng)用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設(shè)計的連接方式及參數(shù),并在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。
1 LeNet?5的改進
卷積神經(jīng)網(wǎng)絡(luò)可以從很多方面著手改進。諸如多層前饋網(wǎng)絡(luò),可以考慮在誤差函數(shù)中增加懲罰項使得訓(xùn)練后得到趨向于稀疏化的權(quán)值,或者增加一些競爭機制使得在某個特定時刻網(wǎng)絡(luò)中只有部分節(jié)點處在激活狀態(tài)等。本文主要從卷積神經(jīng)網(wǎng)絡(luò)的層次化以及局部鄰域等結(jié)構(gòu)上的特點入手,考慮卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小對網(wǎng)絡(luò)訓(xùn)練過程及識別結(jié)果的影響。
以LeNet?5結(jié)構(gòu)為基礎(chǔ),去除掉LeNet?5中的一些針對手寫字符識別而特別設(shè)計的連接方式及參數(shù),得到改進后的神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。定義一種新的網(wǎng)絡(luò)模型,將其命名為LeNet?5.1,該網(wǎng)絡(luò)結(jié)構(gòu)與LeNet?5基本相同,主要做出以下改變:
(1) 將原先LeNet?5所采用的激活函數(shù)由雙曲正切函數(shù)修改為Sigmoid函數(shù),此時,網(wǎng)絡(luò)中所有層的輸出值均在[0,1]區(qū)間內(nèi),輸出層的最終結(jié)果也將保持在[0,1]區(qū)間內(nèi)。
(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(shù)(RBF)網(wǎng)絡(luò)結(jié)構(gòu)。
(3) 簡化原LeNet?5中的學(xué)習(xí)速率。原LeNet?5網(wǎng)絡(luò)中采用的學(xué)習(xí)速率為一個特殊的序列,而在本網(wǎng)絡(luò)中將學(xué)習(xí)速率固定為0.002。
(4) 輸入數(shù)據(jù)原始尺寸為28×28,采取邊框擴充背景像素的方法將圖像擴充至32×32。
之所以做以上相關(guān)改動,是因為原始的LeNet?5就是專門為手寫字符識別任務(wù)而特殊設(shè)計的,這就造成了LeNet?5網(wǎng)絡(luò)中相關(guān)的預(yù)處理及參數(shù)的選擇過程或多或少均帶有一些針對特定問題的先驗知識。例如激活函數(shù)中參數(shù)的選擇,學(xué)習(xí)速率定的速率序列以及數(shù)據(jù)預(yù)處理殊的填充方式等,這些特定的設(shè)計使得LeNet?5在其他任務(wù)的識別過程中并不一定適用,或者需要進行長期的觀察實驗以選得一組針對特定任務(wù)的較好的值,造成了LeNet?5不能快速的應(yīng)用于除手寫字符外其他的識別任務(wù)中。
2 改進后的網(wǎng)絡(luò)對列車車號字符的識別
車號經(jīng)過分割之后為一個個的單字符圖像,采用邊框擴充背景像素的方法將其歸一化為32×32,如圖1所示。
由圖1中可以看出,待識別的字符圖像質(zhì)量不高,有的數(shù)字字符出現(xiàn)殘缺、斷裂或者嚴重變形。這都給識別任務(wù)提出了一定的挑戰(zhàn)。
本文采集到的車號圖像來自于不同型號的貨運列車。從中選取400幅圖像作為訓(xùn)練集,另外選取400幅圖像作為測試集。用上一節(jié)提出的LeNet?5.1網(wǎng)絡(luò)進行訓(xùn)練,誤分類率曲線如圖2所示??梢钥闯?,在LeNet?5.1訓(xùn)練過程中,訓(xùn)練MCR(Misclassification Rate)和測試MCR的變化過程相對穩(wěn)定,驗證了改進后網(wǎng)絡(luò)結(jié)構(gòu)的合理性。在經(jīng)過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩(wěn)定,即16次迭代之后,網(wǎng)絡(luò)達到了當(dāng)前的最佳訓(xùn)練效果,達到了收斂狀態(tài)。這時,訓(xùn)練MCR為0.5%,測試MCR是5.75%。
訓(xùn)練過程中的誤分類率曲線
而針對相同的數(shù)據(jù),采用原始的LeNet?5進行訓(xùn)練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經(jīng)過了18次的迭代后,測試MCR才達到相對穩(wěn)定的狀態(tài),降至6%,最終的訓(xùn)練MCR為1%。相比之下,經(jīng)過簡化和改進的LeNet?5.1,由于改進了原始的LeNet?5中專門為手寫字符識別任務(wù)而特殊設(shè)計的一些預(yù)處理及函數(shù)選擇等固定模式,并且精簡了網(wǎng)絡(luò)結(jié)構(gòu),使得LeNet?5.1在列車車號的識別方面具有了更快的訓(xùn)練速度和收斂速度,另外,最終達到的準確度也有所提升。
在證明了改進后的LeNet?5.1網(wǎng)絡(luò)的合理性之后,增加訓(xùn)練圖像的規(guī)模,采用10 000幅車號數(shù)字字符圖像用來訓(xùn)練,5 000幅用來測試。為了與其他方法進行比較,采用相同的訓(xùn)練數(shù)據(jù)對車號識別中常用的三層BP網(wǎng)絡(luò)進行訓(xùn)練和測試,這里采用的BP網(wǎng)絡(luò)隱含層節(jié)點數(shù)量為450,學(xué)習(xí)速率采用0.01。實驗結(jié)果比較如表1所示。從表1可以看出,改進后的LeNet?5.1網(wǎng)絡(luò)的識別率比BP網(wǎng)絡(luò)的識別率高出4.62個百分點,在識別速度方面,LeNet?5.1也明顯優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。
3 針對車型號字母識別而改進的神經(jīng)網(wǎng)絡(luò)及其結(jié)果
貨運列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進行識別,車型號中除了有阿拉伯?dāng)?shù)字字符之外,還有很多表示車種及車廂材質(zhì)等屬性的英文字母,這些英文字母同樣采用卷積神經(jīng)網(wǎng)絡(luò)來識別。由于車型號很多,初期針對若干常用型號的列車進行識別,以測試網(wǎng)絡(luò)的性能,后期對全車型進行識別。
3.1 常用列車車型的識別
在試運行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個大寫字母C),主要對后面代表該車型載重量的兩位數(shù)字以及最后代表車廂材質(zhì)等屬性的字母進行識別。考慮到車型號字符串的固定模式,如圖4所示,可以分別建立兩個不同的卷積神經(jīng)網(wǎng)絡(luò)分別用來識別數(shù)字和字母,由于之前已經(jīng)解決了數(shù)字的識別問題,接下來主要進行字母的識別。要識別的代表車廂材質(zhì)的字母共有6個:K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導(dǎo)致的識別錯誤,把AK和BK分別作為一個整體來識別,那么需要識別的字符組合變?yōu)椋篕,H,A,E,AK和BK。由于識別種類的減少,可以對網(wǎng)絡(luò)模型LeNet?5.1進行相應(yīng)的簡化,命名該模型為LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基礎(chǔ)上進行改動而得到的:
(1) 卷積層C1的特征圖由6個減少為4個,相應(yīng)地,S2層的特征圖也由6個減少為4個。
(2) 卷積層C3的特征圖由16個減少為11個,相應(yīng)地,S4層的特征圖也由16個減少為11個。
(3) 卷積層C5的特征圖個數(shù)由120個減少為80個。
(4) 輸出分類的數(shù)目由10個減少為6個。
另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。
表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個特征圖是由S2中的那幾個特征圖結(jié)合而成。卷積層C3中第0個至第5個特征圖分別與次抽樣層S2中的兩個特征圖相連接,一共6種組合。C3中的這6個特征圖負責(zé)抽取上一層中某兩個特征圖所潛在的特征。C3層中第6個至第9個特征圖中每個特征圖分別對應(yīng)上一層中的3個特征圖的組合,而C3層中最后一個特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時,相對于輸入數(shù)據(jù),C3層相比S2層具有更好的對位移、扭曲等特征的不變性。
相比LeNet?5.1,LeNet?5.2將網(wǎng)絡(luò)層中的特征圖數(shù)量做了相應(yīng)的削減,減少了網(wǎng)絡(luò)中可訓(xùn)練參數(shù)的數(shù)量。
實驗數(shù)據(jù)來自以上提到的7類常用車型。經(jīng)過前面過程的定位和分割之后,將分割之后代表車廂材質(zhì)等屬性的字母圖像收集起來。本實驗中,共收集到6種代表不同車廂材質(zhì)屬性的字母共800幅,其中400幅用作訓(xùn)練數(shù)據(jù),另外400幅用作測試數(shù)據(jù)。
圖5為LeNet?5.2使用以上數(shù)據(jù)訓(xùn)練過程中得到的MCR曲線圖。由圖5中可以看出,在經(jīng)過13次迭代之后,測試MCR達到最低的3.25%,并且在隨后的迭代過程中基本保持穩(wěn)定,而對應(yīng)的訓(xùn)練MCR為0.75%。
3.2 全車型識別
經(jīng)過對鐵道行業(yè)標準《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進行統(tǒng)計,除了10個阿拉伯?dāng)?shù)字外,包括了除O,R,V,Z四個字母外所有的大寫英文字母,總共有32類字符。
訓(xùn)練過程中的誤分類率曲線
針對車型號的識別需求,本文在LeNet?5.1的基礎(chǔ)上提出了一種新的網(wǎng)絡(luò)模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎(chǔ)上對網(wǎng)絡(luò)中各層的特征圖數(shù)量進行擴充:
(1) 卷積層C1的特征圖由6個增加至8個,相應(yīng)地,S2層的特征圖也由6個增加至8個。
(2) 卷積層C3的特征圖由16個增加至24個,相應(yīng)地,S4層的特征圖也由16個增加至24個。
(3) 卷積層C5的特征圖個數(shù)由120個增加至240個。
(4) 輸出層神經(jīng)元的個數(shù)由10個增加至32個。
其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個特征圖的主要組合。
與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數(shù)量也做了相應(yīng)的增加,以增加整個網(wǎng)絡(luò)的識別性能。為了驗證改進后的LeNet?5.3的性能,收集了大量真實列車車廂圖片,經(jīng)過車號定位和分割之后,將單個的數(shù)字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓(xùn)練圖像庫和測試圖像庫。
由于LeNet?5.1各層的特征圖數(shù)量多,因此該網(wǎng)絡(luò)涉及到的可訓(xùn)練參數(shù)也大大增加,這也意味著需要更多的數(shù)據(jù)樣本用于網(wǎng)絡(luò)訓(xùn)練。若訓(xùn)練集和測試集規(guī)模依然采用跟前面實驗中一樣的各400幅,訓(xùn)練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩(wěn)定,波動較大。測試MCR達到最低點后又突然升高,不能獲得穩(wěn)定的分類結(jié)果,訓(xùn)練過程無法收斂。
網(wǎng)絡(luò)訓(xùn)練過程中無法收斂的主要原因在于相比網(wǎng)絡(luò)中過多的需要訓(xùn)練確定的權(quán)值,數(shù)據(jù)集規(guī)模過小,已然不能滿足學(xué)習(xí)的要求。從特征圖角度來看,網(wǎng)絡(luò)無法通過不充足的訓(xùn)練樣本學(xué)習(xí)到穩(wěn)定而有效的特征圖組合,從而導(dǎo)致了網(wǎng)絡(luò)不收斂。要解決這個問題需要加大測試樣本的數(shù)量。
為了訓(xùn)練和測試LeNet?5.3,對數(shù)據(jù)集進行了擴充:訓(xùn)練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓(xùn)練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經(jīng)過32次迭代之后網(wǎng)絡(luò)趨于收斂,并且達到了較好的識別率。
4 結(jié) 語
本文針對貨運列車車號識別的難題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)LeNet?5改進后的識別方法,主要對卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小進行了改進。且與傳統(tǒng)的BP網(wǎng)絡(luò)進行了比較,從實驗結(jié)果可以看出,改進后的卷積神經(jīng)網(wǎng)絡(luò)無論在魯棒性還是識別率以及識別速度上都優(yōu)于BP網(wǎng)絡(luò),可以很好地勝任列車車號識別任務(wù)。
參考文獻
[1] 宋敏.鐵路車輛車號自動識別系統(tǒng)的研究和開發(fā)[D].天津:河北工業(yè)大學(xué),2011:1?5.
[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.
[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.
[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.
1.神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜。感知和翻譯等大多數(shù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜,遠非此前簡單的前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò)正與不同的技術(shù)(如LSTMs、自定義目標函數(shù)等)相混合。
神經(jīng)網(wǎng)絡(luò)是多數(shù)深度學(xué)習(xí)項目的根基。深度學(xué)習(xí)基于人腦結(jié)構(gòu),一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺和語言等復(fù)雜問題。這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對其做出反應(yīng)。它們能對事物的外形和聲音做出解釋,還可以自行學(xué)習(xí)與工作。
2.長短期記憶網(wǎng)絡(luò)(LSTMs)。當(dāng)你閱讀本文時,你是在理解前面詞語的基礎(chǔ)上來理解每個詞語的。你的思想具有連續(xù)性,你不會丟棄已知信息而從頭開始思考。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大缺陷便無法做到這一點,而遞歸神經(jīng)網(wǎng)絡(luò)能夠解決這一問題。
RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))擁有循環(huán)結(jié)構(gòu),可以持續(xù)保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN――長短期記憶網(wǎng)絡(luò)。
3.“注意力模型”?!白⒁饬Α笔侵干窠?jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時知道把焦點放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò)在每一步都從更大的信息集中挑選信息作為輸入。例如,當(dāng)神經(jīng)網(wǎng)絡(luò)為一張圖片生成標題時,它可以挑選圖像的關(guān)鍵部分作為輸入。
4.神經(jīng)圖靈機依然有趣,但還無法勝任實際工作。當(dāng)你翻譯一句話時,并不會逐詞進行,而會從句子的整體結(jié)構(gòu)出發(fā)。機器難以做到這一點,這一挑戰(zhàn)就被稱為“強耦合輸出整體估計”。
神經(jīng)圖靈機就是研究者們在硅片中重現(xiàn)人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經(jīng)網(wǎng)絡(luò),它們可以適應(yīng)與外部存儲器共同工作,這使得神經(jīng)網(wǎng)絡(luò)可以存儲記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務(wù)。
5.深度學(xué)習(xí)讓計算機視覺和自然語言處理不再是孤島。卷積神經(jīng)網(wǎng)絡(luò)最早出現(xiàn)在計算機視覺中,但現(xiàn)在許多自然語言處理(NLP)系統(tǒng)也會使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)最早出現(xiàn)在NLP中,但現(xiàn)在也被納入計算機視覺神經(jīng)網(wǎng)絡(luò)。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。
6.符號微分式越來越重要。隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)及其目標函數(shù)變得日益復(fù)雜,手動推導(dǎo)出“反向傳播”的梯度也變得更加困難而且容易出錯。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓(xùn)練時誤差梯度可被反向傳播。
7.神經(jīng)網(wǎng)絡(luò)模型壓縮的驚人成果。多個團隊以不同方法大幅壓縮了訓(xùn)練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數(shù)、迭代修剪和精細調(diào)優(yōu)步驟等。
這些技術(shù)潛在的應(yīng)用前景廣闊,可能將會適應(yīng)在移動設(shè)備上進行復(fù)雜模型的訓(xùn)練。例如,不需要延遲就可以得到語音識別結(jié)果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設(shè)備上也可以運用復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,近乎實時地完成計算機視覺任務(wù)。
8.深度學(xué)習(xí)和強化學(xué)習(xí)繼續(xù)交匯。在“端對端”機器人等領(lǐng)域出現(xiàn)了令人激動的進展,現(xiàn)在機器人已經(jīng)可以一起運用深度和強化學(xué)習(xí),從而將原始感官數(shù)據(jù)直接轉(zhuǎn)化為實際動作驅(qū)動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。
關(guān)鍵詞:圖像復(fù)原;盲復(fù)原;逆濾波;神經(jīng)網(wǎng)絡(luò)復(fù)原
1 圖像退化及復(fù)原模型
1.1 圖像降質(zhì)的數(shù)學(xué)模型
圖像復(fù)原處理的關(guān)鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經(jīng)過某個退化系統(tǒng)后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應(yīng)用情況一致,如圖像數(shù)字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數(shù)方式將其轉(zhuǎn)化為相加形式。原始圖像f(x,y) 經(jīng)過一個退化算子或系統(tǒng)H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數(shù)學(xué)表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統(tǒng)計性質(zhì)的信息下圖表示退化過程的輸入和輸出的關(guān)系,其中H(x,y)包含了退化系統(tǒng)的物理過程,即所要尋找的退化數(shù)學(xué)模型。
1.2 圖像的退化恢復(fù)模型
數(shù)字圖像的圖像恢復(fù)問題可以看作是:根據(jù)退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復(fù)原是數(shù)字圖像處理技術(shù)的一個重要研究方向,在現(xiàn)實生活中,有著非常廣闊的應(yīng)用前景和市場。數(shù)字圖像處理研究很大部分是服務(wù)于數(shù)字圖像復(fù)原的,而運動模糊圖像的復(fù)原又是圖像復(fù)原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛(wèi)星所拍攝的圖像進行復(fù)原,因為衛(wèi)星相對地球是運動的,所拍出的圖像是模糊的(當(dāng)然衛(wèi)星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發(fā)回的月球照片進行了圖像恢復(fù)處理。傳統(tǒng)的圖像恢復(fù)方法可以很好地恢復(fù)出來原始圖像,但是需要事先知道系統(tǒng)的先驗知識(例如系統(tǒng)的點擴散函數(shù))。在先驗知識不足的情況下,如何恢復(fù)出來原始圖像?這就需要模糊圖像盲恢復(fù)技術(shù)。根據(jù)不同的應(yīng)用背景和先驗知識,大致可以兩種方法恢復(fù)兩種類型的模糊圖像,以滿足不同的應(yīng)用要求。
第一種方法:如何快速恢復(fù)模糊圖像,進行適時性圖像處理?這個技術(shù)在實際生活中有著廣泛應(yīng)用。
第二種方法:如何在事先不能確定模糊系統(tǒng)點擴散函數(shù)的情況下,恢復(fù)模糊圖像,改善圖像的質(zhì)量,這就是圖像盲恢復(fù)的問題。
3 國際國內(nèi)研究發(fā)展和現(xiàn)狀
從歷史上來看,數(shù)字圖像處理研究有很大部分是在圖像恢復(fù)方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數(shù)字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應(yīng)用于數(shù)字圖像恢復(fù)。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復(fù)原過來,從而增強人們的判讀能力。早期做圖像復(fù)原研究,主要強調(diào)盡可能使模糊圖像復(fù)原到原貌,增加它的判讀性,在此發(fā)展了很多的復(fù)原方法,諸如:差分復(fù)原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應(yīng)用上均有一定的限制。
雖然經(jīng)典的圖象復(fù)原方法不少,但歸納起來大致可分為逆濾波法,或稱相關(guān)變換法( inv ersefiltering or t ransfo rm related techniques) 和代數(shù)方法( alg ebraic techniques) 兩種。
3.1 傳統(tǒng)復(fù)原法
3.1.1 逆濾波方法
逆濾波法大致有經(jīng)典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經(jīng)典逆濾波的變換函數(shù)是引起圖象失真的變換函數(shù)的逆變換,其雖在沒有噪聲的情況下,可產(chǎn)生精確的復(fù)原圖象,但在有噪聲時,將對復(fù)原圖象產(chǎn)生嚴重的影響,雖然濾波函數(shù)經(jīng)過修改,有噪聲的圖象也能復(fù)原,但它僅適用于極高信噪比條件下的圖象復(fù)原問題; 維納濾波法是通過選擇變換函數(shù),同時使用圖象和噪聲的統(tǒng)計信息來極小化均方復(fù)原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關(guān)圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩(wěn)過程的假設(shè),還需要知道非退化圖象的相關(guān)函數(shù)或功率譜特性等等,而在實際應(yīng)用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復(fù)原問題時,提出了一種解決空間和時間相關(guān)性的多幀維納濾波法,是近年來維納濾波法的新發(fā)展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩(wěn)圖象的復(fù)原,但是因計算量過大,而限制了其實際應(yīng)用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應(yīng)用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復(fù)原方法,該方法可以較好地復(fù)原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數(shù)估計濾波法,它實質(zhì)上是維納濾波法的變種. 20 世紀90 年代初,又提出了基于遞歸圖象濾波的自適應(yīng)圖象復(fù)原方法及合成濾波方法,它代表了濾波方法新的發(fā)展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數(shù)中增加了空間自適應(yīng)正則化項,從而很好地抑制了噪聲,并減少了振鈴現(xiàn)象,較好實現(xiàn)了在低SNR 條件下的盲圖象復(fù)原. 2001 年,Eng 等人結(jié)合模糊集的概念,提出了自適應(yīng)的軟開關(guān)中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節(jié),是一種值得重視的新的圖象復(fù)原方法。
3.1 2 代數(shù)方法
Andrews 和Hunt 提出了一種基于線性代數(shù)的圖象復(fù)原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數(shù),而相對于分析連續(xù)函數(shù),又更喜歡離散數(shù)學(xué)的人的口味。它為復(fù)原濾波器的數(shù)字計算提供了一個統(tǒng)一的設(shè)計思路。代數(shù)方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復(fù)原方法等。 其中,偽逆法,實質(zhì)上是根據(jù)圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經(jīng)常會出現(xiàn)不穩(wěn)定的現(xiàn)象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協(xié)方差的情況。前面的方法僅把圖象看成是數(shù)字的陣列,然而一個好的復(fù)原圖象應(yīng)該在空間上是平滑的,其在幅度值上是正的,而約束圖象復(fù)原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術(shù)而提出的圖象復(fù)原方法就是一種約束圖象復(fù)原方法,而且通過選取不同的約束參數(shù)和回歸方法可以得到不同的圖象復(fù)原算法。傳統(tǒng)的圖象復(fù)原算法或面臨著高維方程的計算問題,或要求恢復(fù)過程滿足廣義平穩(wěn)過程的假設(shè),這就是,使得具有廣泛應(yīng)用價值的圖象復(fù)原問題沒有得到圓滿的解決的根本原因。
3.2 神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的方法
神經(jīng)網(wǎng)絡(luò)圖象復(fù)原方法的發(fā)展方向自從神經(jīng)網(wǎng)絡(luò)圖象復(fù)原首次提出十多年來,其研究在不斷地深入和發(fā)展,描述它的現(xiàn)狀已屬不易,展望它的未來更是困難,況且科學(xué)研究具有不確定性. 據(jù)筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經(jīng)網(wǎng)絡(luò)用于圖象復(fù)原將是研究的重點
自1992 年Zhang 提出小波神經(jīng)網(wǎng)絡(luò)以來,如今已提出了各種類型的小波網(wǎng)絡(luò),且小波與神經(jīng)網(wǎng)絡(luò)的結(jié)合成了一個十分活躍的研究領(lǐng)域。通過學(xué)者們的理論分析和模擬實驗表明: 由于小波神經(jīng)網(wǎng)絡(luò)具有逼近能力強、可顯著降低神經(jīng)元的數(shù)目、網(wǎng)絡(luò)學(xué)習(xí)收斂的速度快、參數(shù)( 隱層結(jié)點數(shù)和權(quán)重) 的選取有理論指導(dǎo)、能有效避免局部最小值問題等優(yōu)點,因此將其用于圖象復(fù)原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質(zhì),與神經(jīng)網(wǎng)絡(luò)的大規(guī)模并行性、自學(xué)習(xí)特性等優(yōu)點結(jié)合起來,不僅將使用于圖象復(fù)原的小波神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)分辨性,也將使正則化參數(shù)的選取更具有自適應(yīng)能力. 最終使復(fù)原圖象既能保持圖象的細節(jié),又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經(jīng)網(wǎng)絡(luò)、BP 網(wǎng)絡(luò)、自組神經(jīng)網(wǎng)絡(luò)
值得進一步研究細胞神經(jīng)網(wǎng)絡(luò)( CNN ) 由于其具有易于硬件實現(xiàn)的特點,因而具有很強的商業(yè)價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)的進一步完善及在此基礎(chǔ)上建立細胞神經(jīng)網(wǎng)絡(luò)中鄰域系統(tǒng)的概念; 與圖象數(shù)據(jù)局部相關(guān)性等概念結(jié)合起來研究,以建立新的圖象復(fù)原理論,形成新的圖象復(fù)原技術(shù)。BP 網(wǎng)絡(luò)對受污染或帶噪聲的訓(xùn)練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網(wǎng)絡(luò)的泛化能力強,使它在解決圖象復(fù)原問題時,可能比其他神經(jīng)網(wǎng)絡(luò)具有更好的潛在性能。 將BP 網(wǎng)絡(luò)用于圖象復(fù)原是很值得進一步研究的.大家知道,人腦的學(xué)習(xí)方式是“自主的”,即有自組織和自適應(yīng)的能力的,即人腦能在復(fù)雜、非平穩(wěn)和有“干擾”的環(huán)境及其變化的情況下,來調(diào)整自己的思維和觀念,還能根據(jù)對外界事物的觀察和學(xué)習(xí),找到其內(nèi)在的規(guī)律和本質(zhì)屬性,并能在一定的環(huán)境下,估計到可能出現(xiàn)的情況以及預(yù)期會遇到和感覺到的各種內(nèi)容及情況。 自組織神經(jīng)網(wǎng)絡(luò)(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數(shù)據(jù)中,揭示出它們之間內(nèi)在關(guān)系的能力,因此將其用于“盲圖象”的復(fù)原將是非常有利的。
3.2.3 需要提出更適合圖象復(fù)原的新神經(jīng)網(wǎng)絡(luò)模型
小波神經(jīng)網(wǎng)絡(luò)是為逼近任意非線性函數(shù)而提出來的,但為了圖象復(fù)原的需要,可考慮針對圖象復(fù)原的特殊情況,提出新的神經(jīng)網(wǎng)絡(luò)模型。 如,因為大多數(shù)圖象是由平滑區(qū)域和輪廓細節(jié)組成的,其圖象數(shù)據(jù)在平滑區(qū)域雖具有較強的相關(guān)性,但與輪廓細節(jié)相鄰的數(shù)據(jù)應(yīng)極不相關(guān),所以,提出一種專用于圖象復(fù)原的“相關(guān)性神經(jīng)網(wǎng)絡(luò)模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應(yīng)提出的“多項式神經(jīng)網(wǎng)絡(luò)”,將它們用于圖象復(fù)原也是值得研究的。
3.2.4 神經(jīng)網(wǎng)絡(luò)與其他理論的結(jié)合
研究是尋求新模型、新方法的重要途徑目前神經(jīng)網(wǎng)絡(luò)的研究正由單純的神經(jīng)計算轉(zhuǎn)向計算智能,并結(jié)合腦科學(xué)的研究向生物智能方向發(fā)展。 為此,神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的研究也應(yīng)考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學(xué)科的研究成果。 與模糊系統(tǒng)的結(jié)合將是一個重要的研究方向,因為,神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數(shù)學(xué)模型,而只需要根據(jù)輸入的采樣數(shù)據(jù)去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現(xiàn)出了很強的容錯能力; ( 3) 它們都可以用硬件來實現(xiàn). 由此可見,將神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)結(jié)合,用于圖象復(fù)原將是有意義的研究工作。
4 未來展望
圖像恢復(fù)發(fā)展到現(xiàn)在,已經(jīng)有了許多成熟的算法,但是還是存在許多問題,等待著我們?nèi)ソ鉀Q。目前圖像恢復(fù)的最新發(fā)展有:
1. 非穩(wěn)圖像復(fù)原,即空間可變圖像復(fù)原。
2. 退化視頻信號的復(fù)原問題,以及攝像機拍照圖像復(fù)原,這是一個需要進一步研究的領(lǐng)域。
3. 運動補償時空復(fù)原濾波,同時將時間相關(guān)應(yīng)用到運動補償中。
4. “Telemedicine“的出現(xiàn),遠程診斷極大的依賴于遠程接受的圖像質(zhì)量,圖像恢復(fù)在醫(yī)學(xué)領(lǐng)域中有相當(dāng)重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復(fù)方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復(fù)圖像恢復(fù),這是一個具有發(fā)展?jié)摿Φ难芯糠较颉?/p>
參考文獻
1 馮久超,黃海東. 基于神經(jīng)網(wǎng)絡(luò)的盲圖象恢復(fù)[ J ] . 計算機科學(xué),2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.