前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇深度神經(jīng)網(wǎng)絡(luò)綜述范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
【關(guān)鍵詞】人工智能 圖像識別 深度學(xué)習(xí)
1 概述
圖像識別技術(shù)是人工智能研究的一個重要分支,其是以圖像為基礎(chǔ),利用計算機(jī)對圖像進(jìn)行處理、分析和理解,以識別不同模式的對象的技術(shù)。目前圖像識別技術(shù)的應(yīng)用十分廣泛,在安全領(lǐng)域,有人臉識別,指紋識別等;在軍事領(lǐng)域,有地形勘察,飛行物識別等;在交通領(lǐng)域,有交通標(biāo)志識別、車牌號識別等。圖像識別技術(shù)的研究是更高級的圖像理解、機(jī)器人、無人駕駛等技術(shù)的重要基礎(chǔ)。
傳統(tǒng)圖像識別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計等步驟構(gòu)成。通過專家設(shè)計、提取出圖像特征,對圖像M行識別、分類。近年來深度學(xué)習(xí)的發(fā)展,大大提高了圖像識別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識(特征),自動完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識別技術(shù)
傳統(tǒng)的圖像識別技術(shù)包括:圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后,需要先對圖像進(jìn)行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像,如果每個像素的像素值用一個字節(jié)表示,灰度值級數(shù)就等于256級,每個像素可以是0~255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調(diào)整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進(jìn)行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細(xì)化處理(如指紋細(xì)化,字符細(xì)化等),以便獲取主要信息,減少無關(guān)信息。細(xì)化操作,可以得到由單像素點組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點。另一類在頻域中進(jìn)行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預(yù)處理和特征提取之后,我們便能夠?qū)D像進(jìn)行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(jī)(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等等。K-近鄰算法原理是,當(dāng)一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機(jī)是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學(xué)習(xí)的圖像識別技術(shù)
一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機(jī)制來分析樣本,并盡可能地對樣本的特征進(jìn)行更深度的學(xué)習(xí)。以圖片為例,利用深度學(xué)習(xí)技術(shù)對樣本的特征進(jìn)行學(xué)習(xí)時,由低層特征到高層特征越來越抽象,越來越能表達(dá)語義概念。當(dāng)樣本輸入后,首先對圖像進(jìn)行卷積與下采樣操作,卷積和下采樣操作是為了進(jìn)行特征提取和選擇。以原始像素作為輸入,深度學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)得到較好的特征提取器(卷積參數(shù))。深度學(xué)習(xí)的訓(xùn)練過程,首先將當(dāng)前層的輸出作為下一層的輸入,進(jìn)行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時優(yōu)化所有層,目標(biāo)是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點數(shù)太過龐大,難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò),以權(quán)值共享的方式減少了節(jié)點數(shù)量,從而能夠加深學(xué)習(xí)的深度,使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識別技術(shù)相比,深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢:
(1)無需人工設(shè)計特征,系統(tǒng)可以自行學(xué)習(xí)歸納出特征。
(2)識別準(zhǔn)確度高,深度學(xué)習(xí)在圖像識別方面的錯誤率已經(jīng)低于人類平均水平,在可預(yù)見的將來,計算機(jī)將大量代替人力進(jìn)行與圖像識別技術(shù)有關(guān)的活動。
(3)使用簡單,易于工業(yè)化,深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識,能夠快速實現(xiàn)并商業(yè)化,國內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。
4 存在問題與未來展望
雖然深度學(xué)習(xí)具備諸多優(yōu)點,但目前來看深度學(xué)習(xí)仍有許多不足之處。首先,由于深度學(xué)習(xí)模型為非凸函數(shù),對其的理論研究十分困難,缺乏理論保證。在對數(shù)據(jù)進(jìn)行調(diào)整時,仍是簡單的“試錯”,缺少理論支撐。
同時,由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學(xué)習(xí),往往需要數(shù)百個甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價太大時,深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU,這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢,往往需要幾天甚至一個月。其模型擴(kuò)展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程,與環(huán)境缺乏交互。
對其的解決方案目前主要有兩點:
(1)針對于模型擴(kuò)展性差的問題,通過引入遷移學(xué)習(xí),研究不同任務(wù)或數(shù)據(jù)之間的知識遷移,提高模型的擴(kuò)展能力、學(xué)習(xí)速度,同時降低學(xué)習(xí)成本,便于冷啟動。
(2)與強(qiáng)化學(xué)習(xí)結(jié)合,研究在動態(tài)環(huán)境下進(jìn)行深度學(xué)習(xí),提高深度學(xué)習(xí)與環(huán)境交互的能力。
參考文獻(xiàn)
[1]蔣樹強(qiáng),閔巍慶,王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機(jī)研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報,2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強(qiáng)算法[J].計算機(jī)科學(xué),2016.
[4]孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計算機(jī)應(yīng)用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報,2015:26-39.
[6]高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動化學(xué)報,2004:86-100.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);年齡分類
0引言
人臉作為人類個體鮮明顯著的生物特征之一,包含著豐富的個人信息。隨著計算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,相關(guān)的人臉識別等技術(shù)已成為這些項目任務(wù)的熱點課題,并在法醫(yī)、電子化客戶關(guān)系管理、安防、生物識別和娛樂影音等諸多領(lǐng)域中得到廣泛應(yīng)用。人臉除了可進(jìn)行身份認(rèn)證和識別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機(jī)交互和商業(yè)智能等應(yīng)用中,因此年齡估計研究具有重要的科學(xué)意義和實用價值。
相對于人臉識別,人臉?biāo)鼙碚鞯哪挲g信息要受到很多因素的影響,例如不同個體的基因差異、生活習(xí)慣、環(huán)境、抗壓能力、健康情況和種族差別等有很大的關(guān)系。同時,相同個體因發(fā)型、化妝和表情的不同也會影響年齡的估計。因此,如果要基于傳統(tǒng)的分類算法(如支持向量機(jī))并利用人臉圖像信息來進(jìn)行年齡分類將很難得到理想的結(jié)果。針對這些問題,目前的研究還相對不足,如果能有效解決上述問題,對大部分潛在的應(yīng)用領(lǐng)域也都將帶來深刻的影響。
1相關(guān)工作
年齡分類的主要流程是先根據(jù)人臉圖像獲取特征,再通過機(jī)器學(xué)習(xí)方法構(gòu)建模型,通過把年齡分為多個年齡區(qū)段,即每個年齡段對應(yīng)一個類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個二分類或者多分類的分類問題來進(jìn)行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強(qiáng)調(diào)重要特征點的選擇。2002年Lanitis等人提出了能自動對年齡實現(xiàn)估計的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關(guān)年齡估計技術(shù)的研究發(fā)展。王紹宇等人還基于SMV采用生物特征對人進(jìn)行分類,分為小孩和成人。此外在2016年,董遠(yuǎn)等人更將遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)用于人的年齡和性別分類。
關(guān)鍵字:計算機(jī)視覺;作物病害診斷;進(jìn)展;模式識別
中圖分類號:TP311 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2015)02-
The Research Development of Computer Vision in the Plant Disease Diagnosis
PU Yongxian
(Computer Science Dept .Dehong Teachers'college, Dehong Yunnan 678400, China)
Abstract: according to the statistics, crop yield loss caused by disease in more than 12% on average, disease occurs not only affect the production, also decreased the quality of the product. Research by computer vision technology realizes fast and accurate diagnosis of crop disease, and provides scientific basis for disease prevention and control, which is the urgent demand of agricultural informatization development. Articles on computer vision technology is applied to the crop disease diagnosis has carried on the detailed analysis and research, in order to get these new technologies in the current situation of crop disease diagnosis each link, points out the shortages of computer vision in the diagnosis of crop diseases and research direction. The study on the development of crop disease intelligent detection technology will play an important role.
Key words:Computer Vision; Crop Disease Diagnosis; Progress; Pattern Recognition
0引言
在作物生產(chǎn)中,病害是制約作物質(zhì)與量的重要因素。病害發(fā)生,往往致使作物的使用價值降低,甚至還會導(dǎo)致大面積減產(chǎn),乃至絕收,造成巨大的經(jīng)濟(jì)損失。因此,在作物生長過程中,病害防治是個關(guān)鍵的問題之一。因各種原因植保人員匱乏,而種植戶個體素質(zhì)差異及受一些主觀人為因素的影響,對作物病害診斷存在主觀性、局限性、模糊性等,不能對作物病害的類型及受害程度做出客觀、定量的分析與判斷,結(jié)果要么是藥量不對、要么是藥不對癥,嚴(yán)重影響了作物的質(zhì)與量。
計算機(jī)視覺也稱為機(jī)器視覺,是研究如何用計算機(jī)來模擬和再現(xiàn)人類視覺功能的科學(xué),也被稱為圖像理解和圖像分析,是人工智能領(lǐng)域的一個重要分支。隨著計算機(jī)技術(shù)、圖像處理和人工智能等學(xué)科的發(fā)展,以及數(shù)碼相機(jī)、手機(jī)等攝像工具像素的提高,將機(jī)器視覺用于作物病害診斷,實現(xiàn)作物病害的無損檢測、快速診斷提供了新的途徑和方法[1]。報道最早的是在1989年穗波信雄等人[2]對采集的缺乏鈣、鐵、鎂營養(yǎng)元素的茨菇葉片圖像進(jìn)行研究,在RGB模型中,利用直方圖分析了正常和病態(tài)的顏色特征。為適應(yīng)農(nóng)業(yè)信息化的迫切需求,國內(nèi)外學(xué)者對機(jī)器視覺用于作物病害診斷進(jìn)行了研究和實踐,而取得進(jìn)展主要集中在近10年,涉及的作物有水稻、玉米、小麥、葡萄、黃瓜、甘蔗、蔬菜等病害[3-14],這些研究針對不同作物,從不同側(cè)面為作物病害實現(xiàn)自動化診斷提供了理論和實踐基礎(chǔ)。因機(jī)器視覺比人眼能更早發(fā)現(xiàn)作物因病蟲危害所表現(xiàn)的顏色、紋理、形狀等細(xì)微變化,所以利用這種技術(shù)病害病害與人工方式相比,提高了診斷的效率和精準(zhǔn)度,為作物保護(hù)智能化、變量噴藥等提供了科學(xué)依據(jù)。
本文綜述和歸納了機(jī)器視覺診斷作物病害的主要技術(shù):病害圖像采集、增強(qiáng)處理、病斑分割、特征提取、特征優(yōu)化、病害識別等各環(huán)節(jié)的方法及現(xiàn)狀,指出了機(jī)器視覺診斷作物病害存在的不足和研究方向。該研究對實現(xiàn)作物病害的機(jī)器視覺診斷技術(shù)的發(fā)展將起到重要的推動作用。
1機(jī)器視覺識別作物病害的技術(shù)路線與進(jìn)展
作物病害因其病原物種類不同會產(chǎn)生形狀、顏色、紋理等不同的病斑,通常專業(yè)植保技術(shù)人員就是根據(jù)這些特征判斷病害的。機(jī)器視覺診斷作物病害是通過無損采集病害圖像,利用圖像處理技術(shù)對圖像增強(qiáng)處理、分割病斑,提取病斑特征、優(yōu)化特征,用模式識別技術(shù)診斷病害類別及危害程度,從而為病害的防治提供科學(xué)依據(jù)。圖1為機(jī)器視覺診斷作物病害的技術(shù)路線圖。
圖1機(jī)器視覺識別作物病害技術(shù)路線圖
Fig 1 Technology roadmap of machine vision recognition crop diseases
1.1病害圖像采集與增強(qiáng)處理
(1)病害圖像采集方法。圖像采集是病害識別的第一步,采集的質(zhì)量會直接影響識別結(jié)果。常用采集設(shè)備有數(shù)碼攝像機(jī)、掃描儀、數(shù)碼相機(jī)、手機(jī)等。其中,數(shù)碼相機(jī)便于攜帶,能滿足圖像清晰度要求,符合野外作業(yè)等特點,因此病害圖像采集中用得較多。依據(jù)采集環(huán)境氛圍分為室內(nèi)采集和室外(田間)采集兩種。室內(nèi)采集是將田間采摘到的病害標(biāo)本經(jīng)密封保濕后使用CCD攝像機(jī)或數(shù)碼相機(jī)在室內(nèi)攝取病害的標(biāo)本圖像。在田間采集圖像中,有學(xué)者為了采集到高質(zhì)量的圖像,采取了一系列措施以減少外界因素的影響。如陳佳娟[5]采用便攜式掃描儀采集圖像,以減少自然光照對圖像質(zhì)量的影響。徐貴力等人[6]設(shè)計了活體采光箱,使照射光變成反射光,從而避免了陰影,以減少誤差。這種規(guī)范圖像采集方式雖簡化了后期圖像處理和識別的難度,但基層生產(chǎn)單位可能缺乏配套的技術(shù)設(shè)備,且會使病害識別過度依賴圖像。為擴(kuò)展應(yīng)用范圍和通用性,有學(xué)者對在田間自然光照射下直接獲取的病害圖像,用圖像處理和模式識別技術(shù)診斷病害進(jìn)行了研究,如李宗儒[7]用手機(jī)拍攝了蘋果的圓斑病、花葉病等5種病害圖像,對病害圖像增強(qiáng)處理、分割病斑,提取病斑特征,用BP神經(jīng)網(wǎng)絡(luò)識別病害,獲得了較好效果。姜武[8]用Canon EOS 50D相機(jī)在陽光充足的早晨拍攝山茶葉片圖像,進(jìn)行顏色分形和RGB強(qiáng)度值提取,用支持向量機(jī)對山茶分類識別,取得了較好效果。
(2)圖像增強(qiáng)方法。在采集圖像過程中,因受設(shè)備、環(huán)境等因素影響,往往使采集到的圖像含有噪聲,若不對其增強(qiáng)處理會影響到病害的正確識別率。病害圖像增強(qiáng)是為病斑分割,特征提取做準(zhǔn)備,所以應(yīng)確保在去除噪聲的同時,保證病斑邊緣不模糊。圖像增強(qiáng)處理根據(jù)其處理的空間不同,分為空域法和頻域法。空域法是對圖像本身直接進(jìn)行濾波操作,而頻域法是對圖像進(jìn)行轉(zhuǎn)化,將其轉(zhuǎn)化到頻率域中去噪處理,之后再還原到圖像的空間域。圖像增強(qiáng)處理常用方法有:直方圖均衡化、對比度增強(qiáng)、均值濾波、中值濾波、高斯濾波、銳化等。王靜[9]利用數(shù)碼相機(jī)采集了赤星病與野火病兩種病害圖像80幅,采用灰度圖像直方圖均衡化及中值濾波兩種方法對圖像增強(qiáng)處理,實驗表明,中值濾波去噪效果最好,在保留圖像病斑邊緣信息的同時,使病斑輪廓與細(xì)節(jié)更加清晰,便于后期病斑分割及特征提取。劉芝京[10]采集黃瓜早、中、晚期的角斑病病害圖像,分別用均值濾波、中值濾波、高斯濾波等對圖像處理,實驗表明這些去噪方法中,高斯濾波效果最好。
1.2病斑特征獲取
(1)病斑分割
計算機(jī)視覺主要是依據(jù)病斑的特征信息診斷病害類別及危害程度的。因此,彩色病斑的準(zhǔn)確分割,是后期提取病斑特征,病害類別的客觀、準(zhǔn)確診斷的關(guān)鍵環(huán)節(jié)之一。當(dāng)前針對作物病害圖像分割算法有閾值分割、空間聚類、區(qū)域分割、邊緣檢測分割、計算智能方法等。由于作物病害圖像存在背景復(fù)雜、病斑區(qū)域排列無序、顏色、紋理分布不均、病斑邊界模糊、葉片表面紋理噪聲等干擾,因此尚無一種魯棒性好,且簡單適用的通用方法,也還沒有一種判斷分割是否成功的客觀標(biāo)準(zhǔn)。近年來學(xué)者們對作物病害圖像的分割進(jìn)行了大量研究,試圖尋找一種更具潛力的分割算法,以期獲得更完美,通用的分割方法。趙進(jìn)輝等人[11]分析了甘蔗病害圖像的顏色與形狀特征,采用面積閾值及鏈碼分割赤腐病和環(huán)斑病病斑,收到了較好的效果。管澤鑫等人[12]提取水稻病斑與斑點外輪廓顏色,用最大類間方差法(Otsu[13])分割病斑,取得了較好的效果。邵慶等人[14]以小麥條銹病為例,對獲取的小麥病害圖像采用迭代閾值分割和微分邊緣檢測分割病斑。溫長吉等人[15].用改進(jìn)蜂群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)實現(xiàn)玉米病害圖像分割。祁廣云等[16]采用改進(jìn)的遺傳算法及BP神經(jīng)網(wǎng)絡(luò)對大豆葉片病斑分割,能有效提取病斑區(qū)域。毛罕平等人[17-18]利用模糊C均值聚類對棉花、玉米病害圖像的病斑進(jìn)行分割。張飛云[19]采用K-means硬聚類算法對玉米葉部病害圖像分割,得到彩色病斑。張芳、仁玉剛[20-21]用采分水嶺算法分割黃瓜病害圖像,正確率均在90%以上。劉立波[22]對水稻葉部病害圖像的分割進(jìn)行研究,結(jié)果證明,模糊C均值聚類法的分割效果較好,但速度欠佳,Otsu法分割效果略差,但速度較快。濮永仙[23]利用支持向量機(jī)檢測煙草病斑邊緣,以分割彩色病斑。石鳳梅等人[24]利用支持向量機(jī)分割水稻稻瘟病彩色圖像病斑,其分割效果優(yōu)于Otsu法。
(2)病斑特征提取
計算機(jī)視覺識別作物病害用到的特征主要有顏色、紋理、形狀等特征。顏色是區(qū)分病害類別的重要特征,有RGB、HSI、Lab、YUV等7種顏色空間模型,可得到顏色特征值和顏色特征差異,而模型的選擇會影響到病害識別效果。紋理是指圖像中反復(fù)出現(xiàn)的局部模式及排列規(guī)則。作物病害圖像正常與病變部分的紋理在粗細(xì)、走向上有較大差異。紋理特征有基于灰度直方圖的統(tǒng)計測度,基于灰度共生矩陣的紋理特征和基于游程的紋理描述特征。提取紋理特征的方法有分形維數(shù)、小波變換、Gabor小波變換、局域二值模式,以及Gabor分塊局域二值模式方法等。形狀常與目標(biāo)聯(lián)系在一起,形狀特征可以看作是比顏色和紋理更高層的特征,它能直觀描述目標(biāo)和背景之間的區(qū)別,不同病害的病斑在尺寸大小、似圓性、長短軸等方面有不同特性,對旋轉(zhuǎn)、平移有很強(qiáng)的穩(wěn)定性。提取病斑形狀特征的方法有弗里曼鏈碼法,傅里葉描述子,多尺度曲率空間方法等。王美麗等人[25] 在HSV顏色空間提取小麥白粉病和銹病病害圖像的顏色和形狀特征,對病害進(jìn)行識別,識別率達(dá)96%以上。蔡清等人[26]對蟲食菜葉圖像處理后,提取其形狀的圓形度、復(fù)雜度、球形度等7個特征,用BP神經(jīng)網(wǎng)絡(luò)識別病害。王克如[27]提取玉米病害圖像中紋理特征的能量、熵及慣性矩作為識別病害的特征,實驗得出,以單個特征識別正確識別率達(dá)90%,綜合應(yīng)用三個紋理特征,識別率達(dá)100%。田有文等人[28]提取葡萄葉部病斑的顏色、紋理、形狀特征,用支持向量機(jī)識別,實驗表明,綜合應(yīng)用三種特征的識別率比只用單一特征的識別高。李旺[29]以黃瓜葉部3種常見病害圖像為研究對象,提取病斑顏色、紋理和形態(tài)特征總共14個特征,用支持向量機(jī)識別,實驗表明,分別以顏色、紋理、形狀特征識別,識別率分別為72.23%、90.70%、90.24%,綜合3種特征識別率為96.00%。
(3)特征優(yōu)化
特征優(yōu)化是指在特征提取完成后,將特征因子中對識別病害貢獻(xiàn)低的因子丟棄,以確保在降低特征維度的同時,能提高病害的識別率。常用的特征優(yōu)化方法有:逐步判別法、主成分分析法、遺傳算法等。實踐證明,優(yōu)化后的特征能更好的表征病害,能在特征減少的情況下提高診斷的正確率。管澤鑫等人[12]提取水稻3種常見病害圖像的形態(tài)、顏色、紋理共63個特征,用逐步判別法對特征優(yōu)化,用貝葉斯判別法識別病害,可使特征數(shù)減少到原來的35.2%,而病害準(zhǔn)確識別率達(dá)97.2%。柴洋等人[30]提取了番茄早疫病、晚疫病等4種葉部病害圖像的顏色、紋理和形狀共18個特征,用逐步判別法優(yōu)化,最終選取12個特征,用主成分優(yōu)化后綜合成2個新變量,分別用貝葉斯判別法和用費歇爾判別函數(shù)識別病害,均取得了較好的效果。陳麗等人[31]提取了玉米5種葉部病害圖像病斑特征,用遺傳算法優(yōu)化特征,用概率神經(jīng)網(wǎng)絡(luò)識別病害,識別率為90.4%。彭占武[32]提取了黃瓜6種常見病害圖像的顏色、紋理、形狀特征14個,用遺傳算法優(yōu)化得到8個特征,用模糊識別模式識別病害,其識別率達(dá)93.3%。濮永仙[33]提取了煙草常見病害圖像的顏色、紋理及形態(tài)共26個特征,用雙編碼遺傳算法與支持向量機(jī)結(jié)合優(yōu)化特征,最后得到16個特征,該方法與沒有采用遺傳算法的支持向量機(jī)識別相比,在同等條件下,特征向量減少了38%,正確率提高了6.29%。所謂雙編碼遺傳算法,即二進(jìn)制編碼和實數(shù)編碼結(jié)合,支持向量機(jī)作為底層分類器,分類精度作為遺傳算法的適應(yīng)度對個體進(jìn)行評估,在去除冗余特征的同時為保留的特征賦予權(quán)重,如圖2所示。韓瑞珍[34]提取了害蟲的顏色、紋理特征共35個,用蟻群算法對特征優(yōu)化,將35個特征降低到29個,識別準(zhǔn)確率從87.4%提高到89.5%。
圖2雙編碼遺傳算法中的個體
Fig 2 Individual in the double coding genetic algorithm
1.3病害模式識別
模式識別也叫模式分類,指依據(jù)輸入的原始數(shù)據(jù),判斷其類別并采取相應(yīng)的行為[35]。病害模式識別的任務(wù)是依據(jù)特征數(shù)據(jù)由分類器完成分類的,分類器設(shè)計和特征描述共同決定了模式識別系統(tǒng)的性能。用于病害識別的模式可分為統(tǒng)計模式、句法結(jié)構(gòu)模式、模糊模式和機(jī)器學(xué)習(xí)方法四類。其中,統(tǒng)計模式識別是用概率統(tǒng)計原理,獲取滿足某種已知分布的特征向量,然后通過決策函數(shù)來分類,不同的決策函數(shù)能夠產(chǎn)生不同的分類方法。常見的統(tǒng)計模式識別方法有兩種:一是由Neyman決策和貝葉斯決策等構(gòu)成的基于似然函數(shù)的分類方法,另一種是基于距離函數(shù)的分類識別方法。模糊模式識別是基于模糊理論利用模糊信息進(jìn)行模糊分類的,主要方法有最大隸屬原則識別法、接近原則識別法和模糊聚類分析法三種。機(jī)器學(xué)習(xí)指計算機(jī)模擬或者實現(xiàn)人類的某些行為,它的應(yīng)用已涉及很多領(lǐng)域。目前常用于作物病害識別的機(jī)器學(xué)習(xí)方法有人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)、移動中心超球分類器等。其中,支持向量機(jī)分類器是目前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點之一,它能夠較好地解決小樣本、非線性、高維數(shù)的分類問題,且具有良好的推廣和泛化能力。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗風(fēng)險最小化原則,以訓(xùn)練誤差最小化為優(yōu)化目標(biāo),而SVM以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍最小化為優(yōu)化目標(biāo),所以SVM的解具有唯一性,也是全局最優(yōu)[36]。移動中心超球分類器是近年來新提出的一種分類器,它是一種對參考樣本進(jìn)行壓縮的方法,可以節(jié)省空間,但其識別率不如人工神經(jīng)網(wǎng)絡(luò)高。以下是在作物病害診斷中較成功的幾種識別模式及技術(shù)進(jìn)展。
1.3.1 貝葉斯判斷法
貝葉斯判別法是一種典型的基于統(tǒng)計方法的分類器。它的基本原理是將代表模式的特征向量X分到m個類別(C1,C2,…,Cm)中的某一類。操作步驟為:
(1)設(shè)樣本有n個屬性(W1,W2,…Wn),每個樣本可看作是n維空間的一個點X=(x1,x2,…,xn);
(2)設(shè)有m個不同的類(C1,C2,…,Cm),X是一個未知類別的樣本,預(yù)測X的類別為后驗概率最大的那個類別;3)用貝葉斯后驗概率公式計算,并進(jìn)行比較,依據(jù)后驗概率可將樣本X歸到Ci類中,當(dāng)且僅當(dāng)>,成立。貝葉斯分類器因其結(jié)構(gòu)簡單、易于擴(kuò)展等特點,被廣泛用于作物病害診斷。楊昕薇等人[37]對3種寒地水稻常見病害圖像處理、提取特征,用貝葉斯判別法識別病害,其識別率達(dá)97.5%。趙玉霞等人[38]提取玉米銹病、灰斑病等5種病斑圖像的特征,利用樸素貝葉斯分類器識別,其識別精度在83%以上。柴阿麗等人[39]提取了番茄早疫病、晚疫病等4種葉部病害圖像病斑的顏色、紋理和形狀特征,優(yōu)化特征后,用貝葉斯判別法識別病害,其識別率達(dá)94.71%。
1.3.2 人工神經(jīng)網(wǎng)絡(luò)識別法
神經(jīng)網(wǎng)絡(luò)技術(shù)是目前廣泛使用的一種機(jī)器學(xué)習(xí)方法,其研究工作始于19世紀(jì)末20世紀(jì)初[40],因具有并行處理、非線性映射、自適應(yīng)學(xué)習(xí)、魯棒容錯性等優(yōu)點,以及采用數(shù)據(jù)驅(qū)動模式,故在模式識別領(lǐng)域得到廣泛應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)診斷作物病害的基本步驟是:構(gòu)建神經(jīng)網(wǎng)絡(luò)識別模型,將已提取并優(yōu)化好的病害圖像特征數(shù)據(jù)作為分類器的輸入特征矢量對模型訓(xùn)練,經(jīng)過訓(xùn)練后的模型可實現(xiàn)作物病害的分類識別。目前應(yīng)用于作物病害識別的人工神經(jīng)網(wǎng)絡(luò)主要有:BP神經(jīng)網(wǎng)絡(luò)、概率神經(jīng)網(wǎng)絡(luò)、自組織特征映射網(wǎng)絡(luò),并衍生出模糊神經(jīng)網(wǎng)絡(luò)、量子神經(jīng)網(wǎng)絡(luò)等。BP神經(jīng)網(wǎng)絡(luò)具有較好的自學(xué)習(xí)性、自適應(yīng)性、魯棒性和泛化性。概率神經(jīng)網(wǎng)絡(luò)是徑向基網(wǎng)絡(luò)的一個重要分支,其分類器是一種有監(jiān)督的網(wǎng)絡(luò)分類器,在識別過程中隨著訓(xùn)練病害種類的增加[41],其運算速度會減慢。自組織特征映射網(wǎng)絡(luò)分類器是于1981年提出的一種由全連接的神經(jīng)元陣列組成的自組織自學(xué)習(xí)網(wǎng)絡(luò)[42],可以直接或間接地完成數(shù)據(jù)壓縮、概念表示和分類的任務(wù),多項實驗表明它的病害圖像識別率都在90%以上。模糊神經(jīng)網(wǎng)絡(luò)是模糊理論同神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,它匯集了神經(jīng)網(wǎng)絡(luò)與模糊理論的優(yōu)點,集學(xué)習(xí)、聯(lián)想、識別、信息處理于一體。量子神經(jīng)網(wǎng)絡(luò)是量子計算理論和人工神經(jīng)網(wǎng)絡(luò)結(jié)合的產(chǎn)物,并集成了兩者的優(yōu)點。王軍英[43]以葡萄發(fā)病部位、病斑形狀、病斑顏色和主要癥狀為特征,用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)識別病害,識別率達(dá)95.36%。譚克竹等人[44]用BP神經(jīng)網(wǎng)絡(luò)識別大豆的灰斑病、霜霉病和斑點病的特征與病害的關(guān)系,其輕度病害的識別精度為87.19%,中度病害的識別精度為90.31%,重度病害的識別精度為93.13%。魏清鳳等人[45]利用模糊神經(jīng)網(wǎng)絡(luò)診斷模型以診斷蔬菜病害,其病害識別率達(dá)85.5%。張飛云[19]提取了玉米灰斑病、銹病和小斑病病害圖像的顏色、紋理、形狀特征,用量子神經(jīng)網(wǎng)絡(luò)進(jìn)行病害識別,其平均識別率達(dá)94.5%。陳麗等人[31]對田間采集的玉米葉部病害圖像,對圖像分割、特征提取,利用概率神經(jīng)網(wǎng)絡(luò)識別病害,其識別率為90.4%,同樣條件下高于BP神經(jīng)網(wǎng)絡(luò)。
1.3.3 支持向量機(jī)識別法
支持向量機(jī)[46](Support Vector Machine,簡稱SVM)是Vapnik等人提出的一款新型的機(jī)器學(xué)習(xí)方法。SVM有線性可分和線性不可分兩種情況,采用不同的核函數(shù)會有不同的SVM 算法。常用的核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)等。SVM在基于數(shù)據(jù)的機(jī)器學(xué)習(xí)領(lǐng)域,它兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性、高維數(shù)、局部極小值等模式識別問題中表現(xiàn)出許多特有的優(yōu)勢[47-48],在基于圖像診斷作物病害領(lǐng)域應(yīng)用越來越多。宋凱等人[49]提取了玉米葉部病害圖像特征,選擇基于SVM的不同的核函數(shù)識別病害,其中徑向基核函數(shù)的正確識別率為89.6%,多項式核函數(shù)為79.2%,Sigmoid核函數(shù)的識別性能最差。劉鵬[50]提取甜柿病害圖像的紋理特征和顏色特征采用SVM識別病害,結(jié)果表明,當(dāng)SVM類型為nu-SVR,核函數(shù)為Sigmoid,參數(shù)C=26、ξ=24時識別效果最好。田有文等人[51]用支持向量機(jī)識別黃瓜病害,實驗表明,SVM方法在處理小樣本問題中具有良好的分類效果,線性核函數(shù)和徑向基核函數(shù)的SVM分類方法在黃瓜病害的識別方面優(yōu)于其他類型核函數(shù)的SVM。越鮮梅[52]提取了向日葵葉部的葉斑病、黑斑病、霜霉病3種病害圖像的顏色矩、紋理特征共9個特征,采用一對一投票決策的SVM多分類模型識別病害,取得了較好的效果。劉立波[22]提取了水稻常見葉部病害圖像的顏色、紋理、形狀等特征,對特征優(yōu)化后,分別用最近鄰域、BP神經(jīng)網(wǎng)絡(luò)和SVM方法識別病害,其中識別率最高的是SVM,BP神經(jīng)網(wǎng)絡(luò)居中,最近鄰域法最差,BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度最慢。
2機(jī)器視覺識別作物病害存在的問題與進(jìn)一步研究重點
將計算機(jī)視覺用于作物病害診斷,以改變傳統(tǒng)的診斷方式,為種植戶準(zhǔn)確診斷病害,以及變量施藥提供了決策支持。目前,計算機(jī)視覺診斷作物病害雖然取得了一定的進(jìn)展,但從研究的深度、應(yīng)用的范圍和實用化角度看,還存在許多不足,還需進(jìn)一步深入研究。
2.1機(jī)器視覺診斷作物病害存在的問題
筆者查閱了大量文獻(xiàn),對目前常用的機(jī)器視覺識別作物病害的技術(shù)進(jìn)行了研讀,目前機(jī)器視覺識別作物病害的技術(shù)還不夠成熟,存在以下問題:
(1)在實驗室條件下計算機(jī)視覺診斷作物病害正確率高,但應(yīng)用到田間,難度較大,主要原因是大多研究是在簡單背景下、對少數(shù)幾種病害圖像診斷,而對大田復(fù)雜背景下診斷多種病害的研究還比較少。
(2)病害圖像分割背景簡單,對于自然狀態(tài)和復(fù)雜背景下的病害圖像分割有待進(jìn)一步的研究。
(3)因作物病斑的大小、顏色等圖像特征在不同時期有差異,對于某一發(fā)病時期建立的作物病害診斷系統(tǒng),用于不同發(fā)病時期診斷識別率會有所不同。
(4)許多分類算法和分類器都存在各自的優(yōu)缺點,不能適合所有作物病害識別,沒有統(tǒng)一的評價標(biāo)準(zhǔn),難以實現(xiàn)各診斷系統(tǒng)之間的客觀比較。
(5)不同研究者使用的病害圖像各不相同,難以比較不同。
(6)機(jī)器視覺診斷作物病還是少數(shù)專家對某類作物在局部范圍內(nèi)的研究,很難滿足現(xiàn)實生產(chǎn)的多種作物、不同區(qū)域同時診斷的要求。
2.2進(jìn)一步研究重點
根據(jù)以上存在的問題,今后的研究方向和重點為:
(1)機(jī)器視覺識別作物病害技術(shù)從實驗室向大田擴(kuò)展時,需綜合考慮所提取的病害圖像特征在復(fù)雜背景下的可獲取性、穩(wěn)定性、可操作性等。
(2)機(jī)器視覺診斷作物病害系統(tǒng)應(yīng)充分考慮不同發(fā)病時期,識別特征的變化規(guī)律。
(3)研究適合多種作物在復(fù)雜背景下實現(xiàn)病斑分割、特征提取等高效的圖像處理算法,在模式識別方面要側(cè)重于模糊數(shù)學(xué)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、組合優(yōu)化等理論與技術(shù)的研究。
(4)建立規(guī)范統(tǒng)一的作物病害圖像數(shù)據(jù)庫,圖像可普遍獲取,建立合理完善的病害分割、特征提取、病害種類識別等系統(tǒng),以及病害評價標(biāo)準(zhǔn)。
(5)模式識別病害中的算法需進(jìn)一步發(fā)展和優(yōu)化,建立統(tǒng)一的評判標(biāo)準(zhǔn),評價方法適合所有的識別算法和各應(yīng)用領(lǐng)域,采用定量和客觀評價準(zhǔn)則,可精確描述算法性能,評判應(yīng)擺脫人為因素。
參考文獻(xiàn):
[1]GEORGIEVA K, GEORGIEVA Y, DASKALOV D.Theoretical substantiation of model of system for evaluation a state of vine plants and taking a decision for plant protection activities[J]. Trakia Journal of Sciences (Series Social Sciences),2003,1:30-32.
[2]穗波信雄.圖像處理在植物生長信息提取中的應(yīng)用[R].日本:農(nóng)業(yè)機(jī)械學(xué)會關(guān)西支部研究會資,1992:63-46.
[3]SASAKI Y , OKAMOTO T. Automatic diagnosis of plantdisease-recognition between healthy and diseased leaf[J]. Journal of the Japanese Society of Agricultural Machinery,1999,61(2):119-126.
[4]陳佳娟,紀(jì)壽文,李娟,等.采用計算機(jī)視覺進(jìn)行棉花蟲害程度的自動測定[J].農(nóng)業(yè)工程學(xué)報,2001,17(2):157-160.
[5]賈浩.基于計算機(jī)視覺的玉米葉部病害識別技術(shù)研究[D]. 泰安:山東農(nóng)業(yè)大學(xué),2013.
[6]徐貴力,毛罕平,李萍萍,等.差分百分率直方圖法提取缺素葉片紋理特征[J].農(nóng)業(yè)機(jī)械學(xué)報,2003,34(2):76-79.
[7]李宗儒.基于圖像分析的蘋果病害識別技術(shù)研究[D].楊凌:西北農(nóng)林科技大學(xué),2010.
[8]姜武.模式識別技術(shù)在山茶屬植物數(shù)值分類學(xué)和葉綠素含量預(yù)測中的應(yīng)用研究[D]. 金華:浙江師范大學(xué),2013.
[9]王靜.基于圖像處理技術(shù)的煙葉病害自動識別研究[D]. 昆明:昆明理工大學(xué),2009.
[10]劉芝京.基于圖像處理的黃瓜細(xì)菌性角斑病的識別研究[D]. 成都:西華大學(xué).2012.
[11]趙進(jìn)輝,羅錫文,周志艷.基于顏色與形狀特征的甘蔗病害圖像分割方法[J].農(nóng)業(yè)機(jī)械學(xué)報,2008,39(9).
[12]管澤鑫,唐健,楊保軍,等.基于圖像的水稻病害識別方法研究[J].中國水稻科學(xué),2010,24(5):497~502.
[13]OTSU N A. Threshold selection method from gray-level histo-gram[J]. IEEE Trans Syst Man Cybenet, 1979, 15: 652-655.
[14]邵慶,張楠,路陽.小麥病害圖像識別處理及形狀特征提取研究[J].農(nóng)機(jī)化研究,2013,35(8):35-37.
[15]溫長吉,王生生,于合龍,等.基于改進(jìn)蜂群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的玉米病害圖像分割[J].農(nóng)業(yè)工程學(xué)報,2013,29(13):142-147.
[16]祁廣云,馬曉丹,關(guān)海鷗.采用改進(jìn)的遺傳算法提取大豆葉片病斑圖像[J].農(nóng)業(yè)工程學(xué)報.2009,25(5).
[17]毛罕平,張艷誠,胡波.基于模糊C均值聚類的作物病害葉片圖像分割方法研究[J].農(nóng)業(yè)工程學(xué)報.2008,24.
[18]張柏毅,朱景福,劉勇.基于模糊C-均值聚類的作物葉部病斑圖像分割[J].智能計算機(jī)與應(yīng)用.2011,3(10).
[19]張云飛.基于量子神經(jīng)網(wǎng)絡(luò)和組合特征參數(shù)的玉米葉部病害識別[J].南方農(nóng)業(yè)學(xué)報,2013,44(8):1286-1290.
[20]張芳.復(fù)雜背景下黃瓜葉部病害識別方法研究[D]. 沈陽:沈陽農(nóng)業(yè)大學(xué),2014.
[21]任玉剛,張建,李淼,等.基于分水嶺算法的作物病害葉片圖像分割方法[J].計算機(jī)應(yīng)用,2012,32(3):752-755.
[22]劉立波.基于圖像的水稻葉部病害診斷技術(shù)研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2010.
[23]濮永仙.基于支持向量機(jī)與多特征選擇的作物彩色病斑邊緣檢測[J].計算機(jī)應(yīng)用系統(tǒng),2014,9(23):118-123.
[24]石鳳梅,趙開才,孟慶林,等.基于支持向量機(jī)的水稻稻瘟病圖像分割研究[J].東北農(nóng)業(yè)大學(xué)學(xué)報,44(2):128-135.
[25]王美麗,牛曉靜,張宏鳴,等.小麥葉部常見病害特征提取及識別技術(shù)研究[J].計算機(jī)工程與應(yīng)用, 2014,50(7):154-157.
[26]蔡清,何東健.基于圖像分析的蔬菜食葉害蟲識別技術(shù)[J].計算機(jī)應(yīng)用, 2010,7(30):1870-1872.
[27]王克如.基于圖像識別的作物病蟲草害診斷研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2005.
[28]田有文,李天來,李成華,等.基于支持向量機(jī)的葡萄病害圖像識別方法[J].農(nóng)業(yè)工程學(xué)報,2007,23(6):175-179.
[29]李旺.基于圖像處理的黃瓜葉部病害識別研究[D]. 長沙:湖南農(nóng)業(yè)大學(xué),2013.
[30]柴洋,王向東.基于圖像處理的溫室大棚中番茄的病害識別[J].模式識別與仿真,2013,32(9):83-88.
[31]陳麗,王蘭英.概率神經(jīng)網(wǎng)絡(luò)在玉米葉部病害識別中的應(yīng)用[J].農(nóng)機(jī)化研究,2011,(6):145-148.
[32]彭占武.基于圖像處理和模式識別技術(shù)的黃瓜病害識別研究[D].長春:吉林農(nóng)業(yè)大學(xué),2007.
[33]濮永仙,余翠蘭.基于雙編碼遺傳算法的支持向量機(jī)作物病害圖像識別方法[J].貴州農(nóng)業(yè)科學(xué),2013,7(41)187-191.
[34]韓瑞珍.基于機(jī)器視覺的農(nóng)田害蟲快速槍測與識別研究[D].杭州:浙江大學(xué),2014.
[35]邊肇祺,張學(xué)工.模式識別[M].北京:清華大學(xué)出版社,2002:284-304.
[36]奉國和.基于聚類的大樣本支持向量研究[J].計算機(jī)科學(xué),2006,33(4):145-147.
[37]楊昕薇,譚峰.基于貝葉斯分類器的水稻病害識別處理的研究[J].黑龍江八一農(nóng)墾大學(xué)學(xué)報,2012,24(3):64-67.
[38]趙玉霞,王克如,白中英等.基于圖像識別的玉米葉部病害診斷研究[J].中國農(nóng)業(yè)科學(xué) 2007,40(4):698-703
[39]柴阿麗,李寶聚等.基于計算機(jī)視覺技術(shù)的番茄葉部病害識別[J].園藝學(xué)報,2010,37(9):1423-1430.
[40]Han Jiawei,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].第二版. 范明,孟小峰,譯.北京:機(jī)械工業(yè)出社,2007:251-306.
[41]賀鵬,黃林.植物葉片特征提取及識別[J].農(nóng)機(jī)化研究,2008(6):168-170.
[42]楊占華,楊燕.SOM神經(jīng)網(wǎng)絡(luò)算法的研究與進(jìn)展[J].計算機(jī)工程,2006,32(16):201-228.
[43]王軍英.基于BP神經(jīng)網(wǎng)絡(luò)的葡萄病害診斷系統(tǒng)研究[J].農(nóng)業(yè)信息網(wǎng),2013,8:30-33.
[44]譚克竹,沈維政.基于BP神經(jīng)網(wǎng)絡(luò)的大豆葉片病害診斷模型的研究[J].控制理論與應(yīng)用,2013,32(12):5-7.
[45]魏清鳳,羅長壽,曹承忠,等.基于模糊神經(jīng)網(wǎng)絡(luò)的蔬菜病害診斷模型研究[J].河南農(nóng)業(yè)科學(xué),2013,(9):4224-4227.
[46]BURGOS-ARTIST X P, RIBERA A, TELLAECHE A, et al. Improving weed pressure assessment using digital images from an experience-based reasoning approach [J]. Computers and Electronics in Agriculture, 2009, 65(2): 176-185.
[47] BURGES C J C. A tutorial on support vector machines for pattern recognition [J].Data Mining and Knowledge Discovery, 1998, 2(2):121-169.
[48]Steve R Gunn. Support vector machines for classification and regression [R].Southampton: University of Southampton, 1998:1-28.
[49]宋凱,孫曉艷,紀(jì)建偉.基于支持向量機(jī)的玉米葉部病害識別[J].農(nóng)業(yè)工程學(xué)報,2007,23(1):155-157.
[50]劉鵬,屠康,徐洪蕊,等.基于支持向量機(jī)的甜柿表面病害識別[J].現(xiàn)代食品科技,2011,27(3):349-353.
[51]田有文,牛妍.支持向量機(jī)在黃瓜病害識別中的應(yīng)用研究[J].農(nóng)機(jī)化研究,2009,(3):36-38.
[52]越鮮梅.基于圖像識別的向日葵葉部病害診斷技術(shù)研究[D].呼和浩特:內(nèi)蒙古工業(yè)大學(xué),2013.
1 項目基金:云南省科學(xué)研究基金子課題(2013Y571)。
作者簡介:濮永仙( 1976-),女,云南騰沖人,碩士,副教授,主要研究方向:機(jī)器視覺診斷作物病害,智能農(nóng)業(yè)方面的研究。
??
??
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識別;大樣本;對抗生成網(wǎng)絡(luò)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在目標(biāo)檢測、目標(biāo)識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機(jī)視覺領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)出具有百萬參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對象的本質(zhì)特征;
(2)不斷改進(jìn)性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設(shè)備(如GPU)的支持,大大提高了CNN訓(xùn)練模型的效率。其中,將標(biāo)簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。
有效的特征是目標(biāo)識別的關(guān)鍵,對人臉識別問題來說亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績?;趥鹘y(tǒng)特征的人臉識別受限于環(huán)境,此類特征作用在復(fù)雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征,無需人工設(shè)計特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動學(xué)習(xí)獲取,從而達(dá)到優(yōu)秀的識別性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬個人臉圖像樣本進(jìn)行訓(xùn)練[10],F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬個有標(biāo)簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
1 多樣本獲取現(xiàn)狀
如引言所述,有效合理的特征是目標(biāo)識別的關(guān)鍵,而CNN能從大量有標(biāo)簽的數(shù)據(jù)中自動學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標(biāo)簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標(biāo)簽方面。然而,獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費大量的人力物力。雖然也有一些公開免費的數(shù)據(jù)集,且收集該類數(shù)據(jù)相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠(yuǎn)少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機(jī)器學(xué)習(xí)技術(shù)自動增加樣本集已成為必要手段。
無論基于傳統(tǒng)方法的識別問題,還是基于深度學(xué)習(xí)的識別問題,大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬有標(biāo)簽的數(shù)據(jù)集擴(kuò)大到了26萬 [10]。除此之外,F(xiàn)acebook獲取了440萬個有標(biāo)簽的人臉進(jìn)行DeepFace網(wǎng)絡(luò)訓(xùn)練[11],而Google使用2億個數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
目前獲取方法具有如下局限:
(1)現(xiàn)有方法耗時耗力,需要經(jīng)費支持。獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標(biāo)簽的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫(yī)學(xué)圖像,遙感圖像,現(xiàn)實中數(shù)量本身就少,加之無法直接從網(wǎng)上獲取,因此小樣本很容易導(dǎo)致過擬合。
2 樣本集擴(kuò)大算法研究現(xiàn)狀
2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀
對于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本,均可得到比較滿意的識別結(jié)果,但在現(xiàn)實的人臉數(shù)據(jù)庫中,人臉的數(shù)據(jù)樣本卻是有限的。文獻(xiàn)[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識別的準(zhǔn)確率。
為了增加樣本數(shù)量,提高識別準(zhǔn)確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴(kuò)大數(shù)據(jù)集并提高人臉識別的正確率,Song[22]也提出相應(yīng)的算法來改進(jìn)人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產(chǎn)生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進(jìn)行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴(kuò)大數(shù)據(jù)集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來產(chǎn)生虛擬樣本[23]。
(4)基于數(shù)學(xué)的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關(guān)實驗,其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數(shù),代表多個樣本的串聯(lián),即將多個樣本聯(lián)合起來得到一個類別的新樣本。
2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀
大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)成功的關(guān)鍵,尤其對于強(qiáng)大的深度學(xué)習(xí)技術(shù),大數(shù)據(jù)集能提高CNN的性能,防止過擬合[25]。為了擴(kuò)充數(shù)據(jù)集,已有一些工作在不改變圖像語義的情況下進(jìn)行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。
DeepID[30]采取了增大數(shù)據(jù)集手法來訓(xùn)練網(wǎng)絡(luò),只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:
(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。
(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進(jìn)行訓(xùn)練,再把得到的向量串聯(lián)起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術(shù),該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進(jìn)行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問題,如Shotton等通過隨機(jī)森林合成3D深度數(shù)據(jù)來估計人體姿勢,Jaderberg等使用合成數(shù)據(jù)來訓(xùn)練CNN模型識別自然場景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜,需要較多的前期工作。
近年來,借助生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學(xué)者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點及其在圖像生成方面的應(yīng)用,標(biāo)志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網(wǎng)絡(luò)不穩(wěn)定,甚至有時該網(wǎng)絡(luò)永遠(yuǎn)不會開始學(xué)習(xí),生成的結(jié)果無法令人滿意。文獻(xiàn)[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻(xiàn)[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉(zhuǎn)換成對的圖像。文獻(xiàn)[35]將GAN應(yīng)用于超分辨率中,該文獻(xiàn)提出了全新的損失函數(shù),使得 GANs 能對大幅降采樣后的圖像恢復(fù)其生動紋理和小顆粒細(xì)節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36],該文獻(xiàn)指出,用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級的特征,并具有比其他無監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區(qū)分真假;而判別器D應(yīng)不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數(shù)如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓(xùn)練樣本的標(biāo)簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結(jié) 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現(xiàn)實應(yīng)用意義。雖然研究人員已經(jīng)對相關(guān)問題進(jìn)行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認(rèn)為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質(zhì)特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設(shè)計合理有效的構(gòu)造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網(wǎng)絡(luò),研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻(xiàn)
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
關(guān)鍵詞:智能控制;方法;形式
中圖分類號:TP31 文獻(xiàn)標(biāo)識碼:A
1智能控制的發(fā)展
科學(xué)技術(shù)和生產(chǎn)的迅速發(fā)展是智能控制學(xué)科發(fā)展的動力。以往以單純數(shù)學(xué)解析結(jié)構(gòu)為基礎(chǔ)的控制理論,其局限性日益明顯。它的局限性主要體現(xiàn)在以下幾方面:其一,在航空、航天、航海及各種工業(yè)部門,受控對象日益復(fù)雜。受控對象不僅規(guī)模大,運動學(xué)結(jié)構(gòu)復(fù)雜,而且各運動變量之間嚴(yán)重耦合,同時還帶有嚴(yán)重的不確定性(包括結(jié)構(gòu)和參數(shù)兩個方面的不確定性)和非線性。這樣復(fù)雜的受控對象使得以確定模型和數(shù)學(xué)解析方法為基礎(chǔ)的傳統(tǒng)控制理論遇到了困難和挑戰(zhàn)。其二,控制任務(wù)和目標(biāo)的復(fù)雜化,也使傳統(tǒng)的控制理論難于勝任。例如,一架性能優(yōu)良的攻擊機(jī)必須具備對空、地多目標(biāo)自動攻擊的能力,必須具備自動地形跟蹤、回避的能力,必須具備自動導(dǎo)航和高品質(zhì)自動飛行的能力。這樣復(fù)雜的控制任務(wù)和控制指標(biāo)要求,對于傳統(tǒng)的控制理論來說是很困難的。其三,系統(tǒng)工作環(huán)境的復(fù)雜化,也使傳統(tǒng)的控制理論產(chǎn)生麻煩。例如,在空戰(zhàn)條件下,戰(zhàn)場敵我態(tài)勢的突變,氣象條件的突變,敵方對我方系統(tǒng)的破壞和干擾,駕駛員的疲勞和意外失誤,或者系統(tǒng)處于不利的化學(xué)物質(zhì)環(huán)境中工作等。上述復(fù)雜受控對象,復(fù)雜的控制任務(wù)和控制目的,復(fù)雜的系統(tǒng)運行環(huán)境都促使人們研究新的控制方式去實現(xiàn)對它們的有效控制。這就是智能控制產(chǎn)生和發(fā)展的背景和動力。
另一方面,近代迅速發(fā)展的人工智能技術(shù)和計算機(jī)技術(shù)又為智能控制的發(fā)展提供了條件。諸如符號、語言的知識表達(dá),狀態(tài)特征的辨識,定性與定量,精確與模糊信號的處理,分析推理,邏輯運算,判斷決策,自然語言理解和視覺系統(tǒng)等一系列擬人思維和功能均可通過計算機(jī)來實現(xiàn)。可以說,人工智能和計算機(jī)技術(shù)為智能控制的發(fā)展提供了物質(zhì)條件。因此,智能控制不僅是科學(xué)技術(shù)和生產(chǎn)發(fā)展的推動和需要,也是科學(xué)技術(shù)發(fā)展的必然趨勢;不僅是控制科學(xué)的繼承、發(fā)展和提高,也是多學(xué)科相結(jié)合、共同迸發(fā)出的新的科學(xué)技術(shù)的火花。
2智能控制的主要形式
智能控制這一學(xué)科正在蓬勃發(fā)展,智能控制的形式也日新月異。目前正在興起和研究的形式很多,其中主要的有如下幾種。
2.1分級遞階智能控制
分級遞階智能控制是從系統(tǒng)工程出發(fā),總結(jié)了人工智能與自適應(yīng)控制、自學(xué)習(xí)控制和自組織控制的關(guān)系之后逐漸形成的,是智能控制最早的理論之一。
分級遞階智能控制有兩種比較重要的理論:知識基/解析混合多層智能控制理論,該理論是由意大利學(xué)者A.Villa提出的,可用于解決復(fù)雜離散事件系統(tǒng)的控制設(shè)計問題。薩里迪斯三級智能控制理論,按照這種理論設(shè)計的智能控制系統(tǒng)是由組織級(最高級)、協(xié)調(diào)級(中間級)和執(zhí)行級(最下級)三級組成的,并用熵函數(shù)來衡量每一一級的執(zhí)行代價和效果,用熵進(jìn)行最優(yōu)決策。這一方法為現(xiàn)代工業(yè)、空間探測、核處理和醫(yī)學(xué)領(lǐng)域應(yīng)用自主控制系統(tǒng)提供了一個有效的方法??傊旨夁f階智能控制是為求解大系統(tǒng),復(fù)雜系統(tǒng)的尋優(yōu)、決策和有效控制而提出來的,是研究多級自尋優(yōu)控制、多級模糊控制、多級專家控制、遞階智能多目標(biāo)預(yù)測控制以及大型空間運動結(jié)構(gòu)系統(tǒng)的三級遞階智能控制的有效方法。
2.2專家系統(tǒng)控制
專家系統(tǒng)控制(包括仿人智能控制和智能PID控制),是工程控制論和專家系統(tǒng)相結(jié)合的產(chǎn)物。這類智能控制的特點是專家的知識和經(jīng)驗與傳統(tǒng)的PID控制器的結(jié)合,它所設(shè)計產(chǎn)生的控制規(guī)則簡單易于實現(xiàn),如飛行控制過程、化工PH過程的智能控制。在這一類智能控制中,還應(yīng)指出的一種形式是實時監(jiān)督控制專家系統(tǒng),由故障檢測、故障診斷和故障處理三部分組成,這種形式在航天、航空和化工等領(lǐng)域都有大量應(yīng)用。
2.3模糊控制
該控制方法最早提出者之一是美國著名控制論專家LA.Zadeh,1965他發(fā)表了模糊集合論。模糊控制理論主要以模糊數(shù)學(xué)和規(guī)則表組成控制決策。它適用于難以建模的受控對象,但很難做到高精度。
2.4人工神經(jīng)元網(wǎng)絡(luò)控制
20世紀(jì)50年代末就已問世的神經(jīng)元網(wǎng)絡(luò)模仿生物神經(jīng)系統(tǒng),主要模仿人的大腦的神經(jīng)網(wǎng)絡(luò)模型和信息處理機(jī)能,如信息處理、判斷、決策、聯(lián)想、記憶、學(xué)習(xí)等功能,以實現(xiàn)仿人行為的智能控制。
2.5各種智能控制方法的交叉和結(jié)合
為了發(fā)揮各種不同智能控制方法的優(yōu)點,克服它們各自的缺點和不足,各種組合、結(jié)合、互相交叉滲透的智能控制方法不斷被提出和研究。例如,專家模糊控制、模糊神經(jīng)網(wǎng)絡(luò)控制、專家神經(jīng)網(wǎng)絡(luò)控制、模糊PID控制、專家PID控制和模糊學(xué)習(xí)控制等。
2.6各種智能控制方法與傳統(tǒng)控制理論方法的交叉和結(jié)合
它們既能發(fā)揮智能控制的優(yōu)點,也能發(fā)揮傳統(tǒng)控制方法的優(yōu)點,在工程實際中可獲得完美的控制效果。它不僅是方法研究的交叉,而且也是多學(xué)科研究的交叉和發(fā)展。這些交叉和結(jié)合有模糊變結(jié)構(gòu)控制、自適應(yīng)模糊控制、自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制、神經(jīng)網(wǎng)絡(luò)變結(jié)構(gòu)控制和專家模糊PID控制等。上述交叉和結(jié)合還可以舉出一些,這些控制有的學(xué)者又稱為綜合控制理論和方法。
3智能自主控制
隨著科學(xué)技術(shù)發(fā)展和生產(chǎn)的需要,自主控制,特別是用智能化的方法實現(xiàn)自主控制成為當(dāng)今的熱門研究課題。智能自主控制也是智能控制的一種形式。什么是智能自主控制,至今沒有統(tǒng)一的定義,根據(jù)普遍的理解,給出如下說明。
3.1智能自主控制的含義
智能自主控制系統(tǒng)應(yīng)該具有如下功能:系統(tǒng)能自動接受控制任務(wù)、控制要求和目標(biāo),并能對任務(wù)、目標(biāo)和要求自主進(jìn)行分析、判斷、規(guī)劃和決策。系統(tǒng)能自主感知、檢測自身所處的狀態(tài)信息、環(huán)境信息和干擾信息,并能自主進(jìn)行融合、分析、識別、判斷和決策;同時能作出能否執(zhí)行任務(wù)的決策。
系統(tǒng)能根據(jù)控制任務(wù)、目標(biāo)要求,結(jié)合系統(tǒng)所處的當(dāng)前自身狀態(tài)信息、環(huán)境信息、干擾信息,自主地進(jìn)行分析、綜合,并作出執(zhí)行任務(wù)和如何完成任務(wù)的控制決策。系統(tǒng)能根據(jù)上述決策自主形成控制指令,自主操控系統(tǒng)狀態(tài)的行為,并朝著完成控制任務(wù)和目標(biāo)的方向運動。
在上述運動過程中,如果出現(xiàn)任務(wù)改變,出現(xiàn)事先未預(yù)見的環(huán)境變化和自身狀態(tài)變化,或出現(xiàn)系統(tǒng)自身損傷,系統(tǒng)能根據(jù)任務(wù)改變、新的環(huán)境(干擾屬環(huán)境變化)信息和自身狀態(tài)信息的改變,自主地作出分析、判斷,并作出改變系統(tǒng)狀態(tài)行為的指令,使系統(tǒng)改變自身的狀態(tài)。或自主進(jìn)行系統(tǒng)重組,以適應(yīng)外界環(huán)境的變化;或自主進(jìn)行系統(tǒng)的故障診斷、自修復(fù),以適應(yīng)完成控制任務(wù)和目標(biāo)的要求,最終自主完成控制任務(wù),達(dá)到控制的目標(biāo)。具有上述功能的系統(tǒng)可以認(rèn)為是智能自主控制系統(tǒng),或稱為智能自主控制。
3.2智能自主控制系統(tǒng)的應(yīng)用
智能自主控制的關(guān)鍵是用智能化的方法實現(xiàn)完全無人參與的控制過程,并使系統(tǒng)運行達(dá)到預(yù)期的目的。
現(xiàn)以智能自主控制的行駛車輛為例說明其智能自主控制的過程。假定要使車輛完成由A城去B城送貨的任務(wù)。智能自主控制行車系統(tǒng)接受這一任務(wù)后,首先要做的工作是,接受任務(wù),分析任務(wù),同時檢測系統(tǒng)自身所處狀態(tài)(是否處于運行準(zhǔn)備狀態(tài))和車輛重心目前所處的地理坐標(biāo)位置。第二步,開啟環(huán)境狀態(tài)檢測識別系統(tǒng),確定車輛自身的環(huán)境坐標(biāo)位置,即確定車身是否處于地理坐標(biāo)的道路中間,車頭和道路規(guī)定的行車方向是否相同。第三步,將以上檢測結(jié)果與任務(wù)要求相結(jié)合,進(jìn)行決策分析。根據(jù)智能自主控制行車系統(tǒng)存儲的數(shù)字地圖,決策、規(guī)劃出行車路線,選擇好行車道路,同時根據(jù)規(guī)劃出的行車路線和道路向行車智能自動駕駛系統(tǒng)發(fā)出行車指令,給出行車控制信號。該系統(tǒng)能協(xié)調(diào)地啟動發(fā)動機(jī),能控制油門,方向盤和剎車,駕車按規(guī)劃的行車路線和所選擇的道路行駛。第四步,在行車過程中,智能自主控制行車系統(tǒng)中的智能自主導(dǎo)航系統(tǒng),能不斷記錄行車方向、路線、行車速度和里程,確定車身重心的地理位置坐標(biāo);智能環(huán)境狀態(tài)檢測識別系統(tǒng)能確定車身相對周圍環(huán)境的坐標(biāo)。如果行車中的地理位置坐標(biāo)偏離了規(guī)劃出的行車路線,智能自主控制行車系統(tǒng)應(yīng)能根據(jù)車身目前所處的位置,結(jié)合系統(tǒng)攜帶的數(shù)字地圖重新規(guī)劃出新的行車路線,并能選好行車道路。如果行車中車身偏離了行車道路中間線,或行車前方出現(xiàn)障礙,則智能自主控制行車系統(tǒng)能通過環(huán)境視覺識別系統(tǒng),給出行車方向修正指令和停車指令,避免行車事故,保持行車任務(wù)的正常執(zhí)行。第五步,當(dāng)行車到達(dá)終點B城時,智能自主控制行車系統(tǒng)的智能導(dǎo)航系統(tǒng)能根據(jù)行車規(guī)劃的終點位置的地理坐標(biāo)和行車當(dāng)前的地理位置坐標(biāo),判斷行車的終點任務(wù)是否完成。
如果行車終點位置到達(dá),則將停車任務(wù)轉(zhuǎn)交給環(huán)境狀態(tài)檢測識別系統(tǒng),由該系統(tǒng)搜索選擇停車位置,并將此停車位置與出發(fā)前記錄在系統(tǒng)數(shù)據(jù)庫中的停車位置環(huán)境圖像相匹配,匹配無差,則命令行車智能自動駕駛系統(tǒng)關(guān)閉油門、發(fā)動機(jī),并停車。如果行車過程中,智能自主控制行車系統(tǒng)發(fā)生損壞,系統(tǒng)自身應(yīng)能實現(xiàn)故障自診斷、自修復(fù)或系統(tǒng)自重組。這種自修復(fù)和系統(tǒng)自重組往往要求能在車輛行進(jìn)中完成。
結(jié)語
智能控制系統(tǒng)的設(shè)計是一項復(fù)雜的系統(tǒng)工程,隨著科技的發(fā)展與進(jìn)步,有關(guān)技術(shù)還在不斷的發(fā)展之中,但發(fā)展迅速,各種不同智能控制水平的系統(tǒng)正在不斷的研究,其實際應(yīng)用也不斷涌現(xiàn)為人們的生活帶來可極大的便利。
參考文獻(xiàn)
[1]游明坤.智能控制理論的發(fā)展及應(yīng)用[J].軟件導(dǎo)刊,2006.
[2]胡氫,司紀(jì)凱.智能控制技術(shù)現(xiàn)狀分析及發(fā)展[J].煤礦機(jī)械,2006.