前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)概述范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:手寫數(shù)字識別;卷積神經(jīng)網(wǎng)絡(luò);應(yīng)用
手寫體數(shù)字識別在郵政、金融等領(lǐng)域應(yīng)用廣泛。對于數(shù)字識別,人們往往要求識別器有很高的識別可靠性,數(shù)字識別的錯(cuò)誤所帶來的影響比文字識別等其他識別所帶來的影響更大,特別是有關(guān)金融方面的數(shù)字識別錯(cuò)誤所帶來的后果是無法想象的,識別錯(cuò)一個(gè)數(shù)字,這其中的差距可能是幾的差距,也可能是幾十、幾百的差距,這些都還是小問題;但更有可能這一個(gè)數(shù)字代表的差距是幾萬、幾千萬甚至幾億乃至更多,那么這個(gè)錯(cuò)誤造成的損失就無法估量了。因此,O計(jì)出有著高可靠性與高識別率的數(shù)字識別系統(tǒng)已經(jīng)成為了字符識別領(lǐng)域一個(gè)非常重要的環(huán)節(jié)。
1 網(wǎng)絡(luò)模型和數(shù)據(jù)庫及學(xué)習(xí)算法的選擇
1.1 關(guān)于Mnist數(shù)據(jù)庫的介紹
首先,Mnist是NIST數(shù)據(jù)庫的一個(gè)優(yōu)化子集。它是一個(gè)有著60000個(gè)訓(xùn)練樣本集與10000個(gè)測試樣本集的手寫體數(shù)字?jǐn)?shù)據(jù)庫。此數(shù)字庫一共有4個(gè)文件。
此數(shù)字庫的所有樣本集都有圖像文件以及標(biāo)簽文件。標(biāo)簽文件的作用是用來儲存樣本集中的每個(gè)樣本的數(shù)值標(biāo)簽,而每一個(gè)樣本的圖像數(shù)據(jù)信息則是由圖像文件存儲著。此數(shù)據(jù)庫的圖像數(shù)據(jù)均保存在二進(jìn)制文件之中,且每個(gè)樣本圖像的大小均為28*28。
1.2 數(shù)字識別的模型選擇
手寫體數(shù)字雖然只有0~9十個(gè)數(shù)字,但由于寫法因人而異,不同地域同樣一個(gè)數(shù)字有多種不同的寫法,每個(gè)人都有自己的書寫習(xí)慣。且一些紙質(zhì)差異、筆畫粗細(xì)、光線問題、位置、尺度大小等等多種因素都能對輸入產(chǎn)生影響??紤]到這些因素,為讓網(wǎng)絡(luò)有良好的識別能力,我們這里采用在圖像識別領(lǐng)域有著優(yōu)秀表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)作為此數(shù)字識別系統(tǒng)的訓(xùn)練模型。
1.3 學(xué)習(xí)算法的選擇
一個(gè)優(yōu)秀的網(wǎng)絡(luò)模型必須具備良好的學(xué)習(xí)算法,每個(gè)學(xué)習(xí)網(wǎng)絡(luò)都有著相對來說較為合適自己的學(xué)習(xí)算法,而并不是說越高端的算法就越好。在此文中,我選擇的學(xué)習(xí)算法是較為成熟的BP算法。此算法在文字前面有些許介紹,此處不再多做說明。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識別系統(tǒng)的設(shè)計(jì)
2.1 輸入層以及輸出層設(shè)定
根據(jù)樣本的特征與此網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),可以大概判斷出輸入層與輸出層該如何設(shè)置。隱含層的個(gè)數(shù)可以是一個(gè),也可以是多個(gè),這與要分類的問題有關(guān)。
前文提及到在mnist數(shù)據(jù)庫中,所有的圖像都是28*28大小的,且以整個(gè)圖片的像素形式存儲在數(shù)據(jù)文件之中。每張圖像大小為28*28,故一個(gè)圖片像素點(diǎn)個(gè)數(shù)為784個(gè)。這里,卷積神經(jīng)網(wǎng)絡(luò)的輸入即為這784個(gè)像素點(diǎn)。
因?yàn)閿?shù)字識別需要識別的是0~9這十個(gè)數(shù)字,即需要識別十種字符類別,所以將這個(gè)神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元節(jié)點(diǎn)數(shù)設(shè)置為10。
2.2 網(wǎng)絡(luò)的中間層設(shè)置
卷積神經(jīng)網(wǎng)絡(luò)的中間層有兩個(gè)部分,即卷積層(特征提取層)與下采樣層(特征映射層),由第二章中圖2-1所示,C1、C3為卷積層,S2、S4為降采樣層。
1)激活函數(shù)選擇
激活函數(shù)選擇sigmoid函數(shù)。同樣,在第二章有所提及。Sigmoid函數(shù)是嚴(yán)格遞增函數(shù),能較好的平衡線性與非線性之間的行為,比較貼近生物神經(jīng)元的工作。相比于其他函數(shù),sigmoid函數(shù)還存在著許多優(yōu)勢,比如光滑性、魯棒性以及它的導(dǎo)數(shù)可以用它自身來表示。
sigmoid函數(shù)為:
(1)
其中,x為神經(jīng)元凈輸入。
激活函數(shù)導(dǎo)數(shù)為:
(2)
2)卷積層設(shè)計(jì)
圖像經(jīng)過卷積核對特征圖進(jìn)行卷積,之后再經(jīng)過sigmoid函數(shù)處理在卷積層得到特征映射圖。特征映射圖相比于原圖像,其特征更為明顯突出。
卷積運(yùn)算其實(shí)就是一個(gè)加權(quán)求和的過程。離散卷積是本文所選取的方法,規(guī)定卷積核在水平和豎直兩個(gè)方向每次都是移動(dòng)一個(gè)像素,即卷積的步長為1。
3)下采樣層的設(shè)計(jì)
根據(jù)圖像局部相關(guān)性這一原理,為了降低網(wǎng)絡(luò)的學(xué)習(xí)維度、減少需要處理的數(shù)據(jù)量且保留圖像的有用信息,可以對卷積后的圖像進(jìn)行下采樣。這里,我們采取的是取卷積層4個(gè)像素點(diǎn)平均值為下采樣層的一個(gè)像素點(diǎn)的方法。這樣可以降低網(wǎng)絡(luò)規(guī)模。
2.3 網(wǎng)絡(luò)總體結(jié)構(gòu)CNN-0
根據(jù)LeNet-5結(jié)構(gòu),再結(jié)合上文中的對輸入層、輸出層、中間層的設(shè)計(jì),完成了如圖3-1所示的基本網(wǎng)絡(luò)結(jié)構(gòu):
相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)模型。Sigmoid函數(shù)是本網(wǎng)絡(luò)中的激活函數(shù),選擇這個(gè)函數(shù)的好處在于可以讓所有層得到的輸出都在區(qū)間[-1,1]之內(nèi)。網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率固定值為1或者是衰減的學(xué)習(xí)速率。經(jīng)過卷積后的一維向量與輸出層沒有沿用LeNet-5的徑向基函數(shù)網(wǎng)絡(luò),而是采取全連接方式,省去了F6層。
3.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程
在模式識別中,學(xué)習(xí)網(wǎng)絡(luò)有無指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)與有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)兩個(gè)類別。無指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)一般是用來進(jìn)行聚類分析,本文采取的是有指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)其實(shí)就是從輸入到輸出的一種映射,它可以學(xué)量的映射關(guān)系,只需要用現(xiàn)有的模式對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)就能具備映射能力。而不需要輸入與輸出之間的精確的關(guān)系。
訓(xùn)練算法與傳統(tǒng)的BP算法相差無幾(BP算法在第二章有做概述),主要可分為四個(gè)步驟,而這四個(gè)步驟可以歸為向前傳播階段與向后傳播階段:相前傳播:
1)隨機(jī)的從樣本集中獲取一個(gè)樣本(A, ),然后將A輸入至網(wǎng)絡(luò)中;
2)根據(jù)公式(3)計(jì)算出實(shí)際輸出:
(3)
向后傳播:
1)計(jì)算和理想輸出之間的差;
2)根據(jù)極小化誤差方法調(diào)整權(quán)值矩陣。
結(jié)語
在手寫數(shù)字識別這一塊,相對來說比較有難度的應(yīng)該就是脫機(jī)自由手寫字符識別了,不過本文所研究的并不是這一系統(tǒng),本設(shè)計(jì)是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別系統(tǒng),因卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和降采樣以及權(quán)值共享、隱性特征提取等優(yōu)點(diǎn),它在圖像識別領(lǐng)域得到了非常廣泛的應(yīng)用。此程序是在Caffe這個(gè)框架上進(jìn)行運(yùn)行的,操作系統(tǒng)為Linux系統(tǒng)ubuntu14.04版本。Caffe是一個(gè)開源的深度學(xué)習(xí)框架,也可以說是一個(gè)編程框架或者模板框架,它提供一套編程機(jī)制。因此,本文所需要實(shí)際的卷積神經(jīng)網(wǎng)絡(luò)就可以根據(jù)這個(gè)框架來進(jìn)行構(gòu)建。
參考文獻(xiàn):
[1]張偉,王克儉,秦臻.基于神經(jīng)網(wǎng)絡(luò)的數(shù)字識別的研究[J].微電子學(xué)與計(jì)算,2006年第23卷第8期.
2. 應(yīng)用領(lǐng)域安防
實(shí)時(shí)從視頻中檢測出行人和車輛。
自動(dòng)找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時(shí)發(fā)出帶有具體地點(diǎn)方位信息的警報(bào)。
自動(dòng)判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險(xiǎn),幫助工作人員引導(dǎo)和管理人流。
醫(yī)療
對醫(yī)學(xué)影像進(jìn)行自動(dòng)分析的技術(shù)。這些技術(shù)可以自動(dòng)找到醫(yī)學(xué)影像中的重點(diǎn)部位,并進(jìn)行對比比分析。
通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計(jì)手術(shù),確保手術(shù)
為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進(jìn)行分析(比如客戶是詢問價(jià)格呢還是咨詢產(chǎn)品的功能呢),進(jìn)行準(zhǔn)確得體并且個(gè)性化的回應(yīng)。
自動(dòng)駕駛
現(xiàn)在的自動(dòng)駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達(dá)、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來對行駛環(huán)境進(jìn)行實(shí)時(shí)感知。智能駕駛系統(tǒng)可以對多種感知信號進(jìn)行綜合分析,通過結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實(shí)時(shí)規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運(yùn)行。
工業(yè)制造
幫助工廠自動(dòng)檢測出形態(tài)各異的缺陷
3. 概念什么是人工智能?
人工智能是通過機(jī)器來模擬人類認(rèn)知能力的技術(shù)。
人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。下文會(huì)一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數(shù)量、顏色
人工設(shè)計(jì)特征
先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值
深度學(xué)習(xí)特征
這里先不提及,文章后面會(huì)說
2. 感知器
老師給了一道題:
要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學(xué)渣啊,靠蒙!
隨便找三個(gè)數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個(gè)特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時(shí) y[實(shí)際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實(shí)際] – y[預(yù)測] = 0.
重復(fù)以上兩步,得出所有的『實(shí)際值和預(yù)測值的差距的綜合,記為 Loss1
可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜??!繼續(xù)懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的?。┫陆档姆较蚶^續(xù)猜數(shù)字,具體過程大概是這樣子的:
上述所屬的實(shí)際值和預(yù)測值的差距 實(shí)際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點(diǎn)間直線距離公式,余弦相似度公式等等可以計(jì)算預(yù)測結(jié)果和實(shí)際結(jié)果之間的差距。
劃重點(diǎn):損失函數(shù)就是現(xiàn)實(shí)和理想的差距(很殘酷)
3. 支持向量機(jī)
*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)
直觀的說,縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個(gè)專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請三個(gè)專家
老師:你給我滾出去
實(shí)際計(jì)算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個(gè)表格就懂了:
5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測值和實(shí)際值的差別判斷”是否猜對了”,是因?yàn)樯锢蠋煾嬖V了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實(shí)際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。
那該怎么辦呢?
機(jī)器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個(gè)場景:
假如你是某直播老板,要找一堆小主播,這時(shí)候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?
這時(shí)候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計(jì)算方式(比如平均值)找到這個(gè)聚類的中心。點(diǎn)離聚類中心越近,代表越相似。
求出每個(gè)聚類中的點(diǎn)到藍(lán)色聚類中心點(diǎn)和黃色聚類中心的距離
如果一個(gè)點(diǎn)離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。
這時(shí)因?yàn)榉纸M范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時(shí)候你需要以 步驟3 的方法重新計(jì)算聚類的中心
重復(fù)步驟 4 (算點(diǎn)中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍(lán)色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個(gè)過程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。
至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:
計(jì)算機(jī)在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個(gè)到平臺看看誰更能干。效果更好的,以后就以那個(gè)聚類的樣本特征擴(kuò)充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個(gè)直觀的了解:
三、這是什么物品(圖像識別)1. 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機(jī)和小鳥)
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征
人工設(shè)計(jì)特征
深度學(xué)習(xí)特征
通過卷積提取圖像特征
劃重點(diǎn):卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測
水平邊緣檢測
方向梯度直方圖
2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?
區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計(jì)特征的步驟,交由卷積操作去自動(dòng)提取,分類器的訓(xùn)練也同時(shí)融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實(shí)現(xiàn)了端對端的學(xué)習(xí)
劃重點(diǎn):端對端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價(jià)。
3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會(huì)提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:
過擬合學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時(shí)候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會(huì)回答了。我們就可以說,學(xué)渣『過擬合了預(yù)測試題。
與之對應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵(lì)志的一個(gè)公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個(gè)碗頂部放下一個(gè)小球,在底部徘徊的速度會(huì)越來越慢)
非凸優(yōu)化學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因?yàn)樘荻龋ㄐ甭剩榱恪T诰植孔畹屯V苟皇侨肿畹屯V?,學(xué)習(xí)到的模型就不夠準(zhǔn)確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠(yuǎn)鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。
4. 應(yīng)用人臉識別
自動(dòng)駕駛把汽車頂部拍攝到的圖片切分層一個(gè)個(gè)小方塊,每個(gè)小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標(biāo)識等等。再配合雷達(dá)等判斷物體距離。
四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調(diào)、音色
通過采樣、量化、編碼。實(shí)現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號)
人工設(shè)計(jì)特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對低頻聲音比較敏感而對高頻聲音不敏感)。
關(guān)系為:
在每一個(gè)頻率區(qū)間對頻譜求均值,它代表了每個(gè)頻率范圍內(nèi)聲音能量的大小。一共有26個(gè)頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學(xué)習(xí)特征通過 3.1 所介紹的 1維卷積進(jìn)行特征提取
2. 應(yīng)用音樂風(fēng)格分類
輸入:音頻文件特征:聲音特征輸出:音樂種類
語音轉(zhuǎn)文字
輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個(gè)英文字母)
再把聲學(xué)模型送入另外的學(xué)習(xí)器
輸入:聲學(xué)模型特征:語義和詞匯輸出:通順的語句(可以查看第6點(diǎn),如何讓計(jì)算機(jī)輸出通順的語句)
聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個(gè)特征向量。對數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計(jì)算相似度(兩個(gè)向量的距離可以用余弦公式算夾角大小或者兩點(diǎn)間距離公式來算)
五、視頻里的人在做什么(視頻理解,動(dòng)作識別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因?yàn)槿艘曈X的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時(shí),光信號傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實(shí)時(shí)分析單幀圖像,比如:
但是視頻相對于圖像有一個(gè)更重要的屬性:動(dòng)作(行為)。
怎么從一個(gè)連續(xù)的視頻分析動(dòng)作呢?
舉個(gè)例子,像上圖那只二哈,腿部的像素點(diǎn)相對于黃色的方框(框和狗相對靜止)在左右”移動(dòng)”,這里的”移動(dòng)”我們引入一個(gè)概念——光流(一個(gè)像素點(diǎn)從一個(gè)位置移動(dòng)到另一個(gè)位置),通過像素點(diǎn)移動(dòng)形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標(biāo)值(Y),經(jīng)過多次的迭代訓(xùn)練,機(jī)器就可以擬合得出一個(gè) Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設(shè),1)相鄰兩幀中物體運(yùn)動(dòng)很小2)相鄰兩幀中物體顏色基本不變
至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個(gè)像素點(diǎn)的,這里不展開說明。
第 t 時(shí)刻的點(diǎn)指向第 t+1 時(shí)刻該點(diǎn)的位置,就是該點(diǎn)的光流,是一個(gè)二維的向量。
整個(gè)畫面的光流就是這樣:
整個(gè)視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個(gè)點(diǎn)移動(dòng)的軌跡
假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進(jìn)行分類訓(xùn)練。
進(jìn)一步優(yōu)化,可以把光流簡化為8個(gè)方向上的,把視頻某一幀的所有光流累加到這八個(gè)方向上得出某一幀的光流直方圖,進(jìn)一步得出 8 維的特征向量。
六、一段文字在表達(dá)什么(自然語言處理)1. 特征提取
這里有4個(gè)句子,首先進(jìn)行分詞:
去掉停用詞(副詞、介詞、標(biāo)點(diǎn)符合等等,一般在文本處理上都有一個(gè)停用詞表)
編碼詞表
句子向量化
這樣就得到一個(gè)句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。
2. 進(jìn)階詞向量化厲害-牛逼、計(jì)算機(jī)-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個(gè)完全不一樣的詞語,但其實(shí)他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點(diǎn)呢?需要從多個(gè)維度去進(jìn)一步給詞語更豐富的內(nèi)涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個(gè)維度擴(kuò)展之后,就得到“男人”這個(gè)詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個(gè)詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個(gè)次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設(shè)句子中有 N 個(gè)詞, 某個(gè)詞出現(xiàn)次數(shù)為 T,一共有 X 個(gè)句子,該詞語在 W 個(gè)句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應(yīng)用
七、讓計(jì)算機(jī)畫畫(生成對抗網(wǎng)絡(luò))從前有個(gè)人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…
經(jīng)過了10萬次”畫畫-鑒別”的過程,這個(gè)臨摹者畫出來的畫,鑒賞家居然認(rèn)為這是真的原作,以高價(jià)買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網(wǎng)絡(luò)(GAN)的核心。
通過生成器,把隨機(jī)像素點(diǎn)有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實(shí)畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會(huì)了畫『真畫了。
計(jì)算機(jī)是怎么把隨機(jī)像素點(diǎn)變成有意義的畫面的呢?我們通過一個(gè)簡化的例子來看看。
直線上一些均勻分布的點(diǎn),經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機(jī)排布的像素點(diǎn)畫面,經(jīng)過某個(gè)f(x) 變換后就會(huì)變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計(jì)算機(jī)生成手寫數(shù)字的過程
劃重點(diǎn):函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強(qiáng)化學(xué)習(xí))1. 粗略認(rèn)知監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強(qiáng)化學(xué)習(xí):多次任務(wù)是否達(dá)成最終目標(biāo)
每一次任務(wù)都準(zhǔn)確,不就是能達(dá)成最終目標(biāo)嗎?我們來看一個(gè)例子:
一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機(jī),其中一個(gè)銷售員查爾斯弄到了一個(gè)可以獲利的大單,但是之后公司因?yàn)楣?yīng)緊缺無法交付這些收音機(jī)。
應(yīng)該責(zé)怪誰呢?
從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達(dá)成)?!缎闹巧鐣?huì)》第7.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個(gè)空的位置就是一個(gè)分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。
但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達(dá)10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。
我們栽培一顆小盆栽的時(shí)候,如果不對枝葉進(jìn)行修剪,那么養(yǎng)分就會(huì)浪費(fèi)在沒長好的枝條上。需要及時(shí)對枯萎或者異常的枝條進(jìn)行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計(jì)算機(jī)算力如果浪費(fèi)在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費(fèi)大量的時(shí)間也難以找到最優(yōu)的方案。
是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價(jià)值評估器(哪個(gè)棋盤的贏的概率更大),把沒有價(jià)值的棋局先去掉不再往下遍歷,這就同時(shí)減少了搜索的廣度和深度。
其中,落子預(yù)測器有個(gè)名稱,叫做政策網(wǎng)絡(luò)(policy network)價(jià)值評估器有個(gè)名稱,叫做價(jià)值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機(jī)下棋)到最終的棋局,最終勝則回報(bào)為正,反之回報(bào)為負(fù)。之后該算法會(huì)反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時(shí)選擇勝者方案的概率就會(huì)增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。
通過 政策網(wǎng)絡(luò) + 價(jià)值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實(shí)現(xiàn)最優(yōu)落子方案的選擇,同時(shí)兩個(gè)機(jī)器人互相對弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。
3. 定義接下來說一下枯燥的定義
什么是強(qiáng)化學(xué)習(xí)?
當(dāng)我們關(guān)注的不是某個(gè)判斷是否準(zhǔn)確,而是行動(dòng)過程能否帶來最大的收益時(shí)使用強(qiáng)化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。
強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲得一個(gè)策略(poliey)去指導(dǎo)行動(dòng)。比如在圍棋博弈中,這個(gè)策略可以根據(jù)盤面形勢指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個(gè)策略會(huì)告訴我們在什么時(shí)候買入、什么時(shí)候賣出。
一個(gè)強(qiáng)化學(xué)習(xí)模型一般包含如下幾個(gè)部分:
一組可以動(dòng)態(tài)變化的狀態(tài)(sute)
對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價(jià)格
一組可以選取的動(dòng)作(metion)
對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個(gè)時(shí)間點(diǎn),買入或者賣出的股票以及數(shù)量。
一個(gè)可以和決策主體(agent)進(jìn)行交互的環(huán)境(environment)這個(gè)環(huán)境會(huì)決定每個(gè)動(dòng)作后狀態(tài)如何變化。
棋手(主體)的落子會(huì)影響棋局(環(huán)境),環(huán)境給主體獎(jiǎng)勵(lì)(贏)或懲罰(輸)操盤手(主體)的買入或賣出會(huì)影響股票價(jià)格(環(huán)境,供求關(guān)系決定價(jià)格),環(huán)境給主體獎(jiǎng)勵(lì)(賺錢)或懲罰(虧錢)
關(guān)鍵詞:麥克風(fēng)陣列,陣列信號處理,語音增強(qiáng)
(一)引言
在日常生活和工作中,語音通信是人與人之間互相傳遞信息溝通不可缺少的方式。近年來,雖然數(shù)據(jù)通信得到了迅速發(fā)展,但是語音通信仍然是現(xiàn)階段的主流,并且在通信行業(yè)中占主導(dǎo)地位。在語音通信中,語音信號不可避免地會(huì)受到來自周圍環(huán)境和傳輸媒介的外部噪聲、通信設(shè)備的內(nèi)部噪聲及其他講話者的干擾。這些干擾共同作用,最終使聽者獲得的語音不是純凈的原始語音,而是被噪聲污染過的帶噪聲語音,嚴(yán)重影響了雙方之間的交流。
應(yīng)用了陣列信號處理技術(shù)的麥克風(fēng)陣列能夠充分利用語音信號的空時(shí)信息,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強(qiáng)的抗干擾能力等特點(diǎn),逐漸成為強(qiáng)噪聲環(huán)境中語音增強(qiáng)的研究熱點(diǎn)。美國、德國、法國、意大利、日本、香港等國家和地區(qū)許多科學(xué)家都在開展這方面的研究工作,并且已經(jīng)應(yīng)用到一些實(shí)際的麥克風(fēng)陣列系統(tǒng)中,這些應(yīng)用包括視頻會(huì)議、語音識別、車載聲控系統(tǒng)、大型場所的記錄會(huì)議和助聽裝置等。
本文將介紹各種麥克風(fēng)陣列語音增強(qiáng)算法的基本原理,并總結(jié)各個(gè)算法的特點(diǎn)及存在的局限性。
(二)常見麥克風(fēng)陣列語音增強(qiáng)方法
1.基于固定波束形成的麥克風(fēng)陣列語音增強(qiáng)
固定波束形成技術(shù)是最簡單最成熟的一種波束形成技術(shù)。論文大全,陣列信號處理。論文大全,陣列信號處理。1985年美國學(xué)者Flanagan提出采用延時(shí)-相加(Delay-and-Sum)波束形成方法進(jìn)行麥克風(fēng)陣列語音增強(qiáng),該方法通過對各路麥克風(fēng)接收到的信號添加合適的延時(shí)補(bǔ)償,使得各路輸出信號在某一方向上保持同步,使在該方向的入射信號獲得最大增益[1]。此方法易于實(shí)現(xiàn),但要想獲取較高的噪聲抑制能力需要增加麥克風(fēng)數(shù)目,并且對非相干噪聲沒有抑制能力,環(huán)境適應(yīng)性差,因此,實(shí)際中很少單獨(dú)使用。后來出現(xiàn)的微分麥克風(fēng)陣列(DifferentialMicrophone Arrays),超方向麥克風(fēng)陣列(Superairective MicrophoneArrays)和固定頻率波束形成(Frequency-InvariantBeamformers)技術(shù)也屬于固定波束形成。
2.基于自適應(yīng)波束形成器的麥克風(fēng)陣列語音增強(qiáng)
自適應(yīng)波束形成是現(xiàn)在廣泛使用的一類麥克風(fēng)陣列語音增強(qiáng)方法。最早出現(xiàn)的自適應(yīng)波束形成算法是1972年由Frost提出的線性約束最小方差(LinearlyConstrained Minimum Variance, LCMV)自適應(yīng)波束形成器[2]。其基本思想是在某方向有用信號的增益一定的前提下,使陣列輸出信號的功率最小。在線性約束最小方差自適應(yīng)波束形成器的基礎(chǔ)上,1982年Griffiths和Jim提出了廣義旁瓣消除器(GeneralizedSidelobe Canceller, GSC)[3],成為了許多算法的基本框架(圖1)。
圖1 廣義旁瓣消除器的基本結(jié)構(gòu)
廣義旁瓣消除器是麥克風(fēng)陣列語音增強(qiáng)應(yīng)用最廣泛的技術(shù),帶噪聲的語音信號同時(shí)通過自適應(yīng)通道和非自適應(yīng)通道,自適應(yīng)通道中的阻塞矩陣將有用信號濾除后產(chǎn)生僅包含多通道噪聲參考信號,自適應(yīng)濾波器根據(jù)這個(gè)參考信號得到噪聲估計(jì),最后由這個(gè)被估計(jì)的噪聲抵消非自適應(yīng)通道中的噪聲分量,從而得到有用的純凈語音信號。
如果噪聲源的數(shù)目比麥克風(fēng)數(shù)目少,自適應(yīng)波束法能得到很好的性能。但是隨著干擾數(shù)目的增加和混響的增強(qiáng),自適應(yīng)濾波器的降噪性能會(huì)逐漸降低。
3.基于后置濾波的麥克風(fēng)陣列語音增強(qiáng)
1988年Zelinski將維納濾波器應(yīng)用在了麥克風(fēng)陣列延時(shí)—相加波束形成的輸出端,進(jìn)一步提高了語音信號的降噪效果,提出了基于后置濾波的麥克風(fēng)陣列語音增強(qiáng)方法[4](圖2)?;诤笾脼V波的方法在對非相干噪聲抑制方面,具有良好的效果,還能夠在一定程度上適應(yīng)時(shí)變的聲學(xué)環(huán)境。它的基本原理是:假設(shè)各麥克風(fēng)接收到的目標(biāo)信號相同,接收到的噪聲信號獨(dú)立同分布,信號和噪聲不相關(guān),根據(jù)噪聲特性,依據(jù)某一準(zhǔn)則實(shí)時(shí)更新濾波器權(quán)系數(shù),對所接收到數(shù)據(jù)進(jìn)行濾波,從而達(dá)到語音增強(qiáng)的目的。
圖2 結(jié)合后置濾波的固定波束形成器
后置濾波方法存在以下不足:首先,算法的性能受到時(shí)延誤差的影響,使增強(qiáng)后的語音信號有一定失真。其次,該方法對方向性的強(qiáng)干擾抑制效果不佳。后置濾波方法極少單獨(dú)使用,常與其他方法聯(lián)合使用。文獻(xiàn)[5]研究了后置濾波和通用旁瓣對消器結(jié)合使用的問題。論文大全,陣列信號處理。
4.基于近場波束形成的麥克風(fēng)陣列語音增強(qiáng)
當(dāng)聲源位于麥克風(fēng)陣列近場(即陣列的入射波是球面波)情況下,聲波的波前彎曲率不能被忽略,如果仍然把入射聲波作為平面波考慮,采用常規(guī)的波束形成方法來拾取語音信號,那么麥克風(fēng)陣列系統(tǒng)輸出效果會(huì)很不理想。解決這個(gè)問題,最直接的方法就是根據(jù)聲源位置和近場聲學(xué)的特性,對入射聲波進(jìn)行近場補(bǔ)償[6],但是這種方法需要已知聲源位置,這在實(shí)際應(yīng)用中難以是滿足。由于近場聲學(xué)的復(fù)雜性,目前有關(guān)近場波束形成麥克風(fēng)陣列語音增強(qiáng)方法的研究相對較少。
5.基于子空間的麥克風(fēng)陣列語音增強(qiáng)
子空間方法的基本思想是計(jì)算出信號的自相關(guān)矩陣或協(xié)方差矩陣,然后對其進(jìn)行奇異值分解,將帶噪聲語音信號劃分為有用信號子空間和噪聲子空間,利用有用信號子空間對信號進(jìn)行重構(gòu),從而得到增強(qiáng)后的信號。由Asano等提出的基于相干子空間的麥克風(fēng)陣列語音增強(qiáng)方法是一種典型的子空間方法[7]。該方法首先將語音信號劃分到不同頻帶,然后在每個(gè)頻帶再利用空間信息,進(jìn)行子空間處理。
基于子空間的麥克風(fēng)陣列語音增強(qiáng)方法雖然降噪性受噪聲場是否相關(guān)影響較小,在相干和非相干噪聲場中均有一定的消噪效果,但是由于計(jì)算量較大,實(shí)現(xiàn)實(shí)時(shí)處理具有一定困難。
6.基于盲源分離的麥克風(fēng)陣列語音增強(qiáng)
在很多實(shí)際應(yīng)用中,信號源情況和信道的傳遞參數(shù)都很難獲取,盲源分離技術(shù)(BlindSource Separation, BSS)就是在這種需求下提出的。盲源分離是根據(jù)輸入源信號和干擾的統(tǒng)計(jì)特性,從傳感器陣列接收到的混合信號中提取出各個(gè)獨(dú)立分量的過程。法國學(xué)者Herault.J和Jutten.C在信源與信道先驗(yàn)條件未知的情況下,利用人工神經(jīng)網(wǎng)絡(luò)分離出了有用信號,開創(chuàng)了盲源分離的先河[8]。目前為止,已有許多學(xué)者將盲源分離技術(shù)應(yīng)用于麥克風(fēng)陣列語音增強(qiáng)。論文大全,陣列信號處理。
經(jīng)過二十多年來國內(nèi)外學(xué)者的不斷深入研究,盲源分離技術(shù)已經(jīng)取得了巨大的進(jìn)步和發(fā)展,對盲信號分離問題的研究己經(jīng)從瞬時(shí)混迭模型擴(kuò)展成為線性卷積模型和非線性瞬時(shí)混迭模型,但是由于盲源分離仍屬一個(gè)新興的研究方向,理論上還不成熟,這類方法一般運(yùn)算量大,全局收斂性和漸進(jìn)穩(wěn)定性有待加強(qiáng),距離實(shí)際應(yīng)用有一段距離。
7.其他方法
90年代以來,一些學(xué)者將各種信號處理算法與麥克風(fēng)陣列技術(shù)相融合,各種語音增強(qiáng)算法不斷涌現(xiàn),諸如倒譜分析、小波變換、神經(jīng)網(wǎng)絡(luò)、語音模型等方法已經(jīng)在語音信號處理領(lǐng)域得到應(yīng)用。雖然這些方法從不同角度對語音增強(qiáng)系統(tǒng)的性能進(jìn)行了不同程度的改善,但大多計(jì)算量龐大,不適合時(shí)變性較強(qiáng)的聲學(xué)環(huán)境,而且在需要實(shí)時(shí)處理的場合,對硬件的要求也將大大提高。論文大全,陣列信號處理。
近些年國內(nèi)一些高校,如清華大學(xué),大連理工大學(xué),電子科技大學(xué),西安電子科技大學(xué)等也做了一些關(guān)于麥克風(fēng)陣列技術(shù)的研究工作,取得了一定的研究成果。張麗艷等提出一種改進(jìn)的麥克風(fēng)陣列倒譜域語音去混響方法,改善混響環(huán)境下的語音質(zhì)量[9]。崔瑋瑋等提出一種基于一階差分麥克風(fēng)陣列的實(shí)時(shí)噪聲譜估計(jì)和抵消方法,提高輸出信噪比的同時(shí)降低了計(jì)算量[10]。曾慶寧等將陣列交叉串?dāng)_信號的自適應(yīng)噪聲抵消方法應(yīng)用于麥克風(fēng)陣列語音增強(qiáng),適用于在多種噪聲環(huán)境中實(shí)時(shí)實(shí)現(xiàn)[11]。
(三)結(jié)論
語音信號增強(qiáng)是諸如智能控制、辦公自動(dòng)化、多媒體消費(fèi)品等領(lǐng)域的關(guān)鍵技術(shù)之一,將麥克風(fēng)陣列技術(shù)應(yīng)用于語音增強(qiáng),能夠取得傳統(tǒng)單麥克風(fēng)難以達(dá)到的增強(qiáng)效果。論文大全,陣列信號處理。語音信號作為一種寬帶的非平穩(wěn)信號,在傳輸過程中不可避免地會(huì)受到各種噪聲的干擾,所以采用麥克風(fēng)陣列系統(tǒng)時(shí)需滿足在一個(gè)比較寬的聲域范圍抑制各種噪聲干擾,減少語音的失真,同時(shí)也要降低系統(tǒng)成本和計(jì)算時(shí)間,以達(dá)到較好的實(shí)時(shí)性和實(shí)用性。在實(shí)際應(yīng)用中應(yīng)根據(jù)具體的使用環(huán)境的噪聲特性,設(shè)計(jì)合適的麥克風(fēng)陣列結(jié)構(gòu),選擇最佳的算法及其具體的實(shí)現(xiàn)形式。
【參考文獻(xiàn)】
[1]Flanagan J L, JohnstonD J, Zahn R, et al. Computer-steered microphone arrays for sound transductionin large rooms[J]. Journal of Acoustical Society of American. 1985, 78(5).
[2]O. L. Frost. Analgorithm for linearly-constrained adaptive array processing[J]. Proc. IEEE.1972, 60(8).
[3]L. J. Griffiths, C. W.Jim. An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans. On Antennas and Propagation. 1982, 30(1).
[4]Zelinski R. A microphone array with adaptive post-filtering for noise reductionin reverberant rooms[A]. IEEE International Conference on Acoustics, Speech andSignal Processing, USA: 1988.
[5]S. Cannot and I. Cohen. Speech enhancement based on the general transfer function GSC andpostfiltering[J]. IEEE Trans. Speech and Audio Processing, 2004, 12(6).
[6]Khalil F, Jullien J P, Crilloire A. Microphone array for sound pickup inteleconference systems[J]. Audio Engineering Society, 1994, 42( 9).
[7]Asano F, Hayamizu S. Speech enhancement using css-based array processing[A].IEEE International Conference on Acoustics, Speech and Signal Processing. Germany: 1997.
[8]Jutten C and Herault J. Blind separation of sources, part I: an adaptivealgorithm based on neuromimetic architecture[J]. Signal Processing, 1991,24(l).
[9]張麗艷等.一種適用于混響環(huán)境的麥克風(fēng)陣列語音增強(qiáng)方法[J].信號處理.2009,25(5).
[10]崔瑋瑋等.基于FDM陣列技術(shù)的雙通道語音增強(qiáng)方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版).2008,48(7).
[11]曾慶寧等.基于陣列抗串?dāng)_自適應(yīng)噪聲抵消的語音增強(qiáng)[J].電子學(xué)報(bào).2005,33(2).