在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

深度學(xué)習(xí)的搜索廣告排序應(yīng)用

前言:本站為你精心整理了深度學(xué)習(xí)的搜索廣告排序應(yīng)用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

深度學(xué)習(xí)的搜索廣告排序應(yīng)用

摘要:本文在研究卷積(ConvolutionalNeuralNetworks)與LSTM(LongShortTermMemory)的基礎(chǔ)上,結(jié)合兩者優(yōu)勢(shì),提出了一種混合模型。首先用卷積神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵特征,然后依據(jù)LSTM神經(jīng)網(wǎng)絡(luò)時(shí)序特點(diǎn)進(jìn)行預(yù)測(cè)和分類(lèi)。結(jié)果表明:對(duì)比淺層或單層網(wǎng)絡(luò),本文提出的組合模型較好地提高了點(diǎn)擊率預(yù)估準(zhǔn)確度,從而增強(qiáng)了搜索廣告排序應(yīng)用效果。

關(guān)鍵詞:廣告排序;點(diǎn)擊率預(yù)測(cè);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);LSTM

眾所周知,廣告預(yù)期收益很大程度上取決于搜索廣告排序準(zhǔn)則,具體地講,表現(xiàn)在廣告質(zhì)量度和廣告競(jìng)價(jià)上。業(yè)界量化廣告質(zhì)量度最常用的辦法是通過(guò)廣告點(diǎn)擊率。點(diǎn)擊率(CTR,ClickThroughRate)代表著人們點(diǎn)擊廣告的概率,CTR預(yù)估是按照已有的廣告信息以及對(duì)應(yīng)的上下文來(lái)預(yù)估人們?yōu)g覽該廣告的可能性。因此,廣告排序最主要的工序是預(yù)估點(diǎn)擊率,因?yàn)樗P(guān)系著搜索引擎業(yè)務(wù)收入以及是否可以給出更符合用戶心理的信息,更進(jìn)一步講,CTR還能夠作為廣告進(jìn)一步投放的參考標(biāo)準(zhǔn),總之廣告投放效果很大程度上取決于CTR,是實(shí)時(shí)競(jìng)價(jià)算法(RealTimeBidding,RTB)的重要因素之一。廣告點(diǎn)擊率預(yù)測(cè)模型經(jīng)歷了傳統(tǒng)的機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型的演變。傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要分為單一模型預(yù)測(cè)與模型組合預(yù)測(cè)兩部分。在單一模型中,邏輯回歸、決策樹(shù)等是較為常見(jiàn)的單一模型。相關(guān)文獻(xiàn)使用廣告特征、關(guān)鍵字與用戶特征,并結(jié)合邏輯回歸模型來(lái)預(yù)測(cè)廣告點(diǎn)擊率,并研究了不同關(guān)鍵字對(duì)廣告點(diǎn)擊狀況的影響。有關(guān)文獻(xiàn)基于充分的歷史廣告點(diǎn)擊數(shù)據(jù)使用決策樹(shù)等模型實(shí)現(xiàn)廣告點(diǎn)擊率預(yù)測(cè)。另外,還有其它一些機(jī)器學(xué)習(xí)模型比如:支持向量機(jī)模型等運(yùn)用于廣告點(diǎn)擊率預(yù)測(cè),而且效果較好。然而這些傳統(tǒng)的機(jī)器學(xué)習(xí)模型更依賴(lài)人工對(duì)特征的處理,在模型使用前期需要大量的人工特征工程。近期,伴隨深度學(xué)習(xí)的熱潮,越來(lái)越多的人們將深度學(xué)習(xí)應(yīng)用于廣告點(diǎn)擊率預(yù)測(cè)中。百度公司研究人員將因子分解機(jī)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合用于預(yù)估廣告點(diǎn)擊率的FNN模型。谷歌公司研究人員推出Wide&Deep模型以處理點(diǎn)擊率預(yù)估問(wèn)題,在Wide&Deep的Embedding層后加入特征交叉功能形成的PNN網(wǎng)絡(luò)效果不錯(cuò)。本文使用卷積神經(jīng)網(wǎng)絡(luò)提取廣告數(shù)據(jù)中高影響力的特征,長(zhǎng)短期記憶(LSTM,LongShortTermMemory)模型則用于分類(lèi),基于此提出了一種基于卷積-LSTM結(jié)合的廣告點(diǎn)擊率預(yù)測(cè)模型與算法。

1相關(guān)工作介紹

1.1廣告點(diǎn)擊率預(yù)測(cè)流程

(1)第一步:特征提取,運(yùn)用特征處理手段從原始數(shù)據(jù)中獲取影響力高的特征,并劃分為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)兩大部分。(2)第二步:創(chuàng)建模型并輸入訓(xùn)練集,使用優(yōu)化方法訓(xùn)練模型。(3)第三步:將測(cè)試數(shù)據(jù)輸入訓(xùn)練完成的模型進(jìn)行預(yù)測(cè),平臺(tái)按照預(yù)測(cè)得到的點(diǎn)擊率來(lái)排序,從而得出廣告展示區(qū)域。廣告點(diǎn)擊率預(yù)測(cè)流程如圖1所示。

1.2邏輯回歸

邏輯回歸作為一種典型的分類(lèi)模型,非常適合處理分類(lèi)問(wèn)題,比如二分類(lèi)甚至多分類(lèi),內(nèi)部可能帶有線性或非線性決策函數(shù)。

1.3卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN,ConvolutionalNeuralNetworks)被認(rèn)為是一個(gè)經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)。除了輸入層、輸出層之間,大部分情況下卷積層可能作為它的隱藏層,甚至包括池化層與全連接層。一般情況下,會(huì)有多個(gè)卷積層和池化層,并且交替存在。在卷積神經(jīng)網(wǎng)絡(luò)中,特征圖(featuremap)由多個(gè)神經(jīng)元構(gòu)成,卷積核連接上一層神經(jīng)元的輸出,從而衍生下一個(gè)神經(jīng)元。卷積核是一個(gè)由使用者自由定義大小的權(quán)重矩陣,通常作用于同一個(gè)圖像差異區(qū)域的小范圍感知域上,提取出每個(gè)小區(qū)域感知域的特征,以此構(gòu)造出下一層神經(jīng)元的輸入。卷積層將輸入特征進(jìn)行卷積。池化層按照指定的池化規(guī)則對(duì)輸入特征進(jìn)行再次提取。

1.4長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)

長(zhǎng)短期記憶網(wǎng)絡(luò)作為一個(gè)時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)。輸入門(mén)、輸出門(mén)和自由狀態(tài)等構(gòu)成了LSTM神經(jīng)元,如圖2所示。

2卷積-LSTM混合神經(jīng)網(wǎng)絡(luò)模型

2.1設(shè)計(jì)思想

卷積-LSTM混合神經(jīng)網(wǎng)絡(luò)一共有三層。輸入層:將原始特征排重、數(shù)據(jù)清理后開(kāi)始獨(dú)立向量編碼(One-HotEncoder),讓其映射到t維空間中,t表示編碼后的向量維度,然后獲取索引值生成新的特征。輸出層的作用是將卷積網(wǎng)絡(luò)的結(jié)果輸入給LSTM,從而可以進(jìn)行分類(lèi)和得到預(yù)測(cè)值,如圖3所示。

2.2算法描述

本文提出了一種模型訓(xùn)練算法,如表1所示。

3實(shí)驗(yàn)結(jié)果分析

3.1數(shù)據(jù)預(yù)處理

本文采用了Kaggle比賽中Avazu公司在2014年公開(kāi)的開(kāi)源數(shù)據(jù)集。從中選出了1百萬(wàn)條數(shù)據(jù)作為訓(xùn)練集。每條數(shù)據(jù)都有20個(gè)維度,包含10個(gè)連續(xù)性特征,其中有9個(gè)是已經(jīng)脫敏處理的)和9個(gè)類(lèi)別特征。樣本標(biāo)簽的離散值是0或1,分別代表負(fù)向樣本與正向樣本。原始訓(xùn)練數(shù)據(jù)中,正樣本比例與抽取數(shù)據(jù)中正樣本比例較為接近,這樣做的目的是不影響實(shí)驗(yàn)結(jié)果。

3.2算法指標(biāo)

本文采用了兩種算法指標(biāo)來(lái)檢驗(yàn)分析模型。(1)AUC(AreaUnderCurve)。AUC的大小與ROC(ReceiverOperatingCharacteristics)曲線下的覆蓋面大小有關(guān),ROC曲線的橫軸表示假正率(FalsePositiveRate),縱軸表示真正率(TruePositiveRate),按閾值的取值差異可得到不同的ROC曲線。AUC的取值在0到1之間,AUC的值越大,分類(lèi)效果越佳。(2)對(duì)數(shù)損失(LogarithmicLoss)。對(duì)數(shù)損失的值與分類(lèi)器效果成反比,對(duì)數(shù)損失值越小,分類(lèi)器效果越好。

3.3算法初始參數(shù)

通常來(lái)說(shuō),特征空間的大小取決于神經(jīng)網(wǎng)絡(luò)的層數(shù)和計(jì)算圖中神經(jīng)元的多少,越多的層和越多的神經(jīng)元,能夠表達(dá)的特征空間也就越大,學(xué)習(xí)過(guò)程也就越復(fù)雜,但運(yùn)行時(shí)間和內(nèi)存消耗也會(huì)越大,而且有可能會(huì)出現(xiàn)過(guò)擬合的問(wèn)題,因此最優(yōu)結(jié)果很大程度上取決于參數(shù)選擇是否合理。為了最優(yōu)化模型結(jié)果,本文做了相當(dāng)多的參數(shù)調(diào)節(jié)。結(jié)果發(fā)現(xiàn),CNN輸出向量的維度大小、LSTM層數(shù)、模型學(xué)習(xí)率的設(shè)置、選取的優(yōu)化方法是否合適等是主要影響因素。輸入不同的參數(shù),反復(fù)迭代優(yōu)化,最終計(jì)算得出最優(yōu)的AUC值,如圖4所示。通過(guò)上述實(shí)驗(yàn)比對(duì),卷積-LSTM組合神經(jīng)網(wǎng)絡(luò)模型的核心參數(shù)如表2所示。表3展示了單一結(jié)構(gòu)的CNN模型與LSTM模型的參數(shù)配置。

3.4結(jié)果比較與分析

本文的機(jī)器配置如表4所示。在相同的特征處理環(huán)境下,將訓(xùn)練集和測(cè)試集按8:1的比例切割,模型每從訓(xùn)練集中學(xué)習(xí)完一次,便將測(cè)試集輸入做預(yù)測(cè)和分類(lèi),反復(fù)迭代30次后取最優(yōu)AUC值和logloss值,并統(tǒng)計(jì)迭代過(guò)程使用的總時(shí)間。本文一共使用了6種模型進(jìn)行點(diǎn)擊率預(yù)測(cè),分別有深層和淺層模型。運(yùn)行結(jié)果如表5所示。其中邏輯回歸模型用LR表示;FM模型是以矩陣分解為核心的機(jī)器學(xué)習(xí)算法,它的特點(diǎn)是能夠高效地學(xué)習(xí)特征之間的聯(lián)系,擅長(zhǎng)分析高維度稀疏數(shù)據(jù);NN是一種常規(guī)的神經(jīng)網(wǎng)絡(luò)模型;CNN代表一種卷積神經(jīng)網(wǎng)絡(luò);CNN+LSTM代表本文提出的卷積-LSTM組合的深度學(xué)習(xí)網(wǎng)絡(luò)模型。本文從幾個(gè)方面分析了上述實(shí)驗(yàn)結(jié)果,分別如下:(1)從模型層數(shù)來(lái)看,深層模型在預(yù)測(cè)方面的效果高于以往的淺層模型。淺層模型在第9次迭代之后,AUC值和logloss值趨于收斂,F(xiàn)M模型的預(yù)測(cè)準(zhǔn)確度高于LR模型;與普通NN模型相比,CNN與LSTM的預(yù)測(cè)效果顯然更好。(2)比較AUC值與logloss值,卷積-LSTM組合神經(jīng)網(wǎng)絡(luò)模型在這兩方面的指標(biāo)表現(xiàn)都比單一結(jié)構(gòu)的CNN模型與LSTM模型要好。與CNN模型對(duì)比,其AUC值提高了1.38%,logloss值降低了0.29%;與LSTM模型對(duì)比,其AUC值提高了2.61%,logloss值降低了1.38%。(3)從時(shí)間上看,由于卷積-LSTM組合神經(jīng)網(wǎng)絡(luò)模型的層數(shù)相對(duì)多一點(diǎn),復(fù)雜度比較高,其訓(xùn)練總共的時(shí)長(zhǎng)相比單一層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,會(huì)更多一些。

4結(jié)束語(yǔ)

本文通過(guò)充分研究和比較現(xiàn)有的線上搜索廣告集合,分析得出了互異特征之間相關(guān)性強(qiáng),人工提取特征費(fèi)時(shí)費(fèi)力等不足,最后分析了若干種淺層預(yù)測(cè)模型與深層預(yù)測(cè)模型的優(yōu)缺點(diǎn),研究出了一種新的深度學(xué)習(xí)模型卷積-LSTM混合神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)表明:與傳統(tǒng)的廣告點(diǎn)擊率預(yù)測(cè)模型相比,卷積-LSTM組合神經(jīng)網(wǎng)絡(luò)模型效果更明顯。通過(guò)卷積核移動(dòng)提取關(guān)鍵性特征,降低了人力開(kāi)銷(xiāo),又較好地提升了模型效率;使用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)廣告點(diǎn)擊率,提升了分類(lèi)精度。接下來(lái),本文將繼續(xù)圍繞特征、模型,從工程化方向做迭代,以期達(dá)到更好的提升。

參考文獻(xiàn)

[1]李思琴.基于深度學(xué)習(xí)的搜索廣告點(diǎn)擊率預(yù)測(cè)方法研究[D].哈爾濱工業(yè)大學(xué),2015.

[2]張志浩.基于深度學(xué)習(xí)的在線廣告點(diǎn)擊率預(yù)估系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].南京大學(xué),2015.

[3]劉旭.基于深度學(xué)習(xí)的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)估方法研究[D].西安理工大學(xué),2018.

[4]劉夢(mèng)娟,曾貴川,岳威.面向展示廣告的點(diǎn)擊率預(yù)測(cè)模型綜述[J].計(jì)算機(jī)科學(xué),2019(7).

[5]黃立威,江碧濤,呂守業(yè),劉艷博,李德毅.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2018,41(07):1619-1647.

作者:鐘小勇 單位:攜程計(jì)算機(jī)技術(shù)(上海)有限公司

科技| 彭阳县| 福州市| 左权县| 九台市| 香港 | 连江县| 大安市| 天柱县| 延寿县| 岢岚县| 通山县| 房产| 岚皋县| 馆陶县| 乌苏市| 昌都县| 安徽省| 马尔康县| 德清县| 咸阳市| 余干县| 池州市| 廊坊市| 双辽市| 瑞安市| 杭州市| 临夏县| 永川市| 运城市| 洛扎县| 锡林郭勒盟| 宁波市| 天津市| 高邮市| 汝阳县| 治多县| 克东县| 自贡市| 柘荣县| 乐安县|