在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁(yè) > 文章中心 > 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇機(jī)器學(xué)習(xí)范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)范文第1篇

Phase Transitions in

Machine Learning

2011,416pp

Hardback

ISBN9780521763912

學(xué)習(xí)涉及意識(shí)在不同層次上的重要功能,從感官刺激到對(duì)高級(jí)抽象推理復(fù)雜概念的獲取。盡管對(duì)學(xué)習(xí)尚缺精確的定義,但是有一個(gè)被廣泛接受的由Langley 提出的定義,它把學(xué)習(xí)看作是一組機(jī)理,通過(guò)它們,智能能隨著時(shí)間的推移而改善它們的行為。但凡采用了有關(guān)的足夠?qū)挿旱挠^點(diǎn),這個(gè)定義似乎是合理的。機(jī)器學(xué)習(xí)根植于好幾個(gè)學(xué)科之中,其中值得一提的是統(tǒng)計(jì)學(xué)、模式識(shí)別、認(rèn)知科學(xué)及控制理論。機(jī)器學(xué)習(xí)的主要目的是為人類(lèi)學(xué)習(xí)提供計(jì)算模型,支持學(xué)習(xí)的認(rèn)知研究。盡管機(jī)器學(xué)習(xí)具有吸引力,它還是遇到了幾個(gè)困難,甚至在今天,仍然阻礙著它的全面利用。主要的障礙在于多數(shù)機(jī)器學(xué)習(xí)算法對(duì)計(jì)算資源有很高的要求,特別是那些較為接近人類(lèi)學(xué)習(xí)過(guò)程的算法。從上世紀(jì)30年代孕育機(jī)器學(xué)習(xí)的時(shí)期起,計(jì)算機(jī)科學(xué)這個(gè)內(nèi)容豐富而又嚴(yán)格的領(lǐng)域就一直關(guān)注進(jìn)行計(jì)算時(shí)所需要的時(shí)間和存儲(chǔ)器資源。核心問(wèn)題是,無(wú)論采用怎樣的輸入方式,一個(gè)給定的算法是否能夠在有限的時(shí)間內(nèi)結(jié)束計(jì)算。如果能夠的話,在它展現(xiàn)的復(fù)雜類(lèi)中,所給出的控制變量是多項(xiàng)式的,還是指數(shù)的等等。

1991年,Cheseman等三人發(fā)表的題為《實(shí)際的難題在那里?》的論文有如晴天霹靂。他們提出盡管分析最壞情況是重要的,尋求計(jì)算的典型復(fù)雜性同樣是必須的。本書(shū)內(nèi)容的構(gòu)建就是圍繞著學(xué)習(xí)中的計(jì)算復(fù)雜性概念這一核心的。本書(shū)把計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)物理及機(jī)器學(xué)習(xí)的基本觀點(diǎn)編織在一起,向讀者提供了足夠的數(shù)學(xué)和物理背景,使得人工智能以及其他計(jì)算機(jī)科學(xué)社團(tuán)的研究人員可以理解這個(gè)課題。作者還對(duì)公開(kāi)的研究作了討論,并且對(duì)進(jìn)一步研究中有希望的方向給出了他們的建議。

本書(shū)共有14章,還有2個(gè)附錄。1.緒論,對(duì)機(jī)器學(xué)習(xí)、計(jì)算復(fù)雜性及二者關(guān)系作了簡(jiǎn)介;2.統(tǒng)計(jì)物理與相轉(zhuǎn)變;3.可滿足性問(wèn)題;4.約束滿足問(wèn)題;5.機(jī)器學(xué)習(xí);6.搜尋假設(shè)空間;7.統(tǒng)計(jì)物理與機(jī)器學(xué)習(xí);8.學(xué)習(xí)、可滿足性問(wèn)題(SAT)及約束滿足問(wèn)題(CSP);9.FOL覆蓋測(cè)試中的相轉(zhuǎn)變;10.相轉(zhuǎn)變與關(guān)系學(xué)習(xí);11.語(yǔ)法推理中的相轉(zhuǎn)變;12.復(fù)雜系統(tǒng)中的相轉(zhuǎn)變;13.自然系統(tǒng)中的相轉(zhuǎn)變;14.討論及公開(kāi)問(wèn)題。附錄A 在二個(gè)實(shí)例證中檢測(cè)到的相轉(zhuǎn)變。附錄B 一個(gè)引起興趣的觀點(diǎn)。

本書(shū)的第一、二位作者均為意大利Piemonte Orientale 大學(xué)計(jì)算機(jī)科學(xué)系的教授。第三作者是法國(guó)巴黎AgroParisTech工程學(xué)校計(jì)算機(jī)科學(xué)系的教授。本書(shū)可供人工智能以及其他計(jì)算機(jī)科學(xué)專業(yè)的從業(yè)人員閱讀。

胡光華,

退休高工

(原中國(guó)科學(xué)院物理學(xué)研究所)

機(jī)器學(xué)習(xí)范文第2篇

關(guān)鍵詞:機(jī)器學(xué)習(xí);計(jì)算機(jī)科學(xué);學(xué)習(xí)機(jī)理;策略研究

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們嘗試著使計(jì)算機(jī)具有和我們一樣或類(lèi)似的學(xué)習(xí)能力,從而產(chǎn)生了一個(gè)新的研究學(xué)科-機(jī)器學(xué)習(xí)??傮w而言,機(jī)器學(xué)習(xí)是指令計(jì)算機(jī)通過(guò)對(duì)目標(biāo)的識(shí)別,利用人類(lèi)提供的現(xiàn)有知識(shí)來(lái)獲取新知識(shí)和新技能,不斷改善性能,實(shí)現(xiàn)自我完善。

1 機(jī)器學(xué)習(xí)發(fā)展史

統(tǒng)計(jì)學(xué)習(xí)理論創(chuàng)始人之一的Vapnik將機(jī)器學(xué)習(xí)歸結(jié)為如下四個(gè)階段。

1.1 學(xué)習(xí)機(jī)器的產(chǎn)生

第一個(gè)學(xué)習(xí)機(jī)器的模型是F.Rosenblatt在1962年提出的感知器。它借鑒了神經(jīng)生理學(xué)領(lǐng)域中感知器的思想,將其模型表示為一個(gè)計(jì)算程序,并通過(guò)簡(jiǎn)單的實(shí)驗(yàn)說(shuō)明了這個(gè)模型的結(jié)果可以進(jìn)行推廣和泛化。感知器通過(guò)給定的樣本構(gòu)造一條判斷準(zhǔn)則來(lái)區(qū)分不同類(lèi)別的數(shù)據(jù),因此可以用來(lái)解決模式識(shí)別問(wèn)題。

1.2 學(xué)習(xí)理論基礎(chǔ)的創(chuàng)立

1968年,Vapnik和Chervonenkis提出VC維和VC熵來(lái)解決模式識(shí)別問(wèn)題。利用這些概念學(xué)者發(fā)現(xiàn)了大數(shù)定律和關(guān)于收斂速率的非漸近界。1989年,Vapnik和Chervonenkis提出的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則、正則化理論、解決密度估計(jì)問(wèn)題的非參數(shù)方法,以及算法復(fù)雜度思想,都對(duì)學(xué)習(xí)理論的發(fā)展產(chǎn)生了深遠(yuǎn)的影響。

1.3 神經(jīng)網(wǎng)絡(luò)的產(chǎn)生

1986年,LeCun和Rumelhart各自獨(dú)立地提出了后向傳播方法。該方法采用連續(xù)的Sigmoid逼近函數(shù)代替了感知器神經(jīng)元中的不連續(xù)符號(hào)函數(shù),使人們可用任何基于梯度的方法來(lái)逼近預(yù)期函數(shù)。它的出現(xiàn)標(biāo)志著學(xué)習(xí)機(jī)器歷史進(jìn)入了一個(gè)新紀(jì)元。

1.4 統(tǒng)計(jì)學(xué)習(xí)理論的創(chuàng)立

為了根本解決傳統(tǒng)統(tǒng)計(jì)學(xué)理論中過(guò)學(xué)習(xí)等弊端,Vapnik于20世紀(jì)60-70年代創(chuàng)立了統(tǒng)計(jì)學(xué)習(xí)理論。與傳統(tǒng)統(tǒng)計(jì)學(xué)相比,它是一種專門(mén)研究有限樣本下機(jī)器學(xué)習(xí)規(guī)律的理論,不僅考慮了對(duì)漸近性能的要求,并且追求在有限信息下獲得最優(yōu)結(jié)果,在理論研究和實(shí)際應(yīng)用中都取得了良好效果。

2 機(jī)器學(xué)習(xí)策略分類(lèi)

在眾多機(jī)器學(xué)習(xí)策略中,可從不同角度,根據(jù)不同原則對(duì)其進(jìn)行分類(lèi)。本文按照分類(lèi)原則提出的先后順序以及所用推理策略的繁簡(jiǎn)程度將其分為以下兩大類(lèi)。

2.1 傳統(tǒng)策略

⑴機(jī)械式學(xué)習(xí)。該方法是一種最簡(jiǎn)單、原始,也最基本的學(xué)習(xí)策略。它通過(guò)記憶和評(píng)價(jià)外部環(huán)境所提供的信息達(dá)到學(xué)習(xí)的目的。學(xué)習(xí)系統(tǒng)要做的工作就是把經(jīng)過(guò)評(píng)價(jià)所獲取的知識(shí)存儲(chǔ)到知識(shí)庫(kù)中,求解問(wèn)題時(shí)就從知識(shí)庫(kù)中檢索出相應(yīng)的知識(shí)直接用來(lái)求解問(wèn)題。

⑵指導(dǎo)式學(xué)習(xí)。該方法通過(guò)由外部環(huán)境向系統(tǒng)提供一般性的指示或建議,把它們具體地轉(zhuǎn)換為細(xì)節(jié)知識(shí)并送入知識(shí)庫(kù)。在學(xué)習(xí)過(guò)程中要反復(fù)對(duì)形成的知識(shí)進(jìn)行評(píng)價(jià),使系統(tǒng)的知識(shí)庫(kù)不斷完善。

⑶歸納學(xué)習(xí)。該方法應(yīng)用歸納推理進(jìn)行學(xué)習(xí)。歸納推理指從足夠多的事例中歸納出一般性的知識(shí),是一種從個(gè)別到一般的推理。常用的方法有枚舉歸納、聯(lián)想歸納、類(lèi)比歸納、逆推理歸納和消除歸納等。

⑷類(lèi)比學(xué)習(xí)。類(lèi)比是人類(lèi)認(rèn)識(shí)世界的一種重要方法,也是誘導(dǎo)人們學(xué)習(xí)新事物、進(jìn)行創(chuàng)造性思維的重要手段。類(lèi)比學(xué)習(xí)就是通過(guò)對(duì)相似事物進(jìn)行比較所進(jìn)行的一種學(xué)習(xí)。

⑸基于解釋的學(xué)習(xí)。該方法通過(guò)運(yùn)用相關(guān)領(lǐng)域知識(shí),對(duì)當(dāng)前提供的實(shí)例進(jìn)行分析,從而構(gòu)造解釋并產(chǎn)生相應(yīng)知識(shí)。

2.2 現(xiàn)代策略

⑴基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)由神經(jīng)元單元及其間帶權(quán)重的連接組成,每個(gè)單元的狀態(tài)由與其相連接其他單元的輸入共同決定。該方法使用樣本來(lái)訓(xùn)練網(wǎng)絡(luò),產(chǎn)生網(wǎng)絡(luò)的內(nèi)部表示,并用來(lái)識(shí)別新樣本。

⑵基于統(tǒng)計(jì)學(xué)習(xí)理論的學(xué)習(xí)。Vapnik創(chuàng)立的統(tǒng)計(jì)學(xué)習(xí)理論針對(duì)有限樣本統(tǒng)計(jì)問(wèn)題建立了一套新的理論體系,不僅考慮了對(duì)漸近性能的要求,并且追求在有限的信息條件下獲得最優(yōu)的結(jié)果。其典型代表SVM,具有許多傳統(tǒng)統(tǒng)計(jì)學(xué)方法不具備的優(yōu)點(diǎn)。

⑶強(qiáng)化學(xué)習(xí)。該理論是在上世紀(jì)80年代,基于試錯(cuò)方法、動(dòng)態(tài)規(guī)劃和瞬時(shí)誤差方法形成的。

⑷集成學(xué)習(xí)。該方法集成若干單分類(lèi)器的分類(lèi)結(jié)果來(lái)綜合決定最終分類(lèi),可取得比單分類(lèi)器更好的性能。其主要方法有Bagging、Boosting、Stacking、樸素貝葉斯集成、決策樹(shù)集成、人工神經(jīng)網(wǎng)絡(luò)集成、K-近鄰集成、在線集成等等。

⑸主動(dòng)學(xué)習(xí)。該方法模擬人的學(xué)習(xí)過(guò)程,選擇標(biāo)記部分樣例加入訓(xùn)練集,迭代提高分類(lèi)器的泛化性能。

[參考文獻(xiàn)]

機(jī)器學(xué)習(xí)范文第3篇

關(guān)鍵詞:機(jī)器學(xué)習(xí)

數(shù)據(jù)挖掘

人工智能

中圖分類(lèi)號(hào):TP181

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1002-2422(2010)03-0093-02

1機(jī)器學(xué)習(xí)概述及方法分類(lèi)

1,1機(jī)器學(xué)習(xí)的概念、應(yīng)用及發(fā)展概況

機(jī)器學(xué)習(xí)是一種使獲取知識(shí)自動(dòng)化的計(jì)算方法的學(xué)習(xí)。機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。其應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語(yǔ)言理解、模式識(shí)別、計(jì)算機(jī)視覺(jué)、智能機(jī)器人等領(lǐng)域。

對(duì)機(jī)器學(xué)習(xí)的研究大致經(jīng)過(guò)以下四個(gè)階段:

(1)20世紀(jì)50年代的神經(jīng)模擬和決策理論技術(shù),學(xué)習(xí)系統(tǒng)在運(yùn)行時(shí)還很少具有結(jié)構(gòu)或知識(shí)。主要方法是建造神經(jīng)網(wǎng)絡(luò)和自組織學(xué)習(xí)系統(tǒng),學(xué)習(xí)表現(xiàn)為閾值邏輯單元傳送信號(hào)的反饋調(diào)整。

(2)20世紀(jì)60年代早期開(kāi)始研究面向概念的學(xué)習(xí),即符號(hào)學(xué)習(xí)。使用的工具是語(yǔ)義網(wǎng)絡(luò)或謂詞邏輯,不再是數(shù)值或者統(tǒng)計(jì)方法。在概念獲取中,學(xué)習(xí)系統(tǒng)通過(guò)分析相關(guān)概念的大量正例和反例來(lái)構(gòu)造概念的符號(hào)表示。

(3)20世紀(jì)70年代中期,研究活動(dòng)日趨興旺。1980年在卡內(nèi)基?梅隆大學(xué)召開(kāi)的第一屆機(jī)器學(xué)習(xí)專題研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)正式成為人工智能的一個(gè)獨(dú)立研究領(lǐng)域。

(4)20世紀(jì)80年代中后期至今,機(jī)器學(xué)習(xí)研究進(jìn)入一個(gè)新階段,已趨向成熟。神經(jīng)網(wǎng)絡(luò)的復(fù)蘇,帶動(dòng)著各種非符號(hào)學(xué)習(xí)方法與符號(hào)學(xué)習(xí)并駕齊驅(qū),并且已超越人工智能研究范圍,進(jìn)入到自動(dòng)化及模式識(shí)別等領(lǐng)域,各種學(xué)習(xí)方法開(kāi)始繼承,多策略學(xué)習(xí)已經(jīng)使學(xué)習(xí)系統(tǒng)愈具應(yīng)用價(jià)值,而運(yùn)用機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用則是最好的例子。

1,2機(jī)器學(xué)習(xí)方法的分類(lèi)

Bose和Mahapatra歸納了數(shù)據(jù)挖掘中使用的機(jī)器學(xué)習(xí)技術(shù)主要有以下五種:

(1)規(guī)則歸納:規(guī)則歸納從訓(xùn)練集中產(chǎn)生一棵決策樹(shù)或一組決策規(guī)則來(lái)進(jìn)行分類(lèi)。決策樹(shù)可以轉(zhuǎn)化成一組規(guī)則,分類(lèi)規(guī)則通常用析取范式表示。規(guī)則歸納主要優(yōu)點(diǎn)是處理大數(shù)據(jù)集的能力強(qiáng),適合分類(lèi)和預(yù)測(cè)型的任務(wù),結(jié)果易于解釋,技術(shù)上易于實(shí)施。

(2)神經(jīng)網(wǎng)絡(luò):由類(lèi)似人腦神經(jīng)元的處理單元組成,輸入節(jié)點(diǎn)通過(guò)隱藏節(jié)點(diǎn)與輸出節(jié)點(diǎn)相連接從而組成一個(gè)多層網(wǎng)絡(luò)結(jié)構(gòu)。節(jié)點(diǎn)的輸入信號(hào)等于所有通過(guò)其輸入鏈接到達(dá)此節(jié)點(diǎn)的信號(hào)的加權(quán)和。神經(jīng)網(wǎng)絡(luò)由相互連接的輸入層、中間層、輸出層組成。中間層由多個(gè)節(jié)點(diǎn)組成,完成大部分網(wǎng)絡(luò)工作。輸出層輸出數(shù)據(jù)分析的執(zhí)行結(jié)果。

神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)是能精確地對(duì)復(fù)雜問(wèn)題進(jìn)行預(yù)測(cè)。其缺點(diǎn)是處理大數(shù)據(jù)集時(shí)效率較低,用戶在使用這種方法的時(shí)候需要具備相當(dāng)?shù)慕⒑瓦\(yùn)行該系統(tǒng)的工具知識(shí)。

(3)事例推理:每個(gè)事例都由問(wèn)題描述和問(wèn)題的解決方法兩部分構(gòu)成。提出問(wèn)題后,系統(tǒng)會(huì)尋找匹配事例和解決方法。其優(yōu)點(diǎn)是能夠較好地處理污染數(shù)據(jù)和缺失數(shù)據(jù),非常適用于有大量事例的領(lǐng)域。

(4)遺傳算法:是一種基于生物進(jìn)化過(guò)程的組合優(yōu)化方法。其基本思想是適者生存,基本操作包括繁殖、雜交和變異三個(gè)過(guò)程。繁殖過(guò)程是從一個(gè)整體中選擇基于某種特定標(biāo)準(zhǔn)的信息并對(duì)要求解的問(wèn)題編碼,產(chǎn)生初始群體,計(jì)算個(gè)體的適應(yīng)度。雜交過(guò)程是把一個(gè)信息的某一部分與另一個(gè)信息的相關(guān)的部分進(jìn)行交換。變異過(guò)程隨機(jī)改變信息的某一部分以得到一個(gè)新的個(gè)體。重復(fù)這個(gè)操作,直到求得最佳或較佳的個(gè)體。遺傳算法的優(yōu)點(diǎn)是能夠較好地處理污染數(shù)據(jù)和缺失數(shù)據(jù),易于和其它系統(tǒng)集成。

(5)歸納性邏輯程序:用一級(jí)屬性邏輯來(lái)定義、描述概念。首先定義正面和負(fù)面的例子,然后對(duì)新例子進(jìn)行等級(jí)劃分。這一方法具有較強(qiáng)的概念描述機(jī)制,能較好地表達(dá)復(fù)雜關(guān)系,體現(xiàn)專業(yè)領(lǐng)域知識(shí),因而用該方法得出的模型易于理解。

2數(shù)據(jù)挖掘中機(jī)器學(xué)習(xí)技術(shù)的特性

商業(yè)數(shù)據(jù)庫(kù)往往含有噪音,體現(xiàn)在存在錯(cuò)誤和不一致性。如果數(shù)據(jù)驗(yàn)證過(guò)程不夠充分,則可能允許用戶輸入不正確的數(shù)據(jù),而數(shù)據(jù)遷移也可能產(chǎn)生破壞。

商業(yè)數(shù)據(jù)庫(kù)的另一個(gè)常見(jiàn)問(wèn)題是數(shù)據(jù)的缺失,尤其是當(dāng)數(shù)據(jù)來(lái)自于不同的數(shù)據(jù)源時(shí)。由于數(shù)據(jù)編碼標(biāo)準(zhǔn)和聚集策略的不同,有可能將導(dǎo)致無(wú)法對(duì)所有的屬性進(jìn)行分析。

另外,在商業(yè)數(shù)據(jù)挖掘中,數(shù)據(jù)集的大小從幾吉到幾兆不等,并往往還有大量的屬性,所以可測(cè)量性是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要方面。商業(yè)數(shù)據(jù)庫(kù)含有多種屬性類(lèi)型,如果機(jī)器學(xué)習(xí)技術(shù)能夠處理不同的數(shù)據(jù)類(lèi)型,則將對(duì)數(shù)據(jù)挖掘產(chǎn)生更大的作用。

數(shù)據(jù)挖掘技術(shù)的預(yù)測(cè)精度是評(píng)價(jià)挖掘效果的一個(gè)非常重要的因素。遵循監(jiān)督學(xué)習(xí)過(guò)程的機(jī)器學(xué)習(xí)系統(tǒng)首先被訓(xùn)練,但是系統(tǒng)對(duì)真實(shí)數(shù)據(jù)的預(yù)測(cè)精度往往低于對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)精度。所以,能對(duì)真實(shí)數(shù)據(jù)得到較高的預(yù)測(cè)精度顯然是一個(gè)所需的特性。

結(jié)果的可解釋性是另一個(gè)重要的所需特性。在商業(yè)數(shù)據(jù)挖掘應(yīng)用中往往需要使用不同的DSS或DBMS,所以與其他信息系統(tǒng)的易整合性也是一個(gè)需要的特性。不同的機(jī)器學(xué)習(xí)技術(shù)需要終端用戶具有一定程度的工具知識(shí)和領(lǐng)域知識(shí),一些技術(shù)還需要對(duì)數(shù)據(jù)進(jìn)行大量的預(yù)處理工作,因此對(duì)于終端用戶來(lái)說(shuō),易于理解和需要較少預(yù)處理工作的機(jī)器學(xué)習(xí)技術(shù)是比較好的。

3機(jī)器學(xué)習(xí)方法與數(shù)據(jù)挖掘任務(wù)類(lèi)型

Bose和Mahapatra把運(yùn)用于數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)方法在商業(yè)應(yīng)用時(shí)的任務(wù)類(lèi)型可以歸結(jié)為如下;

(1)分類(lèi):利用一個(gè)訓(xùn)練集來(lái)確定最大可區(qū)分屬性,當(dāng)分類(lèi)確定好之后,新的實(shí)例可以通過(guò)分析進(jìn)行合適的分類(lèi)。

(2)預(yù)測(cè):根據(jù)已觀測(cè)到的數(shù)據(jù)來(lái)找出可能的將來(lái)值和/或?qū)傩缘姆植肌V饕娜蝿?wù)之一是確定對(duì)要預(yù)測(cè)的屬性影響最大的屬性。

(3)關(guān)聯(lián):在尋找實(shí)體之間或者實(shí)體屬性之間的潛在聯(lián)系規(guī)律的關(guān)聯(lián)分析當(dāng)中,最常見(jiàn)的就是市場(chǎng)菜籃子分析。

(4)偵察:偵察的目的在于尋找異常的現(xiàn)象、離群數(shù)據(jù)、異常模式等等,并且給出支持決策的解釋。

機(jī)器學(xué)習(xí)方法及其所對(duì)應(yīng)解決的數(shù)據(jù)挖掘中的任務(wù)類(lèi)型總結(jié)如表1所示。

機(jī)器學(xué)習(xí)范文第4篇

近期,印第安納大學(xué)與普渡大學(xué)印第安納波利斯聯(lián)合分校的研究人員開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)算法,可以90%預(yù)測(cè)急性骨髓性白血?。ˋML)的復(fù)發(fā),以及100%準(zhǔn)確預(yù)測(cè)緩解,當(dāng)患者在初診時(shí),白血病細(xì)胞為1012,經(jīng)過(guò)導(dǎo)入療法的化學(xué)治療以后,白血病細(xì)胞減少到大約109以下時(shí),就不能再?gòu)难汉凸撬柚邪l(fā)現(xiàn)白血病細(xì)胞,這時(shí)候,病人即可以達(dá)到完全緩解的程度。這項(xiàng)小型研究凸顯了機(jī)器學(xué)習(xí)具備取代傳統(tǒng)診斷方法的潛力,研究者使用的是來(lái)自AML患者的骨髓細(xì)胞、病史數(shù)據(jù)以及其他健康個(gè)體的信息。

傳統(tǒng)診斷方式主要是手動(dòng)分析來(lái)自流式細(xì)胞術(shù)(流式細(xì)胞術(shù)是對(duì)懸液中的單細(xì)胞或其他生物粒子,通過(guò)檢測(cè)標(biāo)記的熒光信號(hào),實(shí)現(xiàn)高速、逐一的細(xì)胞定量分析和分選的技術(shù))的數(shù)據(jù),而機(jī)器學(xué)習(xí)方法體現(xiàn)了它的高準(zhǔn)確率和及時(shí)性。

普渡大學(xué)生物科學(xué)中心計(jì)算生物學(xué)研究助理教授Bindley Bartek Rajwa解釋,他的計(jì)算系統(tǒng)采用流式細(xì)胞術(shù)的數(shù)據(jù)作為輸入。流式細(xì)胞術(shù)是一種廣泛使用的技術(shù),可以快速地提供樣本中單個(gè)細(xì)胞的特性,如血液或骨髓細(xì)胞。

Rajwa是該研究的第一作者,該論文已經(jīng)被IEEE 生物醫(yī)學(xué)工程學(xué)期刊收錄。

“魍車(chē)牧魘較赴術(shù)的結(jié)果是由受過(guò)高度培訓(xùn)的人類(lèi)專家評(píng)估,而不是機(jī)器學(xué)習(xí)算法,”他補(bǔ)充說(shuō),“但是計(jì)算機(jī)通常比人類(lèi)更擅長(zhǎng)從復(fù)雜數(shù)據(jù)中提取知識(shí)。”

斯坦福大學(xué)醫(yī)學(xué)院教授和遺傳學(xué)教授Michael Snyder博士,同意計(jì)算機(jī)在復(fù)雜癌癥病例診斷中是關(guān)鍵的輔助工具,也許最終會(huì)取代人類(lèi)醫(yī)生。

在8月份的時(shí)候,他使用機(jī)器學(xué)習(xí)來(lái)區(qū)分不同類(lèi)型的肺癌,他認(rèn)為病理學(xué)的觀點(diǎn)非常主觀,“兩個(gè)高度熟練的病理學(xué)家評(píng)估同一張幻燈片時(shí),只有60%的部分是共同認(rèn)可的。使用機(jī)器學(xué)習(xí)的方法,可以用復(fù)雜、定量的測(cè)量結(jié)果來(lái)取代主觀性,我們認(rèn)為很有希望改善患者的診斷結(jié)果。

機(jī)器學(xué)習(xí)正在迅速地成為許多疾病類(lèi)別預(yù)測(cè)分析和診斷的流行工具,包括膿毒癥、創(chuàng)傷護(hù)理、心臟病、人群健康管理、視力保健和精神衛(wèi)生保健。

2015年,來(lái)自哥倫比亞大學(xué),布宜諾斯艾利斯大學(xué)和IBM計(jì)算生物學(xué)中心的一項(xiàng)研究也使用機(jī)器學(xué)習(xí)實(shí)現(xiàn)準(zhǔn)確無(wú)誤的預(yù)測(cè)診斷記錄,他們使用自然語(yǔ)言處理技術(shù)來(lái)標(biāo)記可能進(jìn)入精神病發(fā)作的心理健康患者。

隨著開(kāi)發(fā)人員和研究人員改進(jìn)他們的機(jī)器學(xué)習(xí)方法,以及供應(yīng)商更多工具,從事高級(jí)分析的機(jī)構(gòu)可以訪問(wèn)龐大的計(jì)算能力,診斷準(zhǔn)確率會(huì)普遍得到顯著提升。

印第安納大學(xué)與普渡大學(xué)印第安納波利斯聯(lián)合分校的病毒進(jìn)展研究的高級(jí)作者、計(jì)算機(jī)副教授Murat Dundar表示,教會(huì)計(jì)算機(jī)識(shí)別AML是非常簡(jiǎn)單的,一旦你開(kāi)發(fā)了一個(gè)強(qiáng)大的魯棒算法,能將以前的工作提升到接近100%的準(zhǔn)確率。

“有挑戰(zhàn)性的是如何超越確診AML工作本身。我們要讓計(jì)算機(jī)準(zhǔn)確地預(yù)測(cè)AML患者的疾病變化方向,從新的數(shù)據(jù)中理解并預(yù)測(cè)未知走向,知道哪些新的AML患者將進(jìn)入緩解狀態(tài),哪些會(huì)進(jìn)入復(fù)發(fā)狀態(tài)。

機(jī)器學(xué)習(xí)范文第5篇

作者簡(jiǎn)介:靳雪茹(1986-),女,河北邢臺(tái)人,碩士研究生,主要研究方向:分類(lèi)法映射; 齊建東(1976-),男,內(nèi)蒙古赤峰人,副教授,博士,主要研究方向:計(jì)算機(jī)網(wǎng)絡(luò)、智能信息處理; 王立臣(1982-),男,吉林敦化人, 碩士研究生, 主要研究方向:虛擬現(xiàn)實(shí)、智能信息處理; 周林志(1984-),男,浙江臺(tái)州人,碩士研究生,主要研究生方向:計(jì)算機(jī)網(wǎng)絡(luò)、智能信息處理。

文章編號(hào):1001-9081(2011)07-1781-04doi:10.3724/SP.J.1087.2011.01781

(1.北京林業(yè)大學(xué) 信息學(xué)院,北京 100083; 2.北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192;

3.北京航空航天大學(xué) 網(wǎng)絡(luò)信息與計(jì)算中心,北京 100191)

()

摘 要:專利和期刊隸屬于不同的知識(shí)組織體系,要實(shí)現(xiàn)專利與期刊文獻(xiàn)的交叉瀏覽和檢索必須解決兩種分類(lèi)法(中國(guó)圖書(shū)館分類(lèi)法(CLC)和國(guó)際專利分類(lèi)法(IPC))之間的映射問(wèn)題。在調(diào)研現(xiàn)有分類(lèi)法類(lèi)目映射方法的基礎(chǔ)上,討論了基于機(jī)器學(xué)習(xí)實(shí)現(xiàn)中國(guó)圖書(shū)館分類(lèi)法和國(guó)際專利分類(lèi)法之間類(lèi)目映射的方法。通過(guò)對(duì)中圖法某個(gè)類(lèi)目標(biāo)識(shí)的語(yǔ)料進(jìn)行訓(xùn)練得到該類(lèi)目的分類(lèi)器,然后用其對(duì)國(guó)際專利分類(lèi)法標(biāo)識(shí)的語(yǔ)料進(jìn)行分類(lèi),對(duì)分類(lèi)結(jié)果進(jìn)行分析得出類(lèi)目間的映射關(guān)系。對(duì)比實(shí)驗(yàn)證明了該方法的有效性。

關(guān)鍵詞:類(lèi)目映射; 國(guó)際專利分類(lèi)法; 中國(guó)圖書(shū)館分類(lèi)法; 樸素貝葉斯方法; 決策樹(shù)

中圖分類(lèi)號(hào):TP181;TP391文獻(xiàn)標(biāo)志碼:A

Approach of classification mapping between international patent

classification and chinese library classification based on machine learning

JIN Xue-ru1,QI Jian-dong1,WANG Li-chen2,ZHOU Lin-zhi3

(1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China;

2. School of Automation,Beijing Information Science and Technology University,Beijing 100192,China;

3. Network Center,Beihang University,Beijing 100191,China)

Abstract: Patents and journals belong to different knowledge organization systems. To achieve the cross-browsing and cross-retrieval between journal literature and patents,the mapping problem between two classifications Chinese Library Classification (CLC) and International Patent Classification (IPC), must be addressed. According to the survey of the existing methods of classification mapping, this paper discussed a method to achieve the mapping between CLC and IPC based on machine learning. The learner was got by training the corpus identified by the CLC category, with which to classify the corpus identified by the IPC category. The mapping relations can be found after analyzing the classification results. And the comparison experiment proves the effectiveness of this method.

Key words: classification mapping; International Patent Classification (IPC); Chinese Library Classification(CLC); Nave Bayes (NB) method; decision tree

0 引言

互聯(lián)網(wǎng)的迅猛發(fā)展,信息化的不斷推進(jìn)使得文獻(xiàn)信息處理網(wǎng)絡(luò)化、全球化已成為潮流,這為文獻(xiàn)資源的共享創(chuàng)造了條件;與此同時(shí),由于文獻(xiàn)資源加工、處理方法及檢索語(yǔ)言的多種多樣,又為文獻(xiàn)資源的共享帶來(lái)了障礙。交叉瀏覽是指用戶可以通過(guò)一種知識(shí)組織體系,可以瀏覽另一種體系中的信息,可以將不同體系中相同或相似的信息以某種方式呈現(xiàn)給用戶,為用戶提供一個(gè)集成式的服務(wù),實(shí)現(xiàn)不同知識(shí)組織體系間的互操作。

專利反映了解最新科研動(dòng)態(tài)、研究課題開(kāi)發(fā)現(xiàn)狀、技術(shù)水平和法律狀態(tài)。而期刊文獻(xiàn)作為信息傳遞和交換的產(chǎn)物,是科研信息的重要來(lái)源。在專利信息越來(lái)越受關(guān)注的今天,實(shí)現(xiàn)專利與期刊文獻(xiàn)的互操作以獲取更加準(zhǔn)確、詳細(xì)、全面的信息具有重要的意義。專利文獻(xiàn)和期刊文獻(xiàn)是按照不同的組織方式進(jìn)行組織管理的,其中國(guó)際專利分類(lèi)法(International Patent Classification,IPC)是一種國(guó)際通用的管理和使用專利文獻(xiàn)的工具,而中文期刊庫(kù)以及其他中文文獻(xiàn)信息則更普遍地使用中國(guó)圖書(shū)館分類(lèi)法(Chinese Library Classification,CLC)。通過(guò)找到IPC與CLC類(lèi)目間的映射關(guān)系可以實(shí)現(xiàn)這兩種分類(lèi)體系之間的互操作。

國(guó)內(nèi)外信息領(lǐng)域都已經(jīng)致力于不同知識(shí)組織系統(tǒng)間的互操作研究,并取得一定的研究成果。例如,英國(guó)高層敘詞表項(xiàng)目(High-Level Thesaurus Project,HILT),歐盟Renardus項(xiàng)目,我國(guó)山西省圖書(shū)館等聯(lián)合研制了“計(jì)算機(jī)文獻(xiàn)標(biāo)引對(duì)照系統(tǒng)”,由戴劍波、侯漢清研制的CLC4和DDC21自動(dòng)映射系統(tǒng)等[1]。另外,國(guó)家“十一五” 科技支持計(jì)劃項(xiàng)目研究的知識(shí)組織系統(tǒng)是由多個(gè)領(lǐng)域詞表構(gòu)成的,每個(gè)詞表包含了該領(lǐng)域的詞匯,并且定義、規(guī)范了詞匯間的各種語(yǔ)義關(guān)系,是該實(shí)驗(yàn)以及其他自然語(yǔ)言處理過(guò)程中的重要支撐工具。目前,有關(guān)分類(lèi)法映射的研究中采用的方法主要有以下幾種:

1)基于同現(xiàn)統(tǒng)計(jì)[2]。

分類(lèi)法的實(shí)質(zhì)是一系列文獻(xiàn)情報(bào)內(nèi)容概念及其相關(guān)關(guān)系的號(hào)碼標(biāo)識(shí)系統(tǒng),可以用不同分類(lèi)法的分類(lèi)號(hào)來(lái)標(biāo)識(shí)同一文獻(xiàn);反之,標(biāo)識(shí)同一文獻(xiàn)或圖書(shū)的不同分類(lèi)號(hào)之間必定具有一定的關(guān)聯(lián),所以可以基于不同分類(lèi)法的同現(xiàn)信息來(lái)確定類(lèi)目之間的映射關(guān)系。

2)基于類(lèi)目相似度[2-3]。

體系分類(lèi)法一般是通過(guò)類(lèi)目名稱、注釋、上下位類(lèi)等來(lái)表達(dá)各種復(fù)雜概念,在進(jìn)行類(lèi)目映射時(shí),不僅要考慮類(lèi)目的表達(dá)形式,還要考慮類(lèi)目所表達(dá)的概念在外延和內(nèi)涵上的相符程度。通過(guò)選擇類(lèi)目對(duì)應(yīng)的類(lèi)名詞、注釋詞及其上下位類(lèi)名詞等詞匯作為類(lèi)目概念詞并進(jìn)行相似度計(jì)算,可以確定類(lèi)目之間的映射關(guān)系。

3)交叉瀏覽[4]。

通過(guò)使用一種分類(lèi)法在一個(gè)使用另外一種分類(lèi)法來(lái)組織的語(yǔ)料庫(kù)中進(jìn)行檢索,通過(guò)對(duì)檢索結(jié)果的分析從而建立這兩種分類(lèi)法之間的映射。

以上三種方法是當(dāng)前分類(lèi)法類(lèi)目映射中常用的方法。從其他角度考慮,類(lèi)目映射的問(wèn)題實(shí)質(zhì)上就是分類(lèi)的問(wèn)題[5-6],即能否將兩個(gè)類(lèi)目看做是“同類(lèi)”的,由此本文提出了基于機(jī)器學(xué)習(xí)中分類(lèi)算法的類(lèi)目映射方法。

1 基于機(jī)器學(xué)習(xí)的映射方法

本文提出的基于機(jī)器學(xué)習(xí)的類(lèi)目映射方法的基本原理是:類(lèi)目映射可以看做是一個(gè)分類(lèi)的問(wèn)題,將其中一個(gè)分類(lèi)法(以下稱為“源分類(lèi)法”)中某個(gè)類(lèi)目(如類(lèi)目A)標(biāo)識(shí)的語(yǔ)料信息作為訓(xùn)練集,訓(xùn)練得到該類(lèi)目的分類(lèi)器(如LearnersA),然后用該分類(lèi)器測(cè)試由另一分類(lèi)法(以下稱為“目標(biāo)分類(lèi)法”)的類(lèi)目(如類(lèi)目Ⅰ)標(biāo)識(shí)的語(yǔ)料是否可以歸類(lèi)到類(lèi)目A。如果可以,則表明類(lèi)目A與類(lèi)目Ⅰ之間存在一定的映射關(guān)系。

圖1 基于機(jī)器學(xué)習(xí)的映射過(guò)程

本方法對(duì)文檔的標(biāo)題和內(nèi)容分開(kāi)進(jìn)行處理,首先經(jīng)過(guò)預(yù)處理得到文本標(biāo)題和內(nèi)容向量集合,然后由訓(xùn)練得到的標(biāo)題和內(nèi)容分類(lèi)器對(duì)目標(biāo)分類(lèi)法的文檔(與訓(xùn)練集同一維度空間的向量集合)進(jìn)行分類(lèi),最后分析分類(lèi)結(jié)果得到目標(biāo)分類(lèi)法的哪些類(lèi)目可以與源分類(lèi)法的類(lèi)目進(jìn)行映射。

1.1 預(yù)處理

由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可由計(jì)算機(jī)處理的結(jié)構(gòu)化形式。

1.1.1分詞

詞條是信息表達(dá)的最小單位,是自然語(yǔ)言中重要的知識(shí)載體與基本操作單元。所有涉及中文內(nèi)容處理的系統(tǒng),如果沒(méi)有一個(gè)好的中文詞法分析系統(tǒng)支持,正確率都會(huì)受很大影響。本實(shí)驗(yàn)使用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的開(kāi)源ICTCLAS[7]系統(tǒng)的Java版本ictclas4j來(lái)完成文本分詞。

1.1.2 提取特征詞

對(duì)文本分詞以后,進(jìn)一步使用中國(guó)科學(xué)技術(shù)信息研究所建設(shè)的“汽車(chē)領(lǐng)域主題詞”作為詞典篩選出關(guān)鍵詞語(yǔ),將文本中承載的與分類(lèi)無(wú)關(guān)或關(guān)聯(lián)較少的信息,如停用詞、數(shù)字、標(biāo)點(diǎn)符號(hào)等都過(guò)濾掉,可以提高特征詞的質(zhì)量、計(jì)算的效率和分類(lèi)的準(zhǔn)確度。

1.2 特征選擇

目前人們通常采用向量空間模型來(lái)描述文本信息,但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的詞匯來(lái)表示文本向量中的各個(gè)維,那么這個(gè)特征空間的維數(shù)將高達(dá)幾萬(wàn),甚至更高。這不僅會(huì)降低分類(lèi)效率也會(huì)降低分類(lèi)精度,因此需要從原始特征空間中選出部分特征,來(lái)降低原始特征空間的維數(shù),也就是特征選擇的過(guò)程。

特征選擇的常用標(biāo)準(zhǔn)有文本頻度(Document Frequency,DF)、信息增益(Information Gain,IG)、互信息(Mutual Information,MI)、CHI統(tǒng)計(jì)及TFIDF(Term Frequency Inverse Document Frequency)等[8]。其中,TFIDF是一種權(quán)重計(jì)算方法,因其算法簡(jiǎn)單并且準(zhǔn)確率較高,文本分類(lèi)的特征選擇也常?;诖怂惴ㄍ瓿?。但此算法只反映特征與頁(yè)面間的關(guān)系,具有一定的局限性,而MI標(biāo)準(zhǔn)反映了特征與類(lèi)別間的關(guān)系,在一定程度上彌補(bǔ)了TFIDF的不足,因此本實(shí)驗(yàn)將采用TFIDF和MI兩種標(biāo)準(zhǔn)進(jìn)行特征詞選取。

1)TFIDF標(biāo)準(zhǔn)。

TFIDF用特征的TF×IDF值來(lái)評(píng)估一個(gè)特征。TF指特征頻度,TF值表示一個(gè)特征和某個(gè)文檔的相關(guān)性,反映了該特征相對(duì)于這個(gè)頁(yè)面的重要程度,默認(rèn)為出現(xiàn)的次數(shù)越多越重要。IDF 因子表示逆文檔頻度,即包含某特征的文檔越多,則該特征越不重要。TFIDF計(jì)算公式如下:

TFIDF(termi,documentj)TF(termi,documentj)×

IDF(termi)TF(termi,documentj)×lg(1)

其中,TF(termi,documentj)定義為特征termi在文檔documentj中出現(xiàn)的次數(shù)(1≤i≤|V|, 1≤j≤N,V為所有訓(xùn)練文檔中的特征構(gòu)成的集合,N 為訓(xùn)練文檔總數(shù))。IDF(termi)定義為lg,DF(termi)為含有特征termi的文檔數(shù)。

2)MI標(biāo)準(zhǔn)。

互信息在統(tǒng)計(jì)語(yǔ)言模型中被廣泛應(yīng)用,它可以度量特征詞和類(lèi)別的共現(xiàn)關(guān)系,反映了特征和類(lèi)別之間的關(guān)聯(lián)程度,MI值為0就代表特征的分布和類(lèi)別無(wú)關(guān)。MI計(jì)算公式如下:

MI(term,class)lb

lb(2)

其中:P(term,class)表示特征term在類(lèi)別class中出現(xiàn)的概率,P(term)表示特征term在整個(gè)訓(xùn)練集中出現(xiàn)的概率。

本實(shí)驗(yàn)采用以上兩種標(biāo)準(zhǔn)來(lái)對(duì)特征詞進(jìn)行選擇。首先,計(jì)算每個(gè)文檔中所有詞條的TFIDF值以及這些詞條與當(dāng)前類(lèi)別的MI值,然后選取MI值大于0且TFIDF值大于設(shè)定閾值的詞條作為最終的特征詞將該文檔表示為一個(gè)向量。

1.3 訓(xùn)練分類(lèi)器

用語(yǔ)料信息訓(xùn)練源分類(lèi)法某個(gè)類(lèi)目的分類(lèi)器時(shí),選擇由該類(lèi)目標(biāo)識(shí)的文檔作為訓(xùn)練集的正面樣本,其他類(lèi)目標(biāo)識(shí)的文檔作為負(fù)面樣本。從這些樣本集中可以得到兩個(gè)分類(lèi)器:標(biāo)題分類(lèi)器和內(nèi)容分類(lèi)器。標(biāo)題分類(lèi)器就是用文檔的標(biāo)題作為訓(xùn)練集來(lái)進(jìn)行訓(xùn)練得到的,采用標(biāo)題作為訓(xùn)練集的理由是:標(biāo)題是一個(gè)文檔最簡(jiǎn)單、最準(zhǔn)確的概括,在對(duì)文檔進(jìn)行分類(lèi)時(shí),甚至只看到標(biāo)題就知道應(yīng)該將該文檔歸到哪一類(lèi)。文檔的內(nèi)容可以提供更加詳細(xì)、更加深入的主題思想,但與此同時(shí)文檔攜帶的信息也隨之增多,可能會(huì)影響文檔的正確分類(lèi)。因此,在本實(shí)驗(yàn)中將文檔標(biāo)題和文檔內(nèi)容結(jié)合起來(lái)考慮,以提高分類(lèi)的準(zhǔn)確度。

目前,文本分類(lèi)的經(jīng)典算法有:樸素貝葉斯分類(lèi)(Nave Bayes,NB)[10]、決策樹(shù)方法(Decision Tree,DT)、Rocchio方法、K近鄰算法(K-Nearest Neighbors,KNN)和支持向量機(jī)(Support Vector Machine,SVM)等[9]。其中,樸素貝葉斯和決策樹(shù)因其較高的分類(lèi)性能和簡(jiǎn)單性,是當(dāng)前使用最廣泛的兩種分類(lèi)模型。本實(shí)驗(yàn)也將采用這兩種算法完成分類(lèi)工作。

樸素貝葉斯以概率統(tǒng)計(jì)中的貝葉斯定理為理論基礎(chǔ),基于特征獨(dú)立性假設(shè),根據(jù)已知的先驗(yàn)概率以及條件概率得到后驗(yàn)概率。文本d屬于某類(lèi)別C的概率可表述如式(3)。最終文本將分類(lèi)到概率最大的那個(gè)類(lèi)別中。

P(C|d) (3)

其中:P(d)為常數(shù),可以忽略;P(C)為類(lèi)別C的先驗(yàn)概率,由類(lèi)別C的文本數(shù)與訓(xùn)練集的文本總數(shù)的比值得到。文檔d由特征向量表示后,其條件概率可表述如下:

P(d|C)P((w1,w2,…,wn)|C)∏ni1P(wi|C)(4)

決策樹(shù)[11]又稱判定樹(shù),通過(guò)構(gòu)造樹(shù),產(chǎn)生一定的規(guī)則來(lái)解決分類(lèi)問(wèn)題。樹(shù)的每個(gè)非葉子節(jié)點(diǎn)都是對(duì)訓(xùn)練文本向量中的一個(gè)非類(lèi)別屬性的測(cè)試或決策,根據(jù)屬性的取值,建立樹(shù)的分支。每個(gè)葉子節(jié)點(diǎn)表示一個(gè)類(lèi)別或類(lèi)分布。從根節(jié)點(diǎn)一直向下判定,當(dāng)?shù)竭_(dá)一個(gè)葉子節(jié)點(diǎn)時(shí),一個(gè)決策或規(guī)則便形成了。目前,決策樹(shù)典型算法有:ID3、C4.5、CART、SLIQ、SPRINT等。

1.4 對(duì)目標(biāo)分類(lèi)法的文檔進(jìn)行分類(lèi)

用訓(xùn)練好的源分類(lèi)法中類(lèi)目A的分類(lèi)器LearnerA和TitleLearnerA對(duì)目標(biāo)分類(lèi)法的語(yǔ)料信息進(jìn)行分類(lèi),通過(guò)對(duì)分類(lèi)結(jié)果的分析得出源分類(lèi)法的類(lèi)目A與目標(biāo)分類(lèi)法的哪個(gè)或哪些類(lèi)目能確定映射關(guān)系。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

IPC和CLC是兩部龐大的分類(lèi)體系,本實(shí)驗(yàn)選取分類(lèi)法中和汽車(chē)相關(guān)的類(lèi)目。與CLC類(lèi)目相關(guān)的數(shù)據(jù)由中國(guó)科學(xué)技術(shù)信息研究所提供的中文期刊語(yǔ)料庫(kù)選??;和IPC類(lèi)目相關(guān)的數(shù)據(jù)是從知識(shí)產(chǎn)權(quán)專利局網(wǎng)站上獲取的有關(guān)車(chē)輛的專利

信息。

本實(shí)驗(yàn)以CLC分類(lèi)法中的類(lèi)目U461.91(汽車(chē)的安全性)[12]所標(biāo)識(shí)的所有文本(共40篇)和從CLC語(yǔ)料隨機(jī)選擇的100篇其他類(lèi)目的文本作為分類(lèi)的訓(xùn)練集。由于對(duì)分類(lèi)結(jié)果進(jìn)行的分析是基于統(tǒng)計(jì)的,所以選取了IPC語(yǔ)料庫(kù)中標(biāo)識(shí)文本數(shù)量大于50的類(lèi)目作為待映射的類(lèi)目(共118個(gè)類(lèi)目),將這些類(lèi)目所標(biāo)識(shí)的文本作為分類(lèi)的測(cè)試集。

2.2 結(jié)果分析

本實(shí)驗(yàn)采用開(kāi)源的機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘軟件WEKA[13]完成分類(lèi)器的訓(xùn)練及分類(lèi)測(cè)試集的工作。首先將U461.91類(lèi)目標(biāo)識(shí)的文檔內(nèi)容和文檔標(biāo)題分別用樸素貝葉斯、決策樹(shù)(C4.5算法)分類(lèi)方法進(jìn)行訓(xùn)練,并進(jìn)行十交叉檢驗(yàn),得到分類(lèi)器的正確率、召回率、F值如表1所示。

表1 采用不同分類(lèi)方法得到的分類(lèi)器的對(duì)比

通過(guò)表1的實(shí)驗(yàn)結(jié)果可以看出,對(duì)文檔內(nèi)容進(jìn)行分類(lèi)時(shí),使用樸素貝葉斯分類(lèi)方法可以取得更好的效果,而對(duì)文檔標(biāo)題分類(lèi)時(shí),決策樹(shù)是更好的選擇。另外,對(duì)其他類(lèi)目的分類(lèi)實(shí)驗(yàn)也可以得到相同的結(jié)論,如在對(duì)U463進(jìn)行分類(lèi)的實(shí)驗(yàn)中,對(duì)文檔內(nèi)容用樸素貝葉斯分類(lèi)的正確率是0.776,用決策樹(shù)分類(lèi)時(shí)為0.757,而對(duì)文檔標(biāo)題用樸素貝葉斯分類(lèi)時(shí)正確率為0.712,用決策樹(shù)時(shí)為0.741。因此,在本實(shí)驗(yàn)中選用樸素貝葉斯分類(lèi)方法來(lái)訓(xùn)練得到文檔內(nèi)容的分類(lèi)器,標(biāo)題分類(lèi)器的訓(xùn)練采用決策樹(shù)方法。

然后用訓(xùn)練好的U461.91類(lèi)目分類(lèi)器對(duì)IPC文檔分別按內(nèi)容和標(biāo)題分類(lèi)以后,可以得到IPC各個(gè)類(lèi)目中分類(lèi)到U461.91中的文檔的比例。綜合兩個(gè)分類(lèi)器的分類(lèi)準(zhǔn)確率和分類(lèi)到該類(lèi)目文檔的比例得到U461.91與IPC各類(lèi)目間的映射關(guān)系。

mapping(A,Ι)correct(learnerA)×doc(Ι,learnerA,A)+

correct(TitleLearnerA)×doc(Ι,TitleLearnerA,A)(5)

其中,mapping(A,Ι)是兩個(gè)類(lèi)目A與Ι可以映射的判斷依據(jù);correct(learner)指分類(lèi)器learner的準(zhǔn)確率,是對(duì)該分類(lèi)器的信任程度;doc(Ι,learner,A)指Ι類(lèi)目標(biāo)識(shí)的文檔通過(guò)分類(lèi)器learner分類(lèi)到類(lèi)目A的比例。

最后選擇mapping值最大的n個(gè)目標(biāo)分類(lèi)法的類(lèi)目作為與源分類(lèi)法類(lèi)目進(jìn)行映射的候選類(lèi)目,由專家進(jìn)行審核得到最終結(jié)果。本實(shí)驗(yàn)中,U461.91的候選映射類(lèi)目(n6)如表2所示。

表2 CLC類(lèi)目U461.91與IPC類(lèi)目映射結(jié)果

用基于交叉瀏覽的類(lèi)目映射方法得到的結(jié)果[4]如表3所示。

由表2、3可以看出,基于機(jī)器學(xué)習(xí)的類(lèi)目映射方法找到了與汽車(chē)安全相關(guān)的IPC類(lèi)目信息,當(dāng)然,這些類(lèi)目很大程度上依賴于實(shí)驗(yàn)中選取的IPC 類(lèi)目文檔的語(yǔ)料信息。例如,從表3可以看到一些與安全帶相關(guān)的類(lèi)目信息,由于這些類(lèi)目所標(biāo)識(shí)的文本數(shù)量小于設(shè)定值,所以并不在本實(shí)驗(yàn)的測(cè)試集之中,因此,實(shí)驗(yàn)結(jié)果并沒(méi)有與之相關(guān)的類(lèi)目。

表3 基于交叉瀏覽的CLC類(lèi)目U461.91與IPC類(lèi)目映射結(jié)果

3 結(jié)語(yǔ)

本文根據(jù)訓(xùn)練集文檔的標(biāo)題和內(nèi)容的特點(diǎn),將它們分開(kāi)進(jìn)行訓(xùn)練,并根據(jù)對(duì)比實(shí)驗(yàn)結(jié)果分別采用決策樹(shù)和樸素貝葉斯分類(lèi)模型得到各自的分類(lèi)器。然后利用這兩種分類(lèi)器對(duì)測(cè)試集的文檔進(jìn)行分類(lèi),最后綜合兩者的分類(lèi)結(jié)果分析得到類(lèi)目間的映射關(guān)系。實(shí)驗(yàn)的結(jié)果表明此方法可以找到CLC與IPC這兩種分類(lèi)法之間相映射的類(lèi)目,具有一定的可行性。

參考文獻(xiàn):

[1] 劉華梅,侯漢清.近十年情報(bào)檢索語(yǔ)言互操作研究進(jìn)展[J].圖書(shū)館理論與實(shí)踐,2006(4):31-33.

[2] 劉華梅.基于情報(bào)檢索語(yǔ)言互操作技術(shù)的集成詞庫(kù)構(gòu)建研究[D].南京:南京農(nóng)業(yè)大學(xué),2006.

[3] 戴劍波,侯漢清. 文獻(xiàn)分類(lèi)法自動(dòng)映射系統(tǒng)的構(gòu)建――以《中國(guó)圖書(shū)館分類(lèi)法》與《杜威十進(jìn)分類(lèi)法》為例[J].情報(bào)學(xué)報(bào),2006,25(5):594-599.

[4] 周林志.國(guó)際專利分類(lèi)法與中圖分類(lèi)法類(lèi)目映射研究[D].北京:北京林業(yè)大學(xué),2010.

[5] DOAN A,DOMINGOS P,HALEVY A. Reconciling schemas of disparate data sources: A machine learning approach〖C〗// Proceedings of International Conference on Management of Data. New York: ACM, 2001:509-520.

[6] DOAN A,MADHAVAN J,DOMINGOS P. Ontology matching: A machine learning approach[EB/OL].[2010-10-06].citeseerx.ist.psu.edu/viewdoc/download?doi10.1.1.8.2185&reprep1&typepdf.

[7] 漢語(yǔ)分詞系統(tǒng)〖EB/OL〗.〖2010-09-20〗./

[8] 代六玲,黃河燕,陳肇雄.中文文本分類(lèi)征抽取方法的比較研究[J].中文信息學(xué)報(bào),2003,18(11):26-32.

[9] 蒲筱哥.自動(dòng)文本分類(lèi)方法研究述評(píng)[J]. 情報(bào)科學(xué),2008,26(3):469-475.

[10] MITCHELL T M. 機(jī)器學(xué)習(xí)[M]. 曾華軍,張銀奎,譯. 北京: 機(jī)械工業(yè)出版社,2003.

[11] 王桂芹,黃道. 決策樹(shù)算法研究及應(yīng)用[J]. 電腦應(yīng)用技術(shù),2008(1):1-7.

[12] 中國(guó)圖書(shū)館分類(lèi)法[EB/OL].[2010-10-08]./.

南昌县| 凌云县| 沁阳市| 敖汉旗| 昌邑市| 克拉玛依市| 西宁市| 常熟市| 陆丰市| 财经| 新民市| 郧西县| 乌兰县| 呼玛县| 东阿县| 桦甸市| 澄城县| 江陵县| 长治市| 青海省| 浮山县| 泰州市| 黑龙江省| 昌平区| 彭州市| 莒南县| 阳曲县| 台南县| 滨海县| 友谊县| 漳州市| 综艺| 炎陵县| 保靖县| 绵竹市| 会同县| 汾西县| 柯坪县| 当雄县| 邓州市| 康马县|