在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

詮釋數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)運(yùn)用

前言:本站為你精心整理了詮釋數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)運(yùn)用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

詮釋數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)運(yùn)用

摘要:本文闡述了數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘的有關(guān)概念,簡(jiǎn)述了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘的實(shí)施過(guò)程,介紹了如何應(yīng)用數(shù)據(jù)挖掘。并對(duì)數(shù)據(jù)倉(cāng)庫(kù)與挖掘技術(shù)結(jié)合應(yīng)用的發(fā)展做了展望。

關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘;

1數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)倉(cāng)庫(kù)的含義:“數(shù)據(jù)倉(cāng)庫(kù)是用于支持企業(yè)或組織的決策分析處理的,面向主題的、集成的、不可更新的、且隨著時(shí)間不斷變化的數(shù)據(jù)集合。”互聯(lián)網(wǎng)中的數(shù)據(jù)浩如煙海,如果用戶在其中搜尋的話,基本上是大海撈針。而數(shù)據(jù)倉(cāng)庫(kù)便解決了此類問(wèn)題,它把龐大的數(shù)據(jù)及信息從互聯(lián)網(wǎng)中收集起來(lái),并進(jìn)行適當(dāng)?shù)奶幚?、加工和分類,把這些凌亂的數(shù)據(jù)轉(zhuǎn)換成公共的數(shù)學(xué)模型,這樣便能夠解決數(shù)據(jù)與數(shù)據(jù)之間的沖突、表達(dá)不一致等問(wèn)題,同時(shí)還方便用戶查詢自己所需要的信息,這樣便使得數(shù)據(jù)和信息在決策查詢上理便捷。

2數(shù)據(jù)挖掘

互聯(lián)網(wǎng)中,實(shí)際的應(yīng)用操作數(shù)據(jù)往往都是數(shù)量很大,不完整且具有模糊性和隨機(jī)性。而數(shù)據(jù)挖掘所要做的便是提取這類數(shù)據(jù)中隱含的、不為人知的,但對(duì)人們又有潛在用途的信息和知識(shí)。并把提取的知識(shí)和信息存放于數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中,所以說(shuō),數(shù)據(jù)挖掘是運(yùn)用統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)等方法發(fā)現(xiàn)數(shù)據(jù)的模型和結(jié)構(gòu)、發(fā)現(xiàn)有價(jià)值的關(guān)系或知識(shí)的一門交叉學(xué)科。另一個(gè)角度來(lái)講,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),利用挖掘技術(shù)的算法,將源數(shù)據(jù)收集起來(lái),并進(jìn)行適當(dāng)?shù)暮Y選及過(guò)濾變成相應(yīng)信息。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫(kù)類型有:關(guān)系、面向?qū)ο?、事?wù)、演繹、時(shí)間和時(shí)間序列、多媒體、空間、遺產(chǎn)、文本、Web型以及新興的數(shù)據(jù)倉(cāng)庫(kù)等。對(duì)于數(shù)據(jù)庫(kù)的描述,通常是指面向?qū)ο蟮臄?shù)據(jù)庫(kù)在面向?qū)ο蟮某绦驗(yàn)橐?guī)范的程序設(shè)計(jì)標(biāo)準(zhǔn)。其描述對(duì)象可以是一定時(shí)期的人口、流量等數(shù)據(jù)。而關(guān)于一個(gè)對(duì)象的代碼在一個(gè)單元中的封裝,對(duì)象可以與其他對(duì)象或數(shù)據(jù)庫(kù)系統(tǒng)通信??臻g數(shù)據(jù)庫(kù)涉及空間的信息,如地理、醫(yī)療和衛(wèi)星圖像數(shù)據(jù)庫(kù)等,通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn),描述各個(gè)地區(qū)的人口或者可以根據(jù)現(xiàn)有的關(guān)于某小區(qū)距離中心主要道路的距離的描述來(lái)表達(dá)這個(gè)小區(qū)低價(jià)的變化程度。通過(guò)縱軸和橫軸的序列數(shù)據(jù)庫(kù)我們可以看出,數(shù)據(jù)挖掘可以根據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)的變化隨時(shí)隨地的進(jìn)行調(diào)整,從而發(fā)現(xiàn)數(shù)據(jù)的變化特點(diǎn)和變化趨勢(shì),通過(guò)對(duì)這種變化的趨勢(shì)和特點(diǎn)的變化,幫助人們處理計(jì)劃,制定發(fā)展策略等。在文本數(shù)據(jù)庫(kù)中大部分是高度化的長(zhǎng)句和短文,數(shù)據(jù)挖掘的作用是發(fā)現(xiàn)、描述對(duì)象和類的特征,進(jìn)行關(guān)鍵詞和內(nèi)容關(guān)聯(lián)性分析以及文本對(duì)整理象的聚類。多媒體數(shù)據(jù)庫(kù)存儲(chǔ)的是圖像、音頻、視頻數(shù)據(jù),在其上進(jìn)行數(shù)據(jù)挖掘,這是存儲(chǔ)和搜索技術(shù)相結(jié)合的新興技術(shù),這種技術(shù)中,進(jìn)行多媒體數(shù)據(jù)的特征的提取和基于相似性的模式匹配等。

數(shù)據(jù)庫(kù)的建設(shè)是以程序設(shè)計(jì)為標(biāo)準(zhǔn)的。無(wú)論何種先進(jìn)的技術(shù)都有它的局限性,數(shù)據(jù)挖掘也亦如此,它只能對(duì)信息進(jìn)行初期處理,也就是說(shuō),如果收集的數(shù)據(jù)中出現(xiàn)丟失或沖突的現(xiàn)象,用數(shù)據(jù)挖掘的算法是不可行的。

3數(shù)據(jù)挖掘技術(shù)

3.1數(shù)據(jù)挖掘分析方法數(shù)據(jù)挖掘的分析方法可分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。直接數(shù)據(jù)挖掘指:L在指定的數(shù)據(jù)中,按照某一法則,提取其中可用數(shù)據(jù),建立一個(gè)數(shù)學(xué)模型,并用此模型對(duì)余下的數(shù)據(jù),或是對(duì)有的數(shù)據(jù)進(jìn)行描述。直接數(shù)據(jù)挖掘有:分類、估值、預(yù)言。間接數(shù)據(jù)挖掘指:目標(biāo)中的數(shù)據(jù)都是沒(méi)有規(guī)則的,因而不能確定某一具體的變量,所以不能用模型來(lái)對(duì)其進(jìn)行系統(tǒng)上的描述,只能通過(guò)數(shù)據(jù)之間聯(lián)系,將彼此組合起來(lái)。間接數(shù)據(jù)挖掘有:相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化。下面本文將對(duì)分類和預(yù)測(cè)、關(guān)聯(lián)分析和聚類分析三種數(shù)據(jù)挖掘方法介紹。

3.1.1分類和預(yù)測(cè)數(shù)據(jù)分析一般分為分類和預(yù)測(cè)兩種形式,如果想要知道某種數(shù)據(jù)未來(lái)的走向,或是提取某種模型中重要的數(shù)據(jù),可以利用數(shù)據(jù)分析形式的屬性對(duì)其進(jìn)行描述,然后得到自己想要的模型,并把數(shù)據(jù)合理的分類,以便使用原有數(shù)據(jù)對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。數(shù)據(jù)分析的兩種形式,在信譽(yù)證實(shí)、醫(yī)療診斷、性能預(yù)測(cè)和選擇購(gòu)物等方面的用途也十分廣泛。如在金融證券領(lǐng)域,想要在銀行貸款,必須要分析貸款是否有足夠安全性,風(fēng)險(xiǎn)性是否很高,如此便要建立一個(gè)分類模型,對(duì)其進(jìn)行預(yù)測(cè),例如想要成功銷售一批計(jì)算機(jī)設(shè)備,我們必須要預(yù)測(cè)、分析哪類人可能是潛在的用戶。

3.1.2關(guān)聯(lián)分析關(guān)聯(lián)分析在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)以及其他信息載體中應(yīng)用較為廣泛,可以查找有關(guān)于某一個(gè)項(xiàng)目集合或者對(duì)象集合之間存在的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。當(dāng)然這種關(guān)聯(lián)分析也可以用最小置信度和支持度找出所選范圍內(nèi)所有感興趣的規(guī)則。其中最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法常用的是Apriori算法。關(guān)聯(lián)分析大多應(yīng)用在消費(fèi)者一次購(gòu)物時(shí)同時(shí)購(gòu)買锪商品購(gòu)物分析、某些商品和另外一些物品次序推銷或促銷以及大型工廠、制造廠里生產(chǎn)的產(chǎn)品目錄設(shè)計(jì)等。如某所大學(xué),所有學(xué)生記錄中,有2%的人專業(yè)是會(huì)計(jì)且選修了數(shù)據(jù)庫(kù)且成績(jī)?yōu)锳;在專業(yè)是計(jì)算機(jī)科學(xué)CS且選修了數(shù)據(jù)庫(kù)DB的學(xué)生中有75%的人成績(jī)?yōu)锳。

3.1.3聚類分析聚類分析的方式就按照某種程度的度量方式來(lái)進(jìn)行度量方法,這種方法中將用戶的數(shù)據(jù)根據(jù)需要分解成相應(yīng)有意義子集合。通過(guò)能否用于大數(shù)據(jù)量和不同的數(shù)據(jù)類型,能夠發(fā)現(xiàn)不同開(kāi)關(guān)和類型的聚集;對(duì)領(lǐng)域知識(shí)的要求晝少;對(duì)噪聲或數(shù)據(jù)不同的順序不敏感,來(lái)判斷優(yōu)劣,根據(jù)模型可解釋。如:①一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。

3.2數(shù)據(jù)挖掘的一般步驟

3.2.1數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘初期,我們的目的是要完成初始數(shù)據(jù)的項(xiàng)目。而建模人員的工作要?jiǎng)?wù)就是在這些收集的現(xiàn)有數(shù)據(jù)中,提取與客戶提供的主題相關(guān)的數(shù)據(jù)項(xiàng),然后初步分析數(shù)據(jù),首選用已有的程序去提取收集好的數(shù)據(jù),然后進(jìn)一步收集好的數(shù)據(jù)。然后進(jìn)一步衍生變量,重復(fù)進(jìn)行若干次(直到我們所要的數(shù)據(jù)變量都變成合格。)最后把這些數(shù)據(jù)整理,分類成一個(gè)文件,存于數(shù)據(jù)集市中。

3.2.2取樣工作人員在上步的數(shù)據(jù)集中隨機(jī)抽取樣本。

3.2.3建立模型取樣后,建模人員要對(duì)所取的樣本進(jìn)行逐個(gè)分析,并將數(shù)據(jù)分為兩類:訓(xùn)練數(shù)據(jù)集體和驗(yàn)證數(shù)據(jù)集體,然后選用最佳方案來(lái)建立模型或規(guī)則集。一般來(lái)說(shuō),有多種方法來(lái)出庫(kù)數(shù)據(jù)挖掘的問(wèn)題的類型,而這些方法通常也是與數(shù)據(jù)在形式上一一壓的。因此,在建立模型的工程中,經(jīng)常需要返回到初級(jí)準(zhǔn)備階段。

3.2.4驗(yàn)證模型模型確立后,建設(shè)人員還應(yīng)該根據(jù)驗(yàn)證前后模型的準(zhǔn)確性。

3.2.5模型評(píng)估模型評(píng)估的標(biāo)準(zhǔn)是根據(jù)上面三個(gè)步驟的模型來(lái)作為評(píng)分的。挖掘主機(jī)評(píng)分的主程序中的數(shù)據(jù)都是由已建立的模型通過(guò)循環(huán)的方式獲得的。

3.2.6執(zhí)行如若要運(yùn)用模型對(duì)新的數(shù)據(jù)進(jìn)行處理,可以保留或改善模型。數(shù)據(jù)挖掘的步驟并不是一個(gè)流水線,所以它不可能一次性做完所有任務(wù)。過(guò)程中有許多乃至全部的步驟需要循環(huán)進(jìn)行,所以每一個(gè)階段不是一成不變的。

3.3數(shù)據(jù)挖掘工具的新的技術(shù)和應(yīng)用熱點(diǎn)介紹文本挖掘、網(wǎng)絡(luò)挖掘兩種。

3.3.1文本挖掘文本挖掘,顧名思義,就是從非結(jié)構(gòu)化的文本中發(fā)現(xiàn)潛在的概念以及概念間的相互關(guān)系。在這項(xiàng)技術(shù)中,是分詞技術(shù)中的關(guān)鍵部分,詞典的運(yùn)行。只有讓計(jì)算機(jī)依據(jù)詞典完成正確之后,才可以實(shí)現(xiàn)將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,然后就可以進(jìn)一步研究文本之間的關(guān)系。目前,像IBM、微軟等主流挖掘工具以及google和SNS網(wǎng)站都已經(jīng)在使用廣西挖掘技術(shù)。但遺憾的是,目前這些工具大多只支持英文,還不支持中文挖掘。

3.3.2網(wǎng)絡(luò)挖掘網(wǎng)絡(luò)挖掘從主體上來(lái)看,可分為三種挖掘:文本挖掘、結(jié)構(gòu)挖掘以及點(diǎn)擊挖掘。

4數(shù)據(jù)挖掘(DM)實(shí)際應(yīng)用

DM工具和軟件已經(jīng)在各個(gè)領(lǐng)域中得到廣泛的應(yīng)用,收到的效益顯著。

4.1金融方面為了讓市場(chǎng)經(jīng)理以及業(yè)務(wù)員能夠更好的融入到公司活動(dòng)和設(shè)計(jì)新的市場(chǎng)活動(dòng)中,可以整理用DM對(duì)不同的業(yè)務(wù),不同的信息走向,以及一些決策進(jìn)行合理的劃分。

4.2客戶關(guān)系管理方面DM不僅可以協(xié)助了解客戶的行為,還可以找出產(chǎn)品的使用模式,從而一定程度上改變通道管理的程序,就好比只有理解顧客的作息周期性規(guī)律,才能更好的進(jìn)行銷售。

4.3在過(guò)程控制/質(zhì)量監(jiān)督保證方面大量變量之間的相互作用是通過(guò)DM來(lái)協(xié)調(diào)的,某些異常數(shù)據(jù),DM會(huì)自動(dòng)識(shí)別,并進(jìn)行相應(yīng)的處理措施,從而讓技術(shù)人員能夠發(fā)現(xiàn)問(wèn)題所在的范圍,并及時(shí)處理。

4.4遠(yuǎn)程通訊部門基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,根據(jù)市場(chǎng)要求進(jìn)行模式化的該百年來(lái)知道市場(chǎng)行為。在網(wǎng)絡(luò)容量利用方面,DM客戶在服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對(duì)網(wǎng)絡(luò)設(shè)施作出最佳投資決策。

4.5使用DM進(jìn)行軍號(hào)事信息系統(tǒng)中的目標(biāo)特征提取、態(tài)勢(shì)關(guān)聯(lián)規(guī)則挖掘等。

5總結(jié)

發(fā)展數(shù)據(jù)倉(cāng)庫(kù)可以促進(jìn)數(shù)據(jù)挖掘越來(lái)越成熟,但是數(shù)據(jù)挖掘并不一定要有數(shù)據(jù)倉(cāng)庫(kù)的支持。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)并不是數(shù)據(jù)挖掘的必要條件,有很多數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息,而且數(shù)據(jù)挖掘仍然經(jīng)常被看做是數(shù)據(jù)的后期市場(chǎng)產(chǎn)品。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的數(shù)據(jù)挖掘的構(gòu)造具有很強(qiáng)的實(shí)用性,效率很高,節(jié)省資源。

河间市| 酒泉市| 东海县| 钟祥市| 望谟县| 凤庆县| 宕昌县| 固始县| 辽宁省| 米易县| 湾仔区| 翁源县| 焉耆| 裕民县| 龙川县| 元朗区| 囊谦县| 集贤县| 女性| 盱眙县| 吉林省| 温宿县| 宜兰县| 房山区| 彰化市| 都昌县| 淮滨县| 靖州| 三亚市| 安多县| 元江| 永城市| 吕梁市| 沅江市| 连南| 阳山县| 百色市| 文成县| 儋州市| 绵阳市| 罗江县|