在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 數(shù)據(jù)分析方向

數(shù)據(jù)分析方向

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)分析方向范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

數(shù)據(jù)分析方向范文第1篇

關(guān)鍵詞: 數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;相關(guān)分析

中圖分類號(hào):TP 311.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1672-8513(2011)03-0182-03

The Application of Correlation Analysis Algorithms in the Data Invites Chien

ZHANG Hanyun,DUAN Peng

(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

Key words: data mining;data warehouse; correlation analysis

相關(guān)分析法是在分析某個(gè)問題或指標(biāo)時(shí),將與該問題或指標(biāo)相關(guān)的其他問題或指標(biāo)進(jìn)行對(duì)比,分析其相互關(guān)系或相關(guān)程度的一種分析方法,用少數(shù)幾對(duì)綜合變量來反映2組變量間的線性相關(guān)性質(zhì).目前它已經(jīng)在眾多領(lǐng)域的相關(guān)分析和預(yù)測分析中得到廣泛應(yīng)用.本文主要研究如何利用相關(guān)分析技術(shù)產(chǎn)生計(jì)算機(jī)專業(yè)課之間的相關(guān)系數(shù),發(fā)現(xiàn)專業(yè)課程之間的相關(guān)度,對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行約簡[1].

1 相關(guān)分析

1.1 相關(guān)分析概述[2]

相關(guān)分析(Correlation Analysis)是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法.相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個(gè)人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這就是相關(guān)關(guān)系.例如,教育投資與教育發(fā)展速度的關(guān)系、教師教學(xué)水平和學(xué)生的學(xué)習(xí)效果之間的關(guān)系等[3].

相關(guān)系數(shù)值為-1(完全負(fù)相關(guān)關(guān)系)~+1(完全正相關(guān)關(guān)系)之間,相關(guān)系數(shù)為0時(shí),表示不存在相關(guān)關(guān)系.例:

正相關(guān):學(xué)生的學(xué)習(xí)能力與學(xué)習(xí)成績的關(guān)系;

負(fù)相關(guān):教師的身體狀況與缺勤率的關(guān)系;

零相關(guān):教師的身高與教學(xué)能力的關(guān)系.

Pearson相關(guān)用于雙變量正態(tài)分布的資料,其相關(guān)系數(shù)稱為積矩相關(guān)系數(shù)(Coefficient of Product-Moment Correlation).進(jìn)行相關(guān)分析時(shí),我們一般會(huì)同時(shí)對(duì)2變量繪制散點(diǎn)圖,以更直觀地考察2變量之間的相互變化關(guān)系[4].

用Flag Significant Correlations 進(jìn)行顯著性檢驗(yàn),標(biāo)出有顯著性意義的相關(guān)系數(shù),用一個(gè)星號(hào)“*”標(biāo)記在α=0.05水平上有顯著性意義的相關(guān)系數(shù);用2個(gè)星號(hào)“**”標(biāo)記在α=0.01水平上有顯著性意義的相關(guān)系數(shù)[5].

1.2 相關(guān)分析的表示方法

進(jìn)行相關(guān)分析的主要方法有圖示法和計(jì)算法.圖示法是通過繪制相關(guān)散點(diǎn)圖來進(jìn)行相關(guān)分析,計(jì)算法則是根據(jù)不同類型的數(shù)據(jù),選擇不同的計(jì)算方法求出相關(guān)系數(shù)來進(jìn)行相關(guān)分析.

1.2.1 圖示法

圖示法的具體做法就是繪制相關(guān)散點(diǎn)圖.相關(guān)散點(diǎn)圖是觀察2個(gè)變量之間關(guān)系的一種非常直觀的方法.具體繪制的方法是:以橫軸表示2個(gè)變量中的1個(gè)變量(作為自變量),以縱軸表示另一個(gè)變量(作為因變量).將2個(gè)變量之間相對(duì)應(yīng)的變量值以坐標(biāo)點(diǎn)的形式逐一標(biāo)在直角坐標(biāo)系中,通過點(diǎn)的分布形狀和疏密程度來形象描述2個(gè)變量之間的相關(guān)關(guān)系.

相關(guān)散點(diǎn)圖可以通過手工繪制而得到.但如果面對(duì)的變量值比較多,手工繪制的過程既費(fèi)時(shí),又不夠精確.

1.2.2 計(jì)算法

相關(guān)系數(shù)也稱為相關(guān)量,是用來描述變量之間變化方向和密切程度的數(shù)字特征量,一般用r表示.它的數(shù)值范圍在-1到+1之間,它的正負(fù)號(hào)反映變量之間變化的方向;它的絕對(duì)值的大小反映變量之間關(guān)系的密切程度.

根據(jù)2個(gè)變量變化的密切程度,我們把相關(guān)關(guān)系分為完全相關(guān)、高度相關(guān)、中度相關(guān)、低度相關(guān)、零相關(guān)[6].

完全相關(guān):│r│=1的相關(guān);

高度相關(guān)或強(qiáng)相關(guān):0.7≤│r│<1的相關(guān);

中度相關(guān):0.4≤│r│<0.7的相關(guān);

低度相關(guān)或弱相關(guān):│r│<0.4的相關(guān).

1.3 Pearson相關(guān)

Pearson相關(guān)也稱積差相關(guān),積差相關(guān)也稱積矩相關(guān),是英國統(tǒng)計(jì)學(xué)家Rearson提出的一種計(jì)算直線相關(guān)的方法,因而又稱為Rearson相關(guān)[6-7].

積差相關(guān)系數(shù)是2列成對(duì)觀測值中各對(duì)觀測值的標(biāo)準(zhǔn)分?jǐn)?shù)乘積之和除以觀測值對(duì)數(shù)所得之商[8].

1.3.1 Pearson相關(guān)的使用條件

1) 2個(gè)變量之間是線性關(guān)系,都是連續(xù)數(shù)據(jù);

2) 2個(gè)變量的總體是正態(tài)分布,或接近正態(tài)的單峰分布;

3) 2個(gè)變量的觀測值是成對(duì)的,每對(duì)觀測值之間相互獨(dú)立.

1.3.2 Pearson相關(guān)的計(jì)算公式

r=∑ZXZYn=∑X-Y-nσXσY.

式中,[ZK(]n表示數(shù)據(jù)的對(duì)數(shù);σX,σY分別表示X和Y變量的樣本標(biāo)準(zhǔn)差;[JP],分別表示X和Y變量的樣本平均數(shù).[ZK)]

對(duì)于學(xué)生成績,其課程總體分布接近正態(tài)分布,滿足Pearson相關(guān)的使用條件.在統(tǒng)計(jì)軟件SPSS中,可以很方便地得出2變量之間的Pearson相關(guān)系數(shù).[JP]

2 用相關(guān)分析法進(jìn)行數(shù)據(jù)約簡

2.1 學(xué)生成績數(shù)據(jù)倉庫的建立

數(shù)據(jù)選擇上,主要選擇了作者所在學(xué)校計(jì)算機(jī)專業(yè)3年來產(chǎn)生的專業(yè)基礎(chǔ)課成績,收集并整理了包含高等數(shù)學(xué)、C語言、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫系統(tǒng)原理的504條學(xué)生成績數(shù)據(jù).并將具體的成績數(shù)據(jù)離散化為4個(gè)等級(jí)[9],即:

成績>=80“A”; 70=

2.2 用相關(guān)分析法進(jìn)行數(shù)據(jù)約簡

對(duì)大規(guī)模數(shù)據(jù)庫內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時(shí)間,這就常常使得這樣分析變得不現(xiàn)實(shí)和不可行,尤其是需要交互式數(shù)據(jù)挖掘時(shí).數(shù)據(jù)約簡技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同[10].

數(shù)據(jù)約簡并不是一個(gè)新的領(lǐng)域,現(xiàn)在已經(jīng)提出了很多理論和方法,如:層次分析法,主成分分析法,隨機(jī)抽樣、免疫算法等.本研究根據(jù)實(shí)際需要,提出將相關(guān)分析方法應(yīng)用于學(xué)生成績的屬性約簡,即方便快捷又不失理論性.

在SPSS軟件中,畫出計(jì)算機(jī)專業(yè)課高等數(shù)學(xué)成績的直方圖,如圖1.

用同樣的方法,可以畫出其他計(jì)算機(jī)專業(yè)課如C語言、數(shù)據(jù)結(jié)構(gòu)等的直方圖,可以看出,我們所建立的數(shù)據(jù)倉庫中,學(xué)生計(jì)算機(jī)專業(yè)課程成績基本上符合正態(tài)分布,滿足Pearson相關(guān)的使用條件.

我們用雙變量相關(guān)分析技術(shù)來分析相關(guān)課程之間的關(guān)聯(lián)程度,并做出統(tǒng)計(jì)學(xué)推斷,以最少的數(shù)據(jù)量反映最大的信息量,進(jìn)而對(duì)數(shù)據(jù)庫的屬性進(jìn)行約簡.通過相關(guān)分析約簡相關(guān)性較弱的屬性,選擇相關(guān)性強(qiáng)的屬性而不直接利用數(shù)據(jù)庫中的所有屬性,從而減少大量冗余屬性,以提高算法的效率.

在SPSS中進(jìn)行課程間Pearson相關(guān)系數(shù)分析,得到計(jì)算機(jī)專業(yè)課程相關(guān)系數(shù)分析表如表1.

1:表中數(shù)值為4門課程進(jìn)行相關(guān)分析得到的皮爾遜相關(guān)系數(shù)(Pearson Correlation)、相伴概率(Sig.(2-tailed))、樣本個(gè)數(shù)(N).“*”標(biāo)記在α=0.05水平上有顯著性意義的相關(guān)系數(shù);用兩個(gè)星號(hào)“**”標(biāo)記在α=0.01水平上有顯著性意義的相關(guān)系數(shù);

2:相伴概率用來判斷求解線性關(guān)系的兩變量之間是否有明顯的線性關(guān)系.一般將這個(gè)Sig值與0.05相比較,如果它大于0.05,說明平均值在大于5%的幾率上是相等的,而在小于95%的幾率上不相等;如果它小于0.05,說明平均值在小于5%的幾率上是相等的,而在大于95%的幾率上不相等;如C語言與數(shù)據(jù)結(jié)構(gòu)的Sig是0,此數(shù)值說明C語言與數(shù)據(jù)結(jié)構(gòu)有顯著的線性關(guān)系(因?yàn)镾ig0.05,則說明兩變量之間沒有明顯的線性關(guān)系).

由表1可以看出,同一門課程之間的Pearson相關(guān)系數(shù)為1,是完全相關(guān)關(guān)系.高等數(shù)學(xué)與C語言之間的Pearson相關(guān)系數(shù)為0.283,C語言與數(shù)據(jù)結(jié)構(gòu)之間的Pearson相關(guān)系數(shù)為0.281,數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)庫系統(tǒng)原理之間的Pearson相關(guān)系數(shù)為0.565,并且都有“*”標(biāo)記,由此可以推斷這4組課程之間有顯著性意義的相關(guān)性.

3 結(jié)語

用相關(guān)分析技術(shù)對(duì)數(shù)據(jù)庫進(jìn)行約簡,結(jié)果表明:線性代數(shù)、計(jì)算機(jī)導(dǎo)論及Pascal語言等多個(gè)因素相關(guān)性較弱;而C語言、數(shù)據(jù)結(jié)構(gòu)、高等數(shù)學(xué)及數(shù)據(jù)庫系統(tǒng)原理之間相關(guān)性較強(qiáng),根據(jù)數(shù)據(jù)庫約簡原則,可將線性代數(shù)、計(jì)算機(jī)導(dǎo)論及Pascal語言等多個(gè)屬性項(xiàng)從數(shù)據(jù)庫中刪除,以便提高數(shù)據(jù)挖掘效率.

參考文獻(xiàn):

[1]段西凌,甘開鵬.數(shù)據(jù)挖掘在人口普查信息系統(tǒng)中的應(yīng)用[J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2006,15(2):170-172.

[2]茆詩松.統(tǒng)計(jì)手冊(cè)[M].北京:科學(xué)出版社,2003.

[3]TANG Zhaohui,MACLENNAN J.數(shù)據(jù)挖掘原理與應(yīng)用[M]. 鄺祝芳,焦賢龍,高升,譯.北京:清華大學(xué)出版社,2007.

[4]王艷.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的探討[J].成都信息工程學(xué)院學(xué)報(bào),2004,19(2):173.

[5]張儒良,王翰虎.論數(shù)據(jù)挖掘優(yōu)化教學(xué)管理[J].貴州民族學(xué)院學(xué)報(bào),2004:133.

[6]趙輝.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績中分析中的應(yīng)用[D].大連:大連海事大學(xué),2007.

[7]王月敏.基于遺傳算法的智能組卷系統(tǒng)研究[J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2009,18(2):173-176.

[8]劉利鋒,吳孟達(dá). 關(guān)聯(lián)規(guī)則的快速提取算法 [J].計(jì)算機(jī)工程.2008,34(5):63-65.

[9]李萍,段富.數(shù)據(jù)挖掘中數(shù)據(jù)約簡的研究與應(yīng)用[J].微計(jì)算機(jī)應(yīng)用.2009,25(2):58-60.[ZK)]

[10][ZK(#]蔡勇,韓永國,劉自偉.數(shù)據(jù)挖掘技術(shù)在生源分析中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究.2004,32(6):48-51.

收稿日期:2010-09-06.

數(shù)據(jù)分析方向范文第2篇

Lin Mao

(Xuzhou College of Industrial Technology,Xuzhou 221140,China)

摘要:在虛擬現(xiàn)實(shí)項(xiàng)目制作中,由于種種原因,海量數(shù)據(jù)處理是一項(xiàng)艱巨而復(fù)雜的任務(wù),本文主要論述了海量數(shù)據(jù)處理困難的原因,并提出了對(duì)海量數(shù)據(jù)進(jìn)行處理的方法。

Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.

關(guān)鍵詞:虛擬現(xiàn)實(shí) 海量數(shù)據(jù)

Key words: virtual reality;massive data

中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2011)19-0158-02

0引言

虛擬現(xiàn)實(shí)項(xiàng)目制作過程中,由于虛擬現(xiàn)實(shí)包含的內(nèi)容豐富,需要載入的數(shù)據(jù)量有時(shí)會(huì)非常巨大,需要進(jìn)行處理和查詢的內(nèi)容很多,然后還要以文字和圖像的形式進(jìn)行表示出來,所以經(jīng)常會(huì)遇到海量數(shù)據(jù)處理的瓶頸,造成這種情況的原因是:

①數(shù)據(jù)量過大,數(shù)據(jù)中什么情況都可能存在。如果說有10條數(shù)據(jù),那么大不了每條去逐一檢查,人為處理,如果有上百條數(shù)據(jù),也可以考慮,如果數(shù)據(jù)上到千萬級(jí)別,甚至過億,那不是手工能解決的了,必須通過工具或者程序進(jìn)行處理,尤其海量的數(shù)據(jù)中,什么情況都可能存在,例如,數(shù)據(jù)中某處格式出了問題,尤其在程序處理時(shí),前面還能正常處理,突然到了某個(gè)地方問題出現(xiàn)了,程序終止了。

②軟硬件要求高,系統(tǒng)資源占用率高。對(duì)海量的數(shù)據(jù)進(jìn)行處理,除了好的方法,最重要的就是合理使用工具,合理分配系統(tǒng)資源。一般情況,如果處理的數(shù)據(jù)過TB級(jí),小型機(jī)是要考慮的,普通的機(jī)子如果有好的方法可以考慮,不過也必須加大CPU和內(nèi)存,就象面對(duì)著千軍萬馬,光有勇氣沒有一兵一卒是很難取勝的。

③要求很高的處理方法和技巧。這也是本文的寫作目的所在,好的處理方法是一位工程師長期工作經(jīng)驗(yàn)的積累,也是個(gè)人的經(jīng)驗(yàn)的總結(jié)。沒有通用的處理方法,但有通用的原理和規(guī)則。

在多個(gè)虛擬現(xiàn)實(shí)項(xiàng)目的基礎(chǔ)上,尤其是通過與行內(nèi)多名專家進(jìn)行項(xiàng)目經(jīng)驗(yàn)交流,以下的方法都可以對(duì)海量數(shù)據(jù)在虛擬現(xiàn)實(shí)項(xiàng)目中的處理進(jìn)行改善。

1選用優(yōu)秀的數(shù)據(jù)庫工具

現(xiàn)在的數(shù)據(jù)庫工具廠家比較多,對(duì)海量數(shù)據(jù)的處理對(duì)所使用的數(shù)據(jù)庫工具要求比較高,一般使用Oracle或者DB2,微軟公司最近的SQL Server 2005性能也不錯(cuò)。另外在BI領(lǐng)域:數(shù)據(jù)庫,數(shù)據(jù)倉庫,多維數(shù)據(jù)庫,數(shù)據(jù)挖掘等相關(guān)工具也要進(jìn)行選擇,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。筆者在實(shí)際數(shù)據(jù)分析項(xiàng)目中,對(duì)每天6000萬條的日志數(shù)據(jù)進(jìn)行處理,使用SQL Server 2000需要花費(fèi)6小時(shí),而使用SQL Server 2005則只需要花費(fèi)3小時(shí)。

2編寫優(yōu)良的程序代碼

處理數(shù)據(jù)離不開優(yōu)秀的程序代碼,尤其在進(jìn)行復(fù)雜數(shù)據(jù)處理時(shí),必須使用程序。好的程序代碼對(duì)數(shù)據(jù)的處理至關(guān)重要,這不僅僅是數(shù)據(jù)處理準(zhǔn)確度的問題,更是數(shù)據(jù)處理效率的問題。良好的程序代碼應(yīng)該包含好的算法,包含好的處理流程,包含好的效率,包含好的異常處理機(jī)制等。

3對(duì)海量數(shù)據(jù)進(jìn)行分區(qū)操作

對(duì)海量數(shù)據(jù)進(jìn)行分區(qū)操作十分必要,例如針對(duì)按年份存取的數(shù)據(jù),我們可以按年進(jìn)行分區(qū),不同的數(shù)據(jù)庫有不同的分區(qū)方式,不過處理機(jī)制大體相同。例如SQL Server的數(shù)據(jù)庫分區(qū)是將不同的數(shù)據(jù)存于不同的文件組下,而不同的文件組存于不同的磁盤分區(qū)下,這樣將數(shù)據(jù)分散開,減小磁盤I/O,減小了系統(tǒng)負(fù)荷,而且還可以將日志,索引等放于不同的分區(qū)下。

4建立廣泛的索引

對(duì)海量的數(shù)據(jù)處理,對(duì)大表建立索引是必行的,建立索引要考慮到具體情況,例如針對(duì)大表的分組、排序等字段,都要建立相應(yīng)索引,一般還可以建立復(fù)合索引,對(duì)經(jīng)常插入的表則建立索引時(shí)要小心,筆者在處理數(shù)據(jù)時(shí),曾經(jīng)在一個(gè)ETL流程中,當(dāng)插入表時(shí),首先刪除索引,然后插入完畢,建立索引,并實(shí)施聚合操作,聚合完成后,再次插入前還是刪除索引,所以索引要用到好的時(shí)機(jī),索引的填充因子和聚集、非聚集索引都要考慮。

5建立緩存機(jī)制

當(dāng)數(shù)據(jù)量增加時(shí),一般的處理工具都要考慮到緩存問題。緩存大小設(shè)置的好差也關(guān)系到數(shù)據(jù)處理的成敗,例如,筆者在處理2億條數(shù)據(jù)聚合操作時(shí),緩存設(shè)置為100000條/Buffer,這對(duì)于這個(gè)級(jí)別的數(shù)據(jù)量是可行的。

6加大虛擬內(nèi)存

如果系統(tǒng)資源有限,內(nèi)存提示不足,則可以靠增加虛擬內(nèi)存來解決。筆者在實(shí)際項(xiàng)目中曾經(jīng)遇到針對(duì)18億條的數(shù)據(jù)進(jìn)行處理,內(nèi)存為1GB,1個(gè)P4 2.4G的CPU,對(duì)這么大的數(shù)據(jù)量進(jìn)行聚合操作是有問題的,提示內(nèi)存不足,那么采用了加大虛擬內(nèi)存的方法來解決,在6塊磁盤分區(qū)上分別建立了6個(gè)4096M的磁盤分區(qū),用于虛擬內(nèi)存,這樣虛擬的內(nèi)存則增加為4096*6+1024=25600M,解決了數(shù)據(jù)處理中的內(nèi)存不足問題。

7分批處理

海量數(shù)據(jù)處理難因?yàn)閿?shù)據(jù)量大,那么解決海量數(shù)據(jù)處理難的問題其中一個(gè)技巧是減少數(shù)據(jù)量??梢詫?duì)海量數(shù)據(jù)分批處理,然后處理后的數(shù)據(jù)再進(jìn)行合并操作,這樣逐個(gè)擊破,有利于小數(shù)據(jù)量的處理,不至于面對(duì)大數(shù)據(jù)量帶來的問題,不過這種方法也要因時(shí)因勢進(jìn)行,如果不允許拆分?jǐn)?shù)據(jù),還需要另想辦法。不過一般的數(shù)據(jù)按天、按月、按年等存儲(chǔ)的,都可以采用先分后合的方法,對(duì)數(shù)據(jù)進(jìn)行分開處理。

8使用臨時(shí)表和中間表

數(shù)據(jù)量增加時(shí),處理中要考慮提前匯總。這樣做的目的是化整為零,大表變小表,分塊處理完成后,再利用一定的規(guī)則進(jìn)行合并,處理過程中的臨時(shí)表的使用和中間結(jié)果的保存都非常重要,如果對(duì)于超海量的數(shù)據(jù),大表處理不了,只能拆分為多個(gè)小表。如果處理過程中需要多步匯總操作,可按匯總步驟一步步來,不要一條語句完成,一口氣吃掉一個(gè)胖子。

9優(yōu)化查詢SQL語句

在對(duì)海量數(shù)據(jù)進(jìn)行查詢處理過程中,查詢的SQL語句的性能對(duì)查詢效率的影響是非常大的,編寫高效優(yōu)良的SQL腳本和存儲(chǔ)過程是數(shù)據(jù)庫工作人員的職責(zé),也是檢驗(yàn)數(shù)據(jù)庫工作人員水平的一個(gè)標(biāo)準(zhǔn),在對(duì)SQL語句的編寫過程中,例如減少關(guān)聯(lián),少用或不用游標(biāo),設(shè)計(jì)好高效的數(shù)據(jù)庫表結(jié)構(gòu)等都十分必要。筆者在工作中試著對(duì)1億行的數(shù)據(jù)使用游標(biāo),運(yùn)行3個(gè)小時(shí)沒有出結(jié)果,這是一定要改用程序處理了。

10使用文本格式進(jìn)行處理

對(duì)一般的數(shù)據(jù)處理可以使用數(shù)據(jù)庫,如果對(duì)復(fù)雜的數(shù)據(jù)處理,必須借助程序,那么在程序操作數(shù)據(jù)庫和程序操作文本之間選擇,是一定要選擇程序操作文本的,原因?yàn)椋撼绦虿僮魑谋舅俣瓤?;?duì)文本進(jìn)行處理不容易出錯(cuò);文本的存儲(chǔ)不受限制等。例如一般的海量的網(wǎng)絡(luò)日志都是文本格式或者csv格式(文本格式),對(duì)它進(jìn)行處理牽扯到數(shù)據(jù)清洗,是要利用程序進(jìn)行處理的,而不建議導(dǎo)入數(shù)據(jù)庫再做清洗。

11定制強(qiáng)大的清洗規(guī)則和出錯(cuò)處理機(jī)制

海量數(shù)據(jù)中存在著不一致性,極有可能出現(xiàn)某處的瑕疵。例如,同樣的數(shù)據(jù)中的時(shí)間字段,有的可能為非標(biāo)準(zhǔn)的時(shí)間,出現(xiàn)的原因可能為應(yīng)用程序的錯(cuò)誤,系統(tǒng)的錯(cuò)誤等,這是在進(jìn)行數(shù)據(jù)處理時(shí),必須制定強(qiáng)大的數(shù)據(jù)清洗規(guī)則和出錯(cuò)處理機(jī)制。

12建立視圖或者物化視圖

視圖中的數(shù)據(jù)來源于基表,對(duì)海量數(shù)據(jù)的處理,可以將數(shù)據(jù)按一定的規(guī)則分散到各個(gè)基表中,查詢或處理過程中可以基于視圖進(jìn)行,這樣分散了磁盤I/O,正如10根繩子吊著一根柱子和一根吊著一根柱子的區(qū)別。

13避免使用32位機(jī)子

目前的計(jì)算機(jī)很多都是32位的,那么編寫的程序?qū)?nèi)存的需要便受限制,而很多的海量數(shù)據(jù)處理是必須大量消耗內(nèi)存的,這便要求更好性能的機(jī)子,其中對(duì)位數(shù)的限制也十分重要。

14考慮操作系統(tǒng)問題

海量數(shù)據(jù)處理過程中,除了對(duì)數(shù)據(jù)庫,處理程序等要求比較高以外,對(duì)操作系統(tǒng)的要求也放到了重要的位置,一般是必須使用服務(wù)器的,而且對(duì)系統(tǒng)的安全性和穩(wěn)定性等要求也比較高。尤其對(duì)操作系統(tǒng)自身的緩存機(jī)制,臨時(shí)空間的處理等問題都需要綜合考慮。

15使用數(shù)據(jù)倉庫和多維數(shù)據(jù)庫存儲(chǔ)

數(shù)據(jù)量加大是一定要考慮OLAP的,傳統(tǒng)的報(bào)表可能5、6個(gè)小時(shí)出來結(jié)果,而基于Cube的查詢可能只需要幾分鐘,因此處理海量數(shù)據(jù)的利器是OLAP多維分析,即建立數(shù)據(jù)倉庫,建立多維數(shù)據(jù)集,基于多維數(shù)據(jù)集進(jìn)行報(bào)表展現(xiàn)和數(shù)據(jù)挖掘等。

16使用采樣數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘

基于海量數(shù)據(jù)的數(shù)據(jù)挖掘正在逐步興起,面對(duì)著超海量的數(shù)據(jù),一般的挖掘軟件或算法往往采用數(shù)據(jù)抽樣的方式進(jìn)行處理,這樣的誤差不會(huì)很高,大大提高了處理效率和處理的成功率。一般采樣時(shí)要注意數(shù)據(jù)的完整性和,防止過大的偏差。筆者曾經(jīng)對(duì)1億2千萬行的表數(shù)據(jù)進(jìn)行采樣,抽取出400萬行,經(jīng)測試軟件測試處理的誤差為千分之五,客戶可以接受。

還有一些方法,需要在不同的情況和場合下運(yùn)用,例如使用鍵等操作,這樣的好處是加快了聚合時(shí)間,因?yàn)閷?duì)數(shù)值型的聚合比對(duì)字符型的聚合快得多。類似的情況需要針對(duì)不同的需求進(jìn)行處理。

海量數(shù)據(jù)是發(fā)展趨勢,對(duì)數(shù)據(jù)分析和挖掘也越來越重要,從海量數(shù)據(jù)中提取有用信息重要而緊迫,這便要求處理要準(zhǔn)確,精度要高,而且處理時(shí)間要短,得到有價(jià)值信息要快,所以,對(duì)海量數(shù)據(jù)的研究很有前途,也很值得進(jìn)行廣泛深入的研究。

參考文獻(xiàn):

[1]何來坤,徐淵.虛擬現(xiàn)實(shí)建模語言VRML及其應(yīng)用[J].杭州師范學(xué)院學(xué)報(bào),2005,(2).

數(shù)據(jù)分析方向范文第3篇

【關(guān)鍵詞】民航氣象數(shù)據(jù)庫系統(tǒng);Oracle;宕機(jī);inactive;LOCAL=NO

【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.

【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO

0 引言

民航氣象數(shù)據(jù)庫系統(tǒng)利用數(shù)據(jù)庫技術(shù)和商用數(shù)據(jù)庫管理系統(tǒng),對(duì)各類氣象資料進(jìn)行有效的組織與管理,采用統(tǒng)一的數(shù)據(jù)模型和用戶界面,從而實(shí)現(xiàn)對(duì)氣象資料的有效存儲(chǔ)和快速檢索,并具有分布調(diào)用、高度共享和安全可靠等性能,為航空氣象服務(wù)、氣象業(yè)務(wù)與科研培訓(xùn)提供有力的支持。航空氣象情報(bào)及氣象資料的及時(shí)、準(zhǔn)確、標(biāo)準(zhǔn)化獲取是保障民航安全運(yùn)行的重要基礎(chǔ)。本文介B了一起由數(shù)據(jù)庫進(jìn)程數(shù)達(dá)到最大導(dǎo)致民航氣象數(shù)據(jù)庫進(jìn)程頻繁宕機(jī)故障,并給出了故障問題處理方法。

1 民航數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)簡介

民航氣象數(shù)據(jù)庫系統(tǒng)是具有飛行氣象情報(bào)及氣象資料的制作、交換、備供、存儲(chǔ)等功能的信息系統(tǒng),包括通信分系統(tǒng)、數(shù)據(jù)庫分系統(tǒng)、預(yù)報(bào)平臺(tái)及服務(wù)平臺(tái)四部分[1],如圖1所示。

1.1 通信分系統(tǒng)

通信分系統(tǒng)是民航氣象數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)系統(tǒng),它主要實(shí)現(xiàn)各類氣象資料的接收、檢查、處理,并根據(jù)一定的規(guī)則向其它系統(tǒng)及地區(qū)中心進(jìn)行資料分發(fā),同時(shí)實(shí)現(xiàn)氣象中心、地區(qū)中心與航站之間的數(shù)據(jù)交換。通信分系統(tǒng)將獲取的各種氣象數(shù)據(jù)發(fā)送給數(shù)據(jù)庫分系統(tǒng),數(shù)據(jù)庫分系統(tǒng)將這些數(shù)據(jù)進(jìn)行分類、解析和處理后存儲(chǔ)在數(shù)據(jù)庫中。

1.2 數(shù)據(jù)庫分系統(tǒng)

數(shù)據(jù)庫分系統(tǒng)采根據(jù)存儲(chǔ)數(shù)據(jù)的用途及時(shí)間劃分為實(shí)時(shí)庫、歷史庫及臨時(shí)庫,分別滿足不同的業(yè)務(wù)與服務(wù)的要求。數(shù)據(jù)庫分系統(tǒng)又分為資料處理子系統(tǒng)和數(shù)據(jù)庫管理子系統(tǒng)。

(1)資料處理子系統(tǒng)對(duì)服務(wù)器data目錄下接收到的氣象信息進(jìn)行分析分解,質(zhì)量控制后入庫;

(2)數(shù)據(jù)庫管理子系統(tǒng)采用C/S模式,對(duì)資料處理、數(shù)據(jù)庫等進(jìn)行實(shí)時(shí)監(jiān)控與管理,預(yù)報(bào)平臺(tái)與服務(wù)平臺(tái)則通過獲取Oracle數(shù)據(jù)庫中的氣象資料,以不同的形式展現(xiàn)給用戶。數(shù)據(jù)庫管理子系統(tǒng)主要側(cè)重于對(duì)數(shù)據(jù)庫中氣象資料的管理。提供的主要功能有:系統(tǒng)登錄、資料處理、數(shù)據(jù)庫管理、數(shù)據(jù)庫恢復(fù)、日志和統(tǒng)計(jì)、告警、用戶管理、進(jìn)程管理、系統(tǒng)配置、窗口、幫助等。

1.3 預(yù)報(bào)平臺(tái)

預(yù)報(bào)平臺(tái)(民航氣象信息綜合處理系統(tǒng))利用氣象實(shí)時(shí)數(shù)據(jù)庫資料,通過對(duì)數(shù)據(jù)庫中的氣象資料進(jìn)行檢索、分析、處理,制作成文本、圖形等形式的氣象產(chǎn)品,為航空氣象預(yù)報(bào)人員提供服務(wù)。

1.4 服務(wù)平臺(tái)

氣象信息服務(wù)平臺(tái)從數(shù)據(jù)庫中提取相關(guān)產(chǎn)品,以WEB形式展示向航空氣象用戶提供航空氣象產(chǎn)品及服務(wù)。

2 故障現(xiàn)象

民航氣象數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫子系統(tǒng)運(yùn)行環(huán)境:硬件環(huán)境為IBM服務(wù)器;操作系統(tǒng)為AIX5.2;數(shù)據(jù)庫系統(tǒng)為oracle 10g。

數(shù)據(jù)庫運(yùn)行一段時(shí)間后,資料處理子系統(tǒng)相關(guān)進(jìn)程自動(dòng)停止運(yùn)行,導(dǎo)致621客戶端及相關(guān)協(xié)議單位無法檢索到最新資料,且重新啟動(dòng)后再次停止運(yùn)行或直接無法重新啟動(dòng)。

3 故障分析

通過查看數(shù)據(jù)庫相應(yīng)進(jìn)程診斷文件方法檢查故障原因,數(shù)據(jù)庫診斷文件是獲取有關(guān)數(shù)據(jù)庫活動(dòng)信息的一種方法,用于解決數(shù)據(jù)庫出現(xiàn)的一些問題,主要包含有關(guān)數(shù)據(jù)庫中出現(xiàn)的重要事件的一些信息,這些文件能更好的對(duì)數(shù)據(jù)庫進(jìn)行日常的管理。

5 結(jié)束語

本文介紹了一起民航氣象數(shù)據(jù)庫常見故障,即達(dá)到進(jìn)程最大連接數(shù)后導(dǎo)致相關(guān)用戶進(jìn)程頻繁down機(jī)問題,造成用戶無法獲取最新報(bào)文和自觀數(shù)據(jù),一般較為普遍的處理方法為采用修改系統(tǒng)最大進(jìn)程連接數(shù)后重新啟動(dòng)數(shù)據(jù)庫,但是民航氣象數(shù)據(jù)庫對(duì)系統(tǒng)停機(jī)重啟要求較高,重啟數(shù)據(jù)庫將導(dǎo)致用戶無法及時(shí)獲取數(shù)據(jù),具有一定的安全風(fēng)險(xiǎn)。本文主要利用Oracle數(shù)據(jù)庫中遠(yuǎn)程連接進(jìn)程的共同特點(diǎn),都含有關(guān)鍵字“LOCAL=NO”,然后經(jīng)根據(jù)關(guān)鍵字“LOCAL=NO”篩選出inactive進(jìn)程使用“kill -9”強(qiáng)行殺掉[4],此方法可以實(shí)現(xiàn)在不重啟數(shù)據(jù)庫情況下解決ORA-0020問題。

【參考文獻(xiàn)】

[1]太極計(jì)算機(jī)股份有限公司,民航氣象衛(wèi)星傳真廣播系統(tǒng)用戶手冊(cè)[M].1-60.

[2]李月軍.數(shù)據(jù)庫原理與設(shè)計(jì)(Oracle版)[M].北京:清華大學(xué)出版社,2012.

數(shù)據(jù)分析方向范文第4篇

〔關(guān)鍵詞〕科學(xué)數(shù)據(jù);開放數(shù)據(jù)政策;數(shù)據(jù)共享;研究動(dòng)向

DOI:10.3969/j.issn.1008-0821.2016.02.031

〔中圖分類號(hào)〕G201 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2016)02-0167-04

〔Abstract〕This paper systematically studied relevant research outputs and compared respective research status on open research data policy home and abroad.In order to provide references for promoting relevant research,this paper discussed the characteristics of relevant research home and abroad,pointed out the shortages of current research in China,and finally evaluated the future research trends on open research data policy in China.

〔Key words〕research data;open data policy;research status;research trend

科學(xué)數(shù)據(jù)(Scientific Data),也稱科研數(shù)據(jù)(Research Data),與科學(xué)論文一樣也被視為重要的科研產(chǎn)出,也是一種具有潛在經(jīng)濟(jì)價(jià)值的戰(zhàn)略資源。開放科學(xué)數(shù)據(jù)對(duì)數(shù)據(jù)驅(qū)動(dòng)科學(xué)研究起到了關(guān)鍵作用,越來越多的研究是建立在對(duì)已有科學(xué)數(shù)據(jù)重用的基礎(chǔ)之上的。因此,完整保存并開放獲取先前研究的科學(xué)數(shù)據(jù),對(duì)于順利開展后續(xù)研究、推動(dòng)科學(xué)進(jìn)步具有重要意義。開放科學(xué)數(shù)據(jù)在國家科技創(chuàng)新中的戰(zhàn)略地位不斷提升,目前在開放規(guī)模和開放程度上均達(dá)到了前所未有的水平。通過開放科學(xué)數(shù)據(jù)改善社會(huì)生活受到眾多投資者、出版商、科學(xué)家和其他利益相關(guān)者的高度關(guān)注,歐洲、美國以及眾多國際組織與研究機(jī)構(gòu)都積極建立開放科學(xué)數(shù)據(jù)的政策保障與管理機(jī)制。如美國已經(jīng)形成了以“完全與開放”為基本國策的科學(xué)數(shù)據(jù)開放共享法規(guī)體系;經(jīng)濟(jì)合作與發(fā)展組織(OECD)頒布了《公共資金資助的科學(xué)數(shù)據(jù)獲取原則與指南》,以指導(dǎo)成員國制定與完善科學(xué)數(shù)據(jù)開放共享政策;歐盟“地平線2020計(jì)劃”將科學(xué)數(shù)據(jù)新增為開放存取的對(duì)象并要求逐步達(dá)到開放性可獲取,并啟動(dòng)了旨在促進(jìn)科學(xué)數(shù)據(jù)獲取和再利用的“科學(xué)數(shù)據(jù)開放先導(dǎo)性計(jì)劃”[1]。

我國早在2002年就已正式啟動(dòng)科學(xué)數(shù)據(jù)共享工程,并先后在六大領(lǐng)域共計(jì)24個(gè)部門開展了科學(xué)數(shù)據(jù)共享工作。2006年以來,中國科學(xué)院國家科學(xué)圖書館提出并開展了科學(xué)數(shù)據(jù)與科技文獻(xiàn)跨界集成服務(wù)、數(shù)據(jù)融合技術(shù)的研究和開發(fā)。目前,我國在科學(xué)數(shù)據(jù)開放政策的制定和完善方面,與美國、英國、澳大利亞、日本、韓國、臺(tái)灣等國家和地區(qū)相比仍顯滯后。本文針對(duì)國內(nèi)外科學(xué)數(shù)據(jù)開放政策的研究現(xiàn)狀進(jìn)行了比較分析,在此基礎(chǔ)上探討了國內(nèi)外相關(guān)研究的特點(diǎn)以及我國現(xiàn)有研究的不足,并對(duì)我國科學(xué)數(shù)據(jù)開放政策的未來研究動(dòng)向進(jìn)行了評(píng)判。

1 國內(nèi)研究現(xiàn)狀分析

對(duì)從CNKI和萬方數(shù)據(jù)兩大中文數(shù)據(jù)庫檢索到的相關(guān)文獻(xiàn)進(jìn)行閱讀和梳理發(fā)現(xiàn),我國針對(duì)科學(xué)數(shù)據(jù)開放政策的相關(guān)研究可以概括為以下5個(gè)方面:

1.1 建立開放科學(xué)數(shù)據(jù)政策保障機(jī)制的理論性研究

目前已有較多成果是針對(duì)建立和完善科學(xué)數(shù)據(jù)開放共享政策法規(guī)的頂層設(shè)計(jì)展開論證,如劉細(xì)文(2009)指出,美國、英國以及眾多國際組織與研究機(jī)構(gòu)都就科學(xué)數(shù)據(jù)開放獲取問題,積極建立政策保障與管理機(jī)制并廣泛推行相關(guān)服務(wù)與實(shí)踐,其政策舉措主要圍繞科學(xué)數(shù)據(jù)交流渠道各環(huán)節(jié),集中體現(xiàn)在數(shù)據(jù)開放資助、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)合法保護(hù)、數(shù)據(jù)保存以及數(shù)據(jù)共享利用五大方面[2]。王晴(2014)指出:國內(nèi)外20余個(gè)組織相繼制定或?qū)嵤┝?0余條旨在促進(jìn)科學(xué)數(shù)據(jù)開放共享的政策法規(guī),根據(jù)制定主體和效力范圍可以分為宏觀、中觀和微觀3個(gè)層面,共同形成了一個(gè)較為完備并在不斷完善的制度體系[3]。

1.2 針對(duì)國內(nèi)外各類科學(xué)數(shù)據(jù)開放共享政策的調(diào)查研究 目前已有部分成果針對(duì)多種政策主體(如高等院校、科研資助機(jī)構(gòu)、信息服務(wù)機(jī)構(gòu)等)的有關(guān)開放科學(xué)數(shù)據(jù)的聲明、指南以及政策法規(guī)等各類政策文本展開了調(diào)查分析,如司莉等(2013)考察了美國、英國、澳大利亞3個(gè)國家的科研管理機(jī)構(gòu)、高校制定的數(shù)據(jù)管理政策以及政府制定的數(shù)據(jù)公開政策,并指出:發(fā)達(dá)國家的政府部門都制定了科學(xué)數(shù)據(jù)開放共享政策,對(duì)科學(xué)數(shù)據(jù)的保存與管理等均作了明確具體的規(guī)定。我國政府也應(yīng)制定完善的科學(xué)數(shù)據(jù)開放共享政策,從政策層面對(duì)科學(xué)數(shù)據(jù)的開放共享進(jìn)行指導(dǎo)和規(guī)范[4]。司莉等(2014)針對(duì)英美10所高校的科學(xué)數(shù)據(jù)開放共享政策,從一般政策、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)訪問與保存、數(shù)據(jù)共享、數(shù)據(jù)安全與保護(hù)以及數(shù)據(jù)產(chǎn)權(quán)6個(gè)方面進(jìn)行了調(diào)查與比較,揭示了英美兩國大學(xué)科學(xué)數(shù)據(jù)開放共享政策的特點(diǎn)與差異,指出通過借鑒國外大學(xué)科學(xué)數(shù)據(jù)開放共享政策的良好實(shí)踐,推動(dòng)我國大學(xué)相關(guān)政策法規(guī)的制定和[5]。唐源等(2015)針對(duì)國外典型醫(yī)學(xué)相關(guān)機(jī)構(gòu)的科學(xué)數(shù)據(jù)開放共享政策從科學(xué)數(shù)據(jù)開放資助、科學(xué)數(shù)據(jù)匯交、科學(xué)數(shù)據(jù)保存、數(shù)據(jù)共享利用4個(gè)方面的政策內(nèi)容進(jìn)行文獻(xiàn)調(diào)研和網(wǎng)站調(diào)研,指出國外政策制定者從政府到機(jī)構(gòu)自身以及期刊等具有多重身份,政策內(nèi)容集中于數(shù)據(jù)匯交和共享計(jì)劃。

1.3 科學(xué)數(shù)據(jù)開放政策利益主體的開放共享行為研究 由于開放科學(xué)數(shù)據(jù)的利益主體一般要受到相關(guān)政策法規(guī)的制約,因此也可視為科學(xué)數(shù)據(jù)開放政策的利益主體。國內(nèi)的相關(guān)研究成果主要包括:①單一利益主體的開放共享行為的共享意愿及影響因素分析,如張晉朝(2013)通過問卷調(diào)查方法和結(jié)構(gòu)方程模型,分析了我國高??蒲腥藛T科學(xué)數(shù)據(jù)共享意愿的影響因素,指出科學(xué)數(shù)據(jù)開放共享工作的順利開展不僅要關(guān)注技術(shù)維度,還要關(guān)注社會(huì)環(huán)境因素、內(nèi)在激勵(lì)、人際信任等人文維度[7]。②針對(duì)單一利益主體的開放共享行為的演化博弈分析,如莊倩等(2015)建立了參與科學(xué)數(shù)據(jù)開放共享的科研人員之間的演化博弈模型,揭示了科學(xué)數(shù)據(jù)開放共享博弈中存在的"公共品困境"及其原因,指出為促進(jìn)我國科學(xué)數(shù)據(jù)開放共享健康有序發(fā)展,不能僅從國家層面制定和完善相關(guān)的戰(zhàn)略規(guī)劃,還要從政策法規(guī)層面建立相應(yīng)的激勵(lì)機(jī)制[8]。

1.4 制定開放科學(xué)數(shù)據(jù)相關(guān)知識(shí)產(chǎn)權(quán)政策法律問題的研究 雖然目前科學(xué)數(shù)據(jù)具有著作權(quán)已經(jīng)成為共識(shí),但其使用存在著作權(quán)界定不清及其利益分配不當(dāng)?shù)葐栴},尤其是科學(xué)數(shù)據(jù)二次研發(fā)過程中的著作權(quán)分配問題。司莉等(2015)從科學(xué)數(shù)據(jù)開放共享中的授權(quán)方式、數(shù)據(jù)出版及引用、技術(shù)措施、制度與法規(guī)、科學(xué)數(shù)據(jù)二次利用5個(gè)方面分別探討了科學(xué)數(shù)據(jù)著作權(quán)保護(hù)存在的問題及對(duì)策,指出我國應(yīng)結(jié)合知識(shí)產(chǎn)權(quán)保護(hù)法、著作權(quán)法、專利法和中華人民共和國政府信息公開條例等已有法規(guī)條例,盡快建立完善的科學(xué)數(shù)據(jù)著作權(quán)保護(hù)體系[9]。

1.5 基于政策文本分析的科學(xué)數(shù)據(jù)開放政策實(shí)證研究 目前國內(nèi)的相關(guān)研究成果非常有限,主要是通過內(nèi)容分析法進(jìn)行政策文本分析,如裴雷(2013)通過內(nèi)容分析法構(gòu)建了基于政策文本的上下位政策概念一致性的測算框架,并對(duì)我國12個(gè)領(lǐng)域的科學(xué)數(shù)據(jù)開放共享政策文本進(jìn)行內(nèi)容編碼和實(shí)證分析,探討了當(dāng)前我國科學(xué)數(shù)據(jù)開放共享政策在吸收、擴(kuò)散和創(chuàng)新過程中的政策文本質(zhì)量[10]。

2 國外研究現(xiàn)狀分析

對(duì)從Springer、Emerald和Elsevier三大外文數(shù)據(jù)庫檢索到的相關(guān)文獻(xiàn)進(jìn)行閱讀和梳理,可以發(fā)現(xiàn)國外科學(xué)數(shù)據(jù)開放政策研究所涉及的研究主題更為廣泛,可以大致概括為以下5個(gè)方面:

2.1 制定科學(xué)數(shù)據(jù)開放政策的理論探討與實(shí)踐研究

國外學(xué)者針對(duì)這一研究主題的研究成果也比較豐富,如Childs S等(2014)探討了作為實(shí)現(xiàn)開放科學(xué)數(shù)據(jù)的機(jī)制――科研數(shù)據(jù)管理(RDM)的作用以及它帶給記錄管理者的機(jī)遇,并指出開放科學(xué)數(shù)據(jù)議程的前提是盡可能公開可用的數(shù)據(jù),在開放科學(xué)數(shù)據(jù)的背景下仍然存在方法、倫理、政策和實(shí)踐等層面的問題[11]。Higman R等(2015)借鑒行動(dòng)者網(wǎng)絡(luò)理論(Actor Network Theory)并結(jié)合政策分析過程和案例研究方法,考察了在英國高等教育機(jī)構(gòu)中建立科學(xué)數(shù)據(jù)管理(RDM)政策與實(shí)踐的驅(qū)動(dòng)因素,以及科學(xué)數(shù)據(jù)開放共享在科學(xué)數(shù)據(jù)管理過程中的關(guān)鍵作用[12]。

2.2 科學(xué)數(shù)據(jù)開放政策利益主體的開放共享行為研究 國外學(xué)者針對(duì)科研人員的開放共享行為的共享意愿及其影響因素展開了較為系統(tǒng)的實(shí)證研究,如Wicherts J M等(2011)對(duì)心理學(xué)期刊中的統(tǒng)計(jì)結(jié)果顯著與數(shù)據(jù)共享意愿的相關(guān)性進(jìn)行了實(shí)證研究,發(fā)現(xiàn)科研人員不愿意共享數(shù)據(jù)的主要原因在于:統(tǒng)計(jì)結(jié)果不構(gòu)成充分的證據(jù)以及更有可能存在明顯的錯(cuò)誤,并強(qiáng)調(diào)了建立科學(xué)數(shù)據(jù)的強(qiáng)制性歸檔政策的重要性[13]。Sayogo D S等(2013)指出科學(xué)數(shù)據(jù)開放共享存在多重障礙與挑戰(zhàn):①技術(shù)上的障礙;②社會(huì)、組織和經(jīng)濟(jì)上的障礙;③法律和政策上的障礙,并通過問卷調(diào)查得出影響科研人員開放共享意愿的幾個(gè)關(guān)鍵因素:數(shù)據(jù)管理技能、組織參與、法律與政策需求、向數(shù)據(jù)集提供者致謝[14]。

2.3 面向科學(xué)數(shù)據(jù)開放政策利益主體的開放共享服務(wù)研究 國外學(xué)者針對(duì)高校圖書館、研究型圖書館、信息服務(wù)機(jī)構(gòu)的科學(xué)數(shù)據(jù)開放共享服務(wù)實(shí)踐展開了廣泛的研究,國內(nèi)的相關(guān)研究主要是對(duì)國外科學(xué)數(shù)據(jù)服務(wù)實(shí)踐的案例研究及調(diào)查分析,如Nielsen H J等(2014)認(rèn)為科學(xué)數(shù)據(jù)管理(RDM)是圖書館員和信息專業(yè)人員的潛在職責(zé),研究型圖書館是選擇、保護(hù)、組織與利用科學(xué)數(shù)據(jù)的最佳場所,并應(yīng)積極參與到其所在學(xué)科領(lǐng)域的特定領(lǐng)域的分析研究[15]。Tenopir C等(2014)指出數(shù)據(jù)密集型科學(xué)的出現(xiàn)和數(shù)據(jù)管理規(guī)范的制定,驅(qū)動(dòng)高校圖書館為其教師和學(xué)生開展數(shù)據(jù)管理服務(wù)(RDS),并通過調(diào)查研究建立了圖書館員、圖書館、信息服務(wù)機(jī)構(gòu)參與數(shù)據(jù)管理服務(wù)的評(píng)價(jià)基準(zhǔn)[16]。

2.4 針對(duì)專業(yè)領(lǐng)域科學(xué)數(shù)據(jù)開放政策的政策分析研究 國外學(xué)者針對(duì)天文、氣象、地球、生物、醫(yī)學(xué)等自然科學(xué)以及心理學(xué)、倫理學(xué)等社會(huì)科學(xué)專業(yè)領(lǐng)域的科學(xué)數(shù)據(jù)開放共享政策進(jìn)行了政策分析研究,如Harris R等(2015)考察了參與開放地球觀測數(shù)據(jù)的八國集團(tuán)、歐盟和國際組織的21個(gè)政策文本和法律文書――八國集團(tuán)(G8)開放數(shù)據(jù)、全球綜合地球觀測系統(tǒng)(GEOSS)數(shù)據(jù)共享原則、經(jīng)濟(jì)合作與發(fā)展組織(OECD)科學(xué)數(shù)據(jù)原則與指南、歐洲環(huán)境信息指令等,指出地球觀測領(lǐng)域開放數(shù)據(jù)政策應(yīng)更加明確、完整地說明開放獲取的條件,以期充分實(shí)現(xiàn)開放地球觀測數(shù)據(jù)的潛在利益[17]。

2.5 基于政策文本分析的科學(xué)數(shù)據(jù)開放政策實(shí)證研究 國外學(xué)者進(jìn)行政策文本分析時(shí)除了運(yùn)用常規(guī)的內(nèi)容分析法以外,還創(chuàng)新性地引入了語義網(wǎng)分析、社會(huì)網(wǎng)絡(luò)分析等研究方法,如Jung K等(2015)對(duì)韓國《開放公共數(shù)據(jù)指令》(OPDD)的政策文本進(jìn)行了語義網(wǎng)分析,并指出:利用語義網(wǎng)的概念模型及分析過程有助于確定各類公共政策針對(duì)的主要問題及解決視角的一致性[18]。

3 國內(nèi)外研究現(xiàn)狀的比較分析

對(duì)國內(nèi)外科學(xué)數(shù)據(jù)開放政策的相關(guān)研究進(jìn)行對(duì)比,可以發(fā)現(xiàn)具有以下幾個(gè)特點(diǎn):①總體來看,我國學(xué)者針對(duì)科學(xué)數(shù)據(jù)開放政策各研究主題的相關(guān)研究,目前大多處于對(duì)國外先進(jìn)政策實(shí)踐的案例研究與調(diào)查分析階段。②國內(nèi)外針對(duì)科學(xué)數(shù)據(jù)開放政策的相關(guān)研究目前主要以英美兩國的政策實(shí)踐為主,原因在于英美兩國已經(jīng)建立起相對(duì)完善的科學(xué)數(shù)據(jù)開放政策法規(guī)體系,如經(jīng)濟(jì)合作與發(fā)展組織(OECD)于2007年頒布了《公共資助科學(xué)數(shù)據(jù)開放獲取的原則和指南》,提倡所有的獲公共資金支持得到的科學(xué)數(shù)據(jù)都應(yīng)能被公眾獲取、共享。美國、英國等一些重要基金機(jī)構(gòu)也提出了科學(xué)數(shù)據(jù)開放政策指南,如美國國家科學(xué)基金會(huì)(NSF)、美國國立衛(wèi)生研究院(NIH)、美國國家航空航天局(NASA)、英國研究理事會(huì)(RCUK)等,要求所有獲得資助的項(xiàng)目提交科學(xué)數(shù)據(jù)的開放共享計(jì)劃。美國科技政策辦公室(OSTP)于2013年簽署了關(guān)于“提高聯(lián)邦政府資助的科學(xué)研究結(jié)果的訪問”的備忘錄,要求由聯(lián)邦資金資助所產(chǎn)生的非保密的科學(xué)數(shù)據(jù),應(yīng)該存儲(chǔ)并為公眾提供免費(fèi)的最大化訪問[19]。③國內(nèi)外對(duì)于具體專業(yè)領(lǐng)域的科學(xué)數(shù)據(jù)開放政策的研究相對(duì)較多,但對(duì)于國家統(tǒng)一綜合層面的科學(xué)數(shù)據(jù)開放政策研究十分有限。

對(duì)比國內(nèi)外開放數(shù)據(jù)政策研究的現(xiàn)狀不難看出,國內(nèi)相關(guān)研究主要存在以下不足:①目前的研究成果主要是針對(duì)國外高等院校、信息服務(wù)機(jī)構(gòu)和科研資助機(jī)構(gòu)的科學(xué)數(shù)據(jù)開放共享政策的調(diào)查研究與比較分析,但從整體來看這類研究成果的研究內(nèi)容比較分散、系統(tǒng)性不強(qiáng);②已有研究針對(duì)參與科學(xué)數(shù)據(jù)開放的單一利益主體(如研究人員)的開放共享行為進(jìn)行了演化博弈分析,尚未發(fā)現(xiàn)針對(duì)參與科學(xué)數(shù)據(jù)開放的多個(gè)利益主體之間的演化博弈分析的相關(guān)研究;③針對(duì)科學(xué)數(shù)據(jù)開放政策的政策文本分析目前主要采用內(nèi)容分析法,尚未展開借鑒多學(xué)科理論與方法的政策文本分析方法的探索性研究;④尚未展開針對(duì)科學(xué)數(shù)據(jù)開放政策群的政策協(xié)同研究,已有學(xué)者針對(duì)政府?dāng)?shù)據(jù)的開放數(shù)據(jù)政策與數(shù)據(jù)安全政策的協(xié)同關(guān)系展開研究[20],如黃道麗等(2015)分析了美國政府的開放數(shù)據(jù)政策與網(wǎng)絡(luò)安全政策之間的沖突與協(xié)調(diào)[21],但尚未發(fā)現(xiàn)有針對(duì)科學(xué)數(shù)據(jù)展開的類似研究;⑤尚未從政策科學(xué)的研究視角展開系統(tǒng)性的科學(xué)數(shù)據(jù)開放政策評(píng)估研究。

4 我國未來研究動(dòng)向評(píng)判

通過以上的比較分析,筆者認(rèn)為,我國圖書情報(bào)及相關(guān)學(xué)科領(lǐng)域研究者應(yīng)展開協(xié)作研究,并從以下5個(gè)方面強(qiáng)化和拓展這一重要的跨學(xué)科研究領(lǐng)域。

4.1 各類科學(xué)數(shù)據(jù)開放政策的調(diào)查與比較分析

針對(duì)主要發(fā)達(dá)國家的政府部門、高等院校與科研機(jī)構(gòu)以及各類國際組織的有關(guān)開放科學(xué)數(shù)據(jù)的聲明、指南以及政策法規(guī)等各類政策文本展開廣泛的調(diào)查分析,比較和分析各類政策文本中有關(guān)一般政策、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)共享、數(shù)據(jù)保存、數(shù)據(jù)安全和數(shù)據(jù)產(chǎn)權(quán)等方面內(nèi)容的特點(diǎn)與差異,合理借鑒發(fā)達(dá)國家在政策的系統(tǒng)性、一致性、完善性方面的經(jīng)驗(yàn),為推進(jìn)我國科學(xué)數(shù)據(jù)開放政策的制定與完善提供必要的參考借鑒。

4.2 科學(xué)數(shù)據(jù)開放政策多個(gè)利益主體的博弈分析

現(xiàn)有的研究成果主要是針對(duì)參與科學(xué)數(shù)據(jù)開放的單一利益主體(如研究人員)的博弈分析,在后續(xù)研究中可針對(duì)參與科學(xué)數(shù)據(jù)開放的多個(gè)利益主體(研究人員、科研機(jī)構(gòu)、數(shù)據(jù)中心、資助者、出版者、第三方用戶等)之間的利益訴求關(guān)系展開研究,建立參與科學(xué)數(shù)據(jù)開放的多個(gè)利益主體之間的演化博弈模型,探索促進(jìn)多個(gè)利益主體開放科學(xué)數(shù)據(jù)的激勵(lì)機(jī)制,為從微觀層面制定和完善科學(xué)數(shù)據(jù)開放政策提供演化博弈的理論框架。

4.3 基于多學(xué)科方法的科學(xué)數(shù)據(jù)開放政策文本分析

值得關(guān)注的研究方向包括:①借鑒多學(xué)科理論與方法對(duì)政策文本進(jìn)行內(nèi)容分析,如借鑒扎根理論的“信息提取-歸納-概念化-重組”思想,對(duì)各類科學(xué)數(shù)據(jù)開放政策文本進(jìn)行解構(gòu)、分類和比較,提取科學(xué)數(shù)據(jù)開放政策的區(qū)分要素,確定政策文本結(jié)構(gòu)化編碼體系和分類標(biāo)準(zhǔn),將政策文本轉(zhuǎn)化為半結(jié)構(gòu)化數(shù)據(jù),建立類定量化的政策文本分析框架。②基于知識(shí)單元的政策文本分析方法的探索性研究,如借助于語義網(wǎng)分析和社會(huì)網(wǎng)絡(luò)分析方法,探索政策文本的詞匯分析單元之間的語義關(guān)聯(lián)關(guān)系,并可通過軟件工具進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)分析及可視化展示。

4.4 各類科學(xué)數(shù)據(jù)開放政策的政策協(xié)同研究

值得關(guān)注的研究方向包括:①科學(xué)數(shù)據(jù)開放政策群內(nèi)部的政策協(xié)同研究。通過內(nèi)容分析法對(duì)各類科學(xué)數(shù)據(jù)開放政策進(jìn)行政策文本分析,從政策連續(xù)性、政策互補(bǔ)性、政策交叉性、政策缺失性及政策矛盾性等多個(gè)維度考察科學(xué)數(shù)據(jù)開放政策群內(nèi)部的政策協(xié)同。②科學(xué)數(shù)據(jù)開放政策群與數(shù)據(jù)安全政策群的政策協(xié)同研究。借鑒協(xié)同論思想和政策協(xié)同理論及工具,設(shè)計(jì)科學(xué)數(shù)據(jù)開放政策群與《中華人民共和國保守國家秘密法》、《中華人民共和國科學(xué)技術(shù)保密規(guī)定》以及其他相關(guān)部門頒布的保密規(guī)定等數(shù)據(jù)安全政策群的政策協(xié)同機(jī)制,制定科學(xué)數(shù)據(jù)開放政策群與數(shù)據(jù)安全政策群的政策協(xié)同策略。

4.5 科學(xué)數(shù)據(jù)開放政策的政策分析與評(píng)估研究

將側(cè)重于定性分析的政策分析研究與側(cè)重于定量分析的政策評(píng)估研究相結(jié)合,針對(duì)科學(xué)數(shù)據(jù)開放政策,從政策科學(xué)的學(xué)科視角進(jìn)行多角度的政策分析與評(píng)估研究,如針對(duì)科學(xué)數(shù)據(jù)開放政策完整的生命周期中的每一環(huán)節(jié)――政策提案、政策制定、政策實(shí)施、政策反饋和政策調(diào)整,綜合運(yùn)用多種政策科學(xué)相關(guān)理論、方法與工具進(jìn)行系統(tǒng)性的政策評(píng)估研究;運(yùn)用層次分析法、模糊綜合評(píng)判法、數(shù)據(jù)包絡(luò)分析法和灰色關(guān)聯(lián)度法等政策評(píng)估方法,建立科學(xué)數(shù)據(jù)開放政策評(píng)估指標(biāo)體系并進(jìn)行指標(biāo)權(quán)重分析,采用數(shù)學(xué)模型及軟件工具構(gòu)建科學(xué)數(shù)據(jù)開放政策評(píng)估模型并進(jìn)行模擬實(shí)驗(yàn)。

5 結(jié) 論

通過CNKI和萬方數(shù)據(jù)兩大中文數(shù)據(jù)庫以及Springer、Emerald和Elsevier三大外文數(shù)據(jù)庫,筆者對(duì)國內(nèi)外現(xiàn)有的科學(xué)數(shù)據(jù)開放政策的相關(guān)研究成果進(jìn)行了比較研究,并在此基礎(chǔ)上探討了國內(nèi)外相關(guān)研究的特點(diǎn):目前國內(nèi)的相關(guān)研究基本處于對(duì)國外先進(jìn)政策實(shí)踐的案例研究與調(diào)查分析階段,國內(nèi)外針對(duì)科學(xué)數(shù)據(jù)開放政策的相關(guān)研究目前主要以英美兩國的政策實(shí)踐為主。結(jié)合科學(xué)數(shù)據(jù)開放政策相關(guān)領(lǐng)域的學(xué)術(shù)研究與實(shí)踐進(jìn)展,我國在這一跨學(xué)科研究領(lǐng)域未來可能出現(xiàn)五大研究動(dòng)向:①各類科學(xué)數(shù)據(jù)開放政策的調(diào)查與比較分析;②科學(xué)數(shù)據(jù)開放政策多個(gè)利益主體的博弈分析;③基于多學(xué)科方法的科學(xué)數(shù)據(jù)開放政策文本分析;④各類科學(xué)數(shù)據(jù)開放政策的政策協(xié)同研究;⑤科學(xué)數(shù)據(jù)開放政策的政策分析與評(píng)估研究。從而推動(dòng)我國開放科學(xué)數(shù)據(jù)的政策保障與管理機(jī)制的建立。

參考文獻(xiàn)

[1]韓纓.歐盟“地平線2020計(jì)劃”相關(guān)知識(shí)產(chǎn)權(quán)規(guī)則與開放獲取政策研究[J].知識(shí)產(chǎn)權(quán),2015,(3):92-96.

[2]劉細(xì)文,熊瑞.國外科學(xué)數(shù)據(jù)開放獲取政策特點(diǎn)分析[J].情報(bào)理論與實(shí)踐,2009,32(9):5-9.

[3]王晴.論科學(xué)數(shù)據(jù)開放共享的運(yùn)行模式、保障機(jī)制及優(yōu)化策略[J].國家圖書館學(xué)刊,2014,(1):3-9.

[4]司莉,邢文明.國外科學(xué)數(shù)據(jù)管理與共享政策調(diào)查及對(duì)我國的啟示[J].情報(bào)資料工作,2013,(1):61-66.

[5]司莉,辛娟娟.英美高??茖W(xué)數(shù)據(jù)管理與共享政策的調(diào)查分析[J].圖書館論壇,2014,(9):80-85,65.

[6]唐源,吳丹.國外醫(yī)學(xué)科學(xué)數(shù)據(jù)共享政策調(diào)查及對(duì)我國的啟示[J].圖書情報(bào)工作,2015,59(18):6-13.

[7]張晉朝.我國高??蒲腥藛T科學(xué)數(shù)據(jù)共享意愿研究[J].情報(bào)理論與實(shí)踐,2013,36(10):25-30.

[8]莊倩,何琳.科學(xué)數(shù)據(jù)共享中科研人員共享行為的演化博弈分析[J].情報(bào)雜志,2015,34(8):152-157.

[9]司莉,賈歡,邢文明.科學(xué)數(shù)據(jù)著作權(quán)保護(hù)問題與對(duì)策研究[J].圖書與情報(bào),2015,(4):118-122.

[10]裴雷.我國科學(xué)數(shù)據(jù)共享政策概念一致性與政策質(zhì)量評(píng)估[J].情報(bào)理論與實(shí)踐,2013,36(9):28-31.

[11]Childs S,McLeod J,Lomas E,et al.Opening research data:issues and opportunities[J].Records Management Journal,2014,24(2):142-162.

[12]Higman R,Pinfield S.Research data management and openness:The role of data sharing in developing institutional policies and practices[J].Program:Electronic library and information systems,2015,49(4):364-381.

[13]Wicherts J M,Bakker M,Molenaar D.Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results[J].PLoS ONE,2011,6(11):1-7.

[14]Sayogo D S,Pardo T A.Exploring the determinants of scientific data sharing:Understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(S1):19-31.

[15]Nielsen H J,Hjrland B.Curating research data:the potential roles of libraries and information professionals[J].Journal of Documentation,2014,70(2):221-240.

[16]Tenopir C,Sandusky R J,Allard S,et al.Research data management services in academic research libraries and perceptions of librarians[J].Library & Information Science Research,2014,36:84-90.

[17]Harris R,Baumann I.Open data policies and satellite Earth observation[J].Space Policy,2015,32:44-53.

[18]Jung K,Park H W.A semantic(TRIZ)network analysis of South Koreas“Open Public Data”policy[J].Government Information Quarterly,2015,32(3):353-358.

[19]黃永文,張建勇,黃金霞,等.國外開放科學(xué)數(shù)據(jù)研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(5):21-27.

數(shù)據(jù)分析方向范文第5篇

根據(jù)不完全統(tǒng)計(jì),2016年1D6月,全球大數(shù)據(jù)領(lǐng)域共計(jì)發(fā)生157起投融資事件,其中中國發(fā)生了97起,超過總量的一半,其次為美國,發(fā)生41起,其他國家在大數(shù)據(jù)領(lǐng)域的投融資事件數(shù)量遠(yuǎn)遠(yuǎn)落后于中國和美國。

2016年1D6月,中國大數(shù)據(jù)領(lǐng)域投融資金額規(guī)模達(dá)到503.70億元,排名第二的美國,投融資金額規(guī)模為111.38億元。其他上億元投資的國家分別為以色列5.35億元、英國4.32億元、德國2.24億元、加拿大1.06億元。

中美大數(shù)據(jù)領(lǐng)域投融資對(duì)比

從2016年上半年的整體投融資狀況來看,中國和美國的投融資事件占全球絕大多數(shù)的比例,中美兩國大數(shù)據(jù)業(yè)務(wù)的發(fā)展基本代表了大數(shù)據(jù)在全球的發(fā)展?fàn)顩r。深入對(duì)比中美大數(shù)據(jù)領(lǐng)域的投資,對(duì)掌握大數(shù)據(jù)的應(yīng)用方向和技術(shù)方向具有較大的意義。

從圖3可以看出,在大數(shù)據(jù)行業(yè)應(yīng)用方面,中美都有涉及的行業(yè)有醫(yī)療、營銷、物流、娛樂、體育和教育。其中,醫(yī)療領(lǐng)域是2016年上半年行業(yè)中發(fā)生投融資事件最多的領(lǐng)域,中國發(fā)生18起,美國發(fā)生5起;其次為營銷領(lǐng)域,中國發(fā)生6起,美國發(fā)生3起。

相比美國,大數(shù)據(jù)的應(yīng)用行業(yè)在中國更加廣泛和活躍,2016年上半年中國有大數(shù)據(jù)投資而美國尚未涉及的領(lǐng)域比較多,如媒體、交通、金融、汽車、物聯(lián)網(wǎng)、藝術(shù)、招聘、旅游、農(nóng)業(yè)和租房等領(lǐng)域。其中媒體行業(yè)發(fā)生10起投融資事件,交通行業(yè)發(fā)生6起,金融行業(yè)發(fā)生6起。

在大數(shù)據(jù)技術(shù)應(yīng)用方面,2016年上半年涉及的投融資方向有數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全和數(shù)據(jù)工具。其中數(shù)據(jù)分析方向投融資事件最多,美國15起,中國14起;其次為數(shù)據(jù)工具方向,美國8起,中國5起;數(shù)據(jù)應(yīng)用方向,中國6起,美國3起;數(shù)據(jù)安全方向,中國5起,美國3起。

從投融資的金額規(guī)模上看,2016年上半年,中國和美國的側(cè)重點(diǎn)各不相同,中國偏重于大數(shù)據(jù)行業(yè)領(lǐng)域的應(yīng)用,而美國側(cè)重于大數(shù)據(jù)技術(shù)領(lǐng)域的應(yīng)用。2016年上半年中國在大數(shù)據(jù)行業(yè)應(yīng)用的投資總規(guī)模達(dá)到485.1億元,在大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域只有18.6億元;美國在大數(shù)據(jù)行業(yè)應(yīng)用領(lǐng)域的總投資規(guī)模為26.9億元,在大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域達(dá)到84.4億元。

中國投融資規(guī)模的TOP3均為行業(yè)領(lǐng)域,分別為交通、物流和醫(yī)療,投融資規(guī)模分別為305.4億元、105.0億元和50.7億元。而美國投融資規(guī)模的TOP3中有兩個(gè)為技術(shù)領(lǐng)域,分別為數(shù)據(jù)工具44.2億元、數(shù)據(jù)分析31.3億元;有一個(gè)為行業(yè)領(lǐng)域――醫(yī)療16.6億元。在行業(yè)應(yīng)用方面,中美投資事件最多的均為醫(yī)療領(lǐng)域。

中美數(shù)據(jù)分析領(lǐng)域投融資市場對(duì)比

可以看出,美國比較側(cè)重發(fā)展大數(shù)據(jù)的技術(shù)應(yīng)用,而數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域投融資最多的技術(shù)方向。2016年上半年,中國在數(shù)據(jù)分析方向的投融資事件達(dá)到14起,美國15起,高于中國。在金額方面美國更是遠(yuǎn)遠(yuǎn)超過中國,投融資金額高達(dá)31.3億元,而中國只有7.3億元。

2016年上半年,數(shù)據(jù)分析領(lǐng)域的投融資事件主要集中在分析平臺(tái)、用戶分析和商業(yè)智能方向,分別發(fā)生投融資事件12起、10起和3起,各自占比為41%、35%和10%;其他幾個(gè)方向的占比都比較小。從金額分布上看,分析平臺(tái)占比最大,達(dá)到61%,其次為用戶分析16%,可視化分析13%。

相關(guān)期刊更多

數(shù)據(jù)

省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

北京市統(tǒng)計(jì)局

大數(shù)據(jù)

統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

工業(yè)和信息化部

數(shù)據(jù)通信

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

信息產(chǎn)業(yè)部

老河口市| 巴塘县| 临夏县| 梁山县| 红安县| 房产| 新宁县| 广饶县| 彝良县| 枣庄市| 吉林省| 江门市| 行唐县| 鲜城| 邯郸县| 宜良县| 阿城市| 若尔盖县| 谢通门县| 天津市| 米易县| 皋兰县| 张北县| 金坛市| 衡阳县| 通江县| 平昌县| 绵阳市| 漳浦县| 泸定县| 汝城县| 大足县| 连平县| 荥经县| 文化| 古蔺县| 水富县| 华容县| 庄浪县| 沈丘县| 张家口市|