在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

網(wǎng)絡(luò)自媒體大數(shù)據(jù)挖掘輿情控制策略

前言:本站為你精心整理了網(wǎng)絡(luò)自媒體大數(shù)據(jù)挖掘輿情控制策略范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

網(wǎng)絡(luò)自媒體大數(shù)據(jù)挖掘輿情控制策略

摘要:隨著自媒體時(shí)代的到來(lái),人們通過(guò)各種社交平臺(tái)表達(dá)自己的意愿越來(lái)越方便,特別是思想意識(shí)還尚未成熟的高校大學(xué)生,非常容易受到網(wǎng)絡(luò)負(fù)面消息的影響,成為一些不當(dāng)言論的傳播者,并且該狀況具有一定的隱匿性和突發(fā)性,對(duì)高校網(wǎng)絡(luò)輿情監(jiān)管工作提出了嚴(yán)峻挑戰(zhàn)。為此,提出了面向網(wǎng)絡(luò)自媒體數(shù)據(jù)挖掘的高校輿情控制策略,主動(dòng)獲取輿情數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理,然后對(duì)其建模以發(fā)現(xiàn)輿情傳播規(guī)律,最后根據(jù)分析結(jié)果給出科學(xué)、合理的引導(dǎo)策略,提升高校網(wǎng)絡(luò)輿情監(jiān)管效果,為人才培養(yǎng)提供良好的網(wǎng)絡(luò)環(huán)境。

關(guān)鍵詞:自媒體大數(shù)據(jù);數(shù)據(jù)挖掘;高校輿情控制

0引言

據(jù)我國(guó)互聯(lián)網(wǎng)發(fā)展現(xiàn)狀統(tǒng)計(jì)報(bào)告,截止2017年6月,我國(guó)網(wǎng)民規(guī)模已達(dá)到10.11億,互聯(lián)網(wǎng)的普及率已達(dá)到71.6%,互聯(lián)網(wǎng)已然在人們生產(chǎn)、生活、工作中扮演著舉足輕重的作用[1]。隨著互聯(lián)網(wǎng)運(yùn)用發(fā)展領(lǐng)域的不斷擴(kuò)大,各種網(wǎng)絡(luò)安全問(wèn)題出現(xiàn)于互聯(lián)網(wǎng)環(huán)境中,導(dǎo)致各種網(wǎng)絡(luò)負(fù)面輿情信息在不經(jīng)意間被傳播,甚至被放大。特別是到了自媒體時(shí)代,人們可以通過(guò)各種社交平臺(tái),例如:微信、微博、QQ空間、QQ群、論壇、表白墻等表達(dá)自己的觀點(diǎn)、抒發(fā)自己的情緒,或是轉(zhuǎn)發(fā)好友的發(fā)帖等,這也為一些惡意或不法分子提供了可乘之機(jī)———故意煽風(fēng)點(diǎn)火、夸大負(fù)面影響,影響整個(gè)平靜的社交環(huán)境。對(duì)于高等學(xué)校來(lái)講,大學(xué)生的思想還尚未完全成熟,判斷能力還不夠強(qiáng),特別容易受到網(wǎng)絡(luò)負(fù)面消息的影響,而高校作為培養(yǎng)擁護(hù)中國(guó)共產(chǎn)黨領(lǐng)導(dǎo)和我國(guó)社會(huì)主義制度、立志為中國(guó)特色社會(huì)主義事業(yè)奮斗終身的有用人才的思想高地,對(duì)于整個(gè)社會(huì)的安全、穩(wěn)定發(fā)揮著舉足輕重的作用。根據(jù)中國(guó)社會(huì)科學(xué)院《中國(guó)社會(huì)心態(tài)研究報(bào)告(2015)》顯示,大學(xué)生每天花費(fèi)約5小時(shí)17分鐘在智能手機(jī)上,占一天時(shí)間的22%;據(jù)2015年《中國(guó)青年報(bào)》調(diào)查顯示,近75%的大學(xué)生閑暇時(shí)間用于上網(wǎng),19.3%的人把網(wǎng)絡(luò)作為最可靠的信息來(lái)源[2]。正是因?yàn)楦咝W(xué)生與網(wǎng)絡(luò)接觸緊密,各類(lèi)信息呈現(xiàn)出傳播渠道多、傳播速度快、傳播范圍廣的特點(diǎn),因此容易形成網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情可以采用網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)手段高效獲得高保真大數(shù)據(jù),通過(guò)挖掘隱藏在數(shù)據(jù)中的知識(shí),有助于完善人們對(duì)高校大學(xué)生網(wǎng)絡(luò)輿情演化本質(zhì)規(guī)律的認(rèn)知,對(duì)網(wǎng)絡(luò)輿情演化過(guò)程中信息傳播和觀點(diǎn)擴(kuò)散規(guī)律的認(rèn)識(shí)[3]。2010年,巴拉巴西[4]指出,93%的人類(lèi)行為是可預(yù)測(cè)的,所以高校學(xué)生網(wǎng)絡(luò)輿情演化趨勢(shì)可以基于網(wǎng)絡(luò)社交大數(shù)據(jù)進(jìn)行從統(tǒng)計(jì)學(xué)意義上的預(yù)測(cè)與分析,這種預(yù)測(cè)結(jié)果可以為高校思想政治宣傳教育工作提供決策支持和理論參考。同時(shí),通過(guò)科學(xué)合理的方式對(duì)網(wǎng)絡(luò)輿情進(jìn)行引導(dǎo),進(jìn)一步提高高校思想政治宣傳教育成效。因此,針對(duì)高校網(wǎng)絡(luò)輿情大數(shù)據(jù)分析的迫切性與重要性,提出基于大數(shù)據(jù)分析視角的網(wǎng)絡(luò)自媒體輿情大數(shù)據(jù)分析方法,該方法包括:自媒體數(shù)據(jù)的獲取與預(yù)處理,自媒體大數(shù)據(jù)的建模與分析,以及引導(dǎo)策略研究,為提升高校思想政治教育工作提供支撐。

1自媒體數(shù)據(jù)獲取與預(yù)處理

1.1自媒體數(shù)據(jù)來(lái)源分析

自媒體數(shù)據(jù)具有來(lái)源廣(包括:QQ空間、QQ表白墻、微信空間、微博和論壇、各類(lèi)群等)、結(jié)構(gòu)復(fù)雜(體現(xiàn)在不同平臺(tái)數(shù)據(jù)結(jié)構(gòu)的不一致性)等特點(diǎn),并且這些數(shù)據(jù)中往往包含大量的輿情,因此在分析之前,需要對(duì)這些數(shù)據(jù)進(jìn)行獲取、挖掘與分析,發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律。

1.2自媒體數(shù)據(jù)獲取

分析常見(jiàn)平臺(tái)的自媒體數(shù)據(jù)可以發(fā)現(xiàn),這些數(shù)據(jù)具有的共同屬性包括:評(píng)論的用戶(hù)名、用戶(hù)ID、評(píng)論時(shí)間、評(píng)論內(nèi)容、評(píng)論類(lèi)型(包括:原創(chuàng)、轉(zhuǎn)發(fā)等)等。因此,結(jié)合自媒體數(shù)據(jù)的公共屬性設(shè)計(jì)網(wǎng)絡(luò)爬蟲(chóng),爬取其關(guān)鍵信息。

1.3自媒體文本數(shù)據(jù)清洗

通過(guò)分析用戶(hù)在各大社交平臺(tái)、論壇、交流群以及空間中發(fā)表的評(píng)論格式和內(nèi)容可以發(fā)現(xiàn),評(píng)論的內(nèi)容非常豐富且隨機(jī)性大,例如:表情、表情+文字描述、中英文混合、純英文、漢語(yǔ)拼音、數(shù)字等;評(píng)論語(yǔ)句段落非常隨意;網(wǎng)絡(luò)用語(yǔ)使用頻率高;短句使用豐富等。針對(duì)自媒體數(shù)據(jù)分析問(wèn)題,運(yùn)用文本處理技術(shù)對(duì)自媒體數(shù)據(jù)進(jìn)行清洗,剔除其中的臟數(shù)據(jù)、噪聲數(shù)據(jù),為進(jìn)一步加工處理提供高質(zhì)量的數(shù)據(jù)源。

1.4自媒體文本分詞

在語(yǔ)義理解之前,最重要和最核心的環(huán)節(jié)是對(duì)自媒體文本進(jìn)行分詞,該步驟決定了語(yǔ)義理解的準(zhǔn)確性。分詞的主要任務(wù)是將一段一段的自然文本分割成一個(gè)一個(gè)獨(dú)立的詞語(yǔ)。對(duì)于中文文本來(lái)說(shuō),分詞的難點(diǎn)主要體現(xiàn)在,不像英文表達(dá)那樣存在自然間隔和詞劃分;對(duì)于英文文本來(lái)說(shuō),相對(duì)中文文本要更加容易,因?yàn)橛⑽脑诒磉_(dá)過(guò)程中存在自然間隔,因此分詞難度相對(duì)較小。關(guān)于中文分詞工具,常用的包括:中科院計(jì)算所的NLPIR、Ansj分詞器、哈工大的LTP、清華大學(xué)的THULAC、斯坦福分詞器、HanLP分詞器、結(jié)巴分詞器、KCWS分詞器、ZPar分詞器以及IKAnalyzer分詞器等。關(guān)于英文分詞工具,常用的包括:NLTK、SpaCy、StanfordCoreNLP以及Elasticsearch等。結(jié)合前期研究以及實(shí)驗(yàn)結(jié)果,中文分詞采用中科院的NLPIR準(zhǔn)確率較高,英文分詞采用StanfordCoreNLP的分詞準(zhǔn)確率較高。因此,采用以上兩種分詞工具對(duì)自媒體輿情文本進(jìn)行分詞。

1.5自媒體文本關(guān)鍵詞提取

所謂關(guān)鍵詞就是文本中表達(dá)語(yǔ)義的重要詞語(yǔ),通常是通過(guò)詞頻方式來(lái)發(fā)現(xiàn),即某個(gè)詞在文本中出現(xiàn)的頻率和次數(shù)越多表示該詞語(yǔ)的重要程度越高,并且這些詞一般都是形容詞和副詞,而那些語(yǔ)氣詞、介詞、連詞等停用詞,例如:“了”“的”“也”“是”“為”“它”“is”“at”“which”“the”“on”等雖然出現(xiàn)頻率非常高,但是對(duì)提取語(yǔ)義幾乎沒(méi)有任何幫助,需要將其刪除。目前,也有很多研究者為了便于分詞,針對(duì)不同應(yīng)用場(chǎng)景提出了一些應(yīng)用效果非常好的停用詞庫(kù),來(lái)提高分析效率和分詞效果。本文采用TF-IDF(Termfre-quency-inversedocumentfrequency)方法提取自媒體文本中的關(guān)鍵詞,并構(gòu)建關(guān)鍵詞矩陣。同時(shí),采用哈工大開(kāi)發(fā)的停用詞庫(kù)過(guò)濾停用詞。詞頻TF計(jì)算方法為T(mén)Fi=某個(gè)詞i在文本中出現(xiàn)的次數(shù)文本中所有詞的總數(shù)量(1)逆向文件頻率IDF的核心思想是:如果包含詞i的文檔數(shù)量越少,則IDF越大,表明該詞具有良好的類(lèi)別區(qū)分能力。某個(gè)特定詞i的IDF,是由總文檔個(gè)數(shù)除以包含該詞的文檔個(gè)數(shù),然后對(duì)商再取對(duì)數(shù)。具體計(jì)算方法為IDFi=log語(yǔ)料庫(kù)中文檔總個(gè)數(shù)包含詞i的文檔數(shù)+1(2)某一文本內(nèi)的高頻詞,以及該詞在整個(gè)文本文檔集中的低頻文件可以產(chǎn)生高權(quán)重的TF-IDF。所以,TF-IDF能夠保留重要詞語(yǔ),過(guò)濾掉常見(jiàn)詞語(yǔ)。TF-IDF的計(jì)算方法為[5]TF-IDFi=TFi×IDFi(3)通過(guò)觀察式(3)可以發(fā)現(xiàn),TF-IDF與詞i在文本中出現(xiàn)的頻率正相關(guān),與該詞i在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率負(fù)相關(guān)。因此,提取關(guān)鍵詞的方法就是計(jì)算文本中每個(gè)詞的TF-IDF值,然后按照降序排列,取排在前面的若干個(gè)詞。

2基于大數(shù)據(jù)的高校網(wǎng)絡(luò)輿情演化趨勢(shì)及預(yù)測(cè)模型研究

2.1基于聚類(lèi)分析的熱點(diǎn)事件發(fā)現(xiàn)

相同或相似關(guān)鍵詞被聚為一簇的概率也越大,對(duì)關(guān)鍵詞進(jìn)行聚類(lèi)分析是發(fā)現(xiàn)熱點(diǎn)事件的重要途徑與方法??紤]到缺乏先驗(yàn)知識(shí),本文擬采用半監(jiān)督高斯混合聚類(lèi)算法來(lái)發(fā)現(xiàn)熱點(diǎn)事件?;诹餍谓Y(jié)構(gòu)的半監(jiān)督混合高斯聚類(lèi)算法是利用以輿情事件樣本標(biāo)簽為形式的先驗(yàn)信息,其目標(biāo)函數(shù)為[6]f(θ)=∑Li=1∑Kk=1pckxli()logπkpxliθk()()+∑Ui=1∑Kk=1pckxui()logπkpxuiθk()()-λ∑Ui=1∑Uj=1Di,jwu×ui,j+2∑Li=1∑Uj=1Di,jwl×ui,j()(4)其中,L和U分別表示有標(biāo)簽和無(wú)標(biāo)簽的輿情事件樣本集大小;xli和xui分別表示有標(biāo)簽和無(wú)標(biāo)簽的輿情事件樣本;若輿情事件樣本xli屬于第k個(gè)高斯分布,則條件概率pckxli()=1,反之為0;wi,j表示近鄰圖中邊的權(quán)重;Di,j表示輿情事件樣本xi和xj之間的距離。考慮到需要分析和處理的輿情事件數(shù)量非常龐大,所需的計(jì)算量也非常大。為了提高算法在處理大規(guī)模文本聚類(lèi)時(shí)的性能,采用分布式并行處理的思路對(duì)聚類(lèi)算法進(jìn)行優(yōu)化,基于Ma-pReduce的聚類(lèi)模型[7],具體如圖1所示。

2.2語(yǔ)義網(wǎng)絡(luò)構(gòu)建與分析

將高頻詞的兩兩共現(xiàn)關(guān)系進(jìn)行量化,并且以圖形化方式進(jìn)行展現(xiàn),反映詞與詞之間的結(jié)構(gòu)關(guān)系,從而構(gòu)建語(yǔ)義網(wǎng)絡(luò)。通過(guò)構(gòu)建這種語(yǔ)義關(guān)系網(wǎng)絡(luò),將直接展現(xiàn)出高頻詞之間的層次關(guān)系、親疏關(guān)系,便于分析。為了更加準(zhǔn)確地反映熱門(mén)事件或是輿情熱點(diǎn)之間的關(guān)系,需要在圖的邊上附加權(quán)重,圖的兩個(gè)節(jié)點(diǎn)關(guān)系越緊密權(quán)重就越大。根據(jù)社團(tuán)內(nèi)部事件之間權(quán)重大于社團(tuán)之間邊權(quán)重的原則,將那些關(guān)系緊密的事件或是輿情熱點(diǎn)進(jìn)行劃分就形成網(wǎng)絡(luò)社團(tuán)。其中,邊權(quán)重的設(shè)置決定了社團(tuán)的密度、大小、結(jié)構(gòu)以及社團(tuán)之間的聯(lián)系,因此,需要根據(jù)分析需求不斷調(diào)整與優(yōu)化權(quán)重。

2.3輿情情感傾向分析

在構(gòu)建好網(wǎng)絡(luò)社團(tuán)(即熱門(mén)事件或是熱點(diǎn)輿情的語(yǔ)義網(wǎng)絡(luò))的基礎(chǔ)上,就能夠分析對(duì)其描述的關(guān)鍵詞的情感態(tài)度(主要包括:中立、消極和積極三種),來(lái)反映用戶(hù)關(guān)于熱門(mén)事件或是輿情熱點(diǎn)的情感態(tài)度以及強(qiáng)度,然后以語(yǔ)句為單位計(jì)算總和,得到情感類(lèi)別。進(jìn)一步地,計(jì)算整個(gè)輿情文本中的所有語(yǔ)句,就可以判定用戶(hù)關(guān)于輿情的情感態(tài)度和強(qiáng)度。需要注意的是,在計(jì)算情感態(tài)度和強(qiáng)度時(shí),需要考慮那些直接表達(dá)情感傾向的詞語(yǔ),還需要注意形容詞以及副詞等修飾詞,例如:很、非常、特別、太等,這些詞語(yǔ)能夠增強(qiáng)情感態(tài)度。因此,在分詞過(guò)程中,需要準(zhǔn)確識(shí)別出形容詞、副詞以及否定詞,并建立對(duì)應(yīng)的詞庫(kù),以便對(duì)這些情感詞進(jìn)行合理賦值;然后計(jì)算這些情感詞的加權(quán)值,獲得總體情感態(tài)度。

2.4輿情演化模型構(gòu)建及引導(dǎo)策略建議

不同參與人在不同自媒體平臺(tái)上對(duì)同一事件的關(guān)注側(cè)重點(diǎn)也不一樣,又由于眾多參與人對(duì)同一熱點(diǎn)事件進(jìn)行了自我觀點(diǎn)的表達(dá),這些觀點(diǎn)之間可能因?yàn)槟撤N因素又發(fā)生了碰撞,進(jìn)一步增強(qiáng)了事件的熱度,最終演化成了網(wǎng)絡(luò)熱點(diǎn)事件。運(yùn)用統(tǒng)計(jì)分析與數(shù)據(jù)挖掘方法對(duì)事件參與人的行為以及情感態(tài)度進(jìn)行挖掘,以發(fā)現(xiàn)不同觀點(diǎn)的傳播和演化規(guī)律。通過(guò)傳播演化模型的構(gòu)建以及分析,有助于為形成正確的輿論導(dǎo)向提供科學(xué)、合理的建議,例如:溯源網(wǎng)絡(luò)謠言,并針對(duì)其根源和原因發(fā)布正確的輿論導(dǎo)向,引導(dǎo)輿論向好發(fā)展,從而掌握輿論的主導(dǎo)權(quán)等。

3結(jié)語(yǔ)

高校作為立德樹(shù)人,培養(yǎng)高質(zhì)量人才的主陣地,正面的輿論導(dǎo)向是必備的基礎(chǔ)環(huán)境。而隨著自媒體時(shí)代的到來(lái),高校大學(xué)生利用網(wǎng)絡(luò)表達(dá)自己想法的渠道越來(lái)越豐富,產(chǎn)生了大量的社交數(shù)據(jù)以及潛在的輿情,因此運(yùn)用大數(shù)據(jù)技術(shù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析與控制成了必然趨勢(shì)。本文從正確認(rèn)識(shí)、預(yù)測(cè)與處置高校網(wǎng)絡(luò)輿情的角度出發(fā),通過(guò)研究主動(dòng)獲取輿情數(shù)據(jù),并對(duì)其建模的方法,以期挖掘輿情傳播的內(nèi)在規(guī)律,為高校輿情管理人員提供決策支持,促進(jìn)高校思想政治宣傳教育工作成效。

作者:王喜賓 趙歡 顧英 單位:貴州理工學(xué)院大數(shù)據(jù)學(xué)院 貴州理工學(xué)院貴州省電力大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴州理工學(xué)院招生就業(yè)處

文檔上傳者

相關(guān)期刊

網(wǎng)絡(luò)與信息

省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

遼寧省發(fā)展和改革委員會(huì)

衛(wèi)星與網(wǎng)絡(luò)

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

工業(yè)和信息化部

信息網(wǎng)絡(luò)

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

中華人民共和國(guó)信息產(chǎn)業(yè)部

道真| 永清县| 清原| 乌兰察布市| 普格县| 宜黄县| 江华| 泉州市| 黄龙县| 清徐县| 兴和县| 嘉荫县| 佛山市| 乐东| 保康县| 出国| 土默特左旗| 太原市| 宝山区| 博野县| 绥宁县| 周至县| 永和县| 新宾| 遂昌县| 青田县| 芜湖市| 蒲城县| 中江县| 依安县| 象山县| 龙南县| 南平市| 贡山| 望奎县| 景宁| 淮北市| 县级市| 新巴尔虎左旗| 子长县| 陇西县|