期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:綜合論文時(shí)間:瀏覽:次
摘 要:傳統(tǒng)機(jī)器學(xué)習(xí)的自然語言處理系統(tǒng)特別依賴人工手動(dòng)標(biāo)記的特征,極其耗時(shí)且容易出現(xiàn)維度爆炸等難以解決的問題。本文采用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)技術(shù)來解決這一問題。通過收集校園熱點(diǎn)話題進(jìn)行預(yù)處理以及運(yùn)用Word2vec模型生成詞向量后,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取其中的特征并進(jìn)行情感傾向分類。通過實(shí)驗(yàn)數(shù)據(jù)的比較,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的情感傾向分類獲得了89.76%的準(zhǔn)確率,較傳統(tǒng)的支持向量機(jī)(SVM)提高了7.3%,獲得更好的分類性能。本文的研究對(duì)高校治理能力和治理體系現(xiàn)代化建設(shè)具有積極作用。
關(guān)鍵詞:自然語言處理;卷積神經(jīng)網(wǎng)絡(luò);情感傾向分析;輿情分析
1 引言(Introduction)
隨著信息技術(shù)的迅速發(fā)展和自媒體的普及,網(wǎng)絡(luò)對(duì)大學(xué)生的思維方式、思想觀念、人際交往和學(xué)習(xí)生活產(chǎn)生了深刻影響,各個(gè)高校校園文化的展示不再局限于校園內(nèi)部,各種虛擬網(wǎng)絡(luò)平臺(tái)也成為校園文化交流和展示的平臺(tái)。借助自媒體平臺(tái),學(xué)生們可以隨時(shí)隨地在社交網(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn)和見解,而且這些觀點(diǎn)和見解往往是帶有明顯的情感傾向的,在一定程度上,這些正面或負(fù)面的高校網(wǎng)絡(luò)輿情也客觀地反映出校園文化的健康程度。如何在海量的數(shù)據(jù)中捕獲到用戶的情感傾向信息,挖掘出帶有情緒和喜惡的主觀信息,是情感傾向分類要做的主要工作。情感傾向分類可以對(duì)文本所表達(dá)的帶有主觀情感色彩的信息進(jìn)行處理、挖掘,并分析其中包含的積極或消極信息,通過判斷信息的情緒極性進(jìn)行輿情態(tài)勢感知和預(yù)警,有助于對(duì)極端情緒的檢測與控制。總之,在現(xiàn)代高校管理中,充分挖掘師生對(duì)熱點(diǎn)輿情事件的情感傾向,分析其所表達(dá)價(jià)值取向或者事件產(chǎn)生的深層次原因,對(duì)開展校園網(wǎng)絡(luò)輿情研究和進(jìn)行有針對(duì)性的學(xué)生思想引導(dǎo)工作是至關(guān)重要的,對(duì)推動(dòng)網(wǎng)絡(luò)空間的科學(xué)治理也起到促進(jìn)作用。
2 基于深度學(xué)習(xí)的高校網(wǎng)絡(luò)輿情分析系統(tǒng)(University network public opinion analysis system based on deep learning)
情感分類算法研究是網(wǎng)絡(luò)輿情分析的一個(gè)重要研究領(lǐng)域,對(duì)于輿情分析有著重要的意義。近年來,國內(nèi)高校網(wǎng)絡(luò)輿情突發(fā)事件頻繁發(fā)生,比如2020 年的“山西作弊大學(xué)生墜亡”“疫情期間高校施行‘相對(duì)封閉式管理’”等。這些事件所爆發(fā)出的網(wǎng)絡(luò)輿論給相關(guān)高校造成了極大的困擾。因此,在網(wǎng)絡(luò)空間科學(xué)治理工程的背景下,分析和研究高校網(wǎng)絡(luò)輿情發(fā)展和傳播規(guī)律,探索如何在高校師生中開展有效的網(wǎng)絡(luò)輿情管理和引導(dǎo)已成為需要深入研究思考的問題。作為高校,面對(duì)現(xiàn)下日益復(fù)雜以及多元化的網(wǎng)絡(luò)環(huán)境,要做好網(wǎng)絡(luò)輿情的預(yù)警工作,運(yùn)用計(jì)算機(jī)輔助技術(shù)實(shí)時(shí)收集網(wǎng)絡(luò)輿情數(shù)據(jù),對(duì)其中的熱點(diǎn)話題數(shù)據(jù)進(jìn)行分析研判,精確地發(fā)現(xiàn)引發(fā)輿情危機(jī)的節(jié)點(diǎn),在短時(shí)間內(nèi)制定有針對(duì)性的處置策略,不給輿情危機(jī)發(fā)酵的時(shí)間和空間[1]。因此,若能對(duì)網(wǎng)絡(luò)熱點(diǎn)話題或事件進(jìn)行搜索和分析,并總結(jié)出其中正面信息和負(fù)面信息的比例,進(jìn)而對(duì)一些學(xué)生關(guān)注度高的問題及時(shí)進(jìn)行解決以及疏導(dǎo),這對(duì)于完善高校治理無疑是非常有用的。
在國內(nèi),基于深度學(xué)習(xí)的文本情感分類研究起步較晚,但發(fā)展迅猛,目前已經(jīng)有很多研究成果涌現(xiàn)出來。劉龍飛等人[2]使用CNN方法對(duì)微博文本的情感進(jìn)行研究,其中原始特征由字向量與詞向量同時(shí)構(gòu)成,在COAE2014上取得不錯(cuò)的效果。劉智鵬等人[3]構(gòu)造與設(shè)計(jì)了CNN與RNN模型,并進(jìn)行了有效的融合,利用各自對(duì)短文本的處理優(yōu)勢進(jìn)行商品的評(píng)價(jià)分類,獲得了較好的文本情感識(shí)別性能。周錦峰等人[4]通過堆疊多個(gè)卷積層,提取不同窗口的局部語義特征以及基于全局最大池化層構(gòu)建分類模塊,獲得了較快的文本情感分類速度。蔡慶平等人[5]設(shè)計(jì)了基于Word2vec和CNN的產(chǎn)品評(píng)論細(xì)粒度情感分析模型,有效地發(fā)現(xiàn)用戶對(duì)產(chǎn)品特征的關(guān)注度和滿意度。
本文運(yùn)用基于深度學(xué)習(xí)的情感分析技術(shù)手段,分析和研判網(wǎng)絡(luò)中高校熱點(diǎn)話題評(píng)論中所蘊(yùn)含的情感傾向信息,并進(jìn)行網(wǎng)絡(luò)輿情監(jiān)測。網(wǎng)絡(luò)輿情分析分為輿情信息采集、文本數(shù)據(jù)預(yù)處理、詞向量化、輿情數(shù)據(jù)學(xué)習(xí)及分析、輿情預(yù)警(結(jié)果可視化)五個(gè)步驟。首先利用網(wǎng)絡(luò)爬蟲技術(shù)完成數(shù)據(jù)的收集;接著對(duì)數(shù)據(jù)進(jìn)行中文分詞、去停用詞操作,保留語句中的關(guān)鍵信息;再運(yùn)用詞向量工具將詞轉(zhuǎn)換成詞向量,以便可以被卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),通過網(wǎng)絡(luò)的學(xué)習(xí),提取其中的特征,最終可被用于情感極向的分類,如圖1所示。可視化模塊則用于顯示分類結(jié)果,負(fù)面評(píng)論達(dá)到一定比例時(shí),需要對(duì)相關(guān)問題進(jìn)行疏導(dǎo)。
2.1 數(shù)據(jù)采集模塊
為了能夠快速地獲取最新的網(wǎng)絡(luò)輿情數(shù)據(jù),本文利用分布式網(wǎng)絡(luò)爬蟲對(duì)指定網(wǎng)站進(jìn)行數(shù)據(jù)爬取,簡單清洗之后,作為系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)來源。首先將數(shù)據(jù)收集任務(wù)分解成多個(gè)子任務(wù),分配給多個(gè)爬蟲線程來共同完成;接著通過向網(wǎng)站的服務(wù)器發(fā)送請(qǐng)求,獲取網(wǎng)頁源代碼并進(jìn)行數(shù)據(jù)清洗、去重去噪,將一些標(biāo)簽、CSS代碼內(nèi)容、空格字符、腳本標(biāo)簽等內(nèi)容處理掉,使冗余的網(wǎng)頁數(shù)據(jù)變得結(jié)構(gòu)清晰[6];最終將這些信息存儲(chǔ)為純文本數(shù)據(jù),為接下來的數(shù)據(jù)處理和分析提供基礎(chǔ)。
2.2 數(shù)據(jù)預(yù)處理
通過網(wǎng)絡(luò)爬蟲獲取的純文本數(shù)據(jù)需要轉(zhuǎn)化為適合于表示和分類的干凈的詞序列。由于中文句子中的詞語之間沒有明確的分隔符且存在一定的噪音信息,因此在預(yù)處理階段要對(duì)句子進(jìn)行分詞、去除停用詞等操作。
(1)分詞。中文分詞是文本處理的一個(gè)基礎(chǔ)步驟,由于中文句子不像英文句子那樣詞與詞之間有明顯的分隔符,因此需要利用中文分詞技術(shù)將詞語切分開。成熟的中文分詞算法能夠達(dá)到更好的自然語言處理效果,幫助計(jì)算機(jī)理解復(fù)雜的中文句子。本文采用基于詞典分詞的jieba分詞器,它運(yùn)用有向無環(huán)圖的查找算法,通過動(dòng)態(tài)規(guī)劃,從后至前使得詞的切割組合聯(lián)合概率最大。對(duì)于不在詞典里的詞再使用HMM算法來進(jìn)行二次分詞,采用分詞中的序列標(biāo)注方法,使用模型識(shí)別詞每個(gè)位置的狀態(tài)值[7]。
(2)去停用詞。通過分詞可以把句子分出很多詞語,但是其中有些詞未包含實(shí)際含義,如“的”“了”“著”等,還有一些英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)等。這些詞普遍存在,又未包含具體含義,同時(shí)記錄它們需要較大的空間。本文根據(jù)網(wǎng)上現(xiàn)有資源,對(duì)“哈工大停用詞詞庫”“百度停用詞表”等多種停用詞表合并整理后,生成了一個(gè)共有1,598 個(gè)停用詞的停用詞表。在分詞過程中,判斷得到的每個(gè)中文詞是否是停用詞,如果是停用詞則直接刪除,以便降低特征的維度,提高關(guān)鍵詞密度。
2.3 文本的分布式表示
預(yù)處理后的文本是一種計(jì)算機(jī)無法直接處理的非結(jié)構(gòu)化數(shù)據(jù),需要轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)——向量。本文采用Word2vec詞向量工具將文本轉(zhuǎn)換成詞向量,以便于網(wǎng)絡(luò)學(xué)習(xí)。Word2vec是MIKOLOV等人[8]提出來的一種文本分布式表示方法,由此詞嵌入的思想開始應(yīng)用到自然處理的領(lǐng)域。它是一款將詞表征為實(shí)數(shù)值向量的高效工具,背后的模型是CBOW或者Skip-gram,使用了Hierarchical Softmax或者Negative Sampling的優(yōu)化方法[9]。Word2vec能夠?qū)⒚總€(gè)詞映射成一個(gè)K維的實(shí)數(shù)向量,精確地度量詞與詞之間的關(guān)系,挖掘詞與詞之間的聯(lián)系。
本次實(shí)驗(yàn)采用CBOW模型進(jìn)行詞向量表示,通過輸入特征詞的上下文相關(guān)詞對(duì)應(yīng)的詞向量來預(yù)測輸出特征詞的詞向量。用CBOW模型訓(xùn)練詞向量,首先需要根據(jù)語料建立一張?jiān)~匯表,并給表中的每個(gè)詞語生成隨機(jī)的詞向量;然后將特定詞的上下文詞向量輸入CBOW,再由隱含層進(jìn)行累加,到第三層中的哈夫曼樹,沿著特定的路徑到達(dá)葉子節(jié)點(diǎn),從而完成對(duì)特定詞語的預(yù)測,訓(xùn)練結(jié)束后就可以從詞匯表中得到每一個(gè)詞語所對(duì)應(yīng)的詞向量。
2.4 深度學(xué)習(xí)情感分類模型
本文采用卷積神經(jīng)網(wǎng)絡(luò)模型來解決中文情感傾向分析問題,將由Word2vec轉(zhuǎn)化后的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入;然后通過卷積層進(jìn)行特征提取,再用最大池化法降低每條評(píng)論特征向量的維度;最后在全連接層由ReLU函數(shù)做出分類輸出,將評(píng)論信息分成積極和消極兩種。卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),由輸入層(Input Layer)、卷積層(Convolution Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)和輸出層(Output Layer)組成,其中卷積層和池化層是實(shí)現(xiàn)特征提取功能的核心模塊,結(jié)構(gòu)如圖2所示。
卷積層:在第一層卷積層中對(duì)輸入的詞向量矩陣進(jìn)行卷積運(yùn)算后,可以得到對(duì)應(yīng)的特征圖。卷積運(yùn)算使原信號(hào)特征增強(qiáng)的同時(shí),還可以降低噪音,提取輸入樣本中的不同特征。同時(shí),一個(gè)卷積層中可以有多個(gè)不同的卷積核,每一個(gè)卷積核都對(duì)應(yīng)一個(gè)特征圖,如圖3所示。
池化層:經(jīng)過卷積運(yùn)算后的特征矩陣尺寸往往比較大,運(yùn)用池化(Pooling)操作可以減小卷積層產(chǎn)生的詞向量矩陣的維度,使得參數(shù)的數(shù)量和計(jì)算量下降。本實(shí)驗(yàn)采用最大池化法來降維,將卷積運(yùn)算后的特征矩陣劃分為若干個(gè)矩形區(qū)域,輸出每個(gè)子區(qū)域最大值,減小數(shù)據(jù)的空間大小,如圖4所示。通過降低特征矩陣的維度,使得特征表示對(duì)輸入詞向量的位置變化具有更好的穩(wěn)健性,還在一定程度上預(yù)防過擬合。