基于圖書評論的數據挖掘技術研究
本文選題:圖書評論 切入點:數據挖掘 出處:《北方工業大學》2017年碩士論文
【摘要】:隨著互聯網的飛速發展,網絡信息越來越龐雜,迫切需要使用數據挖掘技術對網絡文本進行提取分析,以便得到有用信息。圖書評論中包含用戶對圖書產品屬性及購買過程的評價意見,如何從圖書評論中高效地提取到有價值的信息成為本文的研究重點。本文以亞馬遜和京東兩大網站的圖書評論為數據來源,研究圖書特征提取及情感分析中使用的數據挖掘技術,得到圖書評論挖掘結果,從而幫助消費者及生產商作出科學的決策。本文首先通過分析網頁的標簽規則,抽取網站上的圖書評論信息,構建原始評論數據集;利用分詞及詞性標注技術對該數據集做處理,構建停用詞表,對停用詞進行過濾,從而形成原始語料庫。然后,通過冗余詞表處理評論語句。使用Apriori算法,FP-Growth算法以及TF-IDF算法從評論中提取圖書特征進行性能比對。以此為基礎,改進FP-Growth算法并挖掘圖書特征。接著,構建情感詞典,對評論進行觀點句識別,研究優化SVM特征選擇,進行圖書評論粗粒度情感挖掘;"雙向判定法"和情感詞典進行評論細粒度情感挖掘,得到具體圖書特征的情感極性。最后,使用可視化技術展示圖書評論的挖掘結果,并計算用戶需求與圖書的匹配度,幫助消費者作出購買決策。本文的主要研究成果:第一,通過構建冗余詞表進行冗余詞的匹配替換,降低了提取頻繁項集的冗余度。第二,通過改進FP-Growth算法,將評論長度權重加入算法的支持度計算中,并對提取到的特征進行置信度排序,提高了算法的查全率和準確率。第三,通過優化SVM特征選擇,將評論星級作為向量特征加入模型構建過程,提高了情感分析準確度。第四,利用"雙向判定法"構建情感關系,實現了圖書評論的細粒度情感分析。
[Abstract]:With the rapid development of the Internet, the network information is becoming more and more complex, so it is urgent to use the data mining technology to extract and analyze the network text. In order to get useful information. Book reviews contain users' comments on the attributes of book products and the purchase process, How to efficiently extract valuable information from book reviews has become the focus of this paper. This paper studies the data mining techniques used in book feature extraction and emotional analysis, and obtains the results of book review mining, which can help consumers and manufacturers to make scientific decisions. Extract the book comment information from the website, construct the original comment data set, use participle and part of speech tagging technology to process the data set, construct the stop word table, filter the stop word, and then form the original corpus. The Apriori algorithm and TF-IDF algorithm are used to extract the book features from the comments for performance comparison. Based on this, the FP-Growth algorithm is improved and the book features are mined. Then, the emotion dictionary is constructed. Point sentence recognition of comment, optimization of SVM feature selection, coarse-grained emotion mining of book review, and fine-grained emotion mining of comment based on "bidirectional judgment" and emotion dictionary, Finally, the visual technology is used to show the mining results of book reviews, and to calculate the matching degree between users' needs and books to help consumers make purchase decisions. The main research results of this paper are as follows: first, By constructing redundant vocabulary to match and replace redundant words, the redundancy of extracting frequent itemsets is reduced. Secondly, by improving the FP-Growth algorithm, the weight of comment length is added to the calculation of support degree of the algorithm. Thirdly, by optimizing the SVM feature selection, the comment star is added to the model construction process, which improves the accuracy of emotion analysis. By using the bidirectional judgment method to construct the emotional relationship, the fine granularity emotional analysis of book review is realized.
【學位授予單位】:北方工業大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前10條
1 欒錦驥;;數據挖掘技術在圖書選題策劃中的應用研究[J];自動化技術與應用;2016年12期
2 何麗;郝文靜;;基于中文圖書評論的特征挖掘算法的研究[J];北方工業大學學報;2016年03期
3 徐開勇;龔雪容;成茂才;;基于改進Apriori算法的審計日志關聯規則挖掘[J];計算機應用;2016年07期
4 梁亞偉;;基于情感詞典的中文微博情感分析模型研究[J];現代計算機(專業版);2015年18期
5 王樂;閉應洲;;基于特征模板提取及SVM的觀點句識別[J];廣西師范學院學報(自然科學版);2014年03期
6 王永;張勤;楊曉潔;;中文網絡評論中產品特征提取方法研究[J];現代圖書情報技術;2013年12期
7 王剛;楊善林;;基于RS-SVM的網絡商品評論情感分析研究[J];計算機科學;2013年S2期
8 吳麗華;馮建平;曹均闊;;中文網絡評論的IT產品特征挖掘及情感傾向分析[J];計算機與數字工程;2012年11期
9 謝麗星;周明;孫茂松;;基于層次結構的多策略中文微博情感分析和特征抽取[J];中文信息學報;2012年01期
10 楊經;林世平;;基于SVM的文本詞句情感分析[J];計算機應用與軟件;2011年09期
相關會議論文 前2條
1 姚天f ;聶青陽;李建超;李林琳;婁德成;陳珂;付宇;;一個用于漢語汽車評論的意見挖掘系統[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
2 郝博一;夏云慶;鄭方;;OPINAX:一個有效的產品屬性挖掘系統[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
相關碩士學位論文 前6條
1 程斐斐;基于用戶上網日志的數據挖掘技術研究[D];貴州大學;2016年
2 陳東河;基于圖書市場分析的選題方案研究及應用[D];北方工業大學;2016年
3 許江峰;數據挖掘技術在P2P網絡金融中的應用研究[D];北京交通大學;2016年
4 高會娟;產品屬性挖掘及應用[D];北方工業大學;2015年
5 李杏杏;B2C網站商品評論挖掘技術的研究[D];北京交通大學;2014年
6 盧云玲;基于云服務模式的文本過濾關鍵技術研究與應用[D];電子科技大學;2014年
,本文編號:1676998
本文鏈接:http://www.malleg.cn/shoufeilunwen/xixikjs/1676998.html

