一個網頁分類系統的研究與實現
發布時間:2024-06-29 22:53
隨著Internet的迅速普及和流行,數十億的網站和網頁為用戶提供了巨大的訪問信息資源,其內容幾乎覆蓋了每一個可以想到的主題。對網頁按主題實現分類,建立相應的URL分類數據庫,生成分類信息資源,一方面可以用來濾除不良網頁凈化網絡環境,或者按照安全策略和用戶意愿實現web的訪問控制;另一方面可以為用戶提供分類信息目錄,實現網頁分級管理和上網信息推薦,為用戶提供更快捷和高效的查詢結果,從而達到提高信息獲取和信息處理質量的目的。因為網頁大都以文本描述為主體,所以目前主流的網頁分類技術大都是以web的文本分類為研究方向,通過設計合理的網頁表示方式和使用文本分類算法來實現網頁分類。 目前,國外的專業的安全設備提供商(McAfee,Blue Coat, Websense等)都有自己的在線實時查詢分類結果的web平臺。國內的安全設備提供商目前還沒有為自己的“綠網”業務的分類結果數據庫提供實時在線可查詢的web頁面平臺。而且為了在推廣“綠網”業務時,對“綠網”分類數據庫進行展示,讓用戶測試體驗公司的“綠網’產品,就有必要為用戶提供一個基于web平臺的網頁分類結果可查詢的系統。根據國內安全設備提供商的項...
【文章頁數】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題背景
1.2 課題任務
1.3 論文結構
1.4 本章小結
第二章 網頁分類系統關鍵技術的研究
2.1 HTML文檔和DOM樹簡介
2.2 網頁的預處理技術
2.3 網頁文本預處理方法
2.3.1 分詞算法概述
2.3.2 特征選擇
2.3.3 向量空間模型表示法
2.4 文本分類算法
2.5 本章小結
第三章 網頁分類系統的需求分析
3.1 實現目標
3.2 系統的功能需求分析
3.3 系統的性能需求分析
3.4 系統運行環境和開發環境
3.5 本章小結
第四章 主要功能模塊方案的設計
4.1 系統用戶交互模塊的實現方案的設計
4.2 數據收集與處理模塊實現方案的設計
4.3 文本預處理模塊實現方案的設計
4.4 分類模塊實現方案的設計
4.5 本章小結
第五章 分類系統總體實現與主要流程
5.1 系統整體流程設計
5.2 分類結果數據庫的建立
5.2.1 網頁數據收集與處理
5.2.2 為LIBSVM準備數據
5.2.3 分類的實現
5.3 系統的整體實現
5.4 本章小結
第六章 結束語
6.1 對本論文的總結
6.2 對下一步的展望
參考文獻
致謝
本文編號:3998015
【文章頁數】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題背景
1.2 課題任務
1.3 論文結構
1.4 本章小結
第二章 網頁分類系統關鍵技術的研究
2.1 HTML文檔和DOM樹簡介
2.2 網頁的預處理技術
2.3 網頁文本預處理方法
2.3.1 分詞算法概述
2.3.2 特征選擇
2.3.3 向量空間模型表示法
2.4 文本分類算法
2.5 本章小結
第三章 網頁分類系統的需求分析
3.1 實現目標
3.2 系統的功能需求分析
3.3 系統的性能需求分析
3.4 系統運行環境和開發環境
3.5 本章小結
第四章 主要功能模塊方案的設計
4.1 系統用戶交互模塊的實現方案的設計
4.2 數據收集與處理模塊實現方案的設計
4.3 文本預處理模塊實現方案的設計
4.4 分類模塊實現方案的設計
4.5 本章小結
第五章 分類系統總體實現與主要流程
5.1 系統整體流程設計
5.2 分類結果數據庫的建立
5.2.1 網頁數據收集與處理
5.2.2 為LIBSVM準備數據
5.2.3 分類的實現
5.3 系統的整體實現
5.4 本章小結
第六章 結束語
6.1 對本論文的總結
6.2 對下一步的展望
參考文獻
致謝
本文編號:3998015
本文鏈接:http://www.malleg.cn/guanlilunwen/ydhl/3998015.html
上一篇:數據庫Legacy System向集成的Web Service遷移的技術研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著

