IDC機房有害信息發(fā)現(xiàn)系統(tǒng)底層程序研制
發(fā)布時間:2024-07-08 22:01
隨著我國因特網(wǎng)的發(fā)展,上網(wǎng)人數(shù)越來越多,網(wǎng)絡上的信息越來越龐雜,有許多網(wǎng)站被有意或無意的傳上了很多有害的文字信息,嚴重影響了社會穩(wěn)定或毒害了青少年的健康。為了凈化網(wǎng)絡環(huán)境,政府對網(wǎng)站的存放地--IDC機房,提出了對有害信息嚴格監(jiān)測、及時發(fā)現(xiàn)和處理有害網(wǎng)站的要求。IDC機房服務器往往數(shù)量很多,如何能有效監(jiān)測其中網(wǎng)頁內容,及時發(fā)現(xiàn)并消除網(wǎng)頁中的有害信息,就成為一個擺在系統(tǒng)管理者眼前的難題。本研究著眼于在IDC的機房內構架一個有害信息發(fā)現(xiàn)系統(tǒng),在不影響網(wǎng)絡負載和引起非法網(wǎng)站警覺的情況下,通過獲取IDC機房交換機鏡像數(shù)據(jù),偵聽抓取并分析TCP數(shù)據(jù)中的HTML頁面信息內容,搜索其中的非法關鍵字,將含有非法關鍵字的頁面記錄到數(shù)據(jù)庫,作為可疑頁面待人工篩查確認,為及時發(fā)現(xiàn)有害信息提供技術方便。該系統(tǒng)底層程序將定時從數(shù)據(jù)庫中加載更新非法(有害)關鍵字列表,以使新錄入的非法關鍵字生效。對于可疑的HTML頁面,記錄URL、主機地址、訪問時間、所含關鍵字等信息到數(shù)據(jù)庫,以便人工篩查。對于圖片URL,由于暫時無法做到快速自動分析,只做記錄URL主機地址、訪問時間等信息到數(shù)據(jù)庫,待人工檢查圖片。
【文章頁數(shù)】:45 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4003941
【文章頁數(shù)】:45 頁
【學位級別】:碩士
【部分圖文】:
圖2.1TCP結構圖
圖2.1TCP結構圖對于HTTP數(shù)據(jù),TCP包中的數(shù)據(jù)部分就是HTTP的數(shù)據(jù)內容。通過抓取TCP包提取數(shù)據(jù)負載,分析數(shù)據(jù)內容,可以得到HTML頁面信息。根據(jù)HTTP頭可判斷是是HTML頁面。結合HTTP頭和HTML頁面字符設定信息,可以判斷出頁面的編碼將頁面字符集轉換為統(tǒng)一的UT....
圖3.1網(wǎng)絡架構
圖3.1網(wǎng)絡架構圖中,有害信息發(fā)現(xiàn)服務器接在匯聚交換機的鏡像端口上,接收受鏡像數(shù)據(jù),數(shù)據(jù)進行分析,發(fā)現(xiàn)含有非法關鍵字的頁面后,把U甩等信息記錄到MySQL數(shù)據(jù)3.2.2模塊劃分軟件模塊劃分如下表3.2:表3.2有害信息底層程序模塊劃分表odtlleeeTaskSSSDeseriP....
圖3.2有害信息發(fā)現(xiàn)系統(tǒng)底層程序主流程圖
?矣瀉?浼??喬骍RL、域名、關鍵問、快照等信息圖3.2有害信息發(fā)現(xiàn)系統(tǒng)底層程序主流程圖3.2.4數(shù)據(jù)庫設計數(shù)據(jù)使用LINUX上常用的MYSQL數(shù)據(jù)庫。數(shù)據(jù)庫名稱:yhxx數(shù)據(jù)庫表:非法關鍵字表(keywords)、非法文本URL信息表(1wfile)、圖片uRL信息表(1帥i....
本文編號:4003941
本文鏈接:http://www.malleg.cn/kejilunwen/jisuanjikexuelunwen/4003941.html
最近更新
教材專著

