機(jī)器學(xué)習(xí)分類算法在中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)數(shù)據(jù)庫匹配上的應(yīng)用
發(fā)布時(shí)間:2025-07-03 03:45
近些年來伴隨著中國經(jīng)濟(jì)高速發(fā)展,中國的數(shù)字化建設(shè)也在穩(wěn)步提升。得益于與中國的人口紅利和國家政策對(duì)創(chuàng)業(yè)的大力扶持,從而產(chǎn)生了各個(gè)方面的微觀數(shù)據(jù)集。其中有些數(shù)據(jù)集可以作為其他多個(gè)數(shù)據(jù)集的基礎(chǔ),從而將這多個(gè)孤立的數(shù)據(jù)集結(jié)合起來,形成能體現(xiàn)更多信息的新數(shù)據(jù)集,這樣的數(shù)據(jù)集起到了橋梁作用,尤為重要。但是目前各個(gè)數(shù)據(jù)集間的關(guān)聯(lián),除了少部分建立了統(tǒng)一的編碼,大部分還是以文本匹配為主。然而,由于我國的信息化建設(shè)發(fā)展起步晚、早期人員的信息化水平不足、各個(gè)數(shù)據(jù)集的產(chǎn)生相對(duì)獨(dú)立等原因,導(dǎo)致了數(shù)據(jù)結(jié)構(gòu)的不完整、錄入不規(guī)范、記錄方式不統(tǒng)一等一系列問題。這對(duì)上文所說的聯(lián)合多個(gè)數(shù)據(jù)集來產(chǎn)生新數(shù)據(jù)集,從而進(jìn)行新視角的研究工作十分不利。所以對(duì)兩個(gè)數(shù)據(jù)集關(guān)聯(lián)字段的解析匹配極其重要,目前解決這類問題的主要方法是對(duì)文本進(jìn)行標(biāo)準(zhǔn)化處理后,再進(jìn)行相似度匹配。但此方法存在一個(gè)明顯的弊端,就是對(duì)數(shù)據(jù)缺失的情況是無能為力的,因此對(duì)于數(shù)據(jù)庫間的匹配技術(shù)有待于我們進(jìn)行進(jìn)一步的研究和完善。鑒于此,本文的目的是在當(dāng)前文本匹配方法的基礎(chǔ)上,基于中國海關(guān)數(shù)據(jù)庫和中國工業(yè)企業(yè)數(shù)據(jù)庫,引入機(jī)器學(xué)習(xí)的概念,利用機(jī)器學(xué)習(xí)的分類算法去彌補(bǔ)基于文本的匹配方法的...
【文章頁數(shù)】:52 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外機(jī)器學(xué)習(xí)研究現(xiàn)狀
1.3 研究內(nèi)容與結(jié)構(gòu)安排
2 基于機(jī)器學(xué)習(xí)的微觀數(shù)據(jù)匹配方法的研究現(xiàn)狀及發(fā)展
2.1 基于文本的常用數(shù)據(jù)匹配方法
2.2 機(jī)器學(xué)習(xí)與微觀數(shù)據(jù)匹配
3 中國工業(yè)企業(yè)數(shù)據(jù)庫與海關(guān)數(shù)據(jù)庫分析
3.1 中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)數(shù)據(jù)庫概況
3.2 中國工業(yè)企業(yè)數(shù)據(jù)庫和中國海關(guān)數(shù)據(jù)庫企業(yè)名稱的匹配問題
3.3 中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)數(shù)據(jù)庫分析結(jié)果
3.4 小結(jié)
4 基于機(jī)器學(xué)習(xí)的微觀數(shù)據(jù)匹配方法的應(yīng)用研究
4.1 數(shù)據(jù)選取
4.2 數(shù)據(jù)預(yù)處理
4.3 選取匹配特征
4.4 基于K鄰近算法的分類匹配
4.5 基于決策樹算法的分類匹配
4.6 基于樸素貝葉斯算法的分類匹配
4.7 實(shí)驗(yàn)結(jié)果與分析
4.8 小結(jié)
5 結(jié)論與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
6.1 開發(fā)環(huán)境
6.2 萊文斯坦編輯距離算法
6.3 數(shù)據(jù)標(biāo)準(zhǔn)化處理
6.4 獨(dú)熱編碼
6.5 PCA主成分分析代碼
6.6 K鄰近算法
6.7 決策樹
6.8 樸素貝葉斯
致謝
本文編號(hào):4055717
【文章頁數(shù)】:52 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外機(jī)器學(xué)習(xí)研究現(xiàn)狀
1.3 研究內(nèi)容與結(jié)構(gòu)安排
2 基于機(jī)器學(xué)習(xí)的微觀數(shù)據(jù)匹配方法的研究現(xiàn)狀及發(fā)展
2.1 基于文本的常用數(shù)據(jù)匹配方法
2.2 機(jī)器學(xué)習(xí)與微觀數(shù)據(jù)匹配
3 中國工業(yè)企業(yè)數(shù)據(jù)庫與海關(guān)數(shù)據(jù)庫分析
3.1 中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)數(shù)據(jù)庫概況
3.2 中國工業(yè)企業(yè)數(shù)據(jù)庫和中國海關(guān)數(shù)據(jù)庫企業(yè)名稱的匹配問題
3.3 中國工業(yè)企業(yè)數(shù)據(jù)庫和海關(guān)數(shù)據(jù)庫分析結(jié)果
3.4 小結(jié)
4 基于機(jī)器學(xué)習(xí)的微觀數(shù)據(jù)匹配方法的應(yīng)用研究
4.1 數(shù)據(jù)選取
4.2 數(shù)據(jù)預(yù)處理
4.3 選取匹配特征
4.4 基于K鄰近算法的分類匹配
4.5 基于決策樹算法的分類匹配
4.6 基于樸素貝葉斯算法的分類匹配
4.7 實(shí)驗(yàn)結(jié)果與分析
4.8 小結(jié)
5 結(jié)論與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
6.1 開發(fā)環(huán)境
6.2 萊文斯坦編輯距離算法
6.3 數(shù)據(jù)標(biāo)準(zhǔn)化處理
6.4 獨(dú)熱編碼
6.5 PCA主成分分析代碼
6.6 K鄰近算法
6.7 決策樹
6.8 樸素貝葉斯
致謝
本文編號(hào):4055717
本文鏈接:http://www.malleg.cn/qiyeguanlilunwen/4055717.html
最近更新
教材專著

