基于主動學習和半監督學習方法的醫療實體及其修飾識別研究
發布時間:2020-12-02 12:39
隨著醫療信息化進程的推進,中文電子病歷數據的數量迅速增加。對中文電子病歷中醫療命名實體及其修飾的識別研究,可以為醫療產業的人工智能研究奠定基礎。但是中文電子病歷領域缺乏傳統監督學習方法所需要大規模標注數據,而開展大規模標注工作的成本又相對較高,因此本課題基于主動學習方法與半監督學習方法,研究對中文電子病歷實體及修飾的識別。本文的研究主要圍繞三個方面:(1)基于傳統監督學習方法的中文電子病歷實體及其修飾識別。基于已標注的小規模數據,提取文本特征,訓練出基于條件隨機場算法的實體識別模型和基于支持向量機算法的實體修飾分類模型。(2)基于主動學習方法的中文電子病歷實體與實體修飾識別。在每次迭代訓練前,主動學習方法會選擇現有模型中未充分訓練的數據擴充訓練集,從而達到利用少量標注數據、訓練出較高性能模型的目的。傳統的主動學習方法只關注數據本身信息量(不確定性),而忽略了該數據是否為樣本中的孤立點,針對該問題,本文從電子病歷的數據特點出發,提出基于分布度對不確定性加權的主動學習選擇優化策略,從而降低樣本中孤立點被選出的概率。對比實驗證明,該策略相較于原有的基于不確定性的主動學習方法,效果有所提升。(...
【文章來源】:哈爾濱工業大學黑龍江省 211工程院校 985工程院校
【文章頁數】:52 頁
【學位級別】:碩士
【部分圖文】:
基于字/詞的中文電子病歷主動學習模型F值對照圖2-1中模型訓練結果顯示,以794份病歷作為訓練數據,以字為token
哈爾濱工業大學工學碩士學位論文 主動學習在醫療實體及其修飾識別中 992 份電子病歷標注語料已經具備相當規模,但是由于數因此對其他來源的數據識別效果不佳。對于特定來源的醫學習訓練實體及修飾識別模型,仍然需要相當數量的標注本的專業性較強,需要醫學專業人士參與標注,而進行專間成本較高,標注工作開展困難,進而導致實體識別監督到制約,進而妨礙了電子病歷中關系抽取、邏輯推理等高與隨機選擇樣本并利用傳統機器學習方法進行訓練的被動通過選取出信息量較大的訓練數據,在訓練集較小的情況訓練效果。
哈爾濱工業大學工學碩士學位論文始數據,訓練出初始模型0。隨后將新生成的模型應用到未標注數 U,利用模型對 U 的標注結果,計算出文檔的 rank 值,抽取出 rank 值的 3 份文檔加入標注集 L 中進行訓練,訓練出模型 。重復以上應型、選擇數據、訓練模型三個步驟,直至已標注文檔的數目大于等于于 th。對照實驗分別利用隨機選擇、基于熵、基于分布度對熵加權(權重μ =選擇策略選取訓練數據,實驗結果如圖 3-2 所示:
【參考文獻】:
期刊論文
[1]基于多特征融合的中文電子病歷命名實體識別[J]. 張祥偉,李智. 軟件導刊. 2017(02)
[2]中文電子病歷命名實體和實體關系語料庫構建[J]. 楊錦鋒,關毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學報. 2016(11)
[3]中文電子病歷命名實體標注語料庫構建[J]. 曲春燕,關毅,楊錦鋒,趙永杰,劉雅欣. 高技術通訊. 2015 (02)
[4]電子病歷命名實體識別和實體關系抽取研究綜述[J]. 楊錦鋒,于秋濱,關毅,蔣志鵬. 自動化學報. 2014(08)
[5]面向中文電子病歷的詞法語料標注研究[J]. 蔣志鵬,趙芳芳,關毅,楊錦鋒. 高技術通訊. 2014 (06)
[6]基于堆積策略的電子病歷實體識別[J]. 鄧本洋,呂新波,關毅. 智能計算機與應用. 2014(01)
[7]基于層疊條件隨機場的中文病歷命名實體識別[J]. 燕楊,文敦偉,王云吉,王珂. 吉林大學學報(工學版). 2014(06)
碩士論文
[1]中文電子病歷命名實體識別研究[D]. 曲春燕.哈爾濱工業大學 2015
[2]基于半監督學習的中文電子病歷分詞和名實體挖掘[D]. 張立邦.哈爾濱工業大學 2014
本文編號:2895323
【文章來源】:哈爾濱工業大學黑龍江省 211工程院校 985工程院校
【文章頁數】:52 頁
【學位級別】:碩士
【部分圖文】:
基于字/詞的中文電子病歷主動學習模型F值對照圖2-1中模型訓練結果顯示,以794份病歷作為訓練數據,以字為token
哈爾濱工業大學工學碩士學位論文 主動學習在醫療實體及其修飾識別中 992 份電子病歷標注語料已經具備相當規模,但是由于數因此對其他來源的數據識別效果不佳。對于特定來源的醫學習訓練實體及修飾識別模型,仍然需要相當數量的標注本的專業性較強,需要醫學專業人士參與標注,而進行專間成本較高,標注工作開展困難,進而導致實體識別監督到制約,進而妨礙了電子病歷中關系抽取、邏輯推理等高與隨機選擇樣本并利用傳統機器學習方法進行訓練的被動通過選取出信息量較大的訓練數據,在訓練集較小的情況訓練效果。
哈爾濱工業大學工學碩士學位論文始數據,訓練出初始模型0。隨后將新生成的模型應用到未標注數 U,利用模型對 U 的標注結果,計算出文檔的 rank 值,抽取出 rank 值的 3 份文檔加入標注集 L 中進行訓練,訓練出模型 。重復以上應型、選擇數據、訓練模型三個步驟,直至已標注文檔的數目大于等于于 th。對照實驗分別利用隨機選擇、基于熵、基于分布度對熵加權(權重μ =選擇策略選取訓練數據,實驗結果如圖 3-2 所示:
【參考文獻】:
期刊論文
[1]基于多特征融合的中文電子病歷命名實體識別[J]. 張祥偉,李智. 軟件導刊. 2017(02)
[2]中文電子病歷命名實體和實體關系語料庫構建[J]. 楊錦鋒,關毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學報. 2016(11)
[3]中文電子病歷命名實體標注語料庫構建[J]. 曲春燕,關毅,楊錦鋒,趙永杰,劉雅欣. 高技術通訊. 2015 (02)
[4]電子病歷命名實體識別和實體關系抽取研究綜述[J]. 楊錦鋒,于秋濱,關毅,蔣志鵬. 自動化學報. 2014(08)
[5]面向中文電子病歷的詞法語料標注研究[J]. 蔣志鵬,趙芳芳,關毅,楊錦鋒. 高技術通訊. 2014 (06)
[6]基于堆積策略的電子病歷實體識別[J]. 鄧本洋,呂新波,關毅. 智能計算機與應用. 2014(01)
[7]基于層疊條件隨機場的中文病歷命名實體識別[J]. 燕楊,文敦偉,王云吉,王珂. 吉林大學學報(工學版). 2014(06)
碩士論文
[1]中文電子病歷命名實體識別研究[D]. 曲春燕.哈爾濱工業大學 2015
[2]基于半監督學習的中文電子病歷分詞和名實體挖掘[D]. 張立邦.哈爾濱工業大學 2014
本文編號:2895323
本文鏈接:http://www.malleg.cn/yixuelunwen/yiyuanguanlilunwen/2895323.html

