%A 李培林, 袁贞明, 涂文博, 俞凯, 芦东昕
%T 基于深度学习的电子病历中医疗知识抽取与分析
%0 Journal Article
%D 2019
%J Chinese Medical Sciences Journal
%R 10.24920/003589
%P 133-139
%V 34
%N 2
%U {http://cmsj.cams.cn/CN/abstract/article_2849.shtml}
%8 2019-06-30
%X <b>目的</b> 电子病历（Electronic Medical Record, EMR）是记录患者医疗活动的重要数字载体。医疗知识抽取（Medical knowledge extraction,MKE）在EMR方面的自然语言处理（Natural language processing,NLP）研究中起着关键作用。命名实体识别（Named Entity Recognition, NER）和医疗关系抽取（Medical Relation Extraction, MRE）是MKE的两个基本任务。本研究旨在通过探索新方法来提高这两项任务的识别准确性。<b>方法</b> 本研究讨论并构建了针对NER和MRE任务的双向长短期记忆神经网络组合条件随机场（Bidirectional long short-term memory combined conditional random field, BiLSTM-CRF）模型的两个应用场景。在两个任务的数据预处理中,使用GloVe词嵌入模型来对单词进行矢量化。在NER任务中,我们使用序列标注策略通过CRF层的联合概率分布对每个单词标签进行分类。而在MRE任务中,我们将单个实体的分类问题转换为序列分类问题,并且通过CRF层链接实体之间的特征组合来预测医疗实体的关系类别。<b>结果</b> 通过在I2B2 2010公共数据集上的验证,本研究中构建的BiLSTM-CRF模型较两个任务中的基线方法均取得了更好的结果,其中在NER任务中的F1值约0.88,在MRE任务中的F1值约0.78。此外,本模型的收敛速度更快,也避免了过度拟合等问题。<b>结论</b> 本研究证明了深度学习在医疗知识抽取领域的良好表现,并且验证了BiLSTM-CRF模型在不同应用场景下的可行性,为EMR领域的后续工作奠定了基础。