%A 李培林, 袁贞明, 涂文博, 俞凯, 芦东昕 %T 基于深度学习的电子病历中医疗知识抽取与分析 %0 Journal Article %D 2019 %J Chinese Medical Sciences Journal %R 10.24920/003589 %P 133-139 %V 34 %N 2 %U {http://cmsj.cams.cn/CN/abstract/article_2849.shtml} %8 2019-06-30 %X 目的 电子病历(Electronic Medical Record, EMR)是记录患者医疗活动的重要数字载体。医疗知识抽取(Medical knowledge extraction,MKE)在EMR方面的自然语言处理(Natural language processing,NLP)研究中起着关键作用。命名实体识别(Named Entity Recognition, NER)和医疗关系抽取(Medical Relation Extraction, MRE)是MKE的两个基本任务。本研究旨在通过探索新方法来提高这两项任务的识别准确性。方法 本研究讨论并构建了针对NER和MRE任务的双向长短期记忆神经网络组合条件随机场(Bidirectional long short-term memory combined conditional random field, BiLSTM-CRF)模型的两个应用场景。在两个任务的数据预处理中,使用GloVe词嵌入模型来对单词进行矢量化。在NER任务中,我们使用序列标注策略通过CRF层的联合概率分布对每个单词标签进行分类。而在MRE任务中,我们将单个实体的分类问题转换为序列分类问题,并且通过CRF层链接实体之间的特征组合来预测医疗实体的关系类别。结果 通过在I2B2 2010公共数据集上的验证,本研究中构建的BiLSTM-CRF模型较两个任务中的基线方法均取得了更好的结果,其中在NER任务中的F1值约0.88,在MRE任务中的F1值约0.78。此外,本模型的收敛速度更快,也避免了过度拟合等问题。结论 本研究证明了深度学习在医疗知识抽取领域的良好表现,并且验证了BiLSTM-CRF模型在不同应用场景下的可行性,为EMR领域的后续工作奠定了基础。