情报学报

2020年04期

本刊往期查看全部 >

基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究

吴俊;程垚;郝瀚;艾力亚尔·艾则孜;刘菲雪;苏亦坡

专业术语的识别与自动抽取对于提升专业信息检索精度,构建领域知识图谱发挥着重要基础性作用。为进一步提升中文专业术语识别的精确率和召回率,提出一种端到端的不依赖人工特征选择和领域知识,基于谷歌BERT预训练语言模型及中文预训练字嵌入向量,融合BiLSTM和CRF的中文专业术语抽取模型。以自建的1278条深度学习语料数据为实验对象,该模型对术语提取的F1值为92.96%,相对于传统的浅层机器学习模型(如左右熵与互信息算法、word2vec相似词算法等)和BiLSTM-CRF深度神经网络模型的性能有较为显著的提升。本文也给出了模型应用的具体流程,能够为中文专业术语库的构建提供实践指南。 (共10页)
PDF全文下载

安装知网阅读App
手机 · Pad同步看

开通季卡/年卡,优惠更多
立即开通