基于深度学习的古汉语命名实体识别研究(2) - 古汉语研究杂志社投稿_期刊论文发表|版面费|电话|编辑部- 古汉语研究

来稿应自觉遵守国家有关著作权法律法规，不得侵犯他人版权或其他权利，如果出现问题作者文责自负，而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件，作者必须保证本刊的独立发表权。一、投稿方式： 1、请从我刊官网直接投稿。 2、请从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。二、稿件著作权： 1、投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我刊所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我刊所投之作品不得同时向第三方投送，即不允许一稿多投。 5、投稿人授予我刊享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、第5条所述之网络是指通过我刊官网。 7、投稿人委托我刊声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于深度学习的古汉语命名实体识别研究(2)

作者:

关键词:

摘要：

3.实验及结果分析

3.1.实验数据

由于目前古汉语命名实体识别缺乏公开的标注数据集，因此本文人工构建了一个古汉语命名实体识别数据集。该数据集包括训练集、开发集、测试集，训练集共包含43.995 K个字，开发集包含5.843 K个字，测试集包含5.849 K个字。各类实体统计如表2所示。

Table of entity number表2.实体个数统计数据集语料数量人名数量地名数量职官数量训练集 43,995 1,255 2,671 101 开发集 5,843 125 285 37 测试集 5,849 144 315 26

3.2.标注策略与评价指标

命名实体识别的标注策略有BIO模式，BIOE模式，BIOES模式。本文采用的是BIO标注策略，其中B表示实体开始，I表示实体非开始部分。O表示不是实体的部分。在预测实体边界的时候需要同时预测实体类型，所以待预测的标签一共7种，分别是O，B-PER，I-PER，B-LOC，I-LOC，B-POS，I-POS。在测试过程中，只有当一个实体的边界和实体的类型完全正确时，才判断该实体预测正确。

命名实体识别的评价指标有精确率(P)、召回率(R)和F1值。具体定义如公式(7)：Tp为模型识别正确的实体个数，Fp为模型识别到的不相关实体个数，Fn为相关实体但是模型没有检测到的个数。

3.3.实验环境与超参设置

本研究中的实验环境为，深度学习框架为神经网络超参的取值会影响神经网络的性能。本文的神经网络参数设定如表3所示。

Table 3.Neural network hyperparameter values表3.神经网络超参取值参数取值参数取值音节向量维度 50 词向量维度 50 Lattice向量维度 50 Lattice丢弃率 0.5 丢弃率(Dropout) 0.5 学习率(lr) 0.05 LSTM层 1 主LSTM隐藏层维度 200

3.4.实验设计与结果

为了验证本研究中所使用的模型对古汉语命名实体识别数据集中的人名、地名、官职三大类实体的识别性能，本文分别采用三种神经网络模型设计了三个实验。其中主要实验模型为Lattice LSTM，对比实验模型为BiLSTM-CRF和BiLSTM-CNN-CRF。实验的评价指标有准确率(P)、召回率(R)和综合指标F1值。各模型实验结果见表4。

Table results of each model (%)表4.各模型的实验结果(%)模型准确率召回率 F1值 BiLSTM-CRF 88.30 87.70 87.92 BiLSTM-CNN-CRF 89.50 89.10 89.25 Lattice LSTM 92.42 91.90 92.16

实验结果表明Lattice LSTM模型能有效提升实体识别的性能。各模型随着训练轮数F1值变化如图7所示。

3.5 实体识别实例

以本研究构建的数据集中的一个句子为例展示Lattice LSTM模型的实体识别效果。具体实例如表5所示。

Figure 7.F1 values图7.F1值变化图

Table of ancient Chinese entity recognition表5.古汉语实体识别实例注：斜体表示识别不正确的实体，粗体表示识别正确的实体。句子故以舜汤武不遭时不得帝王正确的分词故以舜汤武不遭时不得帝王自动分词故以舜汤武不遭时不得帝王 Lattice分词故以舜汤汤武舜汤武不遭遭时不遭时不得帝王 BiLSTM-CRF 故以舜汤武PER不遭时不得帝王POS BiLSTM-CNN-CRF 故以舜汤武PER不遭时不得帝王POS Lattice LSTM 故以舜PER汤PER武PER，不遭时不得帝王POS

4.结束语

针对古汉语命名实体识别所面临的问题，本文采用了一种同时关注字信息和词信息进行实体识别的深度学习模型。该模型将传统的LSTM单元改进为网格LSTM，在字符模型的基础之上显性利用词和词序信息，从而避免了分词错误传递的问题；利用具有长短期记忆功能的LSTM模型作为隐藏层，可以解决古汉语文本中部分实体结构较长的问题；最后使用CRF作为标签推理层以解决文本序列标签依赖问题。在已构建的古汉语命名实体识别数据集上进行实验，实验结果证明了Lattice LSTM模型的有效性。

今后，本文的研究工作应该在数据和词典规模方面加大力度，从而进一步提高模型的整体性能。另外，还应该针对古汉语文本进行广泛深入的语言信息处理方面的研究，以便获得更多有价值的知识。

[1] Hammerton, J.(2003) Named Entity Recognition with Long Short-Term : Conference on Natural Language Learning, Association for Computational Linguistics, Stroudsburg, 172-175.

[2] 张海楠, 伍大勇, 刘悦, 等.基于深度神经网络的中文命名实体识别[J].中文信息学报, 2017, 31(4): 28-35.

[3] Ma, X.and Hovy, E.(2016) End-to-End Sequence Labeling via Bi-Directional of the 54th Annual Meeting of the Association for Computational Linguistics, Volume 1: Long Papers, Berlin, August 2016, 1064-1074.

[4] Chiu, Nichols, E.(2016) Named Entity Recognition with Bidirectional of the Association for Computational Linguistics, 4, 357-370.

文章来源：《古汉语研究》网址: http://www.ghyyjzzs.cn/qikandaodu/2021/0128/328.html